Knuth의 'Claude Cycles' 문제, 인간 + AI + 증명 보조 도구 협업으로 추가 진전
Further human + AI + proof assistant work on Knuth's "Claude Cycles" problem
TL;DR Highlight
AI(LLM)와 Lean 형식 증명 보조 도구, 인간 전문가의 협력이 Donald Knuth의 'Claude Cycles' 문제를 해결하며 AI의 수학 연구 실질적 기여 가능성을 입증했다.
Who Should Read
AI가 수학적 추론이나 형식 검증(formal verification)에 어느 수준까지 활용될 수 있는지 궁금한 개발자나 연구자. 특히 Lean, Coq 같은 증명 보조 도구나 수리 AI에 관심 있는 사람.
Core Mechanics
- 이 글은 컴퓨터 과학의 전설 Donald Knuth가 제시한 'Claude Cycles'라는 수학 문제를 풀기 위해, 인간 수학자 + LLM(대형 언어 모델) + 형식 증명 보조 도구(proof assistant, 예: Lean)를 함께 사용하는 협업 방식을 다루고 있다.
- 원문 트윗이 JavaScript 비활성화로 직접 접근이 안 되지만, 커뮤니티 댓글과 맥락을 보면 이전 작업에서 한 단계 더 나아간 진전(further work)을 보고한 내용으로, 이런 식의 인간-AI 협업이 순수 수학 연구에서 실제 성과를 내고 있음을 보여준다.
- LLM은 '깊이는 얕지만 넓은 탐색'에 강하다는 평가가 있다. 즉, 전문가가 방향을 잡아주면 LLM이 넓은 가능성 공간을 빠르게 탐색해 후보 아이디어를 제시하는 역할을 잘 수행한다.
- 형식 증명 보조 도구(proof assistant)는 Lean, Coq 같은 소프트웨어로, 수학적 증명을 기계가 검증 가능한 형태로 작성하게 해준다. AI가 제안한 증명 아이디어를 이 도구로 검증하면 오류를 확실히 걸러낼 수 있다.
- 커뮤니티 일부에서는 향후에는 LLM보다 AlphaGo 스타일의 강화학습(RL)을 Lean 문법 트리에 적용하는 방식이 더 강력할 것이라는 예측도 나왔다. Lean 구문 트리 위에서 RL을 돌리면 훨씬 긴 시간 스케일에서 추론이 가능하기 때문이다.
- 전문 수학자들의 무기고는 대략 10가지 핵심 트릭으로 구성된다는 관찰이 있는데, 이 트릭들을 잠재 벡터(latent vector, AI 모델 내부의 추상적 표현)로 코드화할 수 있다면 AI가 수학 연구를 크게 가속할 수 있다는 의견도 있었다.
- 전반적으로 AI는 전문가가 가이드를 줄 때 '전문가를 위한 반복 작업'을 잘 처리하지만, 정말 어렵고 복잡한 문제에서는 여전히 맹점(blind spot)이 존재한다는 냉정한 평가도 공존한다.
Evidence
- 'AI가 Fields 메달(수학 최고 권위 상)을 받는 게 McDonald's 매니저 역할을 맡는 것보다 먼저일 것'이라는 재치 있는 댓글이 화제가 됐다. 수학은 뇌라는 망치로 나사를 조이는 것처럼 어색해 보이지만, LLM에게는 오히려 '넓고 얕은 탐색'이 강점이기 때문에 수학 연구와 궁합이 맞는다는 주장이다.
- 향후에는 LLM 대신 AlphaGo 스타일 강화학습을 Lean 문법 트리에 적용하는 방식이 대세가 될 것이라는 예측이 있었다. RL 기반 방식은 훨씬 긴 시간 스케일에서 탐색할 수 있어 복잡한 증명에 더 유리할 것이라는 논리다.
- 전문가 가이드가 있을 때 AI가 좋은 성과를 낸다는 점은 놀랍지 않다는 현실적인 의견도 있었다. AI는 전문가의 '게으른 작업(lazy work)'을 잘 처리하지만, 진짜 어려운 문제에서는 여전히 맹점이 있다는 지적이다.
- 이 스레드가 bot인지 사람인지 구분이 안 된다는 댓글도 있었다. AI가 수학 커뮤니티 토론에 깊이 관여하면서 '누가 진짜 사람인가'를 판별하기 어려워진 상황을 보여준다는 메타적 관찰이다.
- 'P≠NP 문제도 이런 식으로 도전하는 사람이 있을지 궁금하다'는 댓글이 있었고, '일반인에게는 이게 무슨 의미인가'라는 실용적인 질문도 제기됐다. 이는 이런 연구가 아직 전문가 커뮤니티 내부의 이야기로 머물고 있음을 반영한다.
How to Apply
- 수학적 증명이나 알고리즘 정확성 검증이 필요한 경우, LLM으로 증명 아이디어 초안을 생성한 뒤 Lean 또는 Coq 같은 증명 보조 도구로 검증하는 2단계 파이프라인을 구성하면 오류를 기계적으로 확인할 수 있다.
- LLM 단독으로 복잡한 수학 문제를 풀리려 하지 말고, 도메인 전문가(또는 전문적 프롬프트)가 방향을 제시하고 LLM이 후보 경로를 탐색하는 역할 분담 구조를 설계하면 훨씬 신뢰할 수 있는 결과를 얻을 수 있다.
- AlphaGo 스타일 RL + 형식 증명 도구 조합에 관심 있다면, DeepMind의 AlphaProof나 관련 논문을 레퍼런스로 삼아 Lean 환경에서 강화학습 에이전트를 실험해볼 수 있다. 이 분야는 현재 빠르게 발전 중이다.
Terminology
관련 논문
2,000명이 내 AI 어시스턴트를 해킹하려 한 뒤 벌어진 일
실제로 6,000개 이상의 이메일로 AI 에이전트에 prompt injection 공격을 시도한 공개 실험 결과로, Claude Opus 4.6이 비밀 파일 유출을 한 번도 허용하지 않았지만 실험 설계의 현실성에 대한 논란이 뜨거웠다.
언제 LLM을 조합하면 효과가 있나? 67개 Frontier 모델에서 Routing, Voting, Mixture-of-Agents의 Co-Failure Ceiling 분석
여러 LLM을 조합해도 '모든 모델이 동시에 틀리는 비율(β)'이 성능 상한선이며, 업계가 쓰는 pairwise 상관계수(ρ)는 이 상한선을 예측하지 못한다.
Function Calling을 넘어서: Tool-Environment 신뢰성 문제 하에서의 Tool-Using Agent 벤치마크
실제 환경처럼 API가 망가지거나 결과가 이상할 때 LLM 에이전트가 얼마나 잘 버티는지 측정하는 벤치마크 ToolBench-X 공개.
LG 스마트 TV 앱의 절반 가까이에 Residential Proxy SDK가 심어져 있다
6,038개의 LG·Samsung 스마트 TV 앱을 스캔했더니 2,058개에서 사용자의 IP를 몰래 팔아 트래픽을 중계하는 Residential Proxy SDK가 발견됐다. TV는 컴퓨터처럼 감시받지 않아서 프록시 호스트로 거의 이상적인 환경이다.
Prompt Injection의 본질은 Role Confusion이다
LLM이 시스템 프롬프트, 사용자 입력, 툴 출력을 구분하지 못하는 구조적 결함이 prompt injection의 근본 원인이라는 ICML 2026 논문으로, 현재 LLM 보안 아키텍처의 한계를 명확히 분석한다.
GPT-5.5의 환각(Hallucination) 비율이 MIT 라이선스 GLM-5.2보다 3배 높다
모델 크기가 커질수록 성능이 좋아진다는 통념에 반해, 오픈소스 753B 모델 GLM-5.2가 추정 1~2T 규모의 GPT-5.5보다 환각 비율이 3배 낮다는 벤치마크 결과가 나왔다. 단순히 파라미터 수와 벤치마크 점수만으로 모델을 선택하면 실제 업무에서 낭패를 볼 수 있다는 경고다.