Anthropic의 채용 코딩 과제 오픈소스 공개 — Claude Opus 4.5가 인간을 넘어선 그 문제
Anthropic's original take home assignment open sourced
TL;DR Highlight
Claude Opus 4.5가 2시간 제한에서 최고 인간 성능과 동등한 수준에 도달해 Anthropic이 해당 채용 과제를 오픈소스로 공개했다.
Who Should Read
저수준 성능 최적화(SIMD, 캐시 최적화 등)에 관심 있는 시스템 개발자나, AI 모델의 코딩 능력 벤치마크에 관심 있는 ML 엔지니어.
Core Mechanics
- 이 과제는 시뮬레이션된 머신에서 클럭 사이클 수를 줄이는 저수준 성능 최적화 문제다. 처음 주어지는 스타터 코드 기준으로 사이클을 얼마나 줄이느냐로 점수를 매긴다.
- 원래 4시간짜리 과제였는데 Claude Opus 4가 대부분의 인간 지원자를 앞서면서 2시간짜리로 바뀌었고, Claude Opus 4.5가 그 2시간 버전마저 인간 최고 수준에 도달하면서 결국 채용 과제로 더 이상 못 쓰게 됐다.
- 성능 벤치마크 비교: 스타터 코드는 18,532 사이클. Claude Opus 4.5가 캐주얼 Claude Code 세션에서 1,790 사이클(2시간 내 인간 최고 성능과 동급), 11.5시간 테스트타임 컴퓨팅 하네스로는 1,487 사이클, 개선된 하네스로는 1,363 사이클을 기록했다.
- 1,487 사이클 이하를 달성하면 — 즉 Claude Opus 4.5의 출시 당시 최고 성능을 넘으면 — performance-recruiting@anthropic.com으로 코드와 이력서를 보내면 채용 검토를 받을 수 있다.
- 공개된 리포지토리에는 Python으로 작성된 스타터 코드(`perf_takehome.py`, `problem.py`)와 Chrome 트레이싱 기반 프로파일링 도구(`watch_trace.py`, `watch_trace.html`)가 포함되어 있다.
- 이 과제의 성격은 데모씬(demoscene)과 코드 골프(code golf)에 가깝다. SIMD, PTX(GPU 저수준 프로그래밍), 파이프라이닝, 벡터화 해시 같은 하드코어 최적화 기법들이 동원된다.
- Anthropic은 이 문제를 공개하면서 '인간이 무제한 시간을 써서 Claude Opus 4.5를 이겨보라'는 오픈 챌린지로 전환했다.
Evidence
- 커뮤니티에서 여러 AI 에이전트를 원샷(one-shot)으로 돌린 비교 실험이 공유됐다. gpt-5-2가 2,124 사이클로 16분 만에 가장 좋은 성능을 냈고, claude-opus-4-5가 4,973 사이클(1시간 2분), gpt-5-codex가 5,486 사이클(7분)이었다. Anthropic이 제시한 목표치(1,363~1,487)에 근접한 모델은 없었지만, gpt-5-2가 'Claude Opus 4가 수십 시간 테스트타임 컴퓨팅을 돌린 결과(2,164)'보다 짧은 시간에 더 좋은 성과를 낸 것이 주목됐다.
- 한 커뮤니티 멤버는 에이전트 없이 수동으로 1,112 사이클을 달성했다고 공유했고, 또 다른 멤버는 Opus와 함께 1시간 만에 1,137 사이클에 도달하면서 파이프라인 벡터화 해시, 투기적 실행, 스테이지별 정적 코드 등을 적용 중이라고 설명했다. '비트 16과 0만 보면 딜레이 없이 해시 5단계가 홀수인지 병렬로 계산 가능하다는 걸 방금 깨달았다'며 900 사이클 이하도 가능할 것 같다고 했다.
- 한 지원자는 '런타임에 계산해야 한다는 숨겨진 제약 때문에 O(1) 사전 계산(precomputation)을 금지하는 안티패턴을 강요한다'며 이메일로 문의했더니 답변 없이 README만 몰래 수정했다고 비판했다. '이건 과제의 문제가 아니라 엔지니어링 문화의 레드플래그'라는 강한 반응이었다.
- 채용 방식 자체에 대한 긍정적인 반응도 많았다. '45분 안에 리트코드 미디엄/하드 2문제 푸는 것보다 훨씬 낫다', '인터뷰 하면서 이렇게 재밌었던 적이 없었다'는 의견이 나왔다. 반면 '2시간 제한이라지만 제대로 풀려면 훨씬 더 오래 걸린다, 이건 AI가 잘하는 영역이지 인간의 진짜 실력을 측정하는 게 아니다'는 비판도 있었다.
- Gemini CLI로 리포를 클론해서 '이 챌린지 어떻게 풀어?'라고 프롬프트만 했더니 20분째 멈추지 않고 돌아간다는 재미있는 경험담도 공유됐다. 'Anthropic이 이걸 오픈소스로 공개한 건 다른 AI 회사들에 대한 DDoS 공격이다'라는 농담으로 포장됐다.
How to Apply
- 저수준 최적화 실력을 키우고 싶다면 리포를 클론해서 직접 도전해볼 수 있다. SIMD 인트린직, 캐시 지역성, 파이프라이닝 같은 개념을 공부하면서 실제 코드에 적용하는 연습 무대로 쓰기 좋다.
- AI 에이전트의 코딩 능력을 비교 평가하고 싶다면 이 과제를 벤치마크로 활용할 수 있다. 위 커뮤니티 실험처럼 여러 모델을 동일 조건으로 돌려서 사이클 수와 소요 시간을 비교하면 객관적인 코드 최적화 성능 지표를 얻을 수 있다.
- 1,487 사이클 이하를 달성했다면 performance-recruiting@anthropic.com으로 코드와 이력서를 보내면 Anthropic 채용 프로세스 진입 기회가 생긴다. 무제한 시간이 주어지므로 며칠~몇 주를 투자한 결과를 제출해도 된다.
- Claude Code나 다른 AI 에이전트를 도구로 활용해서 문제를 풀어보는 것도 의미 있다. 어떤 프롬프팅 전략과 반복 사이클이 더 좋은 최적화 결과를 내는지 직접 실험할 수 있는 구체적인 과제가 된다.
Terminology
관련 논문
2,000명이 내 AI 어시스턴트를 해킹하려 한 뒤 벌어진 일
실제로 6,000개 이상의 이메일로 AI 에이전트에 prompt injection 공격을 시도한 공개 실험 결과로, Claude Opus 4.6이 비밀 파일 유출을 한 번도 허용하지 않았지만 실험 설계의 현실성에 대한 논란이 뜨거웠다.
언제 LLM을 조합하면 효과가 있나? 67개 Frontier 모델에서 Routing, Voting, Mixture-of-Agents의 Co-Failure Ceiling 분석
여러 LLM을 조합해도 '모든 모델이 동시에 틀리는 비율(β)'이 성능 상한선이며, 업계가 쓰는 pairwise 상관계수(ρ)는 이 상한선을 예측하지 못한다.
Function Calling을 넘어서: Tool-Environment 신뢰성 문제 하에서의 Tool-Using Agent 벤치마크
실제 환경처럼 API가 망가지거나 결과가 이상할 때 LLM 에이전트가 얼마나 잘 버티는지 측정하는 벤치마크 ToolBench-X 공개.
LG 스마트 TV 앱의 절반 가까이에 Residential Proxy SDK가 심어져 있다
6,038개의 LG·Samsung 스마트 TV 앱을 스캔했더니 2,058개에서 사용자의 IP를 몰래 팔아 트래픽을 중계하는 Residential Proxy SDK가 발견됐다. TV는 컴퓨터처럼 감시받지 않아서 프록시 호스트로 거의 이상적인 환경이다.
Prompt Injection의 본질은 Role Confusion이다
LLM이 시스템 프롬프트, 사용자 입력, 툴 출력을 구분하지 못하는 구조적 결함이 prompt injection의 근본 원인이라는 ICML 2026 논문으로, 현재 LLM 보안 아키텍처의 한계를 명확히 분석한다.
GPT-5.5의 환각(Hallucination) 비율이 MIT 라이선스 GLM-5.2보다 3배 높다
모델 크기가 커질수록 성능이 좋아진다는 통념에 반해, 오픈소스 753B 모델 GLM-5.2가 추정 1~2T 규모의 GPT-5.5보다 환각 비율이 3배 낮다는 벤치마크 결과가 나왔다. 단순히 파라미터 수와 벤치마크 점수만으로 모델을 선택하면 실제 업무에서 낭패를 볼 수 있다는 경고다.