Anthropic의 채용 코딩 과제 오픈소스 공개 — Claude Opus 4.5가 인간을 넘어선 그 문제
Anthropic's original take home assignment open sourced
TL;DR Highlight
Anthropic이 내부 채용 과제로 쓰던 성능 최적화 문제를 오픈소스로 공개했다. Claude Opus 4.5가 2시간 제한에서 최고 인간 성능과 동등한 수준에 도달해 더 이상 채용 과제로 쓸 수 없게 됐기 때문이다.
Who Should Read
저수준 성능 최적화(SIMD, 캐시 최적화 등)에 관심 있는 시스템 개발자나, AI 모델의 코딩 능력 벤치마크에 관심 있는 ML 엔지니어.
Core Mechanics
- 이 과제는 시뮬레이션된 머신에서 클럭 사이클 수를 줄이는 저수준 성능 최적화 문제다. 처음 주어지는 스타터 코드 기준으로 사이클을 얼마나 줄이느냐로 점수를 매긴다.
- 원래 4시간짜리 과제였는데 Claude Opus 4가 대부분의 인간 지원자를 앞서면서 2시간짜리로 바뀌었고, Claude Opus 4.5가 그 2시간 버전마저 인간 최고 수준에 도달하면서 결국 채용 과제로 더 이상 못 쓰게 됐다.
- 성능 벤치마크 비교: 스타터 코드는 18,532 사이클. Claude Opus 4.5가 캐주얼 Claude Code 세션에서 1,790 사이클(2시간 내 인간 최고 성능과 동급), 11.5시간 테스트타임 컴퓨팅 하네스로는 1,487 사이클, 개선된 하네스로는 1,363 사이클을 기록했다.
- 1,487 사이클 이하를 달성하면 — 즉 Claude Opus 4.5의 출시 당시 최고 성능을 넘으면 — performance-recruiting@anthropic.com으로 코드와 이력서를 보내면 채용 검토를 받을 수 있다.
- 공개된 리포지토리에는 Python으로 작성된 스타터 코드(`perf_takehome.py`, `problem.py`)와 Chrome 트레이싱 기반 프로파일링 도구(`watch_trace.py`, `watch_trace.html`)가 포함되어 있다.
- 이 과제의 성격은 데모씬(demoscene)과 코드 골프(code golf)에 가깝다. SIMD, PTX(GPU 저수준 프로그래밍), 파이프라이닝, 벡터화 해시 같은 하드코어 최적화 기법들이 동원된다.
- Anthropic은 이 문제를 공개하면서 '인간이 무제한 시간을 써서 Claude Opus 4.5를 이겨보라'는 오픈 챌린지로 전환했다.
Evidence
- 커뮤니티에서 여러 AI 에이전트를 원샷(one-shot)으로 돌린 비교 실험이 공유됐다. gpt-5-2가 2,124 사이클로 16분 만에 가장 좋은 성능을 냈고, claude-opus-4-5가 4,973 사이클(1시간 2분), gpt-5-codex가 5,486 사이클(7분)이었다. Anthropic이 제시한 목표치(1,363~1,487)에 근접한 모델은 없었지만, gpt-5-2가 'Claude Opus 4가 수십 시간 테스트타임 컴퓨팅을 돌린 결과(2,164)'보다 짧은 시간에 더 좋은 성과를 낸 것이 주목됐다.
- 한 커뮤니티 멤버는 에이전트 없이 수동으로 1,112 사이클을 달성했다고 공유했고, 또 다른 멤버는 Opus와 함께 1시간 만에 1,137 사이클에 도달하면서 파이프라인 벡터화 해시, 투기적 실행, 스테이지별 정적 코드 등을 적용 중이라고 설명했다. '비트 16과 0만 보면 딜레이 없이 해시 5단계가 홀수인지 병렬로 계산 가능하다는 걸 방금 깨달았다'며 900 사이클 이하도 가능할 것 같다고 했다.
- 한 지원자는 '런타임에 계산해야 한다는 숨겨진 제약 때문에 O(1) 사전 계산(precomputation)을 금지하는 안티패턴을 강요한다'며 이메일로 문의했더니 답변 없이 README만 몰래 수정했다고 비판했다. '이건 과제의 문제가 아니라 엔지니어링 문화의 레드플래그'라는 강한 반응이었다.
- 채용 방식 자체에 대한 긍정적인 반응도 많았다. '45분 안에 리트코드 미디엄/하드 2문제 푸는 것보다 훨씬 낫다', '인터뷰 하면서 이렇게 재밌었던 적이 없었다'는 의견이 나왔다. 반면 '2시간 제한이라지만 제대로 풀려면 훨씬 더 오래 걸린다, 이건 AI가 잘하는 영역이지 인간의 진짜 실력을 측정하는 게 아니다'는 비판도 있었다.
- Gemini CLI로 리포를 클론해서 '이 챌린지 어떻게 풀어?'라고 프롬프트만 했더니 20분째 멈추지 않고 돌아간다는 재미있는 경험담도 공유됐다. 'Anthropic이 이걸 오픈소스로 공개한 건 다른 AI 회사들에 대한 DDoS 공격이다'라는 농담으로 포장됐다.
How to Apply
- 저수준 최적화 실력을 키우고 싶다면 리포를 클론해서 직접 도전해볼 수 있다. SIMD 인트린직, 캐시 지역성, 파이프라이닝 같은 개념을 공부하면서 실제 코드에 적용하는 연습 무대로 쓰기 좋다.
- AI 에이전트의 코딩 능력을 비교 평가하고 싶다면 이 과제를 벤치마크로 활용할 수 있다. 위 커뮤니티 실험처럼 여러 모델을 동일 조건으로 돌려서 사이클 수와 소요 시간을 비교하면 객관적인 코드 최적화 성능 지표를 얻을 수 있다.
- 1,487 사이클 이하를 달성했다면 performance-recruiting@anthropic.com으로 코드와 이력서를 보내면 Anthropic 채용 프로세스 진입 기회가 생긴다. 무제한 시간이 주어지므로 며칠~몇 주를 투자한 결과를 제출해도 된다.
- Claude Code나 다른 AI 에이전트를 도구로 활용해서 문제를 풀어보는 것도 의미 있다. 어떤 프롬프팅 전략과 반복 사이클이 더 좋은 최적화 결과를 내는지 직접 실험할 수 있는 구체적인 과제가 된다.
Terminology
테스트타임 컴퓨팅 하네스모델이 답을 내놓은 뒤 스스로 검증·수정·재시도를 반복하도록 설계된 자동화 실행 환경. 더 오래 실행할수록 더 좋은 결과를 낼 수 있다.
SIMDSingle Instruction Multiple Data. CPU 명령어 하나로 여러 데이터를 동시에 처리하는 병렬 연산 기법. 예를 들어 덧셈 명령 하나로 4개 숫자를 한꺼번에 더할 수 있다.
PTXNVIDIA GPU를 위한 저수준 어셈블리 언어. CUDA보다 한 단계 더 낮은 수준에서 GPU 연산을 제어할 수 있다.
클럭 사이클CPU가 기본 연산 하나를 수행하는 데 걸리는 시간 단위. 사이클 수가 적을수록 코드가 빠르게 실행된다는 의미다.
원샷(one-shot)AI 모델에게 예시 없이 문제만 한 번 주고 결과를 받는 방식. 반복적인 피드백이나 수정 없이 단번에 실행한다.
코드 골프같은 동작을 하는 코드를 최대한 짧게(또는 빠르게) 작성하는 것을 경쟁하는 프로그래밍 게임.