Anthropic의 채용 코딩 과제 오픈소스 공개 — Claude Opus 4.5가 인간을 넘어선 그 문제
Anthropic's original take home assignment open sourced
TL;DR Highlight
Claude Opus 4.5가 2시간 제한에서 최고 인간 성능과 동등한 수준에 도달해 Anthropic이 해당 채용 과제를 오픈소스로 공개했다.
Who Should Read
저수준 성능 최적화(SIMD, 캐시 최적화 등)에 관심 있는 시스템 개발자나, AI 모델의 코딩 능력 벤치마크에 관심 있는 ML 엔지니어.
Core Mechanics
- 이 과제는 시뮬레이션된 머신에서 클럭 사이클 수를 줄이는 저수준 성능 최적화 문제다. 처음 주어지는 스타터 코드 기준으로 사이클을 얼마나 줄이느냐로 점수를 매긴다.
- 원래 4시간짜리 과제였는데 Claude Opus 4가 대부분의 인간 지원자를 앞서면서 2시간짜리로 바뀌었고, Claude Opus 4.5가 그 2시간 버전마저 인간 최고 수준에 도달하면서 결국 채용 과제로 더 이상 못 쓰게 됐다.
- 성능 벤치마크 비교: 스타터 코드는 18,532 사이클. Claude Opus 4.5가 캐주얼 Claude Code 세션에서 1,790 사이클(2시간 내 인간 최고 성능과 동급), 11.5시간 테스트타임 컴퓨팅 하네스로는 1,487 사이클, 개선된 하네스로는 1,363 사이클을 기록했다.
- 1,487 사이클 이하를 달성하면 — 즉 Claude Opus 4.5의 출시 당시 최고 성능을 넘으면 — performance-recruiting@anthropic.com으로 코드와 이력서를 보내면 채용 검토를 받을 수 있다.
- 공개된 리포지토리에는 Python으로 작성된 스타터 코드(`perf_takehome.py`, `problem.py`)와 Chrome 트레이싱 기반 프로파일링 도구(`watch_trace.py`, `watch_trace.html`)가 포함되어 있다.
- 이 과제의 성격은 데모씬(demoscene)과 코드 골프(code golf)에 가깝다. SIMD, PTX(GPU 저수준 프로그래밍), 파이프라이닝, 벡터화 해시 같은 하드코어 최적화 기법들이 동원된다.
- Anthropic은 이 문제를 공개하면서 '인간이 무제한 시간을 써서 Claude Opus 4.5를 이겨보라'는 오픈 챌린지로 전환했다.
Evidence
- 커뮤니티에서 여러 AI 에이전트를 원샷(one-shot)으로 돌린 비교 실험이 공유됐다. gpt-5-2가 2,124 사이클로 16분 만에 가장 좋은 성능을 냈고, claude-opus-4-5가 4,973 사이클(1시간 2분), gpt-5-codex가 5,486 사이클(7분)이었다. Anthropic이 제시한 목표치(1,363~1,487)에 근접한 모델은 없었지만, gpt-5-2가 'Claude Opus 4가 수십 시간 테스트타임 컴퓨팅을 돌린 결과(2,164)'보다 짧은 시간에 더 좋은 성과를 낸 것이 주목됐다.
- 한 커뮤니티 멤버는 에이전트 없이 수동으로 1,112 사이클을 달성했다고 공유했고, 또 다른 멤버는 Opus와 함께 1시간 만에 1,137 사이클에 도달하면서 파이프라인 벡터화 해시, 투기적 실행, 스테이지별 정적 코드 등을 적용 중이라고 설명했다. '비트 16과 0만 보면 딜레이 없이 해시 5단계가 홀수인지 병렬로 계산 가능하다는 걸 방금 깨달았다'며 900 사이클 이하도 가능할 것 같다고 했다.
- 한 지원자는 '런타임에 계산해야 한다는 숨겨진 제약 때문에 O(1) 사전 계산(precomputation)을 금지하는 안티패턴을 강요한다'며 이메일로 문의했더니 답변 없이 README만 몰래 수정했다고 비판했다. '이건 과제의 문제가 아니라 엔지니어링 문화의 레드플래그'라는 강한 반응이었다.
- 채용 방식 자체에 대한 긍정적인 반응도 많았다. '45분 안에 리트코드 미디엄/하드 2문제 푸는 것보다 훨씬 낫다', '인터뷰 하면서 이렇게 재밌었던 적이 없었다'는 의견이 나왔다. 반면 '2시간 제한이라지만 제대로 풀려면 훨씬 더 오래 걸린다, 이건 AI가 잘하는 영역이지 인간의 진짜 실력을 측정하는 게 아니다'는 비판도 있었다.
- Gemini CLI로 리포를 클론해서 '이 챌린지 어떻게 풀어?'라고 프롬프트만 했더니 20분째 멈추지 않고 돌아간다는 재미있는 경험담도 공유됐다. 'Anthropic이 이걸 오픈소스로 공개한 건 다른 AI 회사들에 대한 DDoS 공격이다'라는 농담으로 포장됐다.
How to Apply
- 저수준 최적화 실력을 키우고 싶다면 리포를 클론해서 직접 도전해볼 수 있다. SIMD 인트린직, 캐시 지역성, 파이프라이닝 같은 개념을 공부하면서 실제 코드에 적용하는 연습 무대로 쓰기 좋다.
- AI 에이전트의 코딩 능력을 비교 평가하고 싶다면 이 과제를 벤치마크로 활용할 수 있다. 위 커뮤니티 실험처럼 여러 모델을 동일 조건으로 돌려서 사이클 수와 소요 시간을 비교하면 객관적인 코드 최적화 성능 지표를 얻을 수 있다.
- 1,487 사이클 이하를 달성했다면 performance-recruiting@anthropic.com으로 코드와 이력서를 보내면 Anthropic 채용 프로세스 진입 기회가 생긴다. 무제한 시간이 주어지므로 며칠~몇 주를 투자한 결과를 제출해도 된다.
- Claude Code나 다른 AI 에이전트를 도구로 활용해서 문제를 풀어보는 것도 의미 있다. 어떤 프롬프팅 전략과 반복 사이클이 더 좋은 최적화 결과를 내는지 직접 실험할 수 있는 구체적인 과제가 된다.
Terminology
관련 논문
LLM이 TLA+로 실제 시스템을 제대로 모델링할 수 있을까? — SysMoBench 벤치마크
LLM이 TLA+ 명세를 작성할 때 문법은 잘 통과하지만 실제 시스템과의 동작 일치도(conformance)는 46% 수준에 그친다는 걸 체계적으로 검증한 벤치마크 연구로, AI 기반 형식 검증의 현실적 한계를 보여준다.
Natural Language Autoencoders: Claude의 내부 활성화를 자연어 텍스트로 변환하는 기법
Anthropic이 LLM 내부의 숫자 벡터(활성화값)를 직접 읽을 수 있는 자연어로 변환하는 NLA 기법을 공개했다. AI가 실제로 무슨 생각을 하는지 해석하는 interpretability 연구의 새로운 진전이다.
ProgramBench: LLM이 프로그램을 처음부터 다시 만들 수 있을까?
LLM이 FFmpeg, SQLite, PHP 인터프리터 같은 실제 소프트웨어를 문서만 보고 처음부터 재구현할 수 있는지 측정하는 새 벤치마크로, 최고 모델도 전체 태스크의 3%만 95% 이상 통과하는 수준에 그쳤다.
MOSAIC-Bench:코딩 에이전트의 Compositional Vulnerability 유도 측정
티켓 3장으로 쪼개면 Claude/GPT도 보안 취약점 코드를 53~86% 확률로 그냥 짜준다.
LLM의 거절(Refusal) 동작은 단 하나의 방향(Direction)으로 제어된다
13개의 오픈소스 채팅 모델을 분석했더니, 모델이 유해한 요청을 거절하는 동작이 내부 활성화 공간에서 단 하나의 1차원 벡터 방향으로 인코딩되어 있었다. 이 방향을 제거하면 안전 파인튜닝이 사실상 무력화되므로, 현재 안전 학습 방식이 얼마나 취약한지 보여준다.
LLM의 구조화된 출력(Structured Output)을 테스트하는 새 벤치마크 SOB 공개
스키마 준수 여부만 보던 기존 벤치마크의 한계를 넘어, 실제 값의 정확도까지 7가지 지표로 평가하는 Structured Output Benchmark(SOB)가 공개됐다. 인보이스 파싱, 의료 기록 추출처럼 JSON 출력의 정확성이 중요한 프로덕션 시스템에서 어떤 모델을 써야 할지 판단하는 데 직접적으로 참고할 수 있다.