Senior SWE-Bench: AI 에이전트를 시니어 개발자 기준으로 평가하는 오픈소스 벤치마크

TL;DR Highlight

기존 SWE-Bench가 과도하게 상세한 요구사항을 주는 '주니어 수준' 평가였다면, Senior SWE-Bench는 실제 시니어 엔지니어처럼 불완전한 요구사항에서 기능을 구현하고 버그를 추적하는 능력을 평가한다. 현재 최고 성능 모델(Claude Opus 4.8)도 24%밖에 못 푸는 난이도로, AI 코딩 에이전트의 실제 한계를 측정하려는 시도다.

Who Should Read

AI 코딩 에이전트를 개발하거나 평가하는 ML 엔지니어, 그리고 LLM 기반 코드 자동화 도구의 실제 역량을 판단해야 하는 테크 리드나 개발팀 매니저.

Core Mechanics

기존 SWE-Bench는 요구사항을 너무 상세하게 명시해서 '무엇을 구현해야 하는지'를 사실상 알려주는 방식이었다. Senior SWE-Bench는 실제 슬랙 메시지나 이슈처럼 불완전한 자연어 요구사항을 주고, 에이전트가 스스로 판단해서 구현하도록 요구한다.
버그 태스크도 재현 스텝, 로그, 프로파일링 데이터처럼 런타임 조사가 필요한 실제 사용자 리포트 기반이다. 단순히 코드를 읽고 수정하는 게 아니라 서비스를 실제로 실행하고 동작을 확인해야 풀 수 있는 문제들이다.
'맛있는 코드(taste scoring)'라는 개념을 도입했는데, 단순히 테스트 통과 여부만 보는 게 아니라 해당 코드베이스의 관례와 스타일에 맞게 짰는지도 품질 지표로 반영한다.
검증 에이전트(validation agent)를 새로 설계했는데, 전문가가 만든 레시피(recipe)를 기반으로 제출된 솔루션에 맞게 동작 테스트를 자동 생성한다. 요구사항이 불명확하더라도 평가를 신뢰성 있게 할 수 있도록 한 핵심 기술적 기여다.
현재 리더보드 1위는 Claude Opus 4.8로 solve rate 24%에 불과하다. 즉, 가장 뛰어난 모델도 4문제 중 1문제 정도만 풀고 있는 수준이다.
Snorkel AI가 개발했으며 데이터셋은 GitHub에 공개되어 있고, Harbor를 통해 에이전트를 직접 실행해볼 수 있다.
태스크 예시를 보면 6,000자 이상의 과도하게 명세된 기존 방식 대신, 실제 PR과 이슈에서 추출한 간결하고 현실적인 지시문을 사용한다.

Evidence

벤치마크 오염(contamination) 문제를 지적하는 댓글이 있었다. 오픈소스 프로젝트의 코드 변경 내용이 LLM 학습 데이터에 포함될 수 있기 때문에, 모델이 실제로 문제를 푼 게 아니라 훈련 데이터를 기억해서 출력할 수 있다는 우려다. 반면 지식 컷오프 이후 변경사항만 쓰면 시점마다 태스크가 달라져 시간적 비교가 어렵다는 딜레마도 언급됐다.
오픈소스로 공개한 것 자체가 AI 회사들이 이 벤치마크에 특화되도록 파인튜닝할 인센티브를 제공한다는 비판이 있었다. 대부분의 유명 벤치마크가 의도적으로 비공개인 이유가 이것 때문이라는 지적이다.
'시니어 엔지니어'의 정의 자체에 의문을 제기하는 댓글도 많았다. 한 댓글에서는 진짜 시니어 엔지니어는 요구사항을 받아서 구현하는 게 아니라 고객과 대화하고 메트릭을 분석해서 요구사항 자체를 만들어내는 사람인데, 이 벤치마크는 그 부분을 완전히 빠뜨렸다고 주장했다.
LLM이 주관적 판단을 내리도록 시키는 방식(예: '시니어 리뷰어처럼 평가하라'는 프롬프트)이 평가 방법론으로서 근본적으로 결함이 있다는 지적이 있었고, 더 객관적인 평가 기준이 필요하다는 의견도 나왔다.
Claude Opus 4.8이 GPT 5.5보다 훨씬 낫다고 느꼈던 이유가 이 벤치마크로 설명된다는 실사용 경험도 공유됐다. 불완전한 요구사항에서 합리적인 접근법을 스스로 채워 넣는 능력이 체감 차이를 만들었다는 것이다. 또한 Claude Sonnet 5가 Opus 4.8에 꽤 근접한 점수를 보인다는 점도 주목받았다.

How to Apply

AI 코딩 에이전트(예: GitHub Copilot Agent, Devin 류의 도구)를 팀에 도입하기 전에 실제 역량을 검증하고 싶다면, Senior SWE-Bench의 리더보드와 태스크 예시를 참고해서 '불완전한 요구사항 처리 능력'을 기준으로 비교 평가할 수 있다.
직접 에이전트를 개발 중이라면 GitHub에 공개된 데이터셋을 다운받고 Harbor를 통해 자신의 에이전트를 실행해서 현재 solve rate를 측정해볼 수 있다. 24%가 현재 SOTA이므로 이를 기준점으로 삼아 개선 방향을 잡을 수 있다.
LLM 기반 코드 리뷰나 자동화 도구를 도입할 때, 이 벤치마크의 'taste scoring' 개념을 참고해서 단순 기능 동작 여부 외에 코드베이스 관례 준수 여부도 평가 지표에 포함시키면 더 현실적인 품질 기준을 세울 수 있다.
사내 코딩 에이전트 평가 기준을 만들 때, 기존에 과도하게 상세한 요구사항을 주던 방식 대신 실제 이슈/슬랙 메시지처럼 불완전한 지시문을 주고 결과를 보는 방식으로 전환하면 에이전트의 실제 활용 가능성을 더 정확하게 측정할 수 있다.

Terminology

SWE-BenchAI가 실제 GitHub 이슈를 얼마나 잘 해결하는지 측정하는 소프트웨어 엔지니어링 벤치마크. 원래는 Princeton에서 만들었고, 지금은 AI 코딩 능력의 표준 측정 도구처럼 쓰인다.

validation agent제출된 코드 솔루션을 검증하는 AI 에이전트. 요구사항이 불완전할 때도 전문가가 설계한 레시피를 바탕으로 동작 테스트를 자동으로 만들어 채점한다.

taste scoring코드가 단순히 동작하는지를 넘어, 해당 프로젝트의 코딩 스타일과 관례에 맞게 짜였는지를 평가하는 품질 지표. 코드리뷰에서 '이 코드는 우리 프로젝트답지 않아'라고 느끼는 감각을 정량화하려는 시도다.

benchmark contaminationAI 모델의 학습 데이터에 벤치마크 문제나 정답이 이미 포함되어 있어서, 모델이 실제로 문제를 푼 게 아니라 외운 내용을 출력하는 현상. 오픈소스 벤치마크에서 특히 심각한 문제다.

solve rate에이전트가 벤치마크 문제를 성공적으로 해결한 비율. 현재 Senior SWE-Bench에서 최고 성능 모델의 solve rate는 24%다.

HarborSenior SWE-Bench에서 제공하는 에이전트 실행 환경. 자신의 에이전트를 벤치마크에 연결해서 테스트할 수 있게 해주는 도구다.