Ornith-1.0: self-improving open-source models for agentic coding

TL;DR Highlight

Gemma 4와 Qwen 3.5를 기반으로 파인튜닝한 코딩 특화 오픈소스 모델로, RL(강화학습)을 통해 스캐폴드(에이전트 실행 구조)까지 함께 최적화하는 방식을 주장하지만, 커뮤니티에서는 벤치마크 과최적화에 불과하다는 의심을 받고 있다.

Who Should Read

SWE-Bench나 Terminal-Bench 같은 코딩 벤치마크를 기준으로 로컬 LLM을 선택하는 개발자, 또는 오픈소스 코딩 에이전트 모델을 직접 운영하려는 DevOps/백엔드 개발자.

Core Mechanics

Ornith-1.0은 9B-Dense, 31B-Dense, 35B-MoE, 397B-MoE 네 가지 크기로 제공되며, Gemma 4와 Qwen 3.5를 베이스 모델로 포스트 트레이닝한 코딩 특화 모델이다.
벤치마크 성능을 보면, Ornith-1.0-9B는 SWE-bench Verified에서 69.4점을 기록해 같은 크기의 Qwen3.5-9B(53.2)나 Gemma4-12B(44.2)보다 크게 앞선다고 주장한다.
Ornith-1.0-35B는 SWE-bench Verified 75.6점으로 Qwen3.6-35B(73.4)와 Qwen3.5-397B(76.4)에 근접한 성능을 보여, 훨씬 작은 모델로 대형 모델과 경쟁한다고 주장한다.
Terminal-Bench 2.1에서 Ornith-1.0-35B는 64.2점을 기록해, 경쟁 모델인 Qwen3.5-35B(41.4)나 Gemma4-31B(42.1)보다 확연히 높은 수치를 보인다.
'Self-Improving(자기 개선)' 메커니즘의 핵심은 RL을 이용해 솔루션 자체뿐만 아니라 솔루션을 만들어내는 스캐폴드(scaffold, 에이전트가 도구를 호출하고 탐색하는 실행 구조)까지 함께 최적화한다는 점이다.
스캐폴드와 솔루션을 공동 최적화함으로써 모델이 더 나은 탐색 경로(search trajectory)를 스스로 발견하고 더 높은 품질의 결과를 생성하게 된다고 설명한다.
라이선스는 MIT로 완전 오픈소스이며, 지역 제한 없이 전 세계에서 무료로 사용 가능하다.
평가된 벤치마크로는 Terminal-Bench 2.1, SWE-bench Verified/Pro/Multilingual, NL2Repo, OpenClaw(Claw-eval), SWE Atlas(QnA/RF/TW) 등 다양한 에이전틱 코딩 태스크가 포함된다.

Evidence

커뮤니티 일부에서는 이 모델이 단순히 Qwen 3.5를 벤치마크에 과최적화(benchmaxxing)한 파인튜닝 버전에 불과하다는 강한 의심을 표명했다. 'Self-Improving'이라는 표현도 실제로는 아무 특별한 것이 없으며, 긴 세션에서 도구 호출 시 환각이 심하다는 지적도 있었다.
swelljoe.com의 실사용 테스트(will-it-mythos)에서는 도구 없이 채팅 모드로만 사용했을 때 환각이 심하고 성능이 낮았다고 보고됐다. 다만 bash/Python 등 도구 접근을 포함한 재테스트를 진행 중이며, 도구를 주면 경쟁력이 생길 수 있다는 의견도 덧붙였다.
일부 사용자는 9~35B 모델에 과도한 기대를 하고 실망했다는 점을 지적하며, 이 크기의 모델로 원클릭 앱 생성을 기대하는 건 무리이고 코딩 문제에 창의적인 해결책을 잘 제시하는 편이라는 긍정적 경험도 있었다.
deepreinforce-ai라는 조직이 누구인지, 웹사이트에 이 모델이 소개되지 않은 이유는 무엇인지, 그리고 'self-improving'이 디스크에 저장된 모델 가중치가 실제로 바뀌는 것인지 아니면 단일 컨텍스트 내에서 개선되는 것인지에 대한 기본적인 질문이 댓글에서 제기됐다.
31B Dense 모델이 README에 언급됐지만 실제 벤치마크 결과도 없고 모델 가중치도 공개되지 않았다는 지적이 있었으며, 이 역시 신뢰성에 대한 의구심을 키웠다.

How to Apply

SWE-bench 계열 벤치마크 점수를 기준으로 로컬 코딩 에이전트를 선택하는 경우, Ornith-1.0-35B(SWE-bench Verified 75.6)를 Qwen3.5-35B 대신 테스트해볼 수 있다. 단, 커뮤니티에서 벤치마크 과최적화 우려가 있으므로 실제 프로젝트 태스크로 직접 검증하는 것이 필수다.
Terminus-2나 Claude Code 같은 에이전틱 코딩 하네스(harness)와 연동해 터미널 기반 작업을 자동화하려는 경우, Terminal-Bench 2.1에서 높은 점수(35B 기준 64.2)를 보인 Ornith-1.0-35B를 후보로 고려할 수 있다.
도구 없는 순수 채팅 모드로 사용할 계획이라면, 실사용 테스트에서 환각이 심하다는 보고가 있으므로 bash/Python 등 실제 도구 접근 환경을 갖춘 에이전틱 세팅에서만 사용하는 것이 낫다.
397B MoE 모델을 운영하기 어려운 환경에서 대형 모델과 비슷한 코딩 성능이 필요한 경우, Ornith-1.0-35B가 Qwen3.5-397B(NL2Repo 36.8 vs 34.6, Claw-eval 70.7 vs 69.8)와 거의 동등한 점수를 보이므로 자원 효율 측면에서 검토해볼 만하다.

Terminology

scaffold에이전트가 도구를 호출하고 문제를 탐색하는 실행 구조 또는 흐름. 소프트웨어에서 비계(scaffold)가 건물을 짓기 위한 임시 구조물인 것처럼, LLM 에이전트가 솔루션을 만들어가는 과정을 지탱하는 실행 틀이다.

MoEMixture of Experts의 약자. 모델 전체를 항상 사용하지 않고, 입력에 따라 일부 '전문가' 서브네트워크만 활성화하는 구조. 397B 파라미터라도 실제 연산에 사용되는 파라미터는 훨씬 적어 효율적이다.

SWE-bench실제 GitHub 이슈를 AI가 자동으로 수정하는 태스크의 벤치마크. 'Software Engineering Benchmark'로, 코딩 에이전트의 실력을 재는 가장 대표적인 지표 중 하나다.

benchmaxxing벤치마크 점수를 극대화하도록 과도하게 최적화하는 행위. 실제 사용 환경에서의 성능과 괴리가 생길 수 있어 커뮤니티에서 부정적으로 쓰이는 용어다.

RLReinforcement Learning(강화학습). 모델이 특정 행동을 했을 때 보상 신호를 받아 더 좋은 결과를 내도록 스스로 학습하는 방식. 여기서는 코딩 에이전트가 더 나은 솔루션을 찾도록 훈련하는 데 쓰인다.

Terminal-Bench터미널 환경에서 실제 명령어를 실행하며 코딩 태스크를 완수하는 에이전틱 능력을 평가하는 벤치마크.