Ornith-1.0: self-improving open-source models for agentic coding
TL;DR Highlight
Gemma 4와 Qwen 3.5를 기반으로 파인튜닝한 코딩 특화 오픈소스 모델로, RL(강화학습)을 통해 스캐폴드(에이전트 실행 구조)까지 함께 최적화하는 방식을 주장하지만, 커뮤니티에서는 벤치마크 과최적화에 불과하다는 의심을 받고 있다.
Who Should Read
SWE-Bench나 Terminal-Bench 같은 코딩 벤치마크를 기준으로 로컬 LLM을 선택하는 개발자, 또는 오픈소스 코딩 에이전트 모델을 직접 운영하려는 DevOps/백엔드 개발자.
Core Mechanics
- Ornith-1.0은 9B-Dense, 31B-Dense, 35B-MoE, 397B-MoE 네 가지 크기로 제공되며, Gemma 4와 Qwen 3.5를 베이스 모델로 포스트 트레이닝한 코딩 특화 모델이다.
- 벤치마크 성능을 보면, Ornith-1.0-9B는 SWE-bench Verified에서 69.4점을 기록해 같은 크기의 Qwen3.5-9B(53.2)나 Gemma4-12B(44.2)보다 크게 앞선다고 주장한다.
- Ornith-1.0-35B는 SWE-bench Verified 75.6점으로 Qwen3.6-35B(73.4)와 Qwen3.5-397B(76.4)에 근접한 성능을 보여, 훨씬 작은 모델로 대형 모델과 경쟁한다고 주장한다.
- Terminal-Bench 2.1에서 Ornith-1.0-35B는 64.2점을 기록해, 경쟁 모델인 Qwen3.5-35B(41.4)나 Gemma4-31B(42.1)보다 확연히 높은 수치를 보인다.
- 'Self-Improving(자기 개선)' 메커니즘의 핵심은 RL을 이용해 솔루션 자체뿐만 아니라 솔루션을 만들어내는 스캐폴드(scaffold, 에이전트가 도구를 호출하고 탐색하는 실행 구조)까지 함께 최적화한다는 점이다.
- 스캐폴드와 솔루션을 공동 최적화함으로써 모델이 더 나은 탐색 경로(search trajectory)를 스스로 발견하고 더 높은 품질의 결과를 생성하게 된다고 설명한다.
- 라이선스는 MIT로 완전 오픈소스이며, 지역 제한 없이 전 세계에서 무료로 사용 가능하다.
- 평가된 벤치마크로는 Terminal-Bench 2.1, SWE-bench Verified/Pro/Multilingual, NL2Repo, OpenClaw(Claw-eval), SWE Atlas(QnA/RF/TW) 등 다양한 에이전틱 코딩 태스크가 포함된다.
Evidence
- 커뮤니티 일부에서는 이 모델이 단순히 Qwen 3.5를 벤치마크에 과최적화(benchmaxxing)한 파인튜닝 버전에 불과하다는 강한 의심을 표명했다. 'Self-Improving'이라는 표현도 실제로는 아무 특별한 것이 없으며, 긴 세션에서 도구 호출 시 환각이 심하다는 지적도 있었다.
- swelljoe.com의 실사용 테스트(will-it-mythos)에서는 도구 없이 채팅 모드로만 사용했을 때 환각이 심하고 성능이 낮았다고 보고됐다. 다만 bash/Python 등 도구 접근을 포함한 재테스트를 진행 중이며, 도구를 주면 경쟁력이 생길 수 있다는 의견도 덧붙였다.
- 일부 사용자는 9~35B 모델에 과도한 기대를 하고 실망했다는 점을 지적하며, 이 크기의 모델로 원클릭 앱 생성을 기대하는 건 무리이고 코딩 문제에 창의적인 해결책을 잘 제시하는 편이라는 긍정적 경험도 있었다.
- deepreinforce-ai라는 조직이 누구인지, 웹사이트에 이 모델이 소개되지 않은 이유는 무엇인지, 그리고 'self-improving'이 디스크에 저장된 모델 가중치가 실제로 바뀌는 것인지 아니면 단일 컨텍스트 내에서 개선되는 것인지에 대한 기본적인 질문이 댓글에서 제기됐다.
- 31B Dense 모델이 README에 언급됐지만 실제 벤치마크 결과도 없고 모델 가중치도 공개되지 않았다는 지적이 있었으며, 이 역시 신뢰성에 대한 의구심을 키웠다.
How to Apply
- SWE-bench 계열 벤치마크 점수를 기준으로 로컬 코딩 에이전트를 선택하는 경우, Ornith-1.0-35B(SWE-bench Verified 75.6)를 Qwen3.5-35B 대신 테스트해볼 수 있다. 단, 커뮤니티에서 벤치마크 과최적화 우려가 있으므로 실제 프로젝트 태스크로 직접 검증하는 것이 필수다.
- Terminus-2나 Claude Code 같은 에이전틱 코딩 하네스(harness)와 연동해 터미널 기반 작업을 자동화하려는 경우, Terminal-Bench 2.1에서 높은 점수(35B 기준 64.2)를 보인 Ornith-1.0-35B를 후보로 고려할 수 있다.
- 도구 없는 순수 채팅 모드로 사용할 계획이라면, 실사용 테스트에서 환각이 심하다는 보고가 있으므로 bash/Python 등 실제 도구 접근 환경을 갖춘 에이전틱 세팅에서만 사용하는 것이 낫다.
- 397B MoE 모델을 운영하기 어려운 환경에서 대형 모델과 비슷한 코딩 성능이 필요한 경우, Ornith-1.0-35B가 Qwen3.5-397B(NL2Repo 36.8 vs 34.6, Claw-eval 70.7 vs 69.8)와 거의 동등한 점수를 보이므로 자원 효율 측면에서 검토해볼 만하다.
Terminology
Related Papers
Herdr: Agent multiplexer that lives in your terminal
여러 AI 코딩 에이전트(Claude, Codex 등)를 하나의 터미널에서 동시에 실행·관리할 수 있는 Rust 기반 오픈소스 툴로, tmux처럼 세션이 유지되고 SSH로 원격 접속도 가능해 멀티 에이전트 워크플로우를 크게 단순화해준다.
Show HN: Adrafinil – keep a lid-closed Mac awake only while agents work
Claude Code, Codex, Cursor 같은 AI 코딩 에이전트가 실행 중일 때만 Mac의 절전 모드(뚜껑 닫힘 포함)를 막아주는 macOS 메뉴바 앱으로, 에이전트 세션이 끝나면 즉시 정상 절전으로 돌아온다.
Show HN: OpenKnowledge – open source AI-first alternative to Obsidian/Notion
Git 기반 동기화와 Claude/Codex/Cursor 연동을 내장한 로컬 우선 마크다운 에디터로, AI 에이전트의 두 번째 뇌(LLM Wiki)로 활용할 수 있는 오픈소스 도구다.
The Unfireable Safety Kernel: Execution-Time AI Alignment for AI Agents and Other Escapable AI Systems
AI 에이전트가 자신의 안전장치를 우회할 수 없도록, 에이전트 프로세스 바깥에 수학적으로 증명된 강제 통제 게이트를 배치하는 아키텍처
RubyLLM: A Ruby framework for all major AI providers
OpenAI, Claude, Gemini 등 주요 AI 프로바이더를 단일 인터페이스로 통합한 Ruby 프레임워크로, Rails 통합과 에이전트 기능까지 지원해 Ruby 개발자가 AI 기능을 빠르게 붙일 수 있다.
Qwen-AgentWorld: Language World Models for General Agents
Alibaba Qwen 팀이 AI 에이전트가 행동 결과를 미리 시뮬레이션할 수 있는 'Language World Model'을 공개했다. 에이전트 훈련과 실행 경로 검증에 새로운 패러다임을 제시하는 연구다.