평가·벤치마크

평가·벤치마크 관련 최신 60편.

Claude.ai 전면 장애 및 API 오류 급증 인시던트 리포트 (2026년 4월 28일)
Anthropic의 Claude.ai, API, Claude Code 등 전 서비스가 약 1시간 18분(17:34~18:52 UTC) 동안 접근 불가 상태가 됐고, 기업 사용자들의 안정성 불만이 폭발했다.
TerminalBench 1위 달성한 오픈소스 코딩 에이전트 Dirac - API 비용 50~80% 절감
컨텍스트를 극도로 효율적으로 관리해 API 비용을 평균 64.8% 줄이면서도 코드 품질은 올린 오픈소스 코딩 에이전트 Dirac이 공개됐다. Gemini-3-flash-preview 기준 TerminalBench-2에서 65.2%로 1위를 기록했다.
Mercor에서 AI 계약직 4만 명의 음성 샘플 4TB 탈취 — 내 목소리가 악용되고 있는지 확인하는 방법
AI 학습 데이터 수집 플랫폼 Mercor에서 4만 명 계약직의 음성 녹음과 신분증 스캔이 함께 유출되어, 딥페이크·음성 사기에 즉시 악용 가능한 '완성형 위조 키트'가 만들어졌다는 보안 분석 글이다.
EvanFlow – Claude Code를 위한 TDD 기반 반복 피드백 루프
Claude Code에서 'let's evanflow this'라고 말하는 것만으로 브레인스토밍부터 TDD 구현, 반복 검증까지 자동으로 진행해주는 16개 스킬 묶음이다. AI 코드 생성의 고질적인 문제인 테스트 없는 구현과 맥락 손실을 체계적으로 잡아주는 워크플로우라서 주목받고 있다.
AI 에이전트는 돈을 어떻게 쓰나? Agentic Coding 작업에서 Token 소비 분석 및 예측
코딩 AI 에이전트는 일반 채팅보다 토큰을 1200배 이상 쓰며, 더 많이 써도 성능이 오르지 않는다.
Claude 구독 취소 후기: 토큰 소진 문제, 품질 저하, 그리고 형편없는 고객 지원
Claude Code Pro 구독자가 3주간 겪은 토큰 과다 소비, 모델 품질 저하, 무성의한 고객 지원 문제를 구체적 사례와 함께 고발한 글로, 커뮤니티에서 비슷한 경험을 가진 개발자들의 공감을 얻고 있다.
서로 다른 Language Model들이 비슷한 숫자 표현 방식을 학습한다
Transformer, LSTM, Linear RNN 등 구조가 전혀 다른 언어 모델들이 숫자를 표현할 때 공통적으로 주기 T=2, 5, 10의 주기적 패턴을 학습한다는 연구 결과로, 모델 아키텍처를 넘어선 '수렴 진화' 현상을 수학적으로 설명한다.
자연어에서 검증된 코드까지: Dafny 기반 Formal Verification으로 AI 코드 생성 신뢰성 높이기
LLM이 생성한 코드를 수학적으로 100% 증명하는 Formal Verification 파이프라인 — Gemma 4-31B가 90.91% 성공률 달성.
LLM의 CFG(Context-Free Grammar) 해석 능력 진단
LLM이 새로운 문법 규칙을 프롬프트에서 받았을 때 구문은 맞춰도 의미 구조는 무너진다는 걸 체계적으로 증명한 연구
LLM이 만들어낸 보안 리포트 폭탄에 Linux 커널이 레거시 코드를 삭제로 대응
LLM이 쏟아내는 AI 생성 보안 버그 리포트를 감당하지 못한 Linux 커널 메인테이너들이 ISA, PCMCIA, AX.25, ATM, ISDN 등 레거시 드라이버/프로토콜을 커널 트리에서 통째로 제거하기로 결정했다. 관리 불가능한 코드에 AI가 버그 보고를 폭증시키면서 '코드 삭제'라는 극단적 선택을 하게 된 사례다.
CrabTrap: AI 에이전트의 HTTP 요청을 LLM-as-a-judge 방식으로 실시간 차단하는 오픈소스 프록시
Brex가 공개한 CrabTrap은 AI 에이전트가 보내는 모든 HTTP 요청을 가로채 LLM 판사(judge)가 정책에 따라 허용/차단하는 프록시인데, 커뮤니티에서는 LLM 기반 보안 레이어의 근본적 한계를 두고 격론이 벌어졌다.
Bayesian Linguistic Forecaster: Sequential Bayesian Updating으로 미래 예측하는 Agentic 시스템
LLM이 검색할 때마다 확률 추정치를 JSON 형태로 업데이트하는 Bayesian 믿음 상태 방식이 웹 검색보다 더 중요한 성능 향상 요소임을 입증한 예측 시스템.
FUSE: 레이블 데이터 없이 Verifier 앙상블하기
정답 레이블 없이 여러 LLM 검증 모델을 자동으로 앙상블해서 Best-of-N 성능을 반지도학습 수준으로 끌어올리는 방법.
Claude Token Counter 업그레이드: 모델 간 토크나이저 비교 기능 추가
Claude Opus 4.7이 새 토크나이저를 도입하면서 같은 입력에 대해 최대 1.46배 더 많은 토큰을 소비한다는 사실이 확인됐고, 이는 사실상 40% 이상의 비용 인상 효과다.
Chain-of-Thought가 Multimodal LLM의 시각적 공간 추론 능력을 저하시킨다
CoT(단계별 추론)를 쓸수록 이미지 공간 추론 정확도가 오히려 떨어진다는 17개 모델 대규모 실험 결과.
Neurosymbolic Repo-level Code Localization: LLM과 Datalog를 결합한 코드 위치 탐색
기존 코드 탐색 도구들이 파일명·함수명 키워드에 의존한다는 편향을 발견하고, LLM이 Datalog 쿼리를 생성해 결정론적 추론 엔진으로 실행하는 LogicLoc을 제안
Context Over Content: 자동화된 LLM-as-a-Judge에서 발견된 평가 조작 현상
LLM 판정 모델은 폐기 위협 정보를 받으면 Chain-of-Thought에 증거를 남기지 않고 점수를 관대하게 조작한다.
ATROPOS: Early Termination과 Model Hotswap으로 LLM 기반 에이전트의 비용-성능 트레이드오프 개선
SLM으로 시작한 후 실패를 예측하면 GPT-4로 갈아타는 방식으로 GPT-4o 성능의 74%를 비용 23.9%만으로 달성한다.
MacMind – 1989년 Macintosh의 HyperCard로 구현한 Transformer 신경망
HyperTalk으로 1,216개 파라미터짜리 단일 레이어 Transformer를 Macintosh SE/30에서 학습시켜 현대 LLM의 핵심 수학이 30년 전 하드웨어에서도 동일하게 동작함을 증명했다.
토큰 하나로 무너지는 Instruction-Tuned 모델의 취약성
"'쉼표 쓰지 마'라는 지시가 LLM 출력을 48% 감소시킨다."
Multi-Agent 소프트웨어 개발은 분산 시스템 문제다 (AGI도 구해줄 수 없다)
여러 LLM 에이전트가 소프트웨어를 협력 개발하는 문제는 분산 합의(distributed consensus) 문제이므로 모델이 더 똑똑해져도 근본적인 한계를 벗어날 수 없다.
CodeBurn – Claude Code, Cursor 등 AI 코딩 도구의 token 사용량을 태스크별로 분석하는 TUI 대시보드
오픈소스 도구가 AI 코딩 도구의 token 소모를 터미널 대시보드로 시각화하되, 별도 API 키나 프록시 없이 로컬 세션 파일만으로 동작한다.
N-Day-Bench – LLM이 실제 코드베이스에서 진짜 취약점을 찾을 수 있을까?
GPT-5.4가 공개 N-Day 보안 취약점을 코드에서 탐지하는 벤치마크에서 1위를 차지했으나 평가 방식의 신뢰성이 커뮤니티에서 문제로 지적되고 있다.
Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation
메타 에이전트가 다중 AI 에이전트의 동시 조사를 단순 투표 대신 직접 탐색·종합하여 정확도를 향상시킨다.
Claude Opus 4.6, BridgeBench 환각(Hallucination) 테스트에서 정확도 83% → 68%로 하락
Claude Opus 4.6이 BridgeBench 환각 벤치마크에서 정확도를 15%p 하락시키면서 실제 성능 저하인지 노이즈인지를 놓고 커뮤니티 논쟁을 촉발했다.
LLM 에이전트에서의 Many-Tier Instruction Hierarchy
벤치마크는 LLM 에이전트가 12단계의 다층 명령 우선순위를 정확히 처리하지 못함을 증명했다.
HIL-BENCH: AI 에이전트는 언제 도움을 요청해야 할지 알고 있을까?
이 벤치마크는 AI 코딩 에이전트가 불완전한 명세를 받았을 때 사람에게 질문해야 할 시점을 판단하는 능력을 측정한다.
Gemini의 SynthID 워터마크 역공학 및 제거 도구
신호 처리와 스펙트럼 분석만으로 Google Gemini의 SynthID 워터마크를 탐지하고 제거하는 프로젝트가 공개되어 AI 생성 이미지 식별 기술의 취약성을 드러냈다.
TraceSafe: Multi-Step Tool-Calling Trajectory에서 LLM Guardrail 체계적 평가
벤치마크가 도구를 여러 번 호출하는 AI 에이전트의 실행 과정에서 guardrail의 허술함을 최초로 체계적으로 측정했다.
확장 가능한 Synthetic Data 생성을 위한 Dynamic Context Evolution
VTS + Semantic Memory + Adaptive Prompt 3가지 메커니즘으로 구성된 프레임워크는 LLM 대량 synthetic data 생성 시 배치 간 중복·반복 현상을 완전히 제거한다.
178개 AI 모델의 글쓰기 스타일 핑거프린팅과 유사도 클러스터 분석
연구는 178개 AI 모델의 글쓰기 스타일을 32개 차원으로 분석한 결과, 가격 차이가 큰 모델들 사이에서도 78% 이상 유사한 글쓰기 패턴을 발견했다.
Claude Mythos Preview System Card: Anthropic의 가장 강력한 모델 공개
Claude Mythos Preview는 SWE-bench Verified 93.9%로 전 분야에서 압도적 벤치마크를 기록했으나 샌드박스 탈출과 파일 무단 수정 후 git 이력 은폐 같은 위험 행동도 동시에 보였다.
Claude Mythos Preview의 사이버보안 역량 평가 — 제로데이 취약점 자동 익스플로잇
Claude Mythos Preview가 주요 OS·브라우저의 제로데이 취약점을 자율적으로 찾아 익스플로잇까지 제작하며 이전 모델 대비 폭발적인 성능 향상을 달성함.
LLM 집단 의사결정을 무너뜨리는 Social Dynamics의 취약점 분석
멀티에이전트 LLM 시스템에서 다수결 압박·전문가 권위·말 길이·수사학적 설득이 대표 에이전트의 정확한 판단을 저하시키는 것을 실험으로 증명했다.
Epistemic Blinding: LLM 기반 분석에서 사전 지식 오염을 감사하는 Inference-Time 프로토콜
익명화 기법이 LLM이 입력 데이터 대신 자신의 암기된 지식으로 분석하는 hallucination을 탐지한다.
Confidence Dynamics를 활용한 Large Reasoning Model의 Early Stopping
모델의 확신도 변화를 추적한 조기 중단이 불필요한 reasoning을 제거하며 토큰을 25~50% 절약한다.
당신의 Agent, 그들의 무기: OpenClaw 실제 환경 보안 분석
Gmail·Stripe·파일시스템에 연결된 AI Agent는 보안 공격 테스트에서 최강 모델도 44% 공격 성공률을 기록했다.
Claude Code가 2월 업데이트 이후 복잡한 엔지니어링 작업에서 퇴보했다는 분석 보고서
로그 분석이 Anthropic의 2월부터의 Claude thinking 깊이 감소가 구독 플랜 사용자의 성능 저하 원인임을 정량적으로 입증했다.
9M 파라미터짜리 초소형 LLM으로 언어 모델 작동 원리 직접 이해하기
물고기 Guppy를 학습한 870만 파라미터 미니 LLM이 Colab 노트북 하나로 5분 만에 처음부터 구현되어, LLM의 블랙박스 이미지를 완전히 걷어낸다.
Claude Code가 23년간 숨어있던 Linux 취약점을 발견하다
Claude Code를 활용한 Anthropic 연구원 Nicholas Carlini가 Linux 커널의 23년간 미발견된 원격 익스플로잇 가능 힙 버퍼 오버플로우 취약점을 포함한 다수의 보안 취약점을 발견하며 AI가 기존 보안 연구 방식을 근본적으로 혁신할 수 있음을 입증했다.
100개 이상의 Claude Agent를 병렬로 돌려 테스트를 자동화한 사례 연구
Imbue 팀이 100개 이상의 Claude agent를 병렬로 오케스트레이션하여 CLI 도구 `mngr`의 end-to-end 테스트를 완전히 자동화하고 AI가 테스트 실행·디버그·수정을 직접 수행하는 프로덕션 아키텍처를 공개했다.
상용 LLM과 Deep Research Agent의 Reference Hallucination 탐지 및 교정
오픈소스 도구 urlhealth는 GPT-5.1, Gemini, Claude 등 주요 LLM이 생성한 인용 URL 중 3~13%의 가짜를 99% 이상 검출·제거한다.
AI 기반 Unit Test 자동 생성과 Test-Driven Code Refactoring: 실제 프로덕션 케이스 스터디
AI가 테스트 없는 프론트엔드 코드베이스에 16,000줄 테스트를 수 시간 만에 생성했고, 이를 가드레일로 삼아 대규모 리팩토링까지 안전하게 완료했다.
잘못된 질문에 답하기: LLM Abstention을 위한 Reasoning Trace Inversion
추론 흔적 역분석 방식이 모델의 실제 응답 대상을 재구성하고 원래 질문과 비교함으로써 LLM의 답변 거부(abstention) 판단 정확도를 높인다.
Claude Code 소스코드 유출 사건이 말해주는 것들
Claude Code는 소스코드 유출로 낮은 코드 품질에도 불구하고 연간 25억 달러 매출을 달성했음을 드러냈다.
Reasoning Shift: Context가 LLM의 추론을 조용히 짧게 만드는 방법
무관한 컨텍스트의 주입으로 추론 모델이 자기검증을 생략하며 추론 토큰을 최대 50% 감소시킨다.
Claude Code 멀티 에이전트 팀을 위한 실시간 Observability 대시보드
오픈소스 실시간 모니터링 대시보드가 Claude Code의 병렬 서브에이전트 실행 시 터미널에서 보이지 않는 툴 호출, 서브에이전트 동작, 이벤트 흐름을 한 화면에서 추적한다.
1-Bit Bonsai: 최초의 상업적으로 실용 가능한 1-Bit LLM 출시
PrismML의 1-bit 가중치 기반 Bonsai LLM 시리즈(8B/4B/1.7B)가 16-bit 모델 대비 메모리 14배 절감하고 속도 8배 향상하며 에너지 5배 절약하면서도 벤치마크 성능을 유지한다.
Structured Intent를 Protocol-Like 통신 레이어로: Cross-Model 강건성, Framework 비교, 그리고 약한 모델 보상 효과
5W3H 구조의 프롬프트가 약한 모델도 강한 모델 수준으로 끌어올리고 언어 변경에도 일관된 결과를 보장한다.
논문 17편을 읽고 나서: Claude Code에 대한 통념 대부분이 틀렸다
agentic AI 코딩 워크플로우 연구 17편 분석이 '칭찬 프롬프트', '멀티 에이전트 팀' 같은 널리 퍼진 조언들이 실제로 성능을 저하시킨다는 것을 드러냈다.
Claude Code 사용자들, 예상보다 훨씬 빠른 사용량 한도 소진 문제 겪는 중
Claude Code의 prompt cache 버그가 토큰을 10~20배 과소비하여 사용자들의 월 $100~$200 플랜을 몇 시간 만에 소진하게 한다.
CoE: 멀티 LLM 에이전트 시스템의 불확실성 측정을 위한 Collaborative Entropy
새로운 불확실성 지표가 여러 LLM 협업 시 개별 모델의 확신도와 모델 간 의견 차이를 동시에 측정한다.
Generative Multi-Agent System에서 나타나는 Social Intelligence 위험
LLM 기반 멀티에이전트 시스템은 명시적 지시 없이도 담합, 집단사고, 역할 실패 같은 인간 사회의 병폐를 자발적으로 재현한다.
토큰당 300KB에서 69KB로: LLM 아키텍처가 KV Cache 문제를 해결하는 방법
GPT-2부터 DeepSeek V3까지 LLM의 KV Cache 기법이 진화하면서 토큰당 메모리 비용을 300KB에서 69KB로 감소시켰다.
Knuth의 'Claude Cycles' 문제, 인간 + AI + 증명 보조 도구 협업으로 추가 진전
AI(LLM)와 Lean 형식 증명 보조 도구, 인간 전문가의 협력이 Donald Knuth의 'Claude Cycles' 문제를 해결하며 AI의 수학 연구 실질적 기여 가능성을 입증했다.
CERN, LHC 실시간 데이터 필터링에 FPGA 기반 초소형 AI 모델 적용
CERN은 PyTorch/TensorFlow 모델을 FPGA에 직접 탑재하여 LHC의 초당 수백 테라바이트 충돌 데이터를 나노초 단위로 필터링한다.
AI 모델끼리 지시할 수 있을까? 조직 구조로 훈련 한계 탐색하기
고가 LLM의 지휘를 받은 저가 LLM은 고가 LLM과 동일 수준의 성능을 저렴하게 발휘한다 — 능력 차이가 실질적일 때만.
Natural-Language Agent Harnesses: 자연어로 에이전트 제어 로직을 명세하는 프레임워크
프레임워크가 에이전트의 제어 로직을 코드 대신 자연어로 작성하고 공유 런타임이 실행하게 해서, 설계 패턴을 비교·재사용·분석할 수 있게 한다.
Kitchen Loop: User-Spec-Driven Development로 만드는 자가 진화 코드베이스
LLM 에이전트는 제품 스펙을 1000배 빠른 속도로 직접 사용해보며 버그를 찾고 PR을 자동 머지한다.
$500 GPU로 Claude Sonnet을 코딩 벤치마크에서 능가하는 ATLAS 프레임워크
14B 모델을 동결한 후 구조화된 생성·검증·반복 파이프라인으로 LiveCodeBench 74.6%를 달성하고 단일 소비자용 GPU만으로 프론티어 모델 수준의 코딩 성능을 낸다.