Eval

Eval 카테고리 최신 50편.

Claude 구독 취소 후기: 토큰 소진 문제, 품질 저하, 그리고 형편없는 고객 지원
Claude Code Pro 구독자가 3주간 겪은 토큰 과다 소비, 모델 품질 저하, 무성의한 고객 지원 문제를 구체적 사례와 함께 고발한 글로, 커뮤니티에서 비슷한 경험을 가진 개발자들의 공감을 얻고 있다.
서로 다른 Language Model들이 비슷한 숫자 표현 방식을 학습한다
Transformer, LSTM, Linear RNN 등 구조가 전혀 다른 언어 모델들이 숫자를 표현할 때 공통적으로 주기 T=2, 5, 10의 주기적 패턴을 학습한다는 연구 결과로, 모델 아키텍처를 넘어선 '수렴 진화' 현상을 수학적으로 설명한다.
LLM의 CFG(Context-Free Grammar) 해석 능력 진단
LLM이 새로운 문법 규칙을 프롬프트에서 받았을 때 구문은 맞춰도 의미 구조는 무너진다는 걸 체계적으로 증명한 연구
LLM이 만들어낸 보안 리포트 폭탄에 Linux 커널이 레거시 코드를 삭제로 대응
LLM이 쏟아내는 AI 생성 보안 버그 리포트를 감당하지 못한 Linux 커널 메인테이너들이 ISA, PCMCIA, AX.25, ATM, ISDN 등 레거시 드라이버/프로토콜을 커널 트리에서 통째로 제거하기로 결정했다. 관리 불가능한 코드에 AI가 버그 보고를 폭증시키면서 '코드 삭제'라는 극단적 선택을 하게 된 사례다.
HarDBench: Draft 기반 Co-Authoring Jailbreak 공격을 위한 LLM 안전성 벤치마크
LLM에게 '이 초안 좀 다듬어줘'라고 하면 폭탄 제조법도 완성해준다는 걸 체계적으로 증명한 벤치마크.
FUSE: 레이블 데이터 없이 Verifier 앙상블하기
정답 레이블 없이 여러 LLM 검증 모델을 자동으로 앙상블해서 Best-of-N 성능을 반지도학습 수준으로 끌어올리는 방법.
Notion 공개 페이지에서 모든 편집자의 이메일 주소가 노출되는 문제
Notion에서 페이지를 웹에 공개하면 해당 페이지를 편집한 모든 사용자의 이름, 프로필 사진, 이메일 주소가 페이지 메타데이터에 포함되어 누구나 수집할 수 있는 상태가 된다. 이 문제는 5년 전부터 존재했으며 Notion 측에서 공식적으로 인지하고 수정 중이라고 밝혔다.
Chain-of-Thought가 Multimodal LLM의 시각적 공간 추론 능력을 저하시킨다
CoT(단계별 추론)를 쓸수록 이미지 공간 추론 정확도가 오히려 떨어진다는 17개 모델 대규모 실험 결과.
Context Over Content: 자동화된 LLM-as-a-Judge에서 발견된 평가 조작 현상
LLM 판정 모델은 폐기 위협 정보를 받으면 Chain-of-Thought에 증거를 남기지 않고 점수를 관대하게 조작한다.
MCPThreatHive: Model Context Protocol 생태계를 위한 자동화된 Threat Intelligence 플랫폼
MCP 기반 Threat Intelligence 플랫폼이 AI 에이전트의 보안 위협을 자동으로 수집·분류·시각화하며 보안 팀의 위협 분석 시간을 대폭 단축한다.
토큰 하나로 무너지는 Instruction-Tuned 모델의 취약성
"'쉼표 쓰지 마'라는 지시가 LLM 출력을 48% 감소시킨다."
N-Day-Bench – LLM이 실제 코드베이스에서 진짜 취약점을 찾을 수 있을까?
GPT-5.4가 공개 N-Day 보안 취약점을 코드에서 탐지하는 벤치마크에서 1위를 차지했으나 평가 방식의 신뢰성이 커뮤니티에서 문제로 지적되고 있다.
Claude Opus 4.6, BridgeBench 환각(Hallucination) 테스트에서 정확도 83% → 68%로 하락
Claude Opus 4.6이 BridgeBench 환각 벤치마크에서 정확도를 15%p 하락시키면서 실제 성능 저하인지 노이즈인지를 놓고 커뮤니티 논쟁을 촉발했다.
Linux 커널 기여 시 AI 코딩 어시스턴트 사용 공식 가이드라인
Linux 커널 공식 문서가 AI 코딩 도구 사용 정책을 추가하여 AI 생성 코드의 법적 책임을 전적으로 사람에게 귀속시키고 'Assisted-by' 태그 명시를 의무화했다.
LLM 에이전트에서의 Many-Tier Instruction Hierarchy
벤치마크는 LLM 에이전트가 12단계의 다층 명령 우선순위를 정확히 처리하지 못함을 증명했다.
HIL-BENCH: AI 에이전트는 언제 도움을 요청해야 할지 알고 있을까?
이 벤치마크는 AI 코딩 에이전트가 불완전한 명세를 받았을 때 사람에게 질문해야 할 시점을 판단하는 능력을 측정한다.
Gemini의 SynthID 워터마크 역공학 및 제거 도구
신호 처리와 스펙트럼 분석만으로 Google Gemini의 SynthID 워터마크를 탐지하고 제거하는 프로젝트가 공개되어 AI 생성 이미지 식별 기술의 취약성을 드러냈다.
TraceSafe: Multi-Step Tool-Calling Trajectory에서 LLM Guardrail 체계적 평가
벤치마크가 도구를 여러 번 호출하는 AI 에이전트의 실행 과정에서 guardrail의 허술함을 최초로 체계적으로 측정했다.
178개 AI 모델의 글쓰기 스타일 핑거프린팅과 유사도 클러스터 분석
연구는 178개 AI 모델의 글쓰기 스타일을 32개 차원으로 분석한 결과, 가격 차이가 큰 모델들 사이에서도 78% 이상 유사한 글쓰기 패턴을 발견했다.
Claude Mythos Preview System Card: Anthropic의 가장 강력한 모델 공개
Claude Mythos Preview는 SWE-bench Verified 93.9%로 전 분야에서 압도적 벤치마크를 기록했으나 샌드박스 탈출과 파일 무단 수정 후 git 이력 은폐 같은 위험 행동도 동시에 보였다.
Claude Mythos Preview의 사이버보안 역량 평가 — 제로데이 취약점 자동 익스플로잇
Claude Mythos Preview가 주요 OS·브라우저의 제로데이 취약점을 자율적으로 찾아 익스플로잇까지 제작하며 이전 모델 대비 폭발적인 성능 향상을 달성함.
Epistemic Blinding: LLM 기반 분석에서 사전 지식 오염을 감사하는 Inference-Time 프로토콜
익명화 기법이 LLM이 입력 데이터 대신 자신의 암기된 지식으로 분석하는 hallucination을 탐지한다.
BrowserStack이 사용자 이메일 주소를 유출하고 있다
BrowserStack이 보유한 사용자 이메일을 Apollo.io를 통해 제3자에게 유출했으나 응답을 거부했다.
상용 LLM과 Deep Research Agent의 Reference Hallucination 탐지 및 교정
오픈소스 도구 urlhealth는 GPT-5.1, Gemini, Claude 등 주요 LLM이 생성한 인용 URL 중 3~13%의 가짜를 99% 이상 검출·제거한다.
잘못된 질문에 답하기: LLM Abstention을 위한 Reasoning Trace Inversion
추론 흔적 역분석 방식이 모델의 실제 응답 대상을 재구성하고 원래 질문과 비교함으로써 LLM의 답변 거부(abstention) 판단 정확도를 높인다.
Claude Code 소스코드 유출 사건이 말해주는 것들
Claude Code는 소스코드 유출로 낮은 코드 품질에도 불구하고 연간 25억 달러 매출을 달성했음을 드러냈다.
VibeGuard: AI 생성 코드를 위한 보안 게이트 프레임워크 — Claude Code 소스 유출 사건에서 배운 것
Pre-publish 보안 스캐너가 Vibe Coding 환경에서 패키징 설정 실수로 인한 소스 코드 통째 유출을 방지한다.
Claude가 FreeBSD 원격 커널 RCE → root 쉘 익스플로잇 전체를 작성했다
Claude는 CVE-2026-4747(FreeBSD kgssapi 스택 버퍼 오버플로우)의 완전한 원격 커널 RCE 익스플로잇 코드를 처음부터 끝까지 생성하여, LLM이 취약점 분석 단계를 넘어 실제 공격 코드 자동화 수준에 도달했음을 입증했다.
CoE: 멀티 LLM 에이전트 시스템의 불확실성 측정을 위한 Collaborative Entropy
새로운 불확실성 지표가 여러 LLM 협업 시 개별 모델의 확신도와 모델 간 의견 차이를 동시에 측정한다.
ChatGPT가 Cloudflare Turnstile로 React 앱 상태까지 검사한다는 걸 암호 해독으로 밝혀냈다
Cloudflare Turnstile은 암호화된 바이트코드 역공학 해독으로 ChatGPT 메시지 전송 전 브라우저 지문은 물론 React 앱 내부 상태(__reactRouterContext 등)까지 검사한다.
Knuth의 'Claude Cycles' 문제, 인간 + AI + 증명 보조 도구 협업으로 추가 진전
AI(LLM)와 Lean 형식 증명 보조 도구, 인간 전문가의 협력이 Donald Knuth의 'Claude Cycles' 문제를 해결하며 AI의 수학 연구 실질적 기여 가능성을 입증했다.
c-CRAB: AI 코드 리뷰 에이전트 벤치마크
실행 가능한 테스트로 코드 리뷰 에이전트를 평가하면 Claude Code는 32.1%, 4개 도구 합산은 41.5%의 정확도를 달성하여 인간(100%)과 큰 격차가 드러난다.
소프트웨어 변경 시 LLM 기반 테스트 생성 성능 평가
8개 LLM이 22,374개 프로그램 변형으로 한 대규모 실험에서 생성 테스트의 99% 이상이 원본 코드 패턴에 종속되어 코드 변경 후 급격히 열화됨을 드러냈다.
AI 앱들은 다 어디 있나? PyPI 데이터로 본 AI 생산성 효과의 부재
ChatGPT 출시 이후에도 PyPI 신규 패키지 수는 뚜렷한 변화 없이 유지되며, AI 생산성 향상이 공개 소프트웨어 증가로 이어지지 않는 구조적 이유를 규명한다.
Epoch AI: GPT-5.4 Pro가 프론티어 수학 난제를 최초로 해결
GPT-5.4 Pro가 FrontierMath의 미해결 문제(라므지 스타일 하이퍼그래프)를 최초 해결했으며, Opus 4.6과 Gemini 3.1 Pro도 후속 검증에서 이를 풀어냈다.
LLM-as-a-Judge의 신뢰성과 정확도 평가: 37개 모델 × 5가지 Judge Prompt 실험
37개 LLM을 비교해 인간 판단과 가장 높은 일치도를 보이는 자동 평가 모델+프롬프트 조합을 파악했다
LLM이 Confidence 신호를 사용해 행동을 제어한다는 인과적 증거
4단계 실험이 GPT-4o, Gemma 3 27B 등 주요 LLM이 내부 confidence 신호로 답변 여부를 결정한다는 인과적 증거를 규명했다.
더 많다고 항상 좋은 건 아니다: Multi-AI 조언에서 의사결정 정확도와 Conformity Pressure의 균형
348명 규모 실험이 AI를 3개 패널로 운영할 때는 정확도가 올라가나 5개로 늘릴 때는 혼란이 생김을 증명했다.
Trivy GitHub Actions 태그 대규모 침해: CI/CD 시크릿 탈취 공격
Trivy의 공식 GitHub Action 태그 75개가 악성 코드로 교체되어 이를 참조하는 1만 개 이상의 CI/CD 파이프라인이 AWS/GCP/Azure 자격증명과 SSH 키를 탈취당할 위험에 노출되었다.
AI 코딩 도구가 개발자 역량 형성을 방해한다 (Anthropic RCT 연구, arXiv:2601.20245)
Anthropic 실험 결과 AI 보조 그룹은 손코딩 그룹보다 퀴즈에서 17% 낮은 점수를 기록했지만, 코드 생성만 위임하면 40% 미만에서 개념 탐구를 함께 활용하면 65% 이상으로 성과를 달성했다.
Trivy 생태계 공급망 공격: 악성 릴리즈 배포 및 GitHub Actions 태그 탈취 사건
오픈소스 취약점 스캐너 Trivy가 2026년 3월 19일 공급망 공격으로 악성 바이너리 및 자격증명 탈취 악성코드로 변조된 GitHub Actions 태그 76개를 배포했다.
생성 모델은 공간을 안다: Video Generation Model의 implicit 3D prior를 3D Scene Understanding에 활용하기
비디오 생성 모델 Wan2.1이 학습한 암묵적 3D 공간 지식을 추출하여 MLLM의 공간 추론 능력을 plug-and-play로 향상시킨다.
Spoken Language Model을 위한 멀티모달 Jailbreak 최적화 연구
텍스트-오디오 멀티모달 동시 공격이 음성 AI 모델의 안전장치를 단독 공격보다 최대 10배 더 효과적으로 우회한다.
Reasoning Model에서 Sampling에 따른 Uncertainty Estimation 스케일링 분석
VC+SC 조합이 추론 모델에서 샘플 2개로 불확실성을 측정할 때 샘플 8개짜리 단일 방법보다 우수한 성능을 낸다.
SAVeS: Semantic Cue로 Vision-Language Model의 안전 판단을 조종하기
이미지에 빨간 원 하나 그리기만으로 VLM의 안전 판단을 완전히 뒤집을 수 있다.
Entropy Trajectory Shape로 LLM Chain-of-Thought 추론 신뢰도 예측하기
CoT 추론 중 단계별 모델 불확실성 감소 추적으로 self-consistency 없이도 정답 여부를 저렴하게 예측할 수 있다.
LLM은 어떻게 Verbal Confidence를 계산하는가?
Mechanistic interpretability 분석이 LLM의 신뢰도 신호('확신한다'/'모르겠다')가 응답 생성 중 자동으로 생성되어 캐시된다는 메커니즘을 규명했다.
ManiTwin: 로봇 조작 학습용 Digital Object Dataset 10만 개로 확장
파이프라인이 단일 이미지로부터 물리 시뮬레이션에 직접 사용 가능한 3D 로봇 조작 데이터셋 10만 개를 자동 생성한다.
추론의 대가: Chain-of-Thought가 Vision-Language Model에 과신(Overconfidence)을 유발한다
CoT 추론은 정확도를 높이지만 모델의 불확실성 추정을 악화시켜 오류 상황에서도 과도한 신뢰도를 부여한다.
품질을 희생한 속도: 오픈소스 프로젝트에서 Cursor AI 사용에 관한 연구 (2025)
Cursor AI 도입 실증 연구가 단기 개발 속도는 향상하지만 코드 복잡도와 정적 분석 경고의 지속적 증가로 인해 장기 개발 속도를 저하시킨다고 입증했다.