추론
추론 관련 최신 60편.
TerminalBench 1위 달성한 오픈소스 코딩 에이전트 Dirac - API 비용 50~80% 절감
컨텍스트를 극도로 효율적으로 관리해 API 비용을 평균 64.8% 줄이면서도 코드 품질은 올린 오픈소스 코딩 에이전트 Dirac이 공개됐다. Gemini-3-flash-preview 기준 TerminalBench-2에서 65.2%로 1위를 기록했다.
AI 에이전트는 돈을 어떻게 쓰나? Agentic Coding 작업에서 Token 소비 분석 및 예측
코딩 AI 에이전트는 일반 채팅보다 토큰을 1200배 이상 쓰며, 더 많이 써도 성능이 오르지 않는다.
Claude 구독 취소 후기: 토큰 소진 문제, 품질 저하, 그리고 형편없는 고객 지원
Claude Code Pro 구독자가 3주간 겪은 토큰 과다 소비, 모델 품질 저하, 무성의한 고객 지원 문제를 구체적 사례와 함께 고발한 글로, 커뮤니티에서 비슷한 경험을 가진 개발자들의 공감을 얻고 있다.
Tool Attention Is All You Need: Dynamic Tool Gating과 Lazy Schema Loading으로 MCP/Tools Tax 제거하기
MCP 에이전트가 매 턴마다 쓸모없는 툴 스키마를 수만 토큰씩 낭비하는 문제를, 의도 기반 동적 필터링으로 95% 줄이는 미들웨어 기법.
LLM의 CFG(Context-Free Grammar) 해석 능력 진단
LLM이 새로운 문법 규칙을 프롬프트에서 받았을 때 구문은 맞춰도 의미 구조는 무너진다는 걸 체계적으로 증명한 연구
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
Kuri – Zig으로 만든 AI 에이전트용 브라우저 자동화 도구
Node.js 없이 Zig으로 만든 464KB짜리 초경량 브라우저 자동화 도구로, AI 에이전트 루프에서 토큰 비용을 줄이는 데 특화되어 있다.
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.
Claude Token Counter 업그레이드: 모델 간 토크나이저 비교 기능 추가
Claude Opus 4.7이 새 토크나이저를 도입하면서 같은 입력에 대해 최대 1.46배 더 많은 토큰을 소비한다는 사실이 확인됐고, 이는 사실상 40% 이상의 비용 인상 효과다.
Chain-of-Thought가 Multimodal LLM의 시각적 공간 추론 능력을 저하시킨다
CoT(단계별 추론)를 쓸수록 이미지 공간 추론 정확도가 오히려 떨어진다는 17개 모델 대규모 실험 결과.
Neurosymbolic Repo-level Code Localization: LLM과 Datalog를 결합한 코드 위치 탐색
기존 코드 탐색 도구들이 파일명·함수명 키워드에 의존한다는 편향을 발견하고, LLM이 Datalog 쿼리를 생성해 결정론적 추론 엔진으로 실행하는 LogicLoc을 제안
Context Over Content: 자동화된 LLM-as-a-Judge에서 발견된 평가 조작 현상
LLM 판정 모델은 폐기 위협 정보를 받으면 Chain-of-Thought에 증거를 남기지 않고 점수를 관대하게 조작한다.
ATROPOS: Early Termination과 Model Hotswap으로 LLM 기반 에이전트의 비용-성능 트레이드오프 개선
SLM으로 시작한 후 실패를 예측하면 GPT-4로 갈아타는 방식으로 GPT-4o 성능의 74%를 비용 23.9%만으로 달성한다.
Google Gemma 4, iPhone에서 완전 오프라인 AI 추론 네이티브 실행
Google의 오픈소스 모델 Gemma 4가 iPhone에서 클라우드 없이 완전 로컬 추론으로 실행되어 온디바이스 AI가 실험 단계를 벗어나 실용화 단계에 진입했다.
Parallax: 생각하는 AI Agent는 절대 직접 행동해서는 안 된다
OS 프로세스 레벨 완전 분리 아키텍처는 Agent 해킹으로 인한 프롬프트 가드레일 무효화를 방지한다.
CodeBurn – Claude Code, Cursor 등 AI 코딩 도구의 token 사용량을 태스크별로 분석하는 TUI 대시보드
오픈소스 도구가 AI 코딩 도구의 token 소모를 터미널 대시보드로 시각화하되, 별도 API 키나 프록시 없이 로컬 세션 파일만으로 동작한다.
GAIA – 로컬 하드웨어에서 AI Agent를 실행하는 오픈소스 프레임워크
AMD의 GAIA 프레임워크는 로컬 PC에서 Python/C++로 클라우드 없이 AI Agent를 구동하여 프라이버시와 레이턴시를 개선하나, ROCm 생태계의 한계가 대규모 도입을 어렵게 한다.
Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation
메타 에이전트가 다중 AI 에이전트의 동시 조사를 단순 투표 대신 직접 탐색·종합하여 정확도를 향상시킨다.
Claude Code 월 $100 구독을 Zed + OpenRouter로 대체하기
Zed($10/월) + OpenRouter(종량제)가 Claude Code Max($100/월)를 대체하여 월간 비용 90% 절감하면서 크레딧 롤오버와 모델 선택 자유도를 제공한다.
TraceSafe: Multi-Step Tool-Calling Trajectory에서 LLM Guardrail 체계적 평가
벤치마크가 도구를 여러 번 호출하는 AI 에이전트의 실행 과정에서 guardrail의 허술함을 최초로 체계적으로 측정했다.
MegaTrain: 단일 GPU로 100B+ 파라미터 LLM을 Full Precision으로 학습하기
MegaTrain은 CPU 메모리를 주 저장소로, GPU를 연산 엔진으로만 활용함으로써 H200 GPU 단 한 장으로 120B 파라미터 모델을 풀 정밀도로 학습할 수 있다.
Railway가 프론트엔드를 Next.js에서 벗어난 이야기 — 빌드 시간 10분 → 2분 미만
Railway는 프로덕션 프론트엔드를 Next.js에서 Vite + TanStack Start로 마이그레이션하여 빌드 시간을 10분대에서 2분 미만으로 단축했다.
Tailslayer: DRAM refresh 지연으로 인한 RAM 읽기 tail latency를 줄이는 C++ 라이브러리
C++ hedged read 라이브러리가 데이터를 독립적인 DRAM 채널에 복제하고 가장 먼저 응답하는 채널의 결과를 선택함으로써 DRAM refresh 타이밍 충돌로 인한 RAM 읽기 tail latency를 감소시킨다.
LLM 집단 의사결정을 무너뜨리는 Social Dynamics의 취약점 분석
멀티에이전트 LLM 시스템에서 다수결 압박·전문가 권위·말 길이·수사학적 설득이 대표 에이전트의 정확한 판단을 저하시키는 것을 실험으로 증명했다.
Epistemic Blinding: LLM 기반 분석에서 사전 지식 오염을 감사하는 Inference-Time 프로토콜
익명화 기법이 LLM이 입력 데이터 대신 자신의 암기된 지식으로 분석하는 hallucination을 탐지한다.
Confidence Dynamics를 활용한 Large Reasoning Model의 Early Stopping
모델의 확신도 변화를 추적한 조기 중단이 불필요한 reasoning을 제거하며 토큰을 25~50% 절약한다.
Claude Code가 2월 업데이트 이후 복잡한 엔지니어링 작업에서 퇴보했다는 분석 보고서
로그 분석이 Anthropic의 2월부터의 Claude thinking 깊이 감소가 구독 플랜 사용자의 성능 저하 원인임을 정량적으로 입증했다.
Gemma Gem – 브라우저에 내장된 AI 모델 (API 키 없음, 클라우드 없음)
Chrome 확장 프로그램이 Google의 Gemma 4 모델을 WebGPU로 브라우저 안에서 완전히 로컬 실행하여 API 키나 서버 없이 웹 페이지를 읽고 클릭·입력 등 DOM 조작을 수행한다.
M3 Pro에서 실시간 AI 음성/영상 대화 구현 (Gemma E2B + Kokoro)
오픈소스 멀티모달 AI가 Apple Silicon M3 Pro에서 인터넷·클라우드 비용 없이 음성 인식·영상 이해·TTS를 실시간으로 동시 처리한다.
LM Studio 새 Headless CLI로 Gemma 4를 로컬에서 실행하고 Claude Code와 연동하기
Google Gemma 4 26B-A4B를 LM Studio 0.4.0의 lms CLI로 macOS 로컬에 구동하여 Claude Code와 연동함으로써, MoE 아키텍처 덕분에 48GB MacBook Pro에서 51 tok/s 성능을 달성하고 API 비용 없이 코딩 작업에 활용할 수 있다.
원시인 말투로 토큰 60% 절약하는 압축 프롬프트 기법
관사·접속사·조동사를 제거한 전보체 스타일은 LLM 응답 토큰을 60% 감소시킨다.
Claude Code가 사용량을 빠르게 소진하는 7가지 버그 — Extra Usage 전환 시 캐시 TTL이 5분으로 강등되는 최악의 버그 포함
Claude Code CLI의 7가지 버그는 Extra Usage 전환으로 캐시 TTL을 1시간에서 5분으로 강등해 사용 비용을 2.8배 폭등시킨다.
Claude에게 원시인 말투를 가르쳐 output 토큰 75% 절약하기
짧은 문장 강제 프롬프트는 output 토큰을 75% 감소시키지만 실제 비용 절감은 3~4% 수준에 그친다.
잘못된 질문에 답하기: LLM Abstention을 위한 Reasoning Trace Inversion
추론 흔적 역분석 방식이 모델의 실제 응답 대상을 재구성하고 원래 질문과 비교함으로써 LLM의 답변 거부(abstention) 판단 정확도를 높인다.
짧을수록 좋다: Function-Calling 에이전트에서 Chain-of-Thought 토큰 예산의 비단조적 효과
Function-Calling 에이전트는 CoT를 32토큰으로 제한할 때 최고 성능을 달성하며, 256토큰으로 확장하면 성능이 저하된다.
코드베이스 사전 인덱싱으로 Claude Code 대화당 ~50K 토큰을 절약하는 툴을 만들었습니다
코드베이스 인덱싱 도구가 Claude Code 매 대화마다의 코드베이스 반복 로딩 오버헤드를 제거한다.
Reasoning Shift: Context가 LLM의 추론을 조용히 짧게 만드는 방법
무관한 컨텍스트의 주입으로 추론 모델이 자기검증을 생략하며 추론 토큰을 최대 50% 감소시킨다.
1-Bit Bonsai: 최초의 상업적으로 실용 가능한 1-Bit LLM 출시
PrismML의 1-bit 가중치 기반 Bonsai LLM 시리즈(8B/4B/1.7B)가 16-bit 모델 대비 메모리 14배 절감하고 속도 8배 향상하며 에너지 5배 절약하면서도 벤치마크 성능을 유지한다.
논문 17편을 읽고 나서: Claude Code에 대한 통념 대부분이 틀렸다
agentic AI 코딩 워크플로우 연구 17편 분석이 '칭찬 프롬프트', '멀티 에이전트 팀' 같은 널리 퍼진 조언들이 실제로 성능을 저하시킨다는 것을 드러냈다.
Claude Code 사용자들, 예상보다 훨씬 빠른 사용량 한도 소진 문제 겪는 중
Claude Code의 prompt cache 버그가 토큰을 10~20배 과소비하여 사용자들의 월 $100~$200 플랜을 몇 시간 만에 소진하게 한다.
Claude Code의 캐시 버그로 API 비용이 조용히 10~20배 폭증할 수 있다
Claude Code의 캐시 관련 버그 2개가 API 비용을 최대 10~20배까지 증가시켜 $200/월 플랜 사용자들의 한도 소진을 가속화하고 있다.
Ollama 0.19, Apple Silicon에서 MLX 백엔드로 전환 — 속도 대폭 향상 (Preview)
Ollama가 Apple Silicon에서 llama.cpp 대신 Apple의 MLX 프레임워크로 백엔드를 전환하면서 추론 속도를 최대 2배까지 높이고 M5 칩의 GPU Neural Accelerator를 활용해 코딩 에이전트 워크플로우 성능을 향상시켰다.
Universal CLAUDE.md – Claude output token 63% 줄이기
CLAUDE.md 파일 추가로 Claude의 output token을 최대 63% 절감할 수 있다는 주장이 벤치마크 신뢰도 의문으로 커뮤니티에서 실제 효과를 인정받지 못하고 있다.
Claude Code의 두 가지 캐시 버그: API 비용을 10-20배 올리는 원인과 우회법
Claude Code 스탠드얼론 바이너리와 --resume 옵션의 캐시 버그 두 개가 API 비용을 10-20배 증가시킨다.
Hamilton-Jacobi-Bellman 방정식: Reinforcement Learning과 Diffusion Model의 수학적 연결고리
1840년대 물리학 방정식이 연속 시간 RL과 Diffusion Model 훈련을 같은 최적 제어 문제로 통합하며 수학적으로 두 분야의 동형성을 증명한다.
토큰당 300KB에서 69KB로: LLM 아키텍처가 KV Cache 문제를 해결하는 방법
GPT-2부터 DeepSeek V3까지 LLM의 KV Cache 기법이 진화하면서 토큰당 메모리 비용을 300KB에서 69KB로 감소시켰다.
CERN, LHC 실시간 데이터 필터링에 FPGA 기반 초소형 AI 모델 적용
CERN은 PyTorch/TensorFlow 모델을 FPGA에 직접 탑재하여 LHC의 초당 수백 테라바이트 충돌 데이터를 나노초 단위로 필터링한다.
AI 모델끼리 지시할 수 있을까? 조직 구조로 훈련 한계 탐색하기
고가 LLM의 지휘를 받은 저가 LLM은 고가 LLM과 동일 수준의 성능을 저렴하게 발휘한다 — 능력 차이가 실질적일 때만.
$7/월 VPS에 IRC를 transport로 쓰는 AI Agent 포트폴리오 도우미 만들기
개발자가 구축한 IRC 프로토콜 기반 AI agent는 GitHub 코드베이스를 실시간으로 분석하여 포트폴리오 방문자의 질문에 구체적으로 답하며 $7/월 VPS에서 비용 효율적으로 운영된다.
AI로 하루 만에 JSONata를 Go로 재작성해서 연간 $500K 절약한 이야기
Reco는 Claude AI를 활용해 Node.js 기반 JSONata 평가 파이프라인을 Go로 재작성하여 연간 $500K의 비용을 절감했다.
Chroma Context-1: Self-Editing 기능을 갖춘 검색 에이전트 학습 방법
Chroma의 20B 파라미터 agentic search 모델이 프론티어급 LLM 수준의 검색 성능을 1/10의 비용과 10배 빠른 속도로 달성한다.
$500 GPU로 Claude Sonnet을 코딩 벤치마크에서 능가하는 ATLAS 프레임워크
14B 모델을 동결한 후 구조화된 생성·검증·반복 파이프라인으로 LiveCodeBench 74.6%를 달성하고 단일 소비자용 GPU만으로 프론티어 모델 수준의 코딩 성능을 낸다.
MacBook에서 Claude Code를 완전 오프라인으로 실행하기 — API 키 없이, 클라우드 없이, 작업당 17초
Apple Silicon Mac에서 Qwen3를 Anthropic Messages API 형식으로 서빙하는 Python 서버가 Claude Code를 오프라인으로 구동하며 기존 Ollama+프록시 방식 대비 7.5배 빠르고 코드 외부 유출을 차단한다.
'hey' 한 마디가 사용량의 22%를 날렸다
Claude에 'hey' 같은 짧은 인사말을 생략하면 전체 토큰 할당량의 상당 부분을 절약할 수 있다.
Claude Code 사용량 한도가 줄어든 게 아니라, 1M Context Window가 토큰을 잡아먹고 있는 거다
Opus 4.6의 1M 컨텍스트 창은 context compression 문제로 Claude Code의 rate limit을 빠르게 차게 하며, 1M 모델을 비활성화하면 안정성이 개선된다.
TurboQuant: 극단적 압축으로 KV 캐시 6배 축소, H100 어텐션 연산 8배 가속 (Google Research)
Google Research의 PolarQuant + QJL 알고리즘이 KV 캐시를 3비트로 압축하면서 정확도 손실 제로를 유지하고 H100에서 8배 속도 향상을 달성한다.
소프트웨어 변경 시 LLM 기반 테스트 생성 성능 평가
8개 LLM이 22,374개 프로그램 변형으로 한 대규모 실험에서 생성 테스트의 99% 이상이 원본 코드 패턴에 종속되어 코드 변경 후 급격히 열화됨을 드러냈다.
Hypura – Apple Silicon용 스토리지 계층 인식 LLM 추론 스케줄러
Rust 기반 오픈소스 프로젝트가 LLM을 GPU, RAM, NVMe에 분산 배치하여 Mac 물리 메모리 초과 모델을 실행하고 llama.cpp의 OOM 크래시 문제를 해결한다.
LLM Neuroanatomy II: Modern LLM Hacking and Hints of a Universal Language?
Transformer 레이어를 훈련 없이 복제하는 기법 RYS는 모든 최신 LLM에서 작동하며 내부 표현을 언어 무관한 범용 언어로 수렴시킨다.
서버리스 GPU 시장 심층 분석: 플랫폼별 실제 차이점
Vast.ai, RunPod, Yotta Labs는 서버리스 GPU를 각기 다른 4가지 아키텍처로 구현하여 플랫폼별 선택 기준이 결정됨.