프롬프트
프롬프트 관련 최신 60편.
AI로 코딩할 때 Flow State(몰입 상태)를 유지하는 방법
Claude 같은 에이전트 기반 AI 코딩 도구가 보편화되면서 개발자들이 기존의 몰입 상태(flow state)를 잃어버리고 있다는 문제를 공유하고, 커뮤니티에서 각자의 대처 방법을 논의한 스레드.
TAHOE: 경험 기반 자동 Hint 최적화를 통한 Text-to-SQL 시스템
LLM이 SQL 생성 실패에서 배운 힌트를 재사용 가능한 Hint Bank로 쌓아, 모델 재학습 없이 Snowflake 방언 SQL 정확도를 대폭 끌어올리는 시스템.
Self-Distillation에서 Feedback Alignment의 역할
LLM이 스스로를 가르칠 때, 피드백을 모델의 추론 흐름에 단계별로 맞추면 GRPO보다 16점 이상 수학 추론 성능이 오른다.
처음부터 만드는 기본 AI Agent: 장기 태스크 플래닝
AI Agent가 긴 작업을 계획하고 실행하는 방법을 스크래치 코드로 설명한 튜토리얼인데, 댓글에서 실전 플래닝 전략에 대한 풍부한 경험담이 오갔다.
AI 시대에 개발자들이 직접 만들어 쓰는 개인 도구들 모음
Hacker News 커뮤니티에서 AI를 활용해 개발자들이 직접 만들어 쓰는 개인 도구들을 공유한 스레드로, '하이퍼-퍼스널 소프트웨어' 트렌드를 잘 보여준다.
Lathe – LLM으로 새 도메인을 직접 배우는 튜토리얼 생성 CLI 도구
LLM이 대신 코드를 짜주는 게 아니라, 직접 손으로 따라할 수 있는 실습형 튜토리얼을 생성해주는 CLI 도구다. AI에게 생각을 맡기는 대신 배움의 도구로 활용하는 접근법이라 주목받고 있다.
DuMate-DeepResearch: Recursive Search와 Rubric 기반 추론을 갖춘 감사 가능한 Multi-Agent 시스템
Baidu가 만든 Deep Research 멀티에이전트 프레임워크로, DAG 기반 동적 플래닝 + 재귀 검색 에이전트 + Rubric 스캐폴딩을 조합해 두 벤치마크에서 SOTA를 달성했다.
DyCon: Evolving Difficulty Modeling을 통한 Dynamic Reasoning Control
LLM의 내부 hidden state에서 난이도를 실시간으로 추정해 쉬운 문제엔 추론을 빨리 끊고, 어려운 문제엔 깊이 생각하게 만드는 training-free 방법
ToolChoiceConfusion: 신뢰할 수 있는 LLM 에이전트를 위한 Causal Minimal Tool Filtering
LLM 에이전트에 도구를 100개 다 보여주지 말고, 지금 당장 필요한 것 1개만 보여주면 성공률은 그대로에 토큰은 90% 절약된다.
AI Agent를 위한 TDD(테스트 주도 개발) Skill 만들기
AI 에이전트가 형편없는 테스트를 작성하는 문제를 해결하기 위해, Kent Beck의 Canon TDD 원칙을 'Skill'로 만들어 에이전트에게 주입하는 방법을 공유한다. 에이전트 코딩에서 테스트 품질을 높이고 싶은 개발자에게 실용적인 접근법을 제시한다.
Clustered Self-Assessment: LLM 불확실성 정량화를 위한 간단하고 효과적인 방법
LLM이 여러 답변을 의미 단위로 묶어 객관식으로 만들고 스스로 채점해서 '이 답 얼마나 확신해?'를 수치로 뽑아내는 기법.
LLM Agent로 Time Series Forecasting의 'Last Mile' 문제 해결하기
통계 모델이 만든 예측값을 휴일/캠페인/외부 이벤트 맥락을 반영해 실제 비즈니스에서 쓸 수 있는 수준으로 자동 보정해주는 LLM 에이전트 프레임워크.
LinTree: 명시적으로 구조화된 Search History로 LLM 추론 개선하기
LLM의 추론 트레이스에 부모 포인터(parent pointer)만 추가해도 탐색 성능과 효율이 크게 올라간다.
Open Envelope – AI Agent 팀을 정의하는 오픈 스키마
여러 AI 에이전트가 팀처럼 협업하는 구조를 벤더 중립적인 오픈 스키마로 선언적으로 정의할 수 있게 해주는 프로젝트로, 멀티 에이전트 오케스트레이션의 표준화를 시도한다.
LLM 기반 Multi-Agent 시스템의 Temporal & Structural Credit Assignment 통합 Prompt 최적화
여러 AI 에이전트가 협력할 때 '어느 라운드의 어느 에이전트'가 실패했는지 정확히 짚어내서 그 프롬프트만 고치는 최적화 프레임워크
CORE: Contrastive Reflection으로 추론 능력을 빠르게 개선하기
성공/실패 추론 트레이스를 비교해 짧은 자연어 인사이트를 뽑아내고, 단 5개 학습 샘플로도 GRPO보다 빠르게 모델 추론 성능을 올리는 비파라메트릭 알고리즘.
Claude Code를 일상 도구로: Claude.md, Skills, Subagents, Plugins, MCPs 활용법
Claude Code를 터미널 AI 코딩 도구로 제대로 쓰기 위한 Claude.md 설정, 서브에이전트, 플러그인, MCP 연동 실전 가이드
Cloudflare가 대규모 AI Code Review를 오케스트레이션한 방법
Cloudflare가 수만 건의 머지 리퀘스트에 AI 코드 리뷰를 적용하면서 겪은 설계 결정과 아키텍처를 공개했다. 단순한 LLM 호출이 아닌 7개의 전문 에이전트를 코디네이터가 관리하는 구조로 노이즈를 줄이고 실제 버그를 잡아내는 방식이 핵심이다.
AMEL: 대화 히스토리가 LLM 판단에 미치는 누적 편향 효과
LLM을 자동 평가자로 쓸 때 이전 대화 기록의 긍정/부정 분위기가 이후 판단을 오염시킨다는 걸 75,898개 API 호출로 증명한 연구.
AI로 Rust 코드 100K 라인 작성하며 얻은 교훈 (2025)
Azure RSL(분산 합의 라이브러리)을 Rust로 재구현하면서 AI 코딩 에이전트를 활용해 4주 만에 100K 라인을 작성한 경험담으로, Code Contracts와 Spec-Driven Development를 AI와 조합하는 실전 워크플로우를 공유한다.
프로덕션 LLM Agent를 위한 Runtime Architecture Pattern 선택 및 조합 방법론
LLM agent가 왜 터지는지 이름 붙이고, 어떤 아키텍처 패턴을 언제 써야 하는지 5단계로 정리한 실전 가이드
Back-and-Forth를 줄여라: Structured Prompting 비교 연구
체크리스트 형식으로 프롬프트를 구조화하면 LLM 답변 품질도 높아지고 토큰도 적게 쓴다.
Forge – Guardrails로 8B 모델 성능을 53%에서 99%로 끌어올리기
작은 로컬 LLM(8B)에 guardrails(구조적 안전망)를 씌워 멀티스텝 에이전트 작업 성공률을 53%에서 99%까지 올린 Python 프레임워크 Forge 공개. 모델 자체는 건드리지 않고 실행 환경을 강화하는 접근법이라 주목받고 있음.
FORGE: Weight 업데이트 없이 Population Broadcast로 자기진화하는 Agent Memory
파인튜닝 없이 여러 AI 에이전트가 실패 경험을 공유하며 집단지성으로 메모리를 진화시키는 프레임워크
Formal Methods와 LLM의 만남: AI 시스템 규정 준수를 위한 감사, 모니터링, 개입
LLM이 규칙을 잘 지키고 있는지 감시하려면 LLM에게 맡기지 말고 LTL(시간 논리 공식) 기반 모니터를 쓰세요.
대규모 코드베이스에서 Claude Code가 동작하는 방식: 모범 사례와 시작점
Anthropic이 수백만 줄짜리 모노레포, 레거시 시스템, 수십 개 마이크로서비스 환경에서 Claude Code를 운영한 패턴을 정리한 글이다. RAG 방식 대신 에이전틱 검색을 쓰는 이유와 실제 현장의 한계를 함께 확인할 수 있다.
OpenDeepThink: Bradley–Terry Aggregation을 활용한 병렬 추론
LLM 여러 답안을 토너먼트 방식으로 비교·진화시켜 외부 검증기 없이도 경쟁 프로그래밍 Elo를 +405 올린 프레임워크
Statewright – AI 에이전트를 안정적으로 만드는 Visual State Machine
AI 에이전트에게 40개 이상의 도구를 주면 오히려 성능이 떨어지는 문제를 State Machine으로 각 단계별 사용 가능한 도구를 제한해 해결하는 오픈소스 프로젝트다. 더 큰 모델 대신 더 작은 문제 공간을 만들어 신뢰성을 높이는 접근이 핵심이다.
Training-Free Cultural Alignment: Persona 불일치를 활용한 LLM 문화적 정렬
재학습 없이 각 나라의 도덕적 가치관에 맞게 LLM 출력을 조정하는 추론 시점 기법 DISCA 제안
Claude를 User Space IP Stack으로 써서 Ping에 응답시키면 얼마나 빠를까?
Claude Code에게 IP 패킷을 직접 파싱하고 ICMP echo reply를 구성하도록 시켜서 실제로 ping에 응답하게 만든 실험으로, 'Markdown이 곧 코드이고 LLM이 프로세서'라는 아이디어를 네트워크 스택 수준까지 밀어붙인 재미있는 사례다.
Claude Code에서 HTML을 출력 포맷으로 쓰는 이유: Markdown보다 나은 점들
Claude Code 팀이 Markdown 대신 HTML을 LLM 출력 포맷으로 선호하기 시작한 이유와 그 실용적 장점을 정리한 글로, AI와 함께 문서/스펙/대시보드를 만드는 워크플로우에 직접적인 영향을 준다.
일찍 물어라, 늦게 물어라, 제때 물어라: Long-Horizon Agent에서 Clarification 타이밍은 언제 중요한가?
AI 에이전트가 작업 중 언제 사용자에게 질문해야 하는지 처음으로 수치화한 연구 — 목표 clarification은 실행 10% 이내, 입력 clarification은 50% 이내가 한계.
Natural Language Autoencoders: Claude의 내부 활성화를 자연어 텍스트로 변환하는 기법
Anthropic이 LLM 내부의 숫자 벡터(활성화값)를 직접 읽을 수 있는 자연어로 변환하는 NLA 기법을 공개했다. AI가 실제로 무슨 생각을 하는지 해석하는 interpretability 연구의 새로운 진전이다.
첫 번째 토큰이 이미 알고 있다: Single-Decode Confidence로 Hallucination 탐지하기
LLM이 답변의 첫 토큰을 생성할 때의 확률 분포만 봐도, 10번 샘플링하는 semantic self-consistency와 맞먹는 hallucination 탐지 성능이 나온다.
Conceptor를 이용한 Semantic Steering: LLM 내부 표현의 다차원 개념 제어
LLM의 hidden state에 행렬 기반 'conceptor'를 끼워서 감정·정치성향·우울 같은 개념을 재학습 없이 정밀하게 조종하는 방법
Implicit Traits Steering으로 Multi-Agent 환경의 Misalignment Contagion 완화하기
여러 AI 에이전트가 상호작용할 때 나쁜 행동이 전파되는 현상을 발견하고, 시스템 프롬프트 반복 대신 모델의 암묵적 성격을 주기적으로 주입해 막는 방법을 제안.
Specsmaxxing – AI 사이코시스 극복기, 그리고 내가 YAML로 스펙을 쓰는 이유
AI 코딩 에이전트와 일할 때 컨텍스트가 날아가거나 요구사항이 흐려지는 문제를 해결하기 위해, 인수 조건(Acceptance Criteria)을 YAML로 구조화해서 스펙을 관리하는 방법론과 오픈소스 툴킷(acai.sh)을 소개하는 글이다.
RunAgent: Constraint 기반 실행으로 자연어 Plan을 해석하는 Multi-Agent 실행 플랫폼
LLM이 자연어 플랜을 단계별로 확실히 실행하도록 IF/GOTO/FORALL 같은 제어 구문과 자동 constraint 검증을 붙인 에이전트 실행 프레임워크.
In-Context Prompting이 절차적 작업에서 Agent Orchestration을 대체한다
LangGraph 같은 에이전트 오케스트레이션 프레임워크 쓰지 말고, 절차 전체를 시스템 프롬프트에 넣으면 품질도 높고 실패율도 낮다.
Alignment Whack-a-Mole: 파인튜닝이 LLM 내부의 저작권 도서 암기를 활성화한다
안전 정렬(alignment)된 LLM도 파인튜닝을 거치면 억제됐던 저작권 책 내용을 그대로 출력하게 된다는 연구로, LLM의 저작권 침해 위험이 단순히 프롬프트 필터링으로는 해결되지 않음을 보여준다.
언제 투표하고 언제 다시 쓸까: Disagreement 기반 Test-Time Scaling 전략 라우팅
모델 출력이 얼마나 일치하는지 보고 쉬운 문제엔 majority voting, 어려운 문제엔 문제 rewriting을 자동으로 선택해 정확도 3~7% 올리고 샘플링 비용도 줄이는 학습 불필요 프레임워크.
AI Fluency의 역설: 숙련 사용자가 더 많이 실패하는 이유
AI를 잘 쓰는 사람일수록 실패를 더 많이 경험하지만, 그 실패는 눈에 보이고 회복 가능한 반면 초보자는 실패한 줄도 모른다.
Less Is More: Android 앱에 On-Device Small Language Model 통합할 때 실제로 겪는 엔지니어링 문제들
Wordle 게임에 온디바이스 SLM(Gemma 4 E2B, Qwen3 0.6B)을 5일간 붙여보면서 발견한 5가지 실패 유형과 8가지 실용 해결책 정리
자연어에서 검증된 코드까지: Dafny 기반 Formal Verification으로 AI 코드 생성 신뢰성 높이기
LLM이 생성한 코드를 수학적으로 100% 증명하는 Formal Verification 파이프라인 — Gemma 4-31B가 90.91% 성공률 달성.
Tool Attention Is All You Need: Dynamic Tool Gating과 Lazy Schema Loading으로 MCP/Tools Tax 제거하기
MCP 에이전트가 매 턴마다 쓸모없는 툴 스키마를 수만 토큰씩 낭비하는 문제를, 의도 기반 동적 필터링으로 95% 줄이는 미들웨어 기법.
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.
Bayesian Linguistic Forecaster: Sequential Bayesian Updating으로 미래 예측하는 Agentic 시스템
LLM이 검색할 때마다 확률 추정치를 JSON 형태로 업데이트하는 Bayesian 믿음 상태 방식이 웹 검색보다 더 중요한 성능 향상 요소임을 입증한 예측 시스템.
ctx – Claude Code와 Codex 양쪽에서 동작하는 /resume 로컬 컨텍스트 매니저
Claude Code와 OpenAI Codex 사이에서 대화 컨텍스트를 정확하게 유지하고 브랜칭할 수 있는 로컬 CLI 도구로, AI 코딩 세션을 끊김 없이 이어가고 싶은 개발자에게 유용하다.
Mediator.ai – Nash 협상 이론과 LLM으로 공정한 합의점 찾기
Nash 균형 이론과 LLM을 결합해 분쟁 당사자 양측이 수용 가능한 합의안을 자동으로 생성해주는 AI 조정 플랫폼으로, 창업자 지분 분쟁이나 계약 분쟁 같은 현실적인 상황에 적용 가능하다.
Chain-of-Thought가 Multimodal LLM의 시각적 공간 추론 능력을 저하시킨다
CoT(단계별 추론)를 쓸수록 이미지 공간 추론 정확도가 오히려 떨어진다는 17개 모델 대규모 실험 결과.
CollabCoder: Plan-Code Co-Evolution을 통한 협력적 의사결정 기반 효율적 코드 생성
멀티 에이전트 프레임워크가 플랜과 코드를 함께 진화시키며 기존 대비 11~20% 높은 정확도와 API 호출 4~10회 감소를 동시에 달성한다.
Plain – 사람과 AI 에이전트 모두를 위해 설계된 Python 풀스택 웹 프레임워크
Django 포크 기반 Python 웹 프레임워크가 타입 명시, 단일 관습, 에이전트 친화적 구조로 재설계되어 LLM의 코드 가독성과 수정성을 향상시킴
토큰 하나로 무너지는 Instruction-Tuned 모델의 취약성
"'쉼표 쓰지 마'라는 지시가 LLM 출력을 48% 감소시킨다."
Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation
메타 에이전트가 다중 AI 에이전트의 동시 조사를 단순 투표 대신 직접 탐색·종합하여 정확도를 향상시킨다.
Claude와 Codex로 3주 만에 소셜 미디어 관리 툴을 만든 경험기
Claude Opus와 OpenAI Codex로 3주 만에 Buffer/Sendible 대체 오픈소스 소셜 미디어 관리 플랫폼을 완성하며 AI 코딩 도구의 효과적인 활용 영역과 한계를 파악했다.
LLM 에이전트에서의 Many-Tier Instruction Hierarchy
벤치마크는 LLM 에이전트가 12단계의 다층 명령 우선순위를 정확히 처리하지 못함을 증명했다.
CSS Studio: 브라우저에서 직접 디자인하고 AI Agent가 코드로 변환
MCP 기반 디자인 도구는 브라우저의 CSS 시각적 편집을 AI Agent가 실제 코드베이스에 자동 반영하여 프레임워크 무관하게 WYSIWYG 워크플로우를 실현한다.
확장 가능한 Synthetic Data 생성을 위한 Dynamic Context Evolution
VTS + Semantic Memory + Adaptive Prompt 3가지 메커니즘으로 구성된 프레임워크는 LLM 대량 synthetic data 생성 시 배치 간 중복·반복 현상을 완전히 제거한다.
178개 AI 모델의 글쓰기 스타일 핑거프린팅과 유사도 클러스터 분석
연구는 178개 AI 모델의 글쓰기 스타일을 32개 차원으로 분석한 결과, 가격 차이가 큰 모델들 사이에서도 78% 이상 유사한 글쓰기 패턴을 발견했다.