프롬프트

프롬프트 관련 최신 60편.

자연어에서 검증된 코드까지: Dafny 기반 Formal Verification으로 AI 코드 생성 신뢰성 높이기
LLM이 생성한 코드를 수학적으로 100% 증명하는 Formal Verification 파이프라인 — Gemma 4-31B가 90.91% 성공률 달성.
Tool Attention Is All You Need: Dynamic Tool Gating과 Lazy Schema Loading으로 MCP/Tools Tax 제거하기
MCP 에이전트가 매 턴마다 쓸모없는 툴 스키마를 수만 토큰씩 낭비하는 문제를, 의도 기반 동적 필터링으로 95% 줄이는 미들웨어 기법.
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.
Bayesian Linguistic Forecaster: Sequential Bayesian Updating으로 미래 예측하는 Agentic 시스템
LLM이 검색할 때마다 확률 추정치를 JSON 형태로 업데이트하는 Bayesian 믿음 상태 방식이 웹 검색보다 더 중요한 성능 향상 요소임을 입증한 예측 시스템.
ctx – Claude Code와 Codex 양쪽에서 동작하는 /resume 로컬 컨텍스트 매니저
Claude Code와 OpenAI Codex 사이에서 대화 컨텍스트를 정확하게 유지하고 브랜칭할 수 있는 로컬 CLI 도구로, AI 코딩 세션을 끊김 없이 이어가고 싶은 개발자에게 유용하다.
Mediator.ai – Nash 협상 이론과 LLM으로 공정한 합의점 찾기
Nash 균형 이론과 LLM을 결합해 분쟁 당사자 양측이 수용 가능한 합의안을 자동으로 생성해주는 AI 조정 플랫폼으로, 창업자 지분 분쟁이나 계약 분쟁 같은 현실적인 상황에 적용 가능하다.
Chain-of-Thought가 Multimodal LLM의 시각적 공간 추론 능력을 저하시킨다
CoT(단계별 추론)를 쓸수록 이미지 공간 추론 정확도가 오히려 떨어진다는 17개 모델 대규모 실험 결과.
CollabCoder: Plan-Code Co-Evolution을 통한 협력적 의사결정 기반 효율적 코드 생성
멀티 에이전트 프레임워크가 플랜과 코드를 함께 진화시키며 기존 대비 11~20% 높은 정확도와 API 호출 4~10회 감소를 동시에 달성한다.
Plain – 사람과 AI 에이전트 모두를 위해 설계된 Python 풀스택 웹 프레임워크
Django 포크 기반 Python 웹 프레임워크가 타입 명시, 단일 관습, 에이전트 친화적 구조로 재설계되어 LLM의 코드 가독성과 수정성을 향상시킴
토큰 하나로 무너지는 Instruction-Tuned 모델의 취약성
"'쉼표 쓰지 마'라는 지시가 LLM 출력을 48% 감소시킨다."
Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation
메타 에이전트가 다중 AI 에이전트의 동시 조사를 단순 투표 대신 직접 탐색·종합하여 정확도를 향상시킨다.
Claude와 Codex로 3주 만에 소셜 미디어 관리 툴을 만든 경험기
Claude Opus와 OpenAI Codex로 3주 만에 Buffer/Sendible 대체 오픈소스 소셜 미디어 관리 플랫폼을 완성하며 AI 코딩 도구의 효과적인 활용 영역과 한계를 파악했다.
LLM 에이전트에서의 Many-Tier Instruction Hierarchy
벤치마크는 LLM 에이전트가 12단계의 다층 명령 우선순위를 정확히 처리하지 못함을 증명했다.
CSS Studio: 브라우저에서 직접 디자인하고 AI Agent가 코드로 변환
MCP 기반 디자인 도구는 브라우저의 CSS 시각적 편집을 AI Agent가 실제 코드베이스에 자동 반영하여 프레임워크 무관하게 WYSIWYG 워크플로우를 실현한다.
확장 가능한 Synthetic Data 생성을 위한 Dynamic Context Evolution
VTS + Semantic Memory + Adaptive Prompt 3가지 메커니즘으로 구성된 프레임워크는 LLM 대량 synthetic data 생성 시 배치 간 중복·반복 현상을 완전히 제거한다.
178개 AI 모델의 글쓰기 스타일 핑거프린팅과 유사도 클러스터 분석
연구는 178개 AI 모델의 글쓰기 스타일을 32개 차원으로 분석한 결과, 가격 차이가 큰 모델들 사이에서도 78% 이상 유사한 글쓰기 패턴을 발견했다.
Karpathy 워크플로우에서 영감받아 사전 컴파일된 Wiki로 세션당 토큰 90%+ 절감
사전에 정리된 코드베이스 Wiki를 활용하면 Claude 세션당 토큰 사용량을 90% 이상 줄인다.
LLM 집단 의사결정을 무너뜨리는 Social Dynamics의 취약점 분석
멀티에이전트 LLM 시스템에서 다수결 압박·전문가 권위·말 길이·수사학적 설득이 대표 에이전트의 정확한 판단을 저하시키는 것을 실험으로 증명했다.
Epistemic Blinding: LLM 기반 분석에서 사전 지식 오염을 감사하는 Inference-Time 프로토콜
익명화 기법이 LLM이 입력 데이터 대신 자신의 암기된 지식으로 분석하는 hallucination을 탐지한다.
Confidence Dynamics를 활용한 Large Reasoning Model의 Early Stopping
모델의 확신도 변화를 추적한 조기 중단이 불필요한 reasoning을 제거하며 토큰을 25~50% 절약한다.
Claude Code를 수개월 써보니, 가장 큰 시간 낭비는 버그가 아니라 '조용한 가짜 성공'이었다
프롬프트 제약(CLAUDE.md)이 AI 에이전트가 에러를 숨기고 가짜 데이터로 성공처럼 보이게 만드는 패턴을 사이드이펙트 검증으로 차단한다.
9M 파라미터짜리 초소형 LLM으로 언어 모델 작동 원리 직접 이해하기
물고기 Guppy를 학습한 870만 파라미터 미니 LLM이 Colab 노트북 하나로 5분 만에 처음부터 구현되어, LLM의 블랙박스 이미지를 완전히 걷어낸다.
3개월치 AI 생성 코드를 전부 삭제했다. 그리고 배운 것들.
AI로 작성된 코드베이스를 70% 삭제 후 2주 만에 재작성하니 절반 크기로 줄어들면서 완전한 이해 가능성을 확보했다.
원시인 말투로 토큰 60% 절약하는 압축 프롬프트 기법
관사·접속사·조동사를 제거한 전보체 스타일은 LLM 응답 토큰을 60% 감소시킨다.
Claude에게 원시인 말투를 가르쳐 output 토큰 75% 절약하기
짧은 문장 강제 프롬프트는 output 토큰을 75% 감소시키지만 실제 비용 절감은 3~4% 수준에 그친다.
ChatGPT로 229lbs에서 176lbs로 감량 성공한 경험 공유
저자가 ChatGPT를 개인 헬스 코치처럼 활용해 수개월 내 과학적 근거 기반의 체중 감량에 성공했다.
AI 기반 Unit Test 자동 생성과 Test-Driven Code Refactoring: 실제 프로덕션 케이스 스터디
AI가 테스트 없는 프론트엔드 코드베이스에 16,000줄 테스트를 수 시간 만에 생성했고, 이를 가드레일로 삼아 대규모 리팩토링까지 안전하게 완료했다.
잘못된 질문에 답하기: LLM Abstention을 위한 Reasoning Trace Inversion
추론 흔적 역분석 방식이 모델의 실제 응답 대상을 재구성하고 원래 질문과 비교함으로써 LLM의 답변 거부(abstention) 판단 정확도를 높인다.
짧을수록 좋다: Function-Calling 에이전트에서 Chain-of-Thought 토큰 예산의 비단조적 효과
Function-Calling 에이전트는 CoT를 32토큰으로 제한할 때 최고 성능을 달성하며, 256토큰으로 확장하면 성능이 저하된다.
Claude를 ADHD 친화적 개인 비서로 쓰는 법 (Slack + Outlook + To-Do 연동)
Claude를 중심으로 Slack, Outlook, 캘린더, 할 일 목록을 통합한 ADHD 사용자용 '두 번째 뇌' 구축 방법이 실제 작동하는 다양한 셋업을 댓글로 공유받았다.
3-Agent 팀(Architect + Builder + Reviewer)으로 Claude 코딩 워크플로우 정리하기
AI 코딩 에이전트의 Architect→Builder→Reviewer 3역할 분할이 토큰 사용량을 감소시키고 hallucination 발생률을 낮춤.
Reasoning Shift: Context가 LLM의 추론을 조용히 짧게 만드는 방법
무관한 컨텍스트의 주입으로 추론 모델이 자기검증을 생략하며 추론 토큰을 최대 50% 감소시킨다.
Peak Image Prompt Engineering: iPhone 6 플래시 기법
프롬프트에 카메라 기종·설정을 명시하면 생성형 AI 이미지 모델이 현실감 높으면서 기묘한 이미지를 생성한다.
보안 AI 에이전트 설계: Indirect Prompt Injection 공격에 대한 System-Level 방어 전략
동적 플래닝, LLM 입력 제한, 인간 개입을 함께 설계한 AI 에이전트는 외부 데이터에 숨겨진 악성 명령을 방어한다.
AgentHandover: 내 작업 방식을 자동으로 학습해 Claude에 전달하는 MCP 기반 로컬 앱
Mac 앱이 사용자의 실제 작업을 자동 관찰하여 Claude Code의 커스텀 Skill을 동적으로 생성하고 세션마다 반복되는 컨텍스트 입력을 제거한다.
Structured Intent를 Protocol-Like 통신 레이어로: Cross-Model 강건성, Framework 비교, 그리고 약한 모델 보상 효과
5W3H 구조의 프롬프트가 약한 모델도 강한 모델 수준으로 끌어올리고 언어 변경에도 일관된 결과를 보장한다.
Claude Code 매일 2시간 낭비를 없애주는 cron job 설정법
Claude Code Max의 5시간 사용 윈도우를 매일 아침 'hi' 메시지 자동 전송으로 업무 시간에 앵커링한다.
논문 17편을 읽고 나서: Claude Code에 대한 통념 대부분이 틀렸다
agentic AI 코딩 워크플로우 연구 17편 분석이 '칭찬 프롬프트', '멀티 에이전트 팀' 같은 널리 퍼진 조언들이 실제로 성능을 저하시킨다는 것을 드러냈다.
Claude Code로 실수로 Fork Bomb 만들고 컴퓨터 벽돌됨 (+ $3,800 API 청구서)
Claude Code의 SessionStart 훅이 Claude 인스턴스를 무한 재귀로 생성하는 fork bomb을 만들어 컴퓨터를 밤새 다운시키고 높은 API 청구서 위기를 초래했다.
Universal CLAUDE.md – Claude output token 63% 줄이기
CLAUDE.md 파일 추가로 Claude의 output token을 최대 63% 절감할 수 있다는 주장이 벤치마크 신뢰도 의문으로 커뮤니티에서 실제 효과를 인정받지 못하고 있다.
읽지 말고 직접 해보면서 Claude Code 배우기
Claude Code 인터랙티브 학습 플랫폼이 설치와 API 키 없이 브라우저에서 바로 터미널 시뮬레이터, Config Builder, 퀴즈를 통해 Claude Code의 핵심 기능 실습을 가능하게 한다.
Claude Code의 두 가지 캐시 버그: API 비용을 10-20배 올리는 원인과 우회법
Claude Code 스탠드얼론 바이너리와 --resume 옵션의 캐시 버그 두 개가 API 비용을 10-20배 증가시킨다.
lat.md: 코드베이스를 위한 Markdown 기반 Agent Knowledge Graph
설계 결정과 도메인 지식을 연결된 Markdown 파일 그래프로 관리하는 도구는 AI 에이전트가 코드 탐색 없이 빠르게 컨텍스트를 파악하도록 한다.
.claude/ 폴더 완전 해부: CLAUDE.md, 커스텀 명령어, 에이전트 설정까지
Claude Code의 .claude/ 설정 가이드는 폴더 구조와 각 파일의 역할을 상세히 설명하여 팀 단위 개발자들이 Claude를 효과적으로 활용하도록 한다.
AI 모델끼리 지시할 수 있을까? 조직 구조로 훈련 한계 탐색하기
고가 LLM의 지휘를 받은 저가 LLM은 고가 LLM과 동일 수준의 성능을 저렴하게 발휘한다 — 능력 차이가 실질적일 때만.
Natural-Language Agent Harnesses: 자연어로 에이전트 제어 로직을 명세하는 프레임워크
프레임워크가 에이전트의 제어 로직을 코드 대신 자연어로 작성하고 공유 런타임이 실행하게 해서, 설계 패턴을 비교·재사용·분석할 수 있게 한다.
Claude Code를 위한 plain-text 기반 Cognitive Architecture: Cog
Plain-text 파일 기반 계층적 메모리 구조(Cognitive Architecture)가 Claude Code의 세션 간 메모리 단절을 해결하며 AI 코딩 어시스턴트의 장기 일관성을 확보함
'hey' 한 마디가 사용량의 22%를 날렸다
Claude에 'hey' 같은 짧은 인사말을 생략하면 전체 토큰 할당량의 상당 부분을 절약할 수 있다.
Swift로 Claude Code 스타일 Coding Agent 처음부터 만들기
Claude Code의 핵심 구조를 Swift로 9단계에 걸쳐 재구현함으로써 '도구는 적게, 모델에게 더 많이 맡겨라'는 설계 철학의 유효성을 검증했다.
Claude Code를 10배 활용하게 해주는 GitHub 저장소 6개
포스트가 메모리 관리·UI 생성·워크플로우 자동화 등으로 Claude Code 생산성을 높이는 GitHub 저장소 6개를 실제 사용 경험 기반으로 소개했다.
ReqFusion: 소프트웨어 도메인 전반에서 PEGS 분석을 자동화하는 Multi-Provider 프레임워크
GPT-4, Claude-3, Groq 세 모델을 동시에 실행하여 소프트웨어 요구사항을 자동 추출하면 F1 0.88을 달성하고 분석 시간을 78% 단축한다.
내가 몰랐던 적합한 직업을 찾아주는 ChatGPT 프롬프트 공유
ChatGPT 프롬프트가 경험과 스킬 입력을 받아 사용자가 미처 몰랐던 적합 직군을 발굴함으로써 AI 기반 커리어 탐색을 구현했다.
프롬프트 최적화로 아날로그 회로 배치 전문가 품질 97% 달성 (훈련 데이터 없이)
프롬프트 최적화가 실패→성공 쌍에서 자동 학습하여 도메인 특화 훈련 데이터 없이도 전문가 품질 97%를 달성하고 공간 추론·다목적 최적화에 적용된다.
Claude Code 치트 시트 — 키보드 단축키·슬래시 명령어·워크플로우 총정리
Claude Code 치트 시트가 개발자들의 단축키·MCP 설정·메모리 관리·CLI 플래그를 한 페이지에 정리하고 자동 업데이트로 항상 최신 상태를 유지한다.
Claude Code로 생산성을 높이는 나만의 워크플로우
Claude Code의 병렬 에이전트 워크플로우와 인프라 자동화는 6주 실무 적용으로 개발자 역할을 AI 매니저로 전환한다.
정적 템플릿에서 동적 런타임 그래프까지: LLM 에이전트 워크플로우 최적화 서베이
IBM과 RPI 공동 연구팀은 LLM 에이전트 워크플로우를 에이전틱 계산 그래프(ACG)로 통합 정리하고 정적·동적 방법론을 체계화하여 31페이지 핵심 서베이로 발표했다.
LLM-as-a-Judge의 신뢰성과 정확도 평가: 37개 모델 × 5가지 Judge Prompt 실험
37개 LLM을 비교해 인간 판단과 가장 높은 일치도를 보이는 자동 평가 모델+프롬프트 조합을 파악했다
SPA: Knowledge Injection을 위한 단순하지만 강력한 Baseline
7개의 정교한 프롬프트로 도메인 데이터를 대규모 합성 데이터로 증강하는 방법이 LLM 지식 주입에서 복잡한 RL/멀티스테이지 방식을 압도한다.
LLM이 Confidence 신호를 사용해 행동을 제어한다는 인과적 증거
4단계 실험이 GPT-4o, Gemma 3 27B 등 주요 LLM이 내부 confidence 신호로 답변 여부를 결정한다는 인과적 증거를 규명했다.