5W3H 구조화 프롬프팅이 Human-AI 상호작용의 Intent Alignment에 미치는 효과 평가
Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction
TL;DR Highlight
기자의 5W1H를 확장한 8차원 프롬프트 구조(PPS)로 AI 출력의 사용자 의도 정렬률을 높이고 후속 질문을 66% 줄일 수 있다.
Who Should Read
LLM 기반 서비스에서 사용자가 원하는 답을 첫 번째 시도에 얻지 못해 반복 프롬프팅이 많은 문제를 해결하려는 프로덕트 개발자 또는 프롬프트 엔지니어. 특히 기업용 AI 어시스턴트나 복잡한 분석 태스크를 다루는 B2B 서비스 팀에게 유용하다.
Core Mechanics
- 5W3H(What/Why/Who/When/Where/How-to-do/How-much/How-feel) 8개 차원으로 사용자 의도를 구조화하는 PPS(Prompt Protocol Specification) 프레임워크를 제안 — 기존 COSTAR, CRISPE 같은 프레임워크보다 머신리더블 JSON + 자연어 렌더링 2레이어 구조가 핵심 차별점
- 구조화된 PPS를 자연어로 렌더링한 Condition C가 단순 프롬프트(A) 대비 goal_alignment(사용자 실제 의도 충족도) 점수에서 유의미하게 우월 (p=0.006, Cohen's d=0.374)
- PPS JSON을 그대로 LLM에 넣으면(Condition B) 오히려 단순 프롬프트보다 성능이 떨어짐 — 현재 LLM들은 PPS 훈련이 안 되어 있어 JSON 파싱 오류, 포맷 간섭 등이 발생하므로 반드시 자연어 렌더링 레이어가 필요
- 태스크 모호성에 따라 효과가 완전히 달라짐: 비즈니스 분석처럼 해석 여지가 큰 태스크에선 d=0.895(대효과), 여행 일정처럼 의도가 명확한 태스크에선 오히려 역효과(d=−0.547) — PPS는 모든 상황에 쓰는 게 아니라 선택적으로 배포해야 함
- 기존 LLM 평가 지표의 맹점 발견: 제약 조건이 없는 단순 프롬프트는 constraint_adherence(제약 준수율)에서 자동으로 5점 만점 받는 '빈 제약 문제(constraint scoring asymmetry)' — 기존 평가 프레임워크가 단순 프롬프트 성능을 구조적으로 과대평가함
- 사용자 20명 회고 설문에서 PPS 도입 후 목표 결과물 도달까지 필요한 후속 프롬프트가 평균 3.33회 → 1.13회로 66.1% 감소, 85%의 사용자가 1회 이내 수정으로 완료
Evidence
- Rendered PPS(C) vs 단순 프롬프트(A): goal_alignment p=0.006, Cohen's d=0.374 / 편향 모델(DeepSeek) 제거 후 d=0.501로 오히려 강화
- 비즈니스 도메인에서 C vs A: goal_alignment d=0.895(대효과) / 여행 도메인에서 A vs C: d=−0.547(역효과)로 도메인별 효과 크기 극명하게 갈림
- 후속 프롬프트 횟수: 3.33회 → 1.13회(66.1% 감소), 85%의 사용자가 최대 1회 수정으로 완료 (N=20 회고 설문)
- Condition A의 constraint_adherence 점수: 5.000 ± 0.000(SD=0) — 제약이 없으니 위반도 없는 허수 만점으로, 기존 평가 지표가 구조화 프롬프트의 실제 이점을 가리는 증거
How to Apply
- 비즈니스 분석, 법률 검토, 기술 컨설팅처럼 의도가 모호한 고복잡도 태스크에서는 사용자 입력을 받으면 LLM으로 5W3H 8개 차원을 자동 확장한 뒤 사용자에게 검토·수정하게 하고, 최종 확인된 내용을 자연어로 렌더링해서 LLM에 전달하는 2단계 파이프라인을 구현한다.
- 여행 일정, 단순 FAQ, 번역처럼 의도가 명확한 태스크에는 PPS를 적용하지 않거나 선택 옵션으로만 제공한다 — 과도한 제약 명시가 오히려 유연성을 해쳐 품질이 떨어질 수 있음.
- LLM 출력 품질을 평가할 때 기존 task_completion, overall_quality 외에 '사용자의 실제 목적에 부합하는가'를 묻는 goal_alignment 차원을 평가 루브릭에 추가하고, 비교 조건 간 제약 조건 수가 동일한지 반드시 확인한다.
Code Example
Terminology
Related Resources
Original Abstract (Expand)
Natural language prompts often suffer from intent transmission loss: the gap between what users actually need and what they communicate to AI systems. We evaluate PPS (Prompt Protocol Specification), a 5W3H-based framework for structured intent representation in human-AI interaction. In a controlled three-condition study across 60 tasks in three domains (business, technical, and travel), three large language models (DeepSeek-V3, Qwen-Max, and Kimi), and three prompt conditions - (A) simple prompts, (B) raw PPS JSON, and (C) natural-language-rendered PPS - we collect 540 AI-generated outputs evaluated by an LLM judge. We introduce goal_alignment, a user-intent-centered evaluation dimension, and find that rendered PPS outperforms both simple prompts and raw JSON on this metric. PPS gains are task-dependent: gains are large in high-ambiguity business analysis tasks but reverse in low-ambiguity travel planning. We also identify a measurement asymmetry in standard LLM evaluation, where unconstrained prompts can inflate constraint adherence scores and mask the practical value of structured prompting. A preliminary retrospective survey (N = 20) further suggests a 66.1% reduction in follow-up prompts required, from 3.33 to 1.13 rounds. These findings suggest that structured intent representations can improve alignment and usability in human-AI interaction, especially in tasks where user intent is inherently ambiguous.