5W3H 구조화 프롬프팅이 Human-AI 상호작용의 Intent Alignment에 미치는 효과 평가

Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction

Mar 19, 2026•Peng Gang•View PDF

TL;DR Highlight

기자의 5W1H를 확장한 8차원 프롬프트 구조(PPS)로 AI 출력의 사용자 의도 정렬률을 높이고 후속 질문을 66% 줄일 수 있다.

Who Should Read

LLM 기반 서비스에서 사용자가 원하는 답을 첫 번째 시도에 얻지 못해 반복 프롬프팅이 많은 문제를 해결하려는 프로덕트 개발자 또는 프롬프트 엔지니어. 특히 기업용 AI 어시스턴트나 복잡한 분석 태스크를 다루는 B2B 서비스 팀에게 유용하다.

Core Mechanics

5W3H(What/Why/Who/When/Where/How-to-do/How-much/How-feel) 8개 차원으로 사용자 의도를 구조화하는 PPS(Prompt Protocol Specification) 프레임워크를 제안 — 기존 COSTAR, CRISPE 같은 프레임워크보다 머신리더블 JSON + 자연어 렌더링 2레이어 구조가 핵심 차별점
구조화된 PPS를 자연어로 렌더링한 Condition C가 단순 프롬프트(A) 대비 goal_alignment(사용자 실제 의도 충족도) 점수에서 유의미하게 우월 (p=0.006, Cohen's d=0.374)
PPS JSON을 그대로 LLM에 넣으면(Condition B) 오히려 단순 프롬프트보다 성능이 떨어짐 — 현재 LLM들은 PPS 훈련이 안 되어 있어 JSON 파싱 오류, 포맷 간섭 등이 발생하므로 반드시 자연어 렌더링 레이어가 필요
태스크 모호성에 따라 효과가 완전히 달라짐: 비즈니스 분석처럼 해석 여지가 큰 태스크에선 d=0.895(대효과), 여행 일정처럼 의도가 명확한 태스크에선 오히려 역효과(d=−0.547) — PPS는 모든 상황에 쓰는 게 아니라 선택적으로 배포해야 함
기존 LLM 평가 지표의 맹점 발견: 제약 조건이 없는 단순 프롬프트는 constraint_adherence(제약 준수율)에서 자동으로 5점 만점 받는 '빈 제약 문제(constraint scoring asymmetry)' — 기존 평가 프레임워크가 단순 프롬프트 성능을 구조적으로 과대평가함
사용자 20명 회고 설문에서 PPS 도입 후 목표 결과물 도달까지 필요한 후속 프롬프트가 평균 3.33회 → 1.13회로 66.1% 감소, 85%의 사용자가 1회 이내 수정으로 완료

Evidence

Rendered PPS(C) vs 단순 프롬프트(A): goal_alignment p=0.006, Cohen's d=0.374 / 편향 모델(DeepSeek) 제거 후 d=0.501로 오히려 강화
비즈니스 도메인에서 C vs A: goal_alignment d=0.895(대효과) / 여행 도메인에서 A vs C: d=−0.547(역효과)로 도메인별 효과 크기 극명하게 갈림
후속 프롬프트 횟수: 3.33회 → 1.13회(66.1% 감소), 85%의 사용자가 최대 1회 수정으로 완료 (N=20 회고 설문)
Condition A의 constraint_adherence 점수: 5.000 ± 0.000(SD=0) — 제약이 없으니 위반도 없는 허수 만점으로, 기존 평가 지표가 구조화 프롬프트의 실제 이점을 가리는 증거

How to Apply

비즈니스 분석, 법률 검토, 기술 컨설팅처럼 의도가 모호한 고복잡도 태스크에서는 사용자 입력을 받으면 LLM으로 5W3H 8개 차원을 자동 확장한 뒤 사용자에게 검토·수정하게 하고, 최종 확인된 내용을 자연어로 렌더링해서 LLM에 전달하는 2단계 파이프라인을 구현한다.
여행 일정, 단순 FAQ, 번역처럼 의도가 명확한 태스크에는 PPS를 적용하지 않거나 선택 옵션으로만 제공한다 — 과도한 제약 명시가 오히려 유연성을 해쳐 품질이 떨어질 수 있음.
LLM 출력 품질을 평가할 때 기존 task_completion, overall_quality 외에 '사용자의 실제 목적에 부합하는가'를 묻는 goal_alignment 차원을 평가 루브릭에 추가하고, 비교 조건 간 제약 조건 수가 동일한지 반드시 확인한다.

Code Example

snippet

Terminology

goal_alignmentAI 출력이 사용자의 '진짜 목적'에 얼마나 맞는지 평가하는 지표. 기존 품질 평가가 '글이 잘 쓰였나'를 보는 것이라면, goal_alignment는 '이 사람이 실제로 원하던 것을 줬나'를 보는 것.

intent transmission loss사용자가 머릿속에 원하는 것과 AI에게 전달된 내용 사이의 손실. 전화 통화에서 소음으로 말이 잘못 전달되는 것처럼, 프롬프트가 짧고 모호할수록 의도가 왜곡된다.

ITU (Iterations-to-Usability)원하는 결과물을 얻을 때까지 필요한 후속 프롬프트 횟수. ITU=0이면 첫 번째 답이 바로 쓸 수 있다는 뜻.

constraint scoring asymmetry제약 조건이 없는 프롬프트는 어길 규칙이 없으니 constraint_adherence(제약 준수) 점수가 자동으로 만점이 되는 평가 허점. 빈 시험지에 0점을 받을 수 없는 것과 같은 원리.

Cohen's d두 그룹의 차이가 얼마나 의미있는 크기인지 나타내는 통계 지표. d=0.2 소효과, d=0.5 중간효과, d=0.8 대효과로 해석하며, p값과 달리 샘플 크기에 덜 민감함.

LLM-as-Judge다른 LLM의 출력 품질을 또 다른 LLM이 채점하는 평가 방식. 사람이 직접 채점하는 것보다 빠르고 확장성이 있지만, 채점 모델이 자기 자신을 더 높이 평가하는 자기편향 문제가 있음.

rendering layer머신리더블 JSON 형식의 PPS를 현재 LLM이 이해할 수 있는 자연어 문장으로 변환하는 번역 계층. USB 케이블이 다른 규격의 기기를 연결해주듯, PPS 스펙과 LLM 사이를 이어주는 어댑터 역할.

Related Resources

Original Abstract (Expand)

Natural language prompts often suffer from intent transmission loss: the gap between what users actually need and what they communicate to AI systems. We evaluate PPS (Prompt Protocol Specification), a 5W3H-based framework for structured intent representation in human-AI interaction. In a controlled three-condition study across 60 tasks in three domains (business, technical, and travel), three large language models (DeepSeek-V3, Qwen-Max, and Kimi), and three prompt conditions - (A) simple prompts, (B) raw PPS JSON, and (C) natural-language-rendered PPS - we collect 540 AI-generated outputs evaluated by an LLM judge. We introduce goal_alignment, a user-intent-centered evaluation dimension, and find that rendered PPS outperforms both simple prompts and raw JSON on this metric. PPS gains are task-dependent: gains are large in high-ambiguity business analysis tasks but reverse in low-ambiguity travel planning. We also identify a measurement asymmetry in standard LLM evaluation, where unconstrained prompts can inflate constraint adherence scores and mask the practical value of structured prompting. A preliminary retrospective survey (N = 20) further suggests a 66.1% reduction in follow-up prompts required, from 3.33 to 1.13 rounds. These findings suggest that structured intent representations can improve alignment and usability in human-AI interaction, especially in tasks where user intent is inherently ambiguous.