더 많다고 항상 좋은 건 아니다: Multi-AI 조언에서 의사결정 정확도와 Conformity Pressure의 균형
More Isn't Always Better: Balancing Decision Accuracy and Conformity Pressures in Multi-AI Advice
TL;DR Highlight
AI를 3개 패널로 쓰면 정확도가 오르지만, 5개로 늘리면 오히려 혼란만 생긴다는 걸 348명 실험으로 증명했다.
Who Should Read
챗봇이나 AI 어시스턴트를 여러 개 조합해서 사용자에게 조언을 제공하는 서비스를 만드는 프로덕트 개발자나 UX 엔지니어. 특히 의료, 법률, 금융 등 의사결정 지원 AI 시스템을 설계하는 팀.
Core Mechanics
- AI 3개 패널은 단일 AI보다 정확도를 높이지만(Income 태스크 0.706→0.737), 5개로 늘려도 추가 이득 없음 - '많을수록 좋다'는 통념이 틀렸다
- AI들이 만장일치로 동의하면(CON) 사용자가 맹목적으로 따르는 과의존(overreliance) 발생 - Switch Fraction이 CON에서 최대 0.88까지 치솟음
- AI 패널에 단 1개의 반대 의견만 있어도 conformity pressure(다수를 따르는 압박)가 유의미하게 줄어들어 자기 판단을 유지하는 비율(RSR)이 증가
- 5개 패널에서 3:2로 의견이 갈리면(DIV_3) 혼란만 생겨 정확도 향상 없음 - 너무 팽팽한 AI 의견 분열은 오히려 독
- AI를 사람처럼 보이게 꾸며도(얼굴 사진, 이름, 대화체) 평균 정확도와 의존도에는 유의미한 차이 없었지만, Dating 태스크에서 유용성 인식은 높아짐
- GPT-4o로 SHAP 기반 자연어 설명을 생성해 AI 조언에 붙이는 방식 사용 - 할루시네이션 줄이면서 해석 가능성 향상
Evidence
- Income 태스크에서 AI_3이 AI_1보다 정확도 유의미하게 높음(0.706→0.737, p=.012), AI_5는 유의미한 차이 없음
- Dating 태스크에서도 AI_3이 AI_1보다 정확도 높음(중앙값 0.64→0.68, p=.002), AI_5는 경계선(p=.064)
- 5개 패널 CON 조건에서 Agreement Fraction 0.99, Switch Fraction 0.88로 거의 무조건 AI를 따랐지만, DIV_3 조건에서 Switch Fraction이 0.30으로 급감하며 정확도 개선도 없었음
- 3개 패널 CON vs DIV 비교: RAIR(맞는 AI를 따른 비율)은 CON에서 높고(Income 0.90 vs 0.46), RSR(틀린 AI에 맞서 자기 답을 지킨 비율)은 DIV에서 높음(Income 0.60 vs 0.21, p<.001)
How to Apply
- 여러 AI 모델을 동시에 사용자에게 보여줄 때 3개를 기본값으로 설정하고, 의견이 갈릴 경우 소수 의견을 별도로 하이라이트해서 사용자가 비판적으로 검토하도록 유도하라
- AI 패널이 만장일치일 때 경고 문구나 'AI가 동의합니다만, 직접 검토해보세요' 같은 반성 트리거를 UI에 추가해서 맹목적 과의존을 방지하라
- 의사결정 지원 시스템에서 AI 아바타, 이름, 대화체 등 인간화(anthropomorphism) 요소는 특정 태스크(감성적 판단)에만 제한적으로 적용하고, 기본 정확도나 의존도는 크게 달라지지 않음을 감안해 불필요한 구현 비용을 줄여라
Code Example
Terminology
Related Resources
Original Abstract (Expand)
Just as people improve decision-making by consulting diverse human advisors, they can now also consult with multiple AI systems. Prior work on group decision-making shows that advice aggregation creates pressure to conform, leading to overreliance. However, the conditions under which multi-AI consultation improves or undermines human decision-making remain unclear. We conducted experiments with three tasks in which participants received advice from panels of AIs. We varied panel size, within-panel consensus, and the human-likeness of presentation. Accuracy improved for small panels relative to a single AI; larger panels yielded no gains. The level of within-panel consensus affected participants' reliance on AI advice: High consensus fostered overreliance; a single dissent reduced pressure to conform; wide disagreement created confusion and undermined appropriate reliance. Human-like presentations increased perceived usefulness and agency in certain tasks, without raising conformity pressure. These findings yield design implications for presenting multi-AI advice that preserve accuracy while mitigating conformity.