더 많다고 항상 좋은 건 아니다: Multi-AI 조언에서 의사결정 정확도와 Conformity Pressure의 균형

More Isn't Always Better: Balancing Decision Accuracy and Conformity Pressures in Multi-AI Advice

Mar 23, 2026•Yuta Tsuchiya, Yukino Baba•View PDF

TL;DR Highlight

AI를 3개 패널로 쓰면 정확도가 오르지만, 5개로 늘리면 오히려 혼란만 생긴다는 걸 348명 실험으로 증명했다.

Who Should Read

챗봇이나 AI 어시스턴트를 여러 개 조합해서 사용자에게 조언을 제공하는 서비스를 만드는 프로덕트 개발자나 UX 엔지니어. 특히 의료, 법률, 금융 등 의사결정 지원 AI 시스템을 설계하는 팀.

Core Mechanics

AI 3개 패널은 단일 AI보다 정확도를 높이지만(Income 태스크 0.706→0.737), 5개로 늘려도 추가 이득 없음 - '많을수록 좋다'는 통념이 틀렸다
AI들이 만장일치로 동의하면(CON) 사용자가 맹목적으로 따르는 과의존(overreliance) 발생 - Switch Fraction이 CON에서 최대 0.88까지 치솟음
AI 패널에 단 1개의 반대 의견만 있어도 conformity pressure(다수를 따르는 압박)가 유의미하게 줄어들어 자기 판단을 유지하는 비율(RSR)이 증가
5개 패널에서 3:2로 의견이 갈리면(DIV_3) 혼란만 생겨 정확도 향상 없음 - 너무 팽팽한 AI 의견 분열은 오히려 독
AI를 사람처럼 보이게 꾸며도(얼굴 사진, 이름, 대화체) 평균 정확도와 의존도에는 유의미한 차이 없었지만, Dating 태스크에서 유용성 인식은 높아짐
GPT-4o로 SHAP 기반 자연어 설명을 생성해 AI 조언에 붙이는 방식 사용 - 할루시네이션 줄이면서 해석 가능성 향상

Evidence

Income 태스크에서 AI_3이 AI_1보다 정확도 유의미하게 높음(0.706→0.737, p=.012), AI_5는 유의미한 차이 없음
Dating 태스크에서도 AI_3이 AI_1보다 정확도 높음(중앙값 0.64→0.68, p=.002), AI_5는 경계선(p=.064)
5개 패널 CON 조건에서 Agreement Fraction 0.99, Switch Fraction 0.88로 거의 무조건 AI를 따랐지만, DIV_3 조건에서 Switch Fraction이 0.30으로 급감하며 정확도 개선도 없었음
3개 패널 CON vs DIV 비교: RAIR(맞는 AI를 따른 비율)은 CON에서 높고(Income 0.90 vs 0.46), RSR(틀린 AI에 맞서 자기 답을 지킨 비율)은 DIV에서 높음(Income 0.60 vs 0.21, p<.001)

How to Apply

여러 AI 모델을 동시에 사용자에게 보여줄 때 3개를 기본값으로 설정하고, 의견이 갈릴 경우 소수 의견을 별도로 하이라이트해서 사용자가 비판적으로 검토하도록 유도하라
AI 패널이 만장일치일 때 경고 문구나 'AI가 동의합니다만, 직접 검토해보세요' 같은 반성 트리거를 UI에 추가해서 맹목적 과의존을 방지하라
의사결정 지원 시스템에서 AI 아바타, 이름, 대화체 등 인간화(anthropomorphism) 요소는 특정 태스크(감성적 판단)에만 제한적으로 적용하고, 기본 정확도나 의존도는 크게 달라지지 않음을 감안해 불필요한 구현 비용을 줄여라

Code Example

snippet

Terminology

Conformity Pressure주변 사람(또는 AI)의 의견에 맞추려는 심리적 압박. 틀린 답인 줄 알면서도 다수가 그렇게 말하면 따라가게 되는 현상.

JAS (Judge-Advisor System)의사결정 실험 설계 프레임워크. '내 예측 → AI 조언 보기 → 최종 결정' 3단계로 AI가 인간 판단에 미치는 영향을 측정.

SHAP머신러닝 모델이 왜 그런 예측을 했는지 각 입력 변수의 기여도를 숫자로 보여주는 설명 기법. '이 사람의 나이가 예측에 +0.3만큼 영향을 줬다'처럼 해석.

Rashomon Set비슷한 성능을 가지면서 예측 방식이 서로 다른 모델들의 집합. 이 논문에서는 70% 정확도를 가진 다양한 결정 트리들을 AI 패널로 사용.

OverrelianceAI가 틀렸을 때도 무조건 AI를 따르는 과도한 의존 상태. AI가 자신있게 말할수록 더 심해지는 경향이 있음.

Algorithm AversionAI나 알고리즘의 판단을 인간 판단보다 낮게 보고 무시하려는 심리. 감정이나 직관이 중요한 태스크에서 특히 강하게 나타남.

CASA ParadigmComputers Are Social Actors의 약자. 사람들이 컴퓨터/AI를 무의식적으로 사람처럼 대하며 사회적 규범을 적용한다는 이론.

Anthropomorphism로봇이나 AI에 사람의 얼굴, 이름, 말투 등을 부여해서 더 인간처럼 느끼게 만드는 것. 이 논문에서는 '사람스러움' 정도가 의사결정에 미치는 영향을 테스트했음.

Related Resources

Original Abstract (Expand)

Just as people improve decision-making by consulting diverse human advisors, they can now also consult with multiple AI systems. Prior work on group decision-making shows that advice aggregation creates pressure to conform, leading to overreliance. However, the conditions under which multi-AI consultation improves or undermines human decision-making remain unclear. We conducted experiments with three tasks in which participants received advice from panels of AIs. We varied panel size, within-panel consensus, and the human-likeness of presentation. Accuracy improved for small panels relative to a single AI; larger panels yielded no gains. The level of within-panel consensus affected participants' reliance on AI advice: High consensus fostered overreliance; a single dissent reduced pressure to conform; wide disagreement created confusion and undermined appropriate reliance. Human-like presentations increased perceived usefulness and agency in certain tasks, without raising conformity pressure. These findings yield design implications for presenting multi-AI advice that preserve accuracy while mitigating conformity.