178개 AI 모델의 글쓰기 스타일 핑거프린팅과 유사도 클러스터 분석
Show HN: We fingerprinted 178 AI models' writing styles and similarity clusters
TL;DR Highlight
178개 AI 모델의 글쓰기 스타일을 32개 차원으로 분석해 유사도를 측정했는데, 가격 차이가 큰 모델들 사이에서도 78% 이상 유사한 글쓰기 패턴이 발견됐다는 연구다.
Who Should Read
여러 AI 모델 중 어떤 걸 써야 할지 고민 중인 개발자, 또는 AI 생성 텍스트 탐지나 모델 선택 기준을 연구하는 ML 엔지니어.
Core Mechanics
- 총 178개 AI 모델의 글쓰기 스타일을 32개 차원(dimension)으로 수치화해서 모델 간 유사도를 측정하고 클러스터로 묶었다.
- 분석 결과 가격 차이가 매우 큰 모델끼리도 글쓰기 스타일이 78% 이상 겹치는 경우가 발견됐다. 예시로 Gemini 2.5 Flash Lite Preview 06-17와 Claude 3 Opus가 78.2% 유사도를 기록했다.
- 연구팀은 '비싼 모델과 글쓰기 스타일이 같은 저렴한 모델을 쓰면 브랜드 비용만 지불하는 셈'이라는 주장을 내세웠다.
- 클러스터 분석을 통해 어떤 모델이 다른 모델의 파라미터를 빌리거나 distillation(증류, 큰 모델의 지식을 작은 모델에 전달하는 기법) 과정을 거쳤는지 추정할 수 있는 단서가 보인다.
- 원문 사이트는 Vercel 보안 체크포인트로 막혀 직접 확인이 어렵지만, 커뮤니티 댓글을 통해 연구의 주요 주장과 방법론 일부가 공유됐다.
- 모델들의 글쓰기에서 나타나는 특유의 패턴(예: '--' 기호 사용 등)이 RL(강화학습) 과정에서 자연스럽게 생긴 부산물인지, 아니면 의도적으로 삽입된 워터마크인지에 대한 논의도 함께 제기됐다.
Evidence
- 글쓰기 스타일이 비슷하다고 해서 모델을 대체할 수 있다는 주장에 대해 반론이 강하게 달렸다. 실제로 여러 모델을 써본 사용자들은 '스타일이 비슷해도 내 의도를 파악하는 능력 차이가 명확하다, 진짜 비용을 지불하는 건 intelligence지 글쓰기 스타일이 아니다'라고 지적했다.
- 방법론에 대한 신뢰성 의문도 제기됐다. 사용한 32개 차원이 주성분분석(PCA)으로 도출된 건지 아니면 임의로 선정된 건지 불명확하고, '75% 유사도 = 같은 글쓰기'라는 기준이 근거 없이 자의적이라는 비판이 있었다. 언어학 이론적 근거도 부재하다는 지적도 나왔다.
- 프롬프트와 실제 응답 내용을 공개하지 않아 수치를 검증할 수 없다는 점이 비판받았다. '벤치마크는 프롬프트와 응답을 함께 보여줘야 의미 있는데 그게 없으면 숫자만 있는 것'이라는 의견이 있었다.
- Claude나 ChatGPT를 쓸 때 항상 '--' 같은 특유의 기호가 등장하는 이유가 RL 훈련의 부산물인지, 아니면 AI 생성 텍스트가 다시 학습 데이터로 유입되는 것(모델 붕괴)을 막기 위한 의도적 핑거프린트인지에 대한 흥미로운 추측이 나왔다.
- 여러 모델을 비교해서 사용하는 사람이 실제 hallucination(사실을 지어내는 현상) 빈도를 비교한 경험담도 공유됐다. Gemini가 OpenAI나 Anthropic 유료 모델보다 거짓말을 덜 한다는 개인 경험을 가진 사용자가 있었고, 그 이유로 구글의 더 나은 학습 데이터나 RAG(검색 증강 생성) 활용 비중이 높기 때문일 수 있다는 추측이 나왔다.
How to Apply
- 여러 모델을 검토 중인데 비용 절감이 목표라면, 글쓰기 스타일 유사도만 보고 대체 모델을 결정하지 말고 실제 태스크(추론, 코딩, 사실 검색 등)에서 직접 A/B 테스트를 돌려봐야 한다. 스타일이 같아도 실질적 능력 차이가 클 수 있다.
- AI 생성 텍스트 탐지 시스템을 만들고 있다면, 이 연구처럼 특정 모델의 글쓰기 패턴(반복되는 기호, 문장 구조 등)을 피처로 추출해서 모델 핑거프린팅에 활용할 수 있다.
- 자사 서비스에서 distillation이나 fine-tuning(파인튜닝)한 모델이 원본 베이스 모델과 글쓰기 스타일이 얼마나 달라졌는지 모니터링하고 싶다면, 이 연구의 32차원 스타일 분석 방식을 참고해서 스타일 drift(변화)를 정량화하는 파이프라인을 구성할 수 있다.
- 모델 선택 의사결정을 팀 내에 공유해야 한다면, '글쓰기 스타일 유사도'는 참고 지표 중 하나일 뿐이고 실제 성능(정확도, hallucination 빈도, 응답 속도)과 함께 종합 평가표를 만들어서 근거 기반 의사결정 자료로 활용하는 것이 좋다.
Terminology
fingerprinting모델마다 고유하게 반복되는 글쓰기 습관이나 패턴을 수치로 측정해서 '이 글은 어떤 모델이 썼다'고 식별할 수 있게 만드는 기법.
distillation큰 모델(teacher)이 가진 지식을 작은 모델(student)에게 학습시켜 성능은 비슷하게 유지하면서 모델 크기를 줄이는 기법.
RL강화학습(Reinforcement Learning). AI가 좋은 응답을 하면 보상을 주고 나쁜 응답엔 패널티를 주는 방식으로 훈련하는 방법. ChatGPT, Claude 등이 이 방식으로 사람 선호에 맞게 조정된다.
모델 붕괴AI가 생성한 텍스트가 다시 인터넷에 올라가 다음 모델 학습 데이터로 쓰이면, 세대를 거듭할수록 다양성이 줄고 특정 패턴만 강해지는 현상.
클러스터여러 모델 중 글쓰기 특성이 비슷한 것끼리 자동으로 묶인 그룹. 같은 클러스터에 속한 모델들은 학습 데이터나 훈련 방식이 비슷할 가능성이 높다.
RAGRetrieval-Augmented Generation. 모델이 답변할 때 외부 문서나 데이터베이스를 실시간으로 검색해서 참고하는 방식. 모델 가중치에 없는 최신 정보를 활용할 수 있어 hallucination을 줄이는 데 도움이 된다.