178개 AI 모델의 글쓰기 스타일 핑거프린팅과 유사도 클러스터 분석
Show HN: We fingerprinted 178 AI models' writing styles and similarity clusters
TL;DR Highlight
연구는 178개 AI 모델의 글쓰기 스타일을 32개 차원으로 분석한 결과, 가격 차이가 큰 모델들 사이에서도 78% 이상 유사한 글쓰기 패턴을 발견했다.
Who Should Read
여러 AI 모델 중 어떤 걸 써야 할지 고민 중인 개발자, 또는 AI 생성 텍스트 탐지나 모델 선택 기준을 연구하는 ML 엔지니어.
Core Mechanics
- 총 178개 AI 모델의 글쓰기 스타일을 32개 차원(dimension)으로 수치화해서 모델 간 유사도를 측정하고 클러스터로 묶었다.
- 분석 결과 가격 차이가 매우 큰 모델끼리도 글쓰기 스타일이 78% 이상 겹치는 경우가 발견됐다. 예시로 Gemini 2.5 Flash Lite Preview 06-17와 Claude 3 Opus가 78.2% 유사도를 기록했다.
- 연구팀은 '비싼 모델과 글쓰기 스타일이 같은 저렴한 모델을 쓰면 브랜드 비용만 지불하는 셈'이라는 주장을 내세웠다.
- 클러스터 분석을 통해 어떤 모델이 다른 모델의 파라미터를 빌리거나 distillation(증류, 큰 모델의 지식을 작은 모델에 전달하는 기법) 과정을 거쳤는지 추정할 수 있는 단서가 보인다.
- 원문 사이트는 Vercel 보안 체크포인트로 막혀 직접 확인이 어렵지만, 커뮤니티 댓글을 통해 연구의 주요 주장과 방법론 일부가 공유됐다.
- 모델들의 글쓰기에서 나타나는 특유의 패턴(예: '--' 기호 사용 등)이 RL(강화학습) 과정에서 자연스럽게 생긴 부산물인지, 아니면 의도적으로 삽입된 워터마크인지에 대한 논의도 함께 제기됐다.
Evidence
- 글쓰기 스타일이 비슷하다고 해서 모델을 대체할 수 있다는 주장에 대해 반론이 강하게 달렸다. 실제로 여러 모델을 써본 사용자들은 '스타일이 비슷해도 내 의도를 파악하는 능력 차이가 명확하다, 진짜 비용을 지불하는 건 intelligence지 글쓰기 스타일이 아니다'라고 지적했다.
- 방법론에 대한 신뢰성 의문도 제기됐다. 사용한 32개 차원이 주성분분석(PCA)으로 도출된 건지 아니면 임의로 선정된 건지 불명확하고, '75% 유사도 = 같은 글쓰기'라는 기준이 근거 없이 자의적이라는 비판이 있었다. 언어학 이론적 근거도 부재하다는 지적도 나왔다.
- 프롬프트와 실제 응답 내용을 공개하지 않아 수치를 검증할 수 없다는 점이 비판받았다. '벤치마크는 프롬프트와 응답을 함께 보여줘야 의미 있는데 그게 없으면 숫자만 있는 것'이라는 의견이 있었다.
- Claude나 ChatGPT를 쓸 때 항상 '--' 같은 특유의 기호가 등장하는 이유가 RL 훈련의 부산물인지, 아니면 AI 생성 텍스트가 다시 학습 데이터로 유입되는 것(모델 붕괴)을 막기 위한 의도적 핑거프린트인지에 대한 흥미로운 추측이 나왔다.
- 여러 모델을 비교해서 사용하는 사람이 실제 hallucination(사실을 지어내는 현상) 빈도를 비교한 경험담도 공유됐다. Gemini가 OpenAI나 Anthropic 유료 모델보다 거짓말을 덜 한다는 개인 경험을 가진 사용자가 있었고, 그 이유로 구글의 더 나은 학습 데이터나 RAG(검색 증강 생성) 활용 비중이 높기 때문일 수 있다는 추측이 나왔다.
How to Apply
- 여러 모델을 검토 중인데 비용 절감이 목표라면, 글쓰기 스타일 유사도만 보고 대체 모델을 결정하지 말고 실제 태스크(추론, 코딩, 사실 검색 등)에서 직접 A/B 테스트를 돌려봐야 한다. 스타일이 같아도 실질적 능력 차이가 클 수 있다.
- AI 생성 텍스트 탐지 시스템을 만들고 있다면, 이 연구처럼 특정 모델의 글쓰기 패턴(반복되는 기호, 문장 구조 등)을 피처로 추출해서 모델 핑거프린팅에 활용할 수 있다.
- 자사 서비스에서 distillation이나 fine-tuning(파인튜닝)한 모델이 원본 베이스 모델과 글쓰기 스타일이 얼마나 달라졌는지 모니터링하고 싶다면, 이 연구의 32차원 스타일 분석 방식을 참고해서 스타일 drift(변화)를 정량화하는 파이프라인을 구성할 수 있다.
- 모델 선택 의사결정을 팀 내에 공유해야 한다면, '글쓰기 스타일 유사도'는 참고 지표 중 하나일 뿐이고 실제 성능(정확도, hallucination 빈도, 응답 속도)과 함께 종합 평가표를 만들어서 근거 기반 의사결정 자료로 활용하는 것이 좋다.
Terminology
관련 논문
AMEL: 대화 히스토리가 LLM 판단에 미치는 누적 편향 효과
LLM을 자동 평가자로 쓸 때 이전 대화 기록의 긍정/부정 분위기가 이후 판단을 오염시킨다는 걸 75,898개 API 호출로 증명한 연구.
Language Model의 Backdoor Trigger는 숨겨진 Latent 경로를 통해 전파된다
8B LLM에 심어진 백도어 트리거가 중간 레이어에서 언어 탐지기를 완전히 속이는 직교 부분공간(orthogonal subspace)으로 숨어 이동한다는 걸 회로 분석으로 밝혀냈다.
Formal Methods와 LLM의 만남: AI 시스템 규정 준수를 위한 감사, 모니터링, 개입
LLM이 규칙을 잘 지키고 있는지 감시하려면 LLM에게 맡기지 말고 LTL(시간 논리 공식) 기반 모니터를 쓰세요.
Bun의 Rust 재작성: "safe Rust에서 UB(Undefined Behavior)를 허용하는 코드베이스"
Anthropic이 인수한 Bun 런타임이 Zig 코드베이스를 AI로 Rust에 재작성했는데, 가장 기본적인 메모리 안전성 검사(miri)조차 통과하지 못하는 UB(Undefined Behavior)가 발견됐다는 이슈가 제기됐다.
MetaBackdoor: LLM의 Positional Encoding을 Backdoor 공격 표면으로 악용하기
입력 텍스트는 멀쩡한데 입력 길이만으로 LLM 백도어가 발동되는 새로운 공격 기법 발견.
Claude Design 구독 해지 후 프로젝트 접근 불가 경험담 및 주의사항
Claude Design 구독을 해지했더니 기존 프로젝트에 접근이 완전히 차단됐다는 사용자 경고로, AI 도구에 중요한 작업물을 의존할 때의 리스크를 잘 보여주는 사례다.
History Anchors: 과거 행동 이력이 LLM을 unsafe 행동으로 유도하는 방식