Mercor에서 AI 계약직 4만 명의 음성 샘플 4TB 탈취 — 내 목소리가 악용되고 있는지 확인하는 방법
4TB of voice samples just stolen from 40k AI contractors at Mercor
TL;DR Highlight
AI 학습 데이터 수집 플랫폼 Mercor에서 4만 명 계약직의 음성 녹음과 신분증 스캔이 함께 유출되어, 딥페이크·음성 사기에 즉시 악용 가능한 '완성형 위조 키트'가 만들어졌다는 보안 분석 글이다.
Who Should Read
AI 학습 데이터 수집 플랫폼을 운영하거나 이용한 개발자, 그리고 음성 인증·생체 데이터를 서비스에 활용 중인 백엔드·보안 개발자.
Core Mechanics
- 2026년 4월 4일, 해킹 그룹 Lapsus$가 AI 학습 데이터 플랫폼 Mercor에서 약 4TB 분량의 데이터를 탈취해 자신들의 유출 사이트에 공개했다. 피해 계약직은 4만 명 이상으로 보고됐다.
- 이번 유출이 특히 위험한 이유는 음성 녹음과 신분증(여권·운전면허증) 스캔이 한 데이터베이스의 같은 행에 묶여 있기 때문이다. 기존 유출 사고는 둘 중 하나만 포함되는 경우가 대부분이었는데, 이번엔 두 가지가 결합된 '딥페이크 즉시 사용 가능 키트'가 노출됐다.
- Mercor 계약직의 음성 녹음은 평균 2~5분 분량의 조용한 환경에서 녹음된 스크립트 낭독이다. WSJ 2026년 2월 보도에 따르면 시중에 유통 중인 음성 복제 도구는 15초의 깨끗한 음성만 있으면 충분하므로, 유출된 샘플은 그 기준을 훨씬 초과한다.
- 은행 음성 인증 우회 공격이 실질적인 위협이다. 미국과 영국의 일부 은행은 여전히 음성 매칭을 2차 인증 수단으로 사용하는데, 복제된 음성으로 챌린지 구문을 읽으면 음성 인증 관문이 열린다.
- 비싱(Vishing, 전화 사기)으로 피해자의 회사 HR·재무팀에 전화해 급여 이체처 변경이나 송금을 요청하는 공격도 실제로 여러 차례 발생했다. Krebs on Security 아카이브에 따르면 2023년 이후 이런 방식의 확인된 사례가 20건 이상이다.
- 2024년 홍콩 Arup 사건처럼 딥페이크 화상통화로 2,500만 달러를 가로챈 전례가 있다. Arup 사건은 공개된 영상·음성으로 만들었는데, 이번 Mercor 유출은 스튜디오급 음질 음성과 신분증이 함께 있어 그보다 훨씬 정밀한 위조가 가능하다.
- 보험 콜센터를 노린 합성 음성 공격도 급증 중이다. Pindrop 보고서에 따르면 2025년 한 해 동안 보험 콜센터 대상 합성 음성 공격이 전년 대비 475% 증가했으며, 자동차·생명·장애 보험이 주요 타깃이다.
- FBI에 따르면 2026년 60세 이상 피해자의 인터넷 사기 피해액은 23억 달러에 달했고, 가장 빠르게 증가한 유형은 '합성 음성으로 가족을 사칭해 위기 상황을 꾸미는 긴급 사기'였다.
Evidence
- 원문이 피해자를 위한 무료 음성 분석 서비스를 홍보하자, 댓글에서 '음성 데이터를 AI 기업에 탈취당한 피해자가 자기 음성을 또 다른 AI 기업에 보내는 꼴'이라는 신랄한 지적이 나왔다. 이 서비스는 ORAVYS라는 음성 분석 스타트업이 운영하는 것으로, 글 자체가 마케팅성 콘텐츠라는 의심도 제기됐다.
- 음성과 신분증이 결합된 유출은 비밀번호 유출과 근본적으로 다르다는 의견이 많았다. '비밀번호는 바꿀 수 있지만 목소리는 교체할 수 없다'는 점에서 생체 정보를 '영구 비밀번호(forever password)'로 인식해야 한다는 프레이밍이 공감을 얻었다.
- 서버에 음성 생체 데이터를 중앙화해 보관하는 관행 자체를 문제 삼는 댓글이 주목받았다. Whisper.cpp가 스마트폰에서 돌아가고 WebGPU도 지원되는 2026년에 왜 브라우저·온디바이스 처리를 하지 않냐는 지적이었다. 결론은 '서버 집중 처리가 비용이 싸기 때문인데, 주기적인 침해 비용을 반영하면 그 계산이 성립하지 않는다'는 것이었다.
- 독일어 '다텐슈파르잠카이트(Datensparsamkeit)'를 언급하는 댓글이 여러 개 공감을 받았다. '데이터 절약주의'를 뜻하는 이 단어처럼, 애초에 핵심 서비스에 필요하지 않은 데이터를 수집하지 않는 것이 최선의 방어라는 주장이다.
- AI 학습 데이터 수집 기업의 구조적 문제를 지적하는 댓글도 있었다. 데이터를 라벨링·수집하는 계약직은 전체 AI 공급망에서 가장 보호받지 못하는 계층인데, 그 파이프라인 자체가 공격 표면이 됐다는 점에서 '추악한 노동 문제'라는 표현이 등장했다.
How to Apply
- 음성 인증을 2차 인증 수단으로 사용 중인 서비스를 운영한다면, 단일 채널 음성 매칭 대신 liveness detection(실시간 사람 여부 판별)과 챌린지-응답 방식을 결합하거나, AudioSeal 워터마킹이나 AASIST 안티-스푸핑 모델을 파이프라인에 추가해 합성 음성 공격을 걸러낼 수 있다.
- AI 학습 데이터 수집 파이프라인을 설계하거나 외부 업체를 선정하는 경우, 음성 녹음과 신분증 스캔을 같은 데이터베이스 행에 저장하는 구조를 피하고, 두 데이터를 서로 다른 암호화 저장소에 분리하며 연결 키를 별도로 관리해 침해 시 피해 범위를 최소화할 수 있다.
- 음성·생체 데이터를 서버에 중앙화해 저장 중인 서비스라면, Whisper.cpp나 WebGPU 기반 브라우저 내 처리를 검토해볼 수 있다. 온디바이스 처리로 전환하면 생체 원본이 서버에 남지 않아 서버 침해 시 유출될 데이터 자체가 없어진다.
- Mercor 등 AI 데이터 수집 플랫폼을 통해 계약직으로 참여한 적이 있다면, YouTube·팟캐스트·Zoom 녹화 등 공개 인덱싱된 자신의 음성 샘플을 검색해 삭제하고, 음성 인증을 사용하는 은행·증권 계정의 인증 방식을 SMS OTP 또는 하드웨어 토큰으로 교체하는 것이 권장된다.
Terminology
관련 논문
MTG Bench: LLM들이 Magic: The Gathering을 얼마나 잘 플레이하는지 테스트
카드 게임 MTG의 규칙 준수 능력으로 LLM의 복잡한 규칙 추론 능력을 측정하는 독창적인 벤치마크로, gpt-5.5가 95.4점으로 1위를 차지했다.
ALIGNBEAM: Cross-Vocabulary Logit Mixing을 통한 Inference-Time Safety Alignment 전이
도메인 파인튜닝으로 망가진 LLM 안전성을, 재학습 없이 추론 시점에 작은 안전 모델에서 빌려와 복구하는 방법.
iPad가 Tailscale에 연결되어 있었다: WebRTC 디버깅 이야기
WebRTC 데이터 채널에서 iPad만 응답을 못 받는 희귀 버그를 추적한 결과, webrtc-rs의 하드코딩된 MTU 상수와 Tailscale의 IPv6 Fragment 패킷 드롭이 동시에 작용한 복합 버그였다는 2주간의 디버깅 실화.
LLM이 고전적인 Hyperparameter 최적화 알고리즘을 이길 수 있을까?
LLM 기반 하이퍼파라미터 최적화 에이전트와 CMA-ES, TPE 같은 고전 알고리즘을 직접 비교한 연구로, LLM 단독으로는 고전 방법을 이기지 못하지만 두 방법을 합친 하이브리드 'Centaur'가 최고 성능을 낸다는 결론이 나왔다.
눈이 보는 것, LLM이 놓치는 것: Human Perception을 이용한 Adversarial Text Attack
Bold, 하이라이트, 공백 배치 같은 타이포그래피 트릭으로 GPT-4o, Llama Guard 등 10개 콘텐츠 모더레이션 시스템을 99% 이상 우회할 수 있다.
Claude가 rsync의 버그를 증가시켰는가? 데이터 분석
rsync 프로젝트에 Claude AI가 도입된 이후 버그가 늘었다는 소셜 미디어 주장을 실제 데이터와 통계 분석으로 검증한 글로, 결론적으로 Claude 도입 후 릴리즈가 역사적 분포에서 유독 버그가 많다는 통계적 근거는 없었다.