Mercor에서 AI 계약직 4만 명의 음성 샘플 4TB 탈취 — 내 목소리가 악용되고 있는지 확인하는 방법
4TB of voice samples just stolen from 40k AI contractors at Mercor
TL;DR Highlight
AI 학습 데이터 수집 플랫폼 Mercor에서 4만 명 계약직의 음성 녹음과 신분증 스캔이 함께 유출되어, 딥페이크·음성 사기에 즉시 악용 가능한 '완성형 위조 키트'가 만들어졌다는 보안 분석 글이다.
Who Should Read
AI 학습 데이터 수집 플랫폼을 운영하거나 이용한 개발자, 그리고 음성 인증·생체 데이터를 서비스에 활용 중인 백엔드·보안 개발자.
Core Mechanics
- 2026년 4월 4일, 해킹 그룹 Lapsus$가 AI 학습 데이터 플랫폼 Mercor에서 약 4TB 분량의 데이터를 탈취해 자신들의 유출 사이트에 공개했다. 피해 계약직은 4만 명 이상으로 보고됐다.
- 이번 유출이 특히 위험한 이유는 음성 녹음과 신분증(여권·운전면허증) 스캔이 한 데이터베이스의 같은 행에 묶여 있기 때문이다. 기존 유출 사고는 둘 중 하나만 포함되는 경우가 대부분이었는데, 이번엔 두 가지가 결합된 '딥페이크 즉시 사용 가능 키트'가 노출됐다.
- Mercor 계약직의 음성 녹음은 평균 2~5분 분량의 조용한 환경에서 녹음된 스크립트 낭독이다. WSJ 2026년 2월 보도에 따르면 시중에 유통 중인 음성 복제 도구는 15초의 깨끗한 음성만 있으면 충분하므로, 유출된 샘플은 그 기준을 훨씬 초과한다.
- 은행 음성 인증 우회 공격이 실질적인 위협이다. 미국과 영국의 일부 은행은 여전히 음성 매칭을 2차 인증 수단으로 사용하는데, 복제된 음성으로 챌린지 구문을 읽으면 음성 인증 관문이 열린다.
- 비싱(Vishing, 전화 사기)으로 피해자의 회사 HR·재무팀에 전화해 급여 이체처 변경이나 송금을 요청하는 공격도 실제로 여러 차례 발생했다. Krebs on Security 아카이브에 따르면 2023년 이후 이런 방식의 확인된 사례가 20건 이상이다.
- 2024년 홍콩 Arup 사건처럼 딥페이크 화상통화로 2,500만 달러를 가로챈 전례가 있다. Arup 사건은 공개된 영상·음성으로 만들었는데, 이번 Mercor 유출은 스튜디오급 음질 음성과 신분증이 함께 있어 그보다 훨씬 정밀한 위조가 가능하다.
- 보험 콜센터를 노린 합성 음성 공격도 급증 중이다. Pindrop 보고서에 따르면 2025년 한 해 동안 보험 콜센터 대상 합성 음성 공격이 전년 대비 475% 증가했으며, 자동차·생명·장애 보험이 주요 타깃이다.
- FBI에 따르면 2026년 60세 이상 피해자의 인터넷 사기 피해액은 23억 달러에 달했고, 가장 빠르게 증가한 유형은 '합성 음성으로 가족을 사칭해 위기 상황을 꾸미는 긴급 사기'였다.
Evidence
- 원문이 피해자를 위한 무료 음성 분석 서비스를 홍보하자, 댓글에서 '음성 데이터를 AI 기업에 탈취당한 피해자가 자기 음성을 또 다른 AI 기업에 보내는 꼴'이라는 신랄한 지적이 나왔다. 이 서비스는 ORAVYS라는 음성 분석 스타트업이 운영하는 것으로, 글 자체가 마케팅성 콘텐츠라는 의심도 제기됐다.
- 음성과 신분증이 결합된 유출은 비밀번호 유출과 근본적으로 다르다는 의견이 많았다. '비밀번호는 바꿀 수 있지만 목소리는 교체할 수 없다'는 점에서 생체 정보를 '영구 비밀번호(forever password)'로 인식해야 한다는 프레이밍이 공감을 얻었다.
- 서버에 음성 생체 데이터를 중앙화해 보관하는 관행 자체를 문제 삼는 댓글이 주목받았다. Whisper.cpp가 스마트폰에서 돌아가고 WebGPU도 지원되는 2026년에 왜 브라우저·온디바이스 처리를 하지 않냐는 지적이었다. 결론은 '서버 집중 처리가 비용이 싸기 때문인데, 주기적인 침해 비용을 반영하면 그 계산이 성립하지 않는다'는 것이었다.
- 독일어 '다텐슈파르잠카이트(Datensparsamkeit)'를 언급하는 댓글이 여러 개 공감을 받았다. '데이터 절약주의'를 뜻하는 이 단어처럼, 애초에 핵심 서비스에 필요하지 않은 데이터를 수집하지 않는 것이 최선의 방어라는 주장이다.
- AI 학습 데이터 수집 기업의 구조적 문제를 지적하는 댓글도 있었다. 데이터를 라벨링·수집하는 계약직은 전체 AI 공급망에서 가장 보호받지 못하는 계층인데, 그 파이프라인 자체가 공격 표면이 됐다는 점에서 '추악한 노동 문제'라는 표현이 등장했다.
How to Apply
- 음성 인증을 2차 인증 수단으로 사용 중인 서비스를 운영한다면, 단일 채널 음성 매칭 대신 liveness detection(실시간 사람 여부 판별)과 챌린지-응답 방식을 결합하거나, AudioSeal 워터마킹이나 AASIST 안티-스푸핑 모델을 파이프라인에 추가해 합성 음성 공격을 걸러낼 수 있다.
- AI 학습 데이터 수집 파이프라인을 설계하거나 외부 업체를 선정하는 경우, 음성 녹음과 신분증 스캔을 같은 데이터베이스 행에 저장하는 구조를 피하고, 두 데이터를 서로 다른 암호화 저장소에 분리하며 연결 키를 별도로 관리해 침해 시 피해 범위를 최소화할 수 있다.
- 음성·생체 데이터를 서버에 중앙화해 저장 중인 서비스라면, Whisper.cpp나 WebGPU 기반 브라우저 내 처리를 검토해볼 수 있다. 온디바이스 처리로 전환하면 생체 원본이 서버에 남지 않아 서버 침해 시 유출될 데이터 자체가 없어진다.
- Mercor 등 AI 데이터 수집 플랫폼을 통해 계약직으로 참여한 적이 있다면, YouTube·팟캐스트·Zoom 녹화 등 공개 인덱싱된 자신의 음성 샘플을 검색해 삭제하고, 음성 인증을 사용하는 은행·증권 계정의 인증 방식을 SMS OTP 또는 하드웨어 토큰으로 교체하는 것이 권장된다.
Terminology
관련 논문
Claude.ai 전면 장애 및 API 오류 급증 인시던트 리포트 (2026년 4월 28일)
Anthropic의 Claude.ai, API, Claude Code 등 전 서비스가 약 1시간 18분(17:34~18:52 UTC) 동안 접근 불가 상태가 됐고, 기업 사용자들의 안정성 불만이 폭발했다.
Claude 구독 취소 후기: 토큰 소진 문제, 품질 저하, 그리고 형편없는 고객 지원
Claude Code Pro 구독자가 3주간 겪은 토큰 과다 소비, 모델 품질 저하, 무성의한 고객 지원 문제를 구체적 사례와 함께 고발한 글로, 커뮤니티에서 비슷한 경험을 가진 개발자들의 공감을 얻고 있다.
서로 다른 Language Model들이 비슷한 숫자 표현 방식을 학습한다
Transformer, LSTM, Linear RNN 등 구조가 전혀 다른 언어 모델들이 숫자를 표현할 때 공통적으로 주기 T=2, 5, 10의 주기적 패턴을 학습한다는 연구 결과로, 모델 아키텍처를 넘어선 '수렴 진화' 현상을 수학적으로 설명한다.
LLM의 CFG(Context-Free Grammar) 해석 능력 진단
LLM이 새로운 문법 규칙을 프롬프트에서 받았을 때 구문은 맞춰도 의미 구조는 무너진다는 걸 체계적으로 증명한 연구
LLM이 만들어낸 보안 리포트 폭탄에 Linux 커널이 레거시 코드를 삭제로 대응
LLM이 쏟아내는 AI 생성 보안 버그 리포트를 감당하지 못한 Linux 커널 메인테이너들이 ISA, PCMCIA, AX.25, ATM, ISDN 등 레거시 드라이버/프로토콜을 커널 트리에서 통째로 제거하기로 결정했다. 관리 불가능한 코드에 AI가 버그 보고를 폭증시키면서 '코드 삭제'라는 극단적 선택을 하게 된 사례다.
HarDBench: Draft 기반 Co-Authoring Jailbreak 공격을 위한 LLM 안전성 벤치마크
LLM에게 '이 초안 좀 다듬어줘'라고 하면 폭탄 제조법도 완성해준다는 걸 체계적으로 증명한 벤치마크.