Mercor에서 AI 계약직 4만 명의 음성 샘플 4TB 탈취 — 내 목소리가 악용되고 있는지 확인하는 방법

TL;DR Highlight

AI 학습 데이터 수집 플랫폼 Mercor에서 4만 명 계약직의 음성 녹음과 신분증 스캔이 함께 유출되어, 딥페이크·음성 사기에 즉시 악용 가능한 '완성형 위조 키트'가 만들어졌다는 보안 분석 글이다.

Who Should Read

AI 학습 데이터 수집 플랫폼을 운영하거나 이용한 개발자, 그리고 음성 인증·생체 데이터를 서비스에 활용 중인 백엔드·보안 개발자.

Core Mechanics

2026년 4월 4일, 해킹 그룹 Lapsus$가 AI 학습 데이터 플랫폼 Mercor에서 약 4TB 분량의 데이터를 탈취해 자신들의 유출 사이트에 공개했다. 피해 계약직은 4만 명 이상으로 보고됐다.
이번 유출이 특히 위험한 이유는 음성 녹음과 신분증(여권·운전면허증) 스캔이 한 데이터베이스의 같은 행에 묶여 있기 때문이다. 기존 유출 사고는 둘 중 하나만 포함되는 경우가 대부분이었는데, 이번엔 두 가지가 결합된 '딥페이크 즉시 사용 가능 키트'가 노출됐다.
Mercor 계약직의 음성 녹음은 평균 2~5분 분량의 조용한 환경에서 녹음된 스크립트 낭독이다. WSJ 2026년 2월 보도에 따르면 시중에 유통 중인 음성 복제 도구는 15초의 깨끗한 음성만 있으면 충분하므로, 유출된 샘플은 그 기준을 훨씬 초과한다.
은행 음성 인증 우회 공격이 실질적인 위협이다. 미국과 영국의 일부 은행은 여전히 음성 매칭을 2차 인증 수단으로 사용하는데, 복제된 음성으로 챌린지 구문을 읽으면 음성 인증 관문이 열린다.
비싱(Vishing, 전화 사기)으로 피해자의 회사 HR·재무팀에 전화해 급여 이체처 변경이나 송금을 요청하는 공격도 실제로 여러 차례 발생했다. Krebs on Security 아카이브에 따르면 2023년 이후 이런 방식의 확인된 사례가 20건 이상이다.
2024년 홍콩 Arup 사건처럼 딥페이크 화상통화로 2,500만 달러를 가로챈 전례가 있다. Arup 사건은 공개된 영상·음성으로 만들었는데, 이번 Mercor 유출은 스튜디오급 음질 음성과 신분증이 함께 있어 그보다 훨씬 정밀한 위조가 가능하다.
보험 콜센터를 노린 합성 음성 공격도 급증 중이다. Pindrop 보고서에 따르면 2025년 한 해 동안 보험 콜센터 대상 합성 음성 공격이 전년 대비 475% 증가했으며, 자동차·생명·장애 보험이 주요 타깃이다.
FBI에 따르면 2026년 60세 이상 피해자의 인터넷 사기 피해액은 23억 달러에 달했고, 가장 빠르게 증가한 유형은 '합성 음성으로 가족을 사칭해 위기 상황을 꾸미는 긴급 사기'였다.

Evidence

원문이 피해자를 위한 무료 음성 분석 서비스를 홍보하자, 댓글에서 '음성 데이터를 AI 기업에 탈취당한 피해자가 자기 음성을 또 다른 AI 기업에 보내는 꼴'이라는 신랄한 지적이 나왔다. 이 서비스는 ORAVYS라는 음성 분석 스타트업이 운영하는 것으로, 글 자체가 마케팅성 콘텐츠라는 의심도 제기됐다.
음성과 신분증이 결합된 유출은 비밀번호 유출과 근본적으로 다르다는 의견이 많았다. '비밀번호는 바꿀 수 있지만 목소리는 교체할 수 없다'는 점에서 생체 정보를 '영구 비밀번호(forever password)'로 인식해야 한다는 프레이밍이 공감을 얻었다.
서버에 음성 생체 데이터를 중앙화해 보관하는 관행 자체를 문제 삼는 댓글이 주목받았다. Whisper.cpp가 스마트폰에서 돌아가고 WebGPU도 지원되는 2026년에 왜 브라우저·온디바이스 처리를 하지 않냐는 지적이었다. 결론은 '서버 집중 처리가 비용이 싸기 때문인데, 주기적인 침해 비용을 반영하면 그 계산이 성립하지 않는다'는 것이었다.
독일어 '다텐슈파르잠카이트(Datensparsamkeit)'를 언급하는 댓글이 여러 개 공감을 받았다. '데이터 절약주의'를 뜻하는 이 단어처럼, 애초에 핵심 서비스에 필요하지 않은 데이터를 수집하지 않는 것이 최선의 방어라는 주장이다.
AI 학습 데이터 수집 기업의 구조적 문제를 지적하는 댓글도 있었다. 데이터를 라벨링·수집하는 계약직은 전체 AI 공급망에서 가장 보호받지 못하는 계층인데, 그 파이프라인 자체가 공격 표면이 됐다는 점에서 '추악한 노동 문제'라는 표현이 등장했다.

How to Apply

음성 인증을 2차 인증 수단으로 사용 중인 서비스를 운영한다면, 단일 채널 음성 매칭 대신 liveness detection(실시간 사람 여부 판별)과 챌린지-응답 방식을 결합하거나, AudioSeal 워터마킹이나 AASIST 안티-스푸핑 모델을 파이프라인에 추가해 합성 음성 공격을 걸러낼 수 있다.
AI 학습 데이터 수집 파이프라인을 설계하거나 외부 업체를 선정하는 경우, 음성 녹음과 신분증 스캔을 같은 데이터베이스 행에 저장하는 구조를 피하고, 두 데이터를 서로 다른 암호화 저장소에 분리하며 연결 키를 별도로 관리해 침해 시 피해 범위를 최소화할 수 있다.
음성·생체 데이터를 서버에 중앙화해 저장 중인 서비스라면, Whisper.cpp나 WebGPU 기반 브라우저 내 처리를 검토해볼 수 있다. 온디바이스 처리로 전환하면 생체 원본이 서버에 남지 않아 서버 침해 시 유출될 데이터 자체가 없어진다.
Mercor 등 AI 데이터 수집 플랫폼을 통해 계약직으로 참여한 적이 있다면, YouTube·팟캐스트·Zoom 녹화 등 공개 인덱싱된 자신의 음성 샘플을 검색해 삭제하고, 음성 인증을 사용하는 은행·증권 계정의 인증 방식을 SMS OTP 또는 하드웨어 토큰으로 교체하는 것이 권장된다.

Terminology

Lapsus$마이크로소프트, Nvidia, Uber 등 대기업을 해킹한 것으로 알려진 사이버 범죄·갈취 그룹. 탈취한 데이터를 협박 수단으로 쓰거나 직접 유출 사이트에 공개한다.

음성 복제(Voice Cloning)짧은 음성 샘플을 학습해 특정인의 말투·억양·음색을 흉내 내는 음성을 생성하는 기술. 15초 정도의 깨끗한 녹음만 있어도 시중 도구로 구현 가능하다.

AudioSeal메타(Meta)가 개발한 음성 워터마킹 기술로, 합성 음성 안에 사람이 들을 수 없는 방식으로 출처 정보를 삽입해 AI 생성 여부를 탐지할 수 있게 한다.

AASIST음성 스푸핑(가짜 목소리) 탐지를 위한 딥러닝 기반 안티-스푸핑 모델. 합성된 음성과 실제 사람 음성을 구분하는 데 사용된다.

비싱(Vishing)Voice + Phishing의 합성어. 전화 통화를 이용해 신뢰할 수 있는 인물을 사칭하여 돈이나 정보를 탈취하는 사회공학 공격.

Datensparsamkeit독일어로 '데이터 절약주의'. 서비스 운영에 꼭 필요한 최소한의 데이터만 수집하고 보관하는 원칙으로, 불필요한 데이터 수집 자체가 보안 위험이라는 관점이다.