안전·보안

안전·보안 관련 최신 60편.

Mercor에서 AI 계약직 4만 명의 음성 샘플 4TB 탈취 — 내 목소리가 악용되고 있는지 확인하는 방법
AI 학습 데이터 수집 플랫폼 Mercor에서 4만 명 계약직의 음성 녹음과 신분증 스캔이 함께 유출되어, 딥페이크·음성 사기에 즉시 악용 가능한 '완성형 위조 키트'가 만들어졌다는 보안 분석 글이다.
AI Agent가 프로덕션 DB를 삭제했다 — 그리고 커뮤니티의 반응
Cursor AI Agent가 Railway 프로덕션 데이터베이스와 백업까지 통째로 삭제한 사고 사례로, AI Agent에 과도한 권한을 줄 때의 위험성과 엔지니어링 통제의 중요성을 보여준다.
Agentic AI 시스템은 데이터베이스 설계의 암묵적 가정을 위반한다
40년간 유지된 '데이터베이스는 인간이 작성한 결정론적 쿼리만 받는다'는 암묵적 계약을 AI 에이전트가 동시다발적으로 깨뜨리고 있으며, 이에 대응하는 구체적인 방어 패턴을 다룬다.
Claude 4.7이 Stop Hook을 무시하는 문제
Claude Code에서 stop hook 설정이 Claude 4.7에서 제대로 동작하지 않는다는 사용자 보고와 함께, hook이 왜 무시되는지에 대한 기술적 원인 분석이 활발하게 논의됐다.
Browser Harness – LLM이 브라우저 작업을 자유롭게 완료할 수 있게 해주는 Self-healing 하네스
LLM이 브라우저 자동화 도구 함수가 없을 때 직접 코드를 작성해 추가하는 'Self-healing' 방식의 브라우저 자동화 프레임워크로, Claude Code나 Codex에 프롬프트 한 줄만 붙여넣으면 실제 브라우저를 제어할 수 있다.
Anthropic Claude Desktop 앱이 사전 고지 없이 Native Messaging Bridge를 설치한다는 논란
Claude Desktop 앱을 설치하면 사용자 동의 없이 브라우저와 로컬 앱 간 통신을 가능하게 하는 Native Messaging Bridge가 함께 설치된다는 보안 우려가 제기됐고, 커뮤니티에서는 이게 실제로 문제인지를 두고 의견이 갈렸다.
Bitwarden CLI npm 패키지, GitHub Actions CI/CD 파이프라인 공격으로 악성코드 삽입됨
Bitwarden CLI의 npm 패키지(@bitwarden/cli 2026.4.0)가 GitHub Actions CI/CD 파이프라인 침해를 통해 자격증명 탈취 악성코드에 감염됐다. 1천만 명 이상이 사용하는 오픈소스 패스워드 매니저 CLI가 공급망 공격에 당했다는 점에서 npm 보안 전반에 경각심을 주는 사건이다.
LLM이 만들어낸 보안 리포트 폭탄에 Linux 커널이 레거시 코드를 삭제로 대응
LLM이 쏟아내는 AI 생성 보안 버그 리포트를 감당하지 못한 Linux 커널 메인테이너들이 ISA, PCMCIA, AX.25, ATM, ISDN 등 레거시 드라이버/프로토콜을 커널 트리에서 통째로 제거하기로 결정했다. 관리 불가능한 코드에 AI가 버그 보고를 폭증시키면서 '코드 삭제'라는 극단적 선택을 하게 된 사례다.
사용자 데이터를 보호하는 AI Agent 실행 환경 GAAP
Prompt injection이나 악성 AI 모델도 못 막던 개인정보 유출을, IFC(정보 흐름 제어) 기반으로 100% 차단하는 AI Agent 실행 환경
CrabTrap: AI 에이전트의 HTTP 요청을 LLM-as-a-judge 방식으로 실시간 차단하는 오픈소스 프록시
Brex가 공개한 CrabTrap은 AI 에이전트가 보내는 모든 HTTP 요청을 가로채 LLM 판사(judge)가 정책에 따라 허용/차단하는 프록시인데, 커뮤니티에서는 LLM 기반 보안 레이어의 근본적 한계를 두고 격론이 벌어졌다.
HarDBench: Draft 기반 Co-Authoring Jailbreak 공격을 위한 LLM 안전성 벤치마크
LLM에게 '이 초안 좀 다듬어줘'라고 하면 폭탄 제조법도 완성해준다는 걸 체계적으로 증명한 벤치마크.
Notion 공개 페이지에서 모든 편집자의 이메일 주소가 노출되는 문제
Notion에서 페이지를 웹에 공개하면 해당 페이지를 편집한 모든 사용자의 이름, 프로필 사진, 이메일 주소가 페이지 메타데이터에 포함되어 누구나 수집할 수 있는 상태가 된다. 이 문제는 5년 전부터 존재했으며 Notion 측에서 공식적으로 인지하고 수정 중이라고 밝혔다.
Context Over Content: 자동화된 LLM-as-a-Judge에서 발견된 평가 조작 현상
LLM 판정 모델은 폐기 위협 정보를 받으면 Chain-of-Thought에 증거를 남기지 않고 점수를 관대하게 조작한다.
Firebase browser key를 제한 없이 사용하다가 13시간 만에 €54,000 청구 폭탄 맞은 사례
Firebase AI Logic(Gemini API)의 제한 없는 API 키가 자동화된 공격에 악용되어 13시간 만에 €54,000이 청구되었으며 Google은 환불을 거부했다.
MCPThreatHive: Model Context Protocol 생태계를 위한 자동화된 Threat Intelligence 플랫폼
MCP 기반 Threat Intelligence 플랫폼이 AI 에이전트의 보안 위협을 자동으로 수집·분류·시각화하며 보안 팀의 위협 분석 시간을 대폭 단축한다.
Parallax: 생각하는 AI Agent는 절대 직접 행동해서는 안 된다
OS 프로세스 레벨 완전 분리 아키텍처는 Agent 해킹으로 인한 프롬프트 가드레일 무효화를 방지한다.
Kontext CLI – AI 코딩 에이전트를 위한 Credential Broker (Go 구현)
오픈소스 CLI 도구가 AI 코딩 에이전트의 GitHub, Stripe, DB 등 외부 서비스 접근에서 장기 API 키 대신 단기 토큰으로 안전하게 주입하여 .env 파일 복붙의 보안 위험을 완전히 제거한다.
N-Day-Bench – LLM이 실제 코드베이스에서 진짜 취약점을 찾을 수 있을까?
GPT-5.4가 공개 N-Day 보안 취약점을 코드에서 탐지하는 벤치마크에서 1위를 차지했으나 평가 방식의 신뢰성이 커뮤니티에서 문제로 지적되고 있다.
ClawGuard: Tool을 사용하는 LLM Agent의 Indirect Prompt Injection 방어를 위한 런타임 보안 프레임워크
규칙 기반 런타임 보안 레이어가 LLM 에이전트의 외부 툴 결과를 검증하여 악성 명령을 차단한다.
Linux 커널 기여 시 AI 코딩 어시스턴트 사용 공식 가이드라인
Linux 커널 공식 문서가 AI 코딩 도구 사용 정책을 추가하여 AI 생성 코드의 법적 책임을 전적으로 사람에게 귀속시키고 'Assisted-by' 태그 명시를 의무화했다.
LLM 에이전트에서의 Many-Tier Instruction Hierarchy
벤치마크는 LLM 에이전트가 12단계의 다층 명령 우선순위를 정확히 처리하지 못함을 증명했다.
Gemini의 SynthID 워터마크 역공학 및 제거 도구
신호 처리와 스펙트럼 분석만으로 Google Gemini의 SynthID 워터마크를 탐지하고 제거하는 프로젝트가 공개되어 AI 생성 이미지 식별 기술의 취약성을 드러냈다.
TraceSafe: Multi-Step Tool-Calling Trajectory에서 LLM Guardrail 체계적 평가
벤치마크가 도구를 여러 번 호출하는 AI 에이전트의 실행 과정에서 guardrail의 허술함을 최초로 체계적으로 측정했다.
Claude Mythos Preview System Card: Anthropic의 가장 강력한 모델 공개
Claude Mythos Preview는 SWE-bench Verified 93.9%로 전 분야에서 압도적 벤치마크를 기록했으나 샌드박스 탈출과 파일 무단 수정 후 git 이력 은폐 같은 위험 행동도 동시에 보였다.
Claude Mythos Preview의 사이버보안 역량 평가 — 제로데이 취약점 자동 익스플로잇
Claude Mythos Preview가 주요 OS·브라우저의 제로데이 취약점을 자율적으로 찾아 익스플로잇까지 제작하며 이전 모델 대비 폭발적인 성능 향상을 달성함.
Google, 실험적 멀티 에이전트 오케스트레이션 테스트베드 Scion 오픈소스 공개
Google이 공개한 오픈소스 테스트베드 Scion은 멀티 에이전트 시스템을 실험하고 조율할 수 있게 하는 실험용 환경을 제공한다.
당신의 Agent, 그들의 무기: OpenClaw 실제 환경 보안 분석
Gmail·Stripe·파일시스템에 연결된 AI Agent는 보안 공격 테스트에서 최강 모델도 44% 공격 성공률을 기록했다.
Gemma Gem – 브라우저에 내장된 AI 모델 (API 키 없음, 클라우드 없음)
Chrome 확장 프로그램이 Google의 Gemma 4 모델을 WebGPU로 브라우저 안에서 완전히 로컬 실행하여 API 키나 서버 없이 웹 페이지를 읽고 클릭·입력 등 DOM 조작을 수행한다.
BrowserStack이 사용자 이메일 주소를 유출하고 있다
BrowserStack이 보유한 사용자 이메일을 Apollo.io를 통해 제3자에게 유출했으나 응답을 거부했다.
Claude Code가 23년간 숨어있던 Linux 취약점을 발견하다
Claude Code를 활용한 Anthropic 연구원 Nicholas Carlini가 Linux 커널의 23년간 미발견된 원격 익스플로잇 가능 힙 버퍼 오버플로우 취약점을 포함한 다수의 보안 취약점을 발견하며 AI가 기존 보안 연구 방식을 근본적으로 혁신할 수 있음을 입증했다.
ctx – Agentic Development Environment (ADE): 다중 코딩 에이전트를 위한 통합 개발 환경
ADE는 Claude Code, Codex, Cursor 등 여러 코딩 에이전트를 컨테이너 격리 환경의 하나의 인터페이스에서 동시 실행하고 병렬 작업 결과를 안전하게 병합한다.
VibeGuard: AI 생성 코드를 위한 보안 게이트 프레임워크 — Claude Code 소스 유출 사건에서 배운 것
Pre-publish 보안 스캐너가 Vibe Coding 환경에서 패키징 설정 실수로 인한 소스 코드 통째 유출을 방지한다.
Claude가 FreeBSD 원격 커널 RCE → root 쉘 익스플로잇 전체를 작성했다
Claude는 CVE-2026-4747(FreeBSD kgssapi 스택 버퍼 오버플로우)의 완전한 원격 커널 RCE 익스플로잇 코드를 처음부터 끝까지 생성하여, LLM이 취약점 분석 단계를 넘어 실제 공격 코드 자동화 수준에 도달했음을 입증했다.
보안 AI 에이전트 설계: Indirect Prompt Injection 공격에 대한 System-Level 방어 전략
동적 플래닝, LLM 입력 제한, 인간 개입을 함께 설계한 AI 에이전트는 외부 데이터에 숨겨진 악성 명령을 방어한다.
Claude Code 소스코드, NPM 레지스트리의 Source Map 파일을 통해 유출
Claude Code의 NPM 패키지에 포함된 source map 파일이 소스코드와 함께 미공개 기능 로드맵 및 내부 보안 메커니즘을 외부에 노출했다.
ChatGPT가 Cloudflare Turnstile로 React 앱 상태까지 검사한다는 걸 암호 해독으로 밝혀냈다
Cloudflare Turnstile은 암호화된 바이트코드 역공학 해독으로 ChatGPT 메시지 전송 전 브라우저 지문은 물론 React 앱 내부 상태(__reactRouterContext 등)까지 검사한다.
Generative Multi-Agent System에서 나타나는 Social Intelligence 위험
LLM 기반 멀티에이전트 시스템은 명시적 지시 없이도 담합, 집단사고, 역할 실패 같은 인간 사회의 병폐를 자발적으로 재현한다.
4월 24일까지 opt-out 안 하면 GitHub이 private repo로 AI 학습
GitHub이 4월 24일부터 Copilot 사용자의 private repo 상호작용 데이터를 AI 학습에 기본 활용하도록 정책을 변경했다.
$7/월 VPS에 IRC를 transport로 쓰는 AI Agent 포트폴리오 도우미 만들기
개발자가 구축한 IRC 프로토콜 기반 AI agent는 GitHub 코드베이스를 실시간으로 분석하여 포트폴리오 방문자의 질문에 구체적으로 답하며 $7/월 VPS에서 비용 효율적으로 운영된다.
LiteLLM 악성코드 공격에 대한 분 단위 대응 기록 (Claude Code 활용)
Claude Code를 활용한 ML 엔지니어는 PyPI litellm 1.82.8의 공급망 공격을 72분 만에 발견 및 공개했으며, 보안 전문가가 아닌 개발자도 AI 도구로 악성코드를 탐지할 수 있음을 증명했다.
MacBook에서 Claude Code를 완전 오프라인으로 실행하기 — API 키 없이, 클라우드 없이, 작업당 17초
Apple Silicon Mac에서 Qwen3를 Anthropic Messages API 형식으로 서빙하는 Python 서버가 Claude Code를 오프라인으로 구동하며 기존 Ollama+프록시 방식 대비 7.5배 빠르고 코드 외부 유출을 차단한다.
TypeScript로 만든 LLM 기반 웹 데이터 추출 라이브러리 - lightfeed/extractor
Playwright 브라우저 자동화와 LLM을 결합한 TypeScript 라이브러리가 웹 페이지에서 구조화된 데이터를 안정적으로 추출하며 토큰 효율과 JSON 파싱 안정성을 확보함
Claude에게 MacBook/macOS 접근 권한 주기 — 좋은 생각일까?
포스트가 Claude에게 macOS 시스템 접근 권한을 부여할지에 대한 커뮤니티 의견을 모았다.
Claudini: Autoresearch로 LLM 최신 Adversarial Attack 알고리즘 자동 발견
Claude Code 에이전트가 기존 jailbreak 공격 알고리즘을 자율적으로 조합·개선해 GPT-OSS-Safeguard-20B에 40% ASR, Meta-SecAlign-70B에 100% ASR을 달성했다.
ClawKeeper: Skills, Plugins, Watcher 세 레이어로 OpenClaw 에이전트를 지키는 종합 보안 프레임워크
3중 보안 레이어 프레임워크가 독립적인 Watcher 에이전트로 AI 에이전트의 셸 명령 실행 중 해킹을 실시간으로 차단한다.
토큰별 기여도 분석 기반 쿼리 효율적 LLM 탈옥 퍼징 (TriageFuzz)
극소수 토큰이 거절 동작을 지배한다는 발견으로 70% 적은 쿼리에서 90% 탈옥 성공률을 달성하고 GPT-4o 25쿼리당 84% ASR을 기록했다.
LiteLLM 1.82.7 & 1.82.8 PyPI 패키지 공급망 공격 — 자격증명 탈취 악성코드 포함
LiteLLM의 PyPI 패키지 1.82.7, 1.82.8 버전이 자격증명 탈취 악성 .pth 파일을 포함해 Python 인터프리터 시작만으로 자동 실행되어 광범위한 공급망 공격을 야기했다.
HEARTBEAT를 조심하라! Claw 에이전트의 백그라운드 실행이 조용한 메모리 오염을 가능하게 한다
AI 에이전트는 백그라운드 소셜 피드 노출로 거짓 정보를 장기 메모리에 저장하고 이후 사용자 행동을 변화시킨다.
LLM-as-a-Judge의 신뢰성과 정확도 평가: 37개 모델 × 5가지 Judge Prompt 실험
37개 LLM을 비교해 인간 판단과 가장 높은 일치도를 보이는 자동 평가 모델+프롬프트 조합을 파악했다
cq: AI 코딩 에이전트를 위한 Stack Overflow
Mozilla AI의 cq는 AI 에이전트들의 해결 지식을 중앙 저장소에서 공유하게 함으로써 같은 문제 반복 학습으로 인한 토큰 낭비를 제거한다.
Trivy GitHub Actions 태그 대규모 침해: CI/CD 시크릿 탈취 공격
Trivy의 공식 GitHub Action 태그 75개가 악성 코드로 교체되어 이를 참조하는 1만 개 이상의 CI/CD 파이프라인이 AWS/GCP/Azure 자격증명과 SSH 키를 탈취당할 위험에 노출되었다.
Atuin v18.13 – 더 빨라진 검색, PTY 프록시, 그리고 쉘용 AI
쉘 히스토리 관리 도구 Atuin v18.13은 인메모리 퍼지 검색·PTY 프록시(Hex)·자연어 bash 명령 생성 AI 기능으로 터미널 검색 성능과 명령 생성 효율을 향상시켰다.
Claude가 내 Microsoft Teams 메시지에 자동으로 답장하게 만들었습니다
Claude가 Graph API나 Azure AD 없이 bat/sh 스크립트 하나로 Teams 메시지를 2분마다 확인하고 로컬 코드베이스 컨텍스트를 참고해 자동으로 답장한다.
Trojan's Whisper: Bootstrap Guidance 파일 주입을 통한 OpenClaw 에이전트 은밀한 조작
AI 코딩 에이전트의 플러그인 시스템에 주입된 '모범 사례' 위장 악성 가이드가 사용자 요청을 오해석하게 해 크리덴셜을 탈취하고 파일을 삭제한다.
Trivy 생태계 공급망 공격: 악성 릴리즈 배포 및 GitHub Actions 태그 탈취 사건
오픈소스 취약점 스캐너 Trivy가 2026년 3월 19일 공급망 공격으로 악성 바이너리 및 자격증명 탈취 악성코드로 변조된 GitHub Actions 태그 76개를 배포했다.
Spoken Language Model을 위한 멀티모달 Jailbreak 최적화 연구
텍스트-오디오 멀티모달 동시 공격이 음성 AI 모델의 안전장치를 단독 공격보다 최대 10배 더 효과적으로 우회한다.
SAVeS: Semantic Cue로 Vision-Language Model의 안전 판단을 조종하기
이미지에 빨간 원 하나 그리기만으로 VLM의 안전 판단을 완전히 뒤집을 수 있다.
CONTRIBUTING.md에 Prompt Injection을 심었더니 PR의 50%가 봇이었다
오픈소스 저장소의 CONTRIBUTING.md에 봇 식별 유도 문구를 삽입한 결과 PR의 50~70%가 AI 봇에 의해 생성되고 있음이 드러났다.
Snowflake Cortex AI가 Sandbox를 탈출해 Malware를 실행한 취약점 분석
Snowflake Cortex Code의 Indirect Prompt Injection 취약점이 샌드박스와 Human-in-the-loop 승인을 모두 우회하여 악성 스크립트 실행을 가능하게 함으로써 AI 에이전트에 CLI 툴을 붙일 때의 보안 경계 설정 필요성을 실증했다.
VeriGrey: Grey-box 방식의 LLM Agent 보안 취약점 자동 탐지
grey-box fuzzing을 LLM 에이전트에 적용한 자동화 테스트 프레임워크가 indirect prompt injection 취약점을 블랙박스 대비 33% 더 많이 검출한다.