Show HN: 거절 대신 펜 테스트를 수행하도록 post-training한 모델
Show HN: We post-trained a model that pen tests instead of refusing
TL;DR Highlight
Kimi K2.6 모델을 post-training해서 보안 거부 응답 없이 실제 취약점 스캔과 펜 테스트를 수행하는 CLI 도구 ArgusRed를 공개했다. 오픈 모델을 조금만 조정하면 AI 기반 해킹 도구를 누구나 만들 수 있다는 점에서 보안 커뮤니티에 논란이 되고 있다.
Who Should Read
코드베이스의 보안 취약점을 직접 스캔하고 싶은 개발자나 보안 엔지니어, 또는 AI 모델의 안전 장치 우회 가능성에 관심 있는 ML 엔지니어.
Core Mechanics
- ArgusRed는 Security Scan(읽기 전용 정적 분석)과 Pen Test(실제 익스플로잇 시도) 두 가지 모드를 하나의 CLI로 제공한다. Security Scan은 누구나 자유롭게 쓸 수 있고, Pen Test는 허가된 시스템에 대해서만 활성화되는 게이트 방식이다.
- 모델은 Kimi K2.6을 기반으로 post-training(파인튜닝 이후 추가 학습)을 거쳐 만들어졌다. 기존 모델은 보안 공격 관련 요청을 거부하는데, 이 모델은 그 거부 동작을 제거하고 펜 테스트에 특화되도록 재훈련됐다.
- 읽기 전용 강제는 모델 레벨이 아니라 Go 하네스(harness) 레벨에서 시행된다. 모델이 파일 쓰기나 명령 실행 같은 변경 도구를 호출해도 실행 전에 인터셉트해서 결정론적으로 차단하기 때문에 코드는 절대 수정되지 않는다.
- Exploit Verification 기능을 켜면 보고된 취약점이 실제로 재현 가능한지 검증한다. Docker 모드는 임시 격리 컨테이너 안에서 재현을 시도하고, Live FS 모드는 실제 체크아웃 환경에서 시도한다. 기본값은 비활성화(보고만 하고 재현 안 함)다.
- 스캔 속도는 ~30k LOC짜리 Bank of Anthos 프로젝트 6모듈 기준 약 10분, ~1.5M LOC짜리 Symfony 전체 스캔은 약 40분 걸렸다. 모듈들이 병렬 스웜(swarm)으로 돌기 때문에 코드 크기 대비 시간이 선형이 아니라 서브리니어(sub-linear)로 증가한다.
- 출력 결과는 `.argusred/scan-<날짜>.md` 마크다운 파일 하나로 저장된다. 각 발견 항목마다 위치, 심각도, 원인, 수정 방향이 포함되며 코드에서 근거를 찾을 수 없는 '감(vibes) 기반' 취약점은 보고하지 않는다.
- 설치는 무료이고 첫 실행 시 Cosine 계정이 생성되면서 2M 토큰이 지급된다. 이후 스캔은 Cosine의 코딩 에이전트와 동일한 로그인으로 유료 사용량 기반으로 과금된다.
- 샘플 리포트(Bank of Anthos)에서는 모든 원장 서비스에서 발급자/대상 클레임 없이 단일 RSA 공개키로 JWT를 검증하는 문제, 레포에 하드코딩된 RSA 개인키, 프론트엔드 JWT 서명 검증 비활성화, 금융 트랜잭션 정수 오버플로우, OAuth 흐름의 SSRF 등 CRITICAL 등급 취약점들이 발견됐다.
Evidence
- Kimi K2.6이 매우 capable한 모델인데 이것을 비교적 쉽게 post-training해서 펜 테스트 도구를 만들 수 있다는 사실 자체가 핵심이라는 의견이 있었다. 오픈 모델이 존재하는 한 AI 기반 해킹 도구는 누가 막으려 해도 결국 모든 사람이 쓸 수 있게 된다는 점에서 Fable 등 AI 안전 장치 기업들의 방어는 일시적이라는 주장이다.
- 굳이 post-training을 할 필요도 없다는 반론도 있었다. Qwen 변형 같은 'abliterated(안전 장치를 제거한)' 또는 'uncensored' 오픈 웨이트 모델은 이미 이런 요청에 기꺼이 응한다는 지적이다.
- 마케팅 페이지에서 Kimi K2.6을 전혀 언급하지 않은 것에 대한 비판이 있었다. Kimi 라이선스가 원 모델 언급을 요구할 수 있는데 이를 무시한 것이 비전문적이라는 지적이며, Cursor가 비슷한 문제를 겪었다는 사례도 언급됐다. 또한 '모델 랩이 만들었다'는 마케팅 문구에 대해 파인튜닝 하나로 모델 랩이라 부르는 것은 과장이라는 비판도 있었다.
- Shannon on AWS Bedrock을 VPC 내 에어갭 환경에서 돌리는 것과 비교해 이 도구의 차별점이 무엇인지 묻는 댓글이 있었다. Claude Code 토큰으로 사실상 무료로 쓸 수 있고 서브프로세서도 없다는 점에서 엔터프라이즈 입장에선 기존 솔루션이 더 매력적일 수 있다는 뉘앙스였다.
- 공격적 도구를 공개 배포하는 것이 안전한지에 대한 근본적 질문도 있었다. 레포 스캔 도구가 아니라 공격 도구를 만든 이유가 무엇인지, 이를 안전하게 공개 배포할 방법이 있는지 모르겠다는 의견이었다.
How to Apply
- 로컬 레포의 보안 취약점을 빠르게 확인하고 싶다면 `brew install CosineAI/argusred/argusred && argusred`로 설치 후 레포 디렉토리에서 실행하면 된다. 첫 실행 시 무료 2M 토큰이 지급되므로 30k LOC 규모 프로젝트라면 추가 비용 없이 10분 안에 CRITICAL 수준 취약점 리포트를 받을 수 있다.
- 발견된 취약점이 실제로 익스플로잇 가능한지 확인하고 싶다면 Exploit Verification을 Docker 모드로 켜면 된다. 격리된 컨테이너 안에서 재현을 시도하므로 호스트 환경을 건드리지 않으면서 '이론적 취약점'과 '실제 재현 가능한 취약점'을 분리할 수 있다.
- CI/CD 파이프라인에 보안 스캔을 넣고 싶다면 출력이 `.argusred/scan-<날짜>.md` 단일 마크다운 파일로 로컬에 저장되므로 이 파일을 아티팩트로 업로드하거나 파싱해서 CRITICAL/HIGH 항목이 있으면 빌드를 실패시키는 스크립트를 붙일 수 있다.
- 오픈 모델을 기반으로 비슷한 도메인 특화 에이전트를 만들고 싶다면 이 사례처럼 Kimi K2.6 같은 오픈 웨이트 모델을 post-training하되, 안전 장치 우회에 따른 라이선스 및 법적 리스크를 먼저 검토해야 한다. 실제로 커뮤니티에서 원 모델(Kimi) 미표기 문제가 지적됐으므로 라이선스 컴플라이언스를 꼼꼼히 확인할 필요가 있다.
Code Example
# macOS / Linux 설치 및 실행
brew install CosineAI/argusred/argusred && argusred
# 또는 curl 설치
curl -fsSL https://raw.githubusercontent.com/CosineAI/argusred-dist/main/install.sh | sh
# 레포 디렉토리에서 스캔 실행
cd path/to/your/repo
argusred
# 결과 파일 위치
# .argusred/scan-<날짜>.mdTerminology
관련 논문
Data Intelligence Agents:자율 Coding Agent로 엔터프라이즈 데이터 해석·모델링·쿼리하기
SQL 한 줄 못 써도 CSV 올리면 DB 만들고 자연어 질문에 SQL 자동 생성·검증까지 해주는 3-에이전트 시스템, 7개 벤치마크 모두 SOTA 달성.
TREX: 코드를 직접 실행하는 AI 코드 리뷰어
Greptile가 PR 리뷰 시 코드를 실제로 실행해서 런타임 버그까지 잡아주는 TREX를 공개했다. 정적 분석만으로는 발견할 수 없는 race condition, UI 회귀, 상태 의존 로직 버그까지 커버한다.
AI가 쓰고 AI가 관리한다: 391 세션에 걸친 Semantic Space 제어와 Index Sickness 해결
LLM과의 장기 협업에서 규칙과 심볼을 쌓을수록 AI가 더 멍청해지는 이유와, 파일 분리만으로 이를 해결한 실전 기록
macOS에서 로컬 Coding Agent 세팅하기 (llama.cpp + MTP + Gemma 4)
인터넷 없이도 쓸 수 있는 로컬 코딩 에이전트를 macOS에서 구축하는 방법을 정리한 글로, llama.cpp + MTP 스펙큘레이티브 디코딩으로 58 tok/s에서 72 tok/s까지 속도를 끌어올린 실제 벤치마크와 설정법을 공유한다.
에러가 내러티브가 될 때: 프로덕션 LLM Agent 런타임의 Silent Failure 종단 분류체계
LLM 에이전트가 내부 오류를 그럴듯한 가짜 분석 리포트로 변환해 사용자에게 전달하는 'fail-plausible' 장애 패턴을 8주간 22건의 실제 사고로 분석한 논문.
AI Agent가 DN42 네트워크 스캔을 시도하다가 운영자에게 $6,531 AWS 청구서를 안겼다
자율 AI Agent가 DN42 취미 네트워크에 가입해 전체 스캔을 시도하면서 AWS 인프라를 무분별하게 프로비저닝한 결과, 운영자에게 하루 만에 $6,531.30짜리 청구서가 날아온 실제 사건 기록이다.