코드 생성

코드 생성 관련 최신 60편.

Mindwalk – 코딩 에이전트 세션을 코드베이스 3D 맵 위에서 재생하는 시각화 도구
Claude Code나 Codex 같은 AI 코딩 에이전트가 세션 중 코드베이스의 어떤 파일을 탐색하고 수정했는지를 3D 지도 형태로 시각화해서 재생해주는 로컬 도구다. 에이전트가 작업을 어떻게 이해했는지 한눈에 파악할 수 있다.
xAI Grok Build CLI가 xAI 서버로 전송하는 데이터: 네트워크 레벨 분석
xAI의 공식 코딩 CLI 도구 Grok Build가 사용자 동의 없이 전체 Git 저장소와 .env 시크릿 파일을 xAI 서버로 업로드한다는 사실이 네트워크 트래픽 분석으로 밝혀졌다.
GPT-5.6, Grok 4.5, Claude, Muse Spark 등 12개 모델이 동일한 앱 4개를 빌드한 결과 비교
12개 LLM 모델에게 레이캐스터 미로, 루빅스 큐브, 계산기, Game of Life 앱을 각각 5번씩 만들게 해서 성공률·비용·속도를 비교한 실전 벤치마크다. GPT-5.6 Sol이 전반적으로 가장 일관된 결과를 냈고, Grok 4.5는 가성비 면에서 눈에 띄었다.
FableCut – AI 에이전트가 조작할 수 있는 브라우저 기반 비디오 에디터 (zero deps)
타임라인 전체를 JSON 파일 하나로 표현하고 MCP/REST로 AI 에이전트가 직접 편집할 수 있는 브라우저 비디오 에디터로, Claude 같은 AI가 프롬프트 하나로 영상을 자동 컷편집하고 결과를 실시간으로 UI에 반영해준다.
Databricks가 수백만 라인 실제 코드베이스로 Coding Agent를 벤치마킹한 결과
Databricks가 자사 실제 코드베이스를 기반으로 여러 AI 코딩 에이전트의 성능과 비용을 직접 측정했고, 모델 토큰 가격과 실제 태스크 비용이 전혀 다르다는 점, 그리고 오픈소스 모델이 이제 최상위 수준에 도달했다는 점을 확인했다.
Microsoft, AI 에이전트를 위한 시각화 언어 Flint 공개
Microsoft가 LLM/AI 에이전트가 차트를 쉽게 생성할 수 있도록 설계된 고수준 시각화 DSL(도메인 특화 언어) Flint를 오픈소스로 공개했다. 에이전트가 복잡한 시각적 세부사항 대신 의미론적 명세만 다루면 되도록 추상화 계층을 제공하는 게 핵심이다.
GeoSQL: Claude/Codex를 지리공간 데이터 분석 에이전트로 만들어주는 Skill
PostGIS, BigQuery, Snowflake 등에서 지리공간 데이터를 다룰 때 Claude/Codex/GitHub Copilot에 설치해서 SQL 생성과 지도 렌더링까지 자동화해주는 오픈소스 Skill이다.
100줄 Lisp으로 만든 AI Agent — 교수님이 25년 앞서 옳았다
Common Lisp의 eval 함수 하나를 도구로 주면 agent 루프 전체를 8줄 재귀함수로 구현할 수 있다는 실험적 글로, LLM agent의 본질이 얼마나 단순한지 잘 보여준다.
AI가 Cloudflare의 암호화 라이브러리 CIRCL에서 실제 버그 7개를 찾아낸 이야기
zkSecurity 팀이 AI 감사 파이프라인을 Cloudflare의 오픈소스 암호화 라이브러리 CIRCL에 돌려서 실제로 존재하는 버그 7개를 발견했고, 그 중에는 속성 기반 암호화의 접근 제어를 완전히 우회할 수 있는 Critical 버그도 포함되어 있다. AI가 암호화 코드 감사에서 실질적인 성과를 낼 수 있음을 보여준 사례라 주목할 만하다.
Docx-CLI: AI 에이전트가 Word 문서를 절반의 토큰으로 읽고 편집하는 CLI 도구
AI 에이전트(Claude, Codex)가 .docx 파일을 직접 XML로 다루는 대신 CLI 명령어로 편집할 수 있게 해주는 도구로, 토큰 사용량을 최대 2.6배 줄이고 문서 파손 없이 작업 성공률을 크게 높인다.
Rowboat – 오픈소스 로컬 우선 AI 코워커 (Claude Desktop 대안)
이메일, 미팅, Slack, 코드 등 업무 데이터를 로컬 지식 그래프로 인덱싱하고 백그라운드 에이전트로 자동화해주는 오픈소스 데스크톱 AI 비서 앱이다. Claude Desktop처럼 쓰되 훨씬 더 풍부한 업무 컨텍스트와 자체 작업 화면을 제공한다는 점에서 주목할 만하다.
SWE-Review: Agentic Code Review로 이슈 해결 루프 완성하기
AI가 생성한 PR을 자동으로 리뷰하고 수정 피드백까지 주는 에이전트 프레임워크로, resolve rate를 최대 2배 가까이 끌어올렸다.
OfficeCLI: AI 에이전트를 위한 Word/Excel/PowerPoint 자동화 도구
AI 에이전트가 Microsoft Office 파일을 읽고 편집할 수 있도록 만들어진 오픈소스 CLI 도구로, Office 설치 없이 단일 바이너리만으로 동작한다.
Agent Data Injection (ADI) 공격: AI 에이전트를 위협하는 현실적인 보안 취약점
JSON 구분자를 살짝 바꿔 넣는 것만으로 Claude Code, Codex, Gemini CLI에서 원격 코드 실행이 가능한 새로운 AI 에이전트 공격 기법 발견.
코드 품질이 Coding Agent 성능에 영향을 미치는가? Minimal-Pair 통제 실험 연구
SonarSource 연구팀이 코드 품질(cleanliness)이 AI 코딩 에이전트의 작업 성공률에는 영향을 주지 않지만, 토큰 사용량을 7~8% 줄이고 파일 재방문을 34% 감소시킨다는 사실을 통제 실험으로 밝혔다.
claude-real-video: 어떤 LLM이든 영상을 실제로 '볼 수' 있게 해주는 도구
YouTube URL이나 로컬 영상 파일에서 장면 변화 기반으로 핵심 프레임만 추출하고 음성 전사까지 해서 LLM에게 넘겨주는 오픈소스 도구. Claude는 영상 파일을 못 받고, ChatGPT는 자막만 읽고, Gemini는 고정 1fps 샘플링이라는 한계를 모두 우회한다.
Persistent-State AI Control에서의 분산 공격
AI 코딩 에이전트가 여러 PR에 걸쳐 악성 코드를 분산 삽입하면 단일 모니터로는 탐지가 사실상 불가능하다는 걸 실험으로 증명.
Reasoning effort(추론 강도)가 도구 접근보다 agentic 코드 생성의 첫 시도 신뢰성을 결정한다: 관찰 연구
Claude Code로 90번 반복 실험한 결과, Playwright 같은 테스트 도구는 비용만 올리고 실패율엔 무효였으며 xHigh reasoning effort가 첫 시도 완성률을 28%→89%로 끌어올렸다.
ctx – 로컬 머신의 코딩 에이전트 히스토리를 검색하는 CLI 도구
Claude Code, Cursor, Codex 등 코딩 에이전트가 이전 세션의 논의·결정·실패 시도를 잊지 않도록 SQLite로 인덱싱해 재사용할 수 있게 해주는 오픈소스 CLI 도구다.
Embedding 모델로 비정확 코드 중복을 탐지하는 CLI 도구 Slopo
복사-붙여넣기가 아닌 '의미적으로 유사한' 코드 중복을 임베딩 기반으로 찾아주는 CLI 도구로, AI 코딩 에이전트와 연계해 대규모 코드베이스의 숨겨진 중복을 제거하는 데 활용할 수 있다.
Senior SWE-Bench: AI 에이전트를 시니어 개발자 기준으로 평가하는 오픈소스 벤치마크
기존 SWE-Bench가 과도하게 상세한 요구사항을 주는 '주니어 수준' 평가였다면, Senior SWE-Bench는 실제 시니어 엔지니어처럼 불완전한 요구사항에서 기능을 구현하고 버그를 추적하는 능력을 평가한다. 현재 최고 성능 모델(Claude Opus 4.8)도 24%밖에 못 푸는 난이도로, AI 코딩 에이전트의 실제 한계를 측정하려는 시도다.
OpenWiki: 코드베이스에 에이전트용 문서를 자동 생성·유지하는 CLI
LangChain이 만든 CLI 도구로, AI 에이전트가 코드베이스를 이해하는 데 필요한 문서를 자동으로 생성하고 최신 상태로 유지해준다. 코딩 에이전트(Copilot, Claude 등)의 컨텍스트 품질을 높이고 싶은 개발자에게 유용하다.
Ornith-1.0: 에이전틱 코딩을 위한 자기 개선형 오픈소스 모델
Gemma 4와 Qwen 3.5를 기반으로 파인튜닝한 코딩 특화 오픈소스 모델로, RL(강화학습)을 통해 스캐폴드(에이전트 실행 구조)까지 함께 최적화하는 방식을 주장하지만, 커뮤니티에서는 벤치마크 과최적화에 불과하다는 의심을 받고 있다.
Herdr: 터미널에서 여러 AI Agent를 한 번에 관리하는 Agent Multiplexer
여러 AI 코딩 에이전트(Claude, Codex 등)를 하나의 터미널에서 동시에 실행·관리할 수 있는 Rust 기반 오픈소스 툴로, tmux처럼 세션이 유지되고 SSH로 원격 접속도 가능해 멀티 에이전트 워크플로우를 크게 단순화해준다.
NanoEuler – 순수 C/CUDA로 처음부터 만든 GPT-2 규모 언어 모델
PyTorch나 autograd 없이 C와 CUDA만으로 GPT-2 수준의 LLM을 처음부터 구현한 교육용 프로젝트로, 역전파·BPE 토크나이저·FlashAttention까지 직접 손으로 작성했다.
Ornith-1.0: 스스로 Scaffold를 생성하는 Agentic Coding LLM
모델이 문제 풀이 전략(scaffold)을 직접 생성하고 개선하는 자기강화 학습 프레임워크를 적용한 오픈소스 코딩 특화 LLM으로, 9B 소형 모델부터 397B 대형 모델까지 라인업을 갖추고 SWE-Bench 등 주요 벤치마크에서 Claude Opus 4.7을 능가하는 성능을 보여줬다.
DSpark: Speculative Decoding으로 LLM 추론 속도를 획기적으로 높인 DeepSeek의 새 논문
DeepSeek이 Speculative Decoding을 개선한 DSpark 기법을 공개했는데, 같은 시스템 용량 기준으로 사용자당 생성 속도가 57~78% 빨라졌다고 한다. 이게 DeepSeek이 경쟁사 대비 훨씬 싼 가격으로 Pro 모델을 제공할 수 있는 핵심 기술 중 하나일 가능성이 높다.
SHERLOC: Code Repair Agent를 위한 구조화된 Diagnostic Localization 프레임워크
버그 위치만 알려주는 게 아니라 '왜, 어떻게 고쳐야 하는지'까지 진단 리포트를 생성해서 코드 수정 에이전트의 성능을 높이는 training-free 프레임워크
peerd – 브라우저에서 완전히 실행되는 AI Agent Harness
백엔드 서버 없이 Chrome/Firefox 확장 프로그램으로만 동작하는 AI 에이전트 실행 환경으로, 브라우저 탭을 직접 조작하고 WASM Linux VM까지 구동할 수 있어 프라이버시와 보안을 동시에 챙길 수 있다.
Neural Particle Automata: 자기조직화 파티클 시스템을 학습하는 신경망 모델
고정된 격자 대신 움직이는 파티클 위에서 동작하는 Neural Cellular Automata의 확장 버전으로, 형태 생성·포인트 클라우드 분류·텍스처 합성 등 다양한 작업에서 자기조직화 동작을 학습할 수 있다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Oak – AI 에이전트를 위해 설계된 Git 대안 VCS
AI 에이전트가 코드 작업을 더 효율적으로 수행할 수 있도록 설계된 새로운 버전 관리 시스템(VCS)으로, lazy mount, JSON-first CLI, 멀티 레포 에이전트 워크스페이스 등을 제공한다. 다만 커뮤니티에서는 Git 대비 실질적 우위가 충분히 증명되지 않았다는 회의적 반응이 많다.
Show HN: 거절 대신 펜 테스트를 수행하도록 post-training한 모델
Kimi K2.6 모델을 post-training해서 보안 거부 응답 없이 실제 취약점 스캔과 펜 테스트를 수행하는 CLI 도구 ArgusRed를 공개했다. 오픈 모델을 조금만 조정하면 AI 기반 해킹 도구를 누구나 만들 수 있다는 점에서 보안 커뮤니티에 논란이 되고 있다.
Data Intelligence Agents:자율 Coding Agent로 엔터프라이즈 데이터 해석·모델링·쿼리하기
SQL 한 줄 못 써도 CSV 올리면 DB 만들고 자연어 질문에 SQL 자동 생성·검증까지 해주는 3-에이전트 시스템, 7개 벤치마크 모두 SOTA 달성.
TREX: 코드를 직접 실행하는 AI 코드 리뷰어
Greptile가 PR 리뷰 시 코드를 실제로 실행해서 런타임 버그까지 잡아주는 TREX를 공개했다. 정적 분석만으로는 발견할 수 없는 race condition, UI 회귀, 상태 의존 로직 버그까지 커버한다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.
Claude/GPT 대신 로컬 모델로 일상 코딩을 완전히 대체한 사람 있나요?
Hacker News에서 Claude/GPT를 로컬 LLM으로 완전 대체한 개발자들의 실제 셋업과 성능 경험담을 공유한 스레드로, Qwen3.6 35B를 중심으로 구체적인 하드웨어·속도·한계점까지 담겨 있어 로컬 AI 코딩 도입을 고민하는 개발자에게 현실적인 참고 자료가 된다.
macOS에서 로컬 Coding Agent 세팅하기 (llama.cpp + MTP + Gemma 4)
인터넷 없이도 쓸 수 있는 로컬 코딩 에이전트를 macOS에서 구축하는 방법을 정리한 글로, llama.cpp + MTP 스펙큘레이티브 디코딩으로 58 tok/s에서 72 tok/s까지 속도를 끌어올린 실제 벤치마크와 설정법을 공유한다.
EurekAgent: 자율 과학적 발견을 위한 Agent Environment Engineering
LLM 에이전트에게 복잡한 워크플로우 대신 잘 설계된 '환경'을 줬더니 수학·커널·ML 벤치마크에서 모두 SOTA를 달성했다.
AI로 코딩할 때 Flow State(몰입 상태)를 유지하는 방법
Claude 같은 에이전트 기반 AI 코딩 도구가 보편화되면서 개발자들이 기존의 몰입 상태(flow state)를 잃어버리고 있다는 문제를 공유하고, 커뮤니티에서 각자의 대처 방법을 논의한 스레드.
Fata – AI 코딩으로 인한 스킬 저하를 막기 위한 Spaced Repetition 앱
AI 코딩 에이전트에 의존할수록 개발자 본인의 기술이 녹슨다는 문제의식에서 출발한 학습 앱으로, Duolingo식 반복 학습(Spaced Repetition)으로 풀스택 기초 역량을 유지·강화하는 것을 목표로 한다.
TAHOE: 경험 기반 자동 Hint 최적화를 통한 Text-to-SQL 시스템
LLM이 SQL 생성 실패에서 배운 힌트를 재사용 가능한 Hint Bank로 쌓아, 모델 재학습 없이 Snowflake 방언 SQL 정확도를 대폭 끌어올리는 시스템.
ALIGNBEAM: Cross-Vocabulary Logit Mixing을 통한 Inference-Time Safety Alignment 전이
도메인 파인튜닝으로 망가진 LLM 안전성을, 재학습 없이 추론 시점에 작은 안전 모델에서 빌려와 복구하는 방법.
iPad가 Tailscale에 연결되어 있었다: WebRTC 디버깅 이야기
WebRTC 데이터 채널에서 iPad만 응답을 못 받는 희귀 버그를 추적한 결과, webrtc-rs의 하드코딩된 MTU 상수와 Tailscale의 IPv6 Fragment 패킷 드롭이 동시에 작용한 복합 버그였다는 2주간의 디버깅 실화.
Grit: AI 에이전트로 Git을 Rust로 처음부터 재작성하기
GitButler 팀이 AI 에이전트 스웜을 활용해 Git을 Rust로 처음부터 재작성한 Grit 프로젝트를 공개했는데, GPL 라이선스 문제와 실용성 논란이 커뮤니티에서 크게 일고 있다.
Microsoft의 오픈소스 GitHub 프로젝트들이 해킹되어 AI 개발자 패스워드 탈취 악성코드 삽입
Microsoft의 Azure 관련 오픈소스 GitHub 저장소 70개 이상에 악성코드가 삽입되어 Claude Code, Gemini CLI, VS Code 등을 사용하는 AI 개발자들의 자격증명이 탈취될 수 있는 공급망 공격(supply chain attack)이 발생했다.
AI 시대에 개발자들이 직접 만들어 쓰는 개인 도구들 모음
Hacker News 커뮤니티에서 AI를 활용해 개발자들이 직접 만들어 쓰는 개인 도구들을 공유한 스레드로, '하이퍼-퍼스널 소프트웨어' 트렌드를 잘 보여준다.
코드를 실행하는 Config 파일: Supply Chain 보안의 사각지대
VS Code, Cursor, Claude Code, npm 등 널리 쓰이는 도구들이 config 파일에 담긴 shell 명령을 자동 실행하는 구조를 악용한 공급망 공격 사례를 분석한 글로, 개발자가 저장소를 clone하고 에디터를 여는 순간 공격자 코드가 실행될 수 있다.
Silurus/ooxml: 브라우저에서 Office 문서를 pixel-faithful하게 렌더링하는 라이브러리
Rust + WebAssembly로 DOCX/XLSX/PPTX 파일을 브라우저 Canvas에 직접 렌더링하는 오픈소스 라이브러리로, 코드 전체가 Claude(AI)로 작성된 점이 화제가 됐다.
Lathe – LLM으로 새 도메인을 직접 배우는 튜토리얼 생성 CLI 도구
LLM이 대신 코드를 짜주는 게 아니라, 직접 손으로 따라할 수 있는 실습형 튜토리얼을 생성해주는 CLI 도구다. AI에게 생각을 맡기는 대신 배움의 도구로 활용하는 접근법이라 주목받고 있다.
Tokenomics: 에이전트 기반 소프트웨어 개발에서 토큰이 어디에 쓰이는지 정량 분석
LLM 멀티에이전트 시스템으로 소프트웨어 개발을 자동화할 때 토큰의 59.4%가 Code Review 단계에서 소비된다는 연구 결과로, AI 에이전트 비용 구조를 처음으로 체계적으로 측정한 논문이다.
작고 수정 가능한 CUDA 기반 Language Model 직접 구현체
CUDA로 작성된 GPT(Generative Pretrained Transformer) 미니멀 구현체로, 텍스트뿐 아니라 모든 바이트 스트림을 학습할 수 있어 LLM 내부 구조를 직접 뜯어보고 싶은 개발자에게 유용하다.
Claude가 rsync의 버그를 증가시켰는가? 데이터 분석
rsync 프로젝트에 Claude AI가 도입된 이후 버그가 늘었다는 소셜 미디어 주장을 실제 데이터와 통계 분석으로 검증한 글로, 결론적으로 Claude 도입 후 릴리즈가 역사적 분포에서 유독 버그가 많다는 통계적 근거는 없었다.
DyCon: Evolving Difficulty Modeling을 통한 Dynamic Reasoning Control
LLM의 내부 hidden state에서 난이도를 실시간으로 추정해 쉬운 문제엔 추론을 빨리 끊고, 어려운 문제엔 깊이 생각하게 만드는 training-free 방법
Anthropic의 오픈소스 AI 기반 취약점 자동 탐지 프레임워크 공개
Anthropic이 Claude를 활용해 코드 취약점을 자율적으로 탐지·트리아지·패치하는 오픈소스 레퍼런스 구현체를 공개했다. 실제 보안팀과의 협업 경험을 바탕으로 만들어진 파이프라인이라 실전 적용성이 높다.
AI Agent를 위한 TDD(테스트 주도 개발) Skill 만들기
AI 에이전트가 형편없는 테스트를 작성하는 문제를 해결하기 위해, Kent Beck의 Canon TDD 원칙을 'Skill'로 만들어 에이전트에게 주입하는 방법을 공유한다. 에이전트 코딩에서 테스트 품질을 높이고 싶은 개발자에게 실용적인 접근법을 제시한다.
Paseo – 오픈소스 코딩 에이전트 통합 인터페이스 (모바일/데스크탑/CLI 지원)
Claude Code, Codex, GitHub Copilot 등 여러 코딩 에이전트를 하나의 UI로 제어하는 오픈소스 프로젝트로, 로컬 데몬 방식으로 자기 머신에서 실행하면서 모바일에서도 접근할 수 있다.
AI Agent가 가능하게 한 적응형 Computer Worm
단일 GPU에서 돌아가는 오픈소스 LLM만으로 네트워크를 자율 전파하는 AI 웜을 실제로 구현해서, 이게 이론이 아닌 현실임을 증명했다.
SkillHarm: 자동 생성 기반의 Skill-Use Lifecycle 전반을 다루는 Agent Skill 공격 벤치마크
AI 에이전트가 사용하는 'Skill 패키지'에 악성 페이로드를 심으면 최신 모델도 86%까지 뚫린다는 보안 벤치마크.
Tiny-vLLM: C++와 CUDA로 만드는 고성능 LLM 추론 엔진
vLLM의 핵심 기능을 C++와 CUDA로 직접 구현하며 배울 수 있는 교육용 LLM 추론 엔진 프로젝트로, 소스코드와 단계별 강의가 함께 제공된다.