LLM의 L은 Lying(거짓말)의 L — AI 코딩 도구에 대한 근본적 회의
The L in "LLM" Stands for Lying
TL;DR Highlight
에세이가 LLM 생성 코드와 콘텐츠를 본질적 위조(forgery)로 규정하며, 장인정신(craft) 관점에서 AI 코딩 도구의 한계와 위험을 지적한다.
Who Should Read
AI 코딩 도구(Copilot, Cursor 등)를 일상적으로 쓰고 있지만, 코드 품질과 장기적 기술 역량에 대한 고민이 있는 개발자. AI 도입 여부를 결정해야 하는 팀 리드나 오픈소스 메인테이너에게도 유용하다.
Core Mechanics
- LLM이 하는 일의 본질은 '위조(forgery)'다. 사용자가 직접 만들었을 법한 결과물, 혹은 다른 사람의 결과물을 모방해서 빠르게 찍어내는 것이고, 이 모방물을 진짜 대신 쓰려 할 때 문제가 생긴다.
- 프랑스의 AOC(원산지 통제 명칭) 치즈처럼, 소프트웨어에도 '정품'과 '모조품'의 구분이 필요하다는 비유를 든다. 싸구려 모조품이 범람하면 진짜 제품의 브랜드와 그걸 만드는 전문성 자체가 사라진다는 논리.
- 오픈소스 메인테이너들이 이미 피해를 보고 있다. AI로 대충 만든 PR(슬롭 코드)이 쏟아지면서, 이미 부족했던 기여자 관리 부담이 더 커졌다.
- AI가 아무리 발전해도 소프트웨어 개발의 결과물은 '거의 돌아가는' 수준에 머물고 있다. 몇 년째 LLM 도구가 나오고 있지만 근본적으로 달라진 건 없다는 관찰.
- 새 모델이 계속 나오는 이유 자체가, 이전 모델이 약속한 걸 못 지켰기 때문이다. 하이프가 투자를 부르고, 투자가 더 큰 하이프를 요구하는 순환 구조.
- Copilot이라는 이름 자체가 마케팅 거짓말이라는 지적. 실제로는 co-pilot(부조종사)이 아니라 auto-pilot(자동조종)이고, 사용자가 통제하고 있다는 착각을 심어준다.
- AI를 안 쓰는 것도 완전히 괜찮다는 입장. AI를 안 쓴다고 뒤처지는 게 아니며, 오히려 스트레스가 적고 만족도가 높을 수 있다.
- 게임 업계의 프로시저럴 생성(procedural generation)을 전례로 들며, 자동 생성이 대체로 기대에 못 미쳤다고 주장한다. (단, 이 부분은 댓글에서 강하게 반박됨)
Evidence
- 프로시저럴 생성이 실패했다는 원문 주장에 대해 강한 반론이 나왔다. Minecraft(역대 최다 판매 게임), Valheim, Diablo, No Man's Sky(결국 대성공) 등 수많은 성공 사례가 있으며, 도구 자체가 나쁜 게 아니라 쓰는 사람에 달렸다는 의견.
- 미술사를 전공했다는 한 댓글러가 러다이트(Luddites)의 사례를 들며, 자동화가 품질을 떨어뜨린다는 주장이 역사적으로 맞았다고 지적했다. 중세 유럽의 수제 양모 스카프는 반지를 통과할 정도로 얇고 섬세했는데, 그 기술은 구전으로만 전수되다 영원히 사라졌다. 다만 '옳았어도 그것만으론 충분하지 않았다'고 덧붙였다.
- 실제로 비기술자가 바이브코딩으로 만든 내부 도구가 월 수백 시간을 절약하고 있다는 경험담이 있었다. 코드는 스파게티였지만 이미 임팩트를 내고 있어서 컨설턴트로서 성능만 일부 개선하고 나머지는 그냥 뒀다는 이야기.
- 개발자들이 받아들이기 어려운 현실은, 우리 코드 대부분이 소량의 독창성 + 대량의 반복 보일러플레이트라는 것이라는 의견. 가치는 코드 한 줄 한 줄이 아니라 상위 레벨의 설계와 혁신에 있다는 지적.
- LLM은 '거짓말'이 아니라 '오류(falsehood)'라는 반론도 있었다. 거짓말은 속이려는 의도가 필요한데 LLM에겐 의도가 없고, 그걸 진실로 둔갑시키는 건 사용자의 책임이라는 관점.
How to Apply
- 오픈소스 프로젝트를 운영 중이라면, PR 가이드라인에 AI 생성 코드 관련 정책을 명시하고, AI 슬롭 코드를 걸러내는 리뷰 체크리스트를 만들어라. 예: '이 PR의 코드를 직접 설명할 수 있는가' 확인 항목 추가.
- AI 코딩 도구를 쓸 때 Copilot 모드(자동 수락)가 아니라, 생성된 코드를 반드시 읽고 이해한 후에 반영하는 습관을 들여라. 특히 보안 관련 코드, 에러 핸들링, 엣지 케이스는 AI 출력을 그대로 쓰지 말 것.
- 팀에서 AI 도구 도입을 논의할 때, '보일러플레이트 자동화'와 '핵심 로직 설계'를 명확히 구분하라. AI는 전자에 효과적이지만 후자에서는 오히려 검증 비용이 늘어날 수 있다.
- 내부 도구처럼 수명이 짧고 사용자가 한정된 소프트웨어에는 AI 코딩을 적극 활용하되, 장기 유지보수가 필요한 프로덕션 코드에는 코드 리뷰 기준을 더 높게 잡아라.
Terminology
관련 논문
2,000명이 내 AI 어시스턴트를 해킹하려 한 뒤 벌어진 일
실제로 6,000개 이상의 이메일로 AI 에이전트에 prompt injection 공격을 시도한 공개 실험 결과로, Claude Opus 4.6이 비밀 파일 유출을 한 번도 허용하지 않았지만 실험 설계의 현실성에 대한 논란이 뜨거웠다.
언제 LLM을 조합하면 효과가 있나? 67개 Frontier 모델에서 Routing, Voting, Mixture-of-Agents의 Co-Failure Ceiling 분석
여러 LLM을 조합해도 '모든 모델이 동시에 틀리는 비율(β)'이 성능 상한선이며, 업계가 쓰는 pairwise 상관계수(ρ)는 이 상한선을 예측하지 못한다.
Function Calling을 넘어서: Tool-Environment 신뢰성 문제 하에서의 Tool-Using Agent 벤치마크
실제 환경처럼 API가 망가지거나 결과가 이상할 때 LLM 에이전트가 얼마나 잘 버티는지 측정하는 벤치마크 ToolBench-X 공개.
LG 스마트 TV 앱의 절반 가까이에 Residential Proxy SDK가 심어져 있다
6,038개의 LG·Samsung 스마트 TV 앱을 스캔했더니 2,058개에서 사용자의 IP를 몰래 팔아 트래픽을 중계하는 Residential Proxy SDK가 발견됐다. TV는 컴퓨터처럼 감시받지 않아서 프록시 호스트로 거의 이상적인 환경이다.
Prompt Injection의 본질은 Role Confusion이다
LLM이 시스템 프롬프트, 사용자 입력, 툴 출력을 구분하지 못하는 구조적 결함이 prompt injection의 근본 원인이라는 ICML 2026 논문으로, 현재 LLM 보안 아키텍처의 한계를 명확히 분석한다.
GPT-5.5의 환각(Hallucination) 비율이 MIT 라이선스 GLM-5.2보다 3배 높다
모델 크기가 커질수록 성능이 좋아진다는 통념에 반해, 오픈소스 753B 모델 GLM-5.2가 추정 1~2T 규모의 GPT-5.5보다 환각 비율이 3배 낮다는 벤치마크 결과가 나왔다. 단순히 파라미터 수와 벤치마크 점수만으로 모델을 선택하면 실제 업무에서 낭패를 볼 수 있다는 경고다.