HN 공식 가이드라인 업데이트: AI 생성/편집 댓글 금지
Don't post generated/AI-edited comments. HN is for conversation between humans
TL;DR Highlight
Hacker News가 AI로 생성하거나 편집한 댓글을 공식 가이드라인에서 금지해 커뮤니티의 인간 간 대화 품질을 보호한다.
Who Should Read
Hacker News에서 AI 도구로 댓글을 다듬거나 생성해서 올리던 개발자. 또는 커뮤니티 운영/정책 측면에서 AI 콘텐츠 필터링 방식에 관심 있는 플랫폼 개발자.
Core Mechanics
- HN 운영자 dang에 따르면 이 규칙은 이미 오래전부터 개별 모더레이션 댓글로 존재했지만 이번에 처음으로 공식 가이드라인 페이지에 문서화됐다. 암묵적 문화를 명시적 규칙으로 격상시킨 것.
- 가이드라인 추가와 동시에 불필요한 규칙 몇 가지도 삭제돼 전체 문서는 오히려 짧아졌다. 삭제된 항목 중에는 'pratfalls 영상이나 귀여운 동물 사진' 관련 규칙도 있었는데, 현재 HN에서 그런 위협이 없다고 판단한 것.
- 금지 범위는 '완전 AI 생성' 댓글뿐 아니라 'AI로 편집한' 댓글도 포함한다. 즉 본인이 쓴 글을 ChatGPT 등으로 다듬는 행위도 규칙 위반에 해당한다.
- 이 규칙의 배경에는 읽기/쓰기 비용의 역전이 있다. 기존에는 쓰는 노력 > 읽는 노력이었기 때문에 읽어주는 것만으로도 충분한 교환이었는데, AI 이후 쓰는 비용이 거의 0이 되면서 읽는 사람이 오히려 더 많은 노력을 쏟는 구조가 됐다.
- AI 생성 콘텐츠의 범람을 '인간 사고의 열죽음(heat death of thought)'이라 표현하는 의견이 나왔다. AI가 인류 지식의 '평균'을 생산하는 도구이기 때문에, 모든 창의성이 평균으로 수렴하는 미래는 암울하다는 관점.
- 실용적인 경계 사례도 논의됐다. AI로 대화를 찾아보고 그 결과를 직접 검증한 뒤 인용하는 행위, 또는 문법 오류만 교정하는 수준의 AI 활용이 허용 범위인지가 불분명하다는 지적이 있었다.
- HN 프론트페이지에서 AI 관련 글이 8~10개씩 차지하는 상황에 피로감을 느끼는 유저들이 많다. '같은 내용이 다른 포장지에 담겨 반복되는 것'이라는 비판과 함께, 카테고리별 노출 제한을 도입해야 한다는 의견도 나왔다.
- 운영사인 YC가 AI 스타트업에 투자하면서 동시에 AI 댓글을 금지하는 것에 대해 아이러니를 지적하는 댓글도 있었다. 인터넷을 망가뜨리는 회사들에 자금을 대면서 자기 커뮤니티에서만 금지하는 것이 모순적이라는 시각.
Evidence
- 'AI 생성 댓글을 올리는 동기가 뭔지 모르겠다'는 순수한 의문 댓글이 많은 공감을 얻었다. HN은 댓글 작성 자체에 관성이 높은 플랫폼인데, 굳이 AI를 써서 댓글을 올리는 인센티브가 무엇인지 이해하기 어렵다는 반응이었다.
- 좋은 글쓰기와 LLM 출력물이 비슷하게 보일 수 있다는 경고가 나왔다. LLM이 좋은 글쓰기 코퍼스로 학습됐기 때문에 세미콜론, 긴 대시, 불릿 리스트를 쓴다고 AI로 오해받을 수 있다. 실제로 100% 직접 작성한 긴 댓글을 올렸다가 AI 댓글로 지목된 경험을 공유한 유저도 있었다.
- 문법 교정 수준의 AI 활용에 대해서는 의견이 갈렸다. 영어가 모국어가 아닌 유저나 문장 구조가 불명확하다고 느끼는 경우 ChatGPT로 단락을 다듬는 것이 오히려 독자를 배려하는 행위라는 의견이 있었다. 반면 댓글에서는 오타나 문법 오류를 허용해야 인간적이라는 반론도 있었다.
- dang이 직접 댓글로 등장해 삭제한 규칙 항목들을 공개하고, 커뮤니티 피드백을 반영해 일부 삭제를 복구하겠다고 밝혔다. HN 운영 방식의 투명성을 보여주는 사례로 많은 긍정 반응을 얻었다.
- 'AI 로 플래그' 기능을 추가하자는 제안이 나왔다. 특정 임계치 이상 플래그된 댓글을 기본적으로 숨기고, 충분한 플래그 데이터가 쌓이면 그것을 AI 탐지 모델 학습에 활용하자는 아이디어였다.
How to Apply
- AI 도구로 댓글 초안을 작성하거나 문단을 수정한 경우 HN에 그대로 올리지 말 것. 자신의 말로 처음부터 다시 쓰거나, AI 도움을 받았다면 해당 댓글은 올리지 않는 것이 원칙에 맞다.
- 커뮤니티/포럼 플랫폼을 운영 중이라면 이번 HN 사례처럼 암묵적으로 모더레이션해오던 기준을 공식 문서에 명문화하는 작업을 검토해볼 것. 규칙이 문화로 자리잡으려면 명시적 문서가 필요하다.
- AI 생성 여부를 판별하는 'AI 플래그' 기능 구현을 고려 중이라면, 커뮤니티 신고 기반으로 데이터를 먼저 모은 뒤 탐지 모델을 학습시키는 순서가 현실적이다. HN 댓글에서 구체적인 설계 아이디어가 나왔으니 참고할 것.
Terminology
관련 논문
2,000명이 내 AI 어시스턴트를 해킹하려 한 뒤 벌어진 일
실제로 6,000개 이상의 이메일로 AI 에이전트에 prompt injection 공격을 시도한 공개 실험 결과로, Claude Opus 4.6이 비밀 파일 유출을 한 번도 허용하지 않았지만 실험 설계의 현실성에 대한 논란이 뜨거웠다.
언제 LLM을 조합하면 효과가 있나? 67개 Frontier 모델에서 Routing, Voting, Mixture-of-Agents의 Co-Failure Ceiling 분석
여러 LLM을 조합해도 '모든 모델이 동시에 틀리는 비율(β)'이 성능 상한선이며, 업계가 쓰는 pairwise 상관계수(ρ)는 이 상한선을 예측하지 못한다.
Function Calling을 넘어서: Tool-Environment 신뢰성 문제 하에서의 Tool-Using Agent 벤치마크
실제 환경처럼 API가 망가지거나 결과가 이상할 때 LLM 에이전트가 얼마나 잘 버티는지 측정하는 벤치마크 ToolBench-X 공개.
LG 스마트 TV 앱의 절반 가까이에 Residential Proxy SDK가 심어져 있다
6,038개의 LG·Samsung 스마트 TV 앱을 스캔했더니 2,058개에서 사용자의 IP를 몰래 팔아 트래픽을 중계하는 Residential Proxy SDK가 발견됐다. TV는 컴퓨터처럼 감시받지 않아서 프록시 호스트로 거의 이상적인 환경이다.
Prompt Injection의 본질은 Role Confusion이다
LLM이 시스템 프롬프트, 사용자 입력, 툴 출력을 구분하지 못하는 구조적 결함이 prompt injection의 근본 원인이라는 ICML 2026 논문으로, 현재 LLM 보안 아키텍처의 한계를 명확히 분석한다.
GPT-5.5의 환각(Hallucination) 비율이 MIT 라이선스 GLM-5.2보다 3배 높다
모델 크기가 커질수록 성능이 좋아진다는 통념에 반해, 오픈소스 753B 모델 GLM-5.2가 추정 1~2T 규모의 GPT-5.5보다 환각 비율이 3배 낮다는 벤치마크 결과가 나왔다. 단순히 파라미터 수와 벤치마크 점수만으로 모델을 선택하면 실제 업무에서 낭패를 볼 수 있다는 경고다.