4월 24일까지 opt-out 안 하면 GitHub이 private repo로 AI 학습
If you don't opt out by Apr 24 GitHub will train on your private repos
TL;DR Highlight
GitHub이 4월 24일부터 Copilot 사용자의 private repo 상호작용 데이터를 AI 학습에 기본 활용하도록 정책을 변경했다.
Who Should Read
GitHub에 private repo를 보유하고 있거나 GitHub Copilot을 사용 중인 개발자 및 팀. 특히 조직 차원에서 코드 데이터 보안을 신경 써야 하는 개발팀 리드.
Core Mechanics
- GitHub이 2025년 4월 24일부터 Free, Pro, Pro+ Copilot 사용자의 Copilot 상호작용 데이터를 AI 모델 학습에 기본 포함(opt-out 방식)하도록 정책을 바꿨다. 헤드라인이 다소 과장된 면이 있어 혼란이 생겼는데, private repo 전체를 통째로 학습에 쓰는 게 아니라 Copilot을 쓰면서 발생하는 '상호작용 데이터(interaction data)'가 대상이다.
- Business, Enterprise 플랜 구독자는 이 변경의 영향을 받지 않는다. GitHub 측에서 공식적으로 'Business/Enterprise 구독자의 사용 데이터는 학습에 쓰지 않는다'고 명시했다.
- Copilot을 전혀 사용하지 않는 사람은 이번 변경의 직접적인 영향이 없다. 단, 나중에 Copilot을 쓸 계획이 있다면 지금 opt-out 해두면 그 설정이 유지된다.
- opt-out 설정 위치는 github.com/settings/copilot/features 페이지 하단 Privacy 섹션의 'Allow GitHub to use my data for AI model training' 토글이다. 설정하는 데 30초면 된다.
- 조직(Organization) 단위로 일괄 비활성화하는 방법이 명확하지 않다는 지적이 있다. 현재 확인된 설정은 개인 계정 단위이며, 팀원 중 한 명이라도 opt-out 안 하면 해당 repo 데이터가 포함될 수 있는지 여부가 불분명하다.
- Enterprise 계정에 속한 사용자는 개인 Copilot Pro 구독 설정에서 opt-out 옵션이 사라지는 문제가 보고됐다. Enterprise 정책이 개인 설정을 덮어쓰는 구조라 혼란이 발생하고 있다.
- GitHub 측은 이미 배너를 통해 지속적으로 이 변경을 알려왔다고 밝혔지만, 실제로 배너를 읽고 인지한 사용자는 소수였고 이번 HN 게시물을 보고서야 알게 됐다는 반응이 많았다.
- 이번 정책 변경은 '회사가 자유롭게 읽을 수 있는 데이터는 언젠가 AI 학습에 쓰인다'는 업계 흐름의 연장선으로 해석된다. end-to-end 암호화가 아닌 이상 ToS 변경으로 언제든 활용 가능하다는 시각이 커뮤니티에서 공감을 얻었다.
Evidence
- GitHub 직원으로 추정되는 댓글에서 '헤드라인이 사실이 아니다'라고 직접 반박했다. Private repo 전체를 학습 데이터로 쓰는 게 아니라, Copilot 사용 중 발생하는 상호작용 데이터만 수집하며 Business/Enterprise 구독자는 해당 없다고 공식 블로그 링크(github.blog)와 함께 설명했다.
- 조직 관리자 입장에서 '팀원 한 명이 opt-out을 안 하면 그 사람의 Copilot 사용으로 인해 전체 repo 코드가 학습에 노출되는 건지' 우려하는 댓글이 있었고, 이에 대한 명확한 공식 답변이 없어 불안감이 높아졌다. 현재 개인 단위 설정밖에 없어 조직 차원 통제가 어렵다는 점이 문제로 지적됐다.
- '내 private repo는 엉망진창이라 학습시키면 오히려 GitHub이 손해'라는 유머 섞인 댓글이 공감을 얻었는데, 한편으론 실제로 스타일이나 구조를 신경 안 쓴 코드, 주석 없는 코드가 학습 데이터 품질을 떨어뜨릴 수 있다는 시각도 나왔다.
- '솔직히 나는 신경 안 쓴다. 내 repo에 클라이언트 데이터나 크리덴셜이 없고, AI가 내 코드 스타일을 이해하고 따라줘서 오히려 좋다'는 의견도 있었다. 반면 'GitHub/MS를 믿지 못한다. 정책이 있어도 실수로 private 플래그를 무시하는 사고가 날 수 있다'며 정책 신뢰 자체를 문제 삼는 댓글도 있었다.
- GitHub이 정책을 opt-in이 아닌 opt-out 방식으로 설계한 것에 대한 비판이 많았다. 'opt-in으로 바꾸고 참여 인센티브(예: 토큰 쿼터 증가)를 제공하면 신뢰를 회복할 수 있다'는 구체적인 대안 제시도 있었고, '이번 기회에 GitHub 의존도를 줄여야 한다'는 반응도 나왔다.
How to Apply
- GitHub Copilot(Free/Pro/Pro+)을 사용 중인 개발자라면 지금 당장 github.com/settings/copilot/features 에 접속해서 하단 Privacy 항목의 'Allow GitHub to use my data for AI model training'을 비활성화해야 한다. 4월 24일 이전에 설정해야 적용된다.
- 조직(Organization) 단위로 코드 보안을 관리해야 하는 팀 리드라면 모든 팀원에게 개인 계정 opt-out을 안내하고, GitHub Enterprise/Business 플랜으로 전환하면 이 정책 자체가 적용되지 않으므로 플랜 업그레이드도 고려할 수 있다.
- 현재 Copilot을 쓰지 않더라도 향후 사용 가능성이 있다면 opt-out 설정을 미리 해두면 좋다. GitHub에 따르면 opt-out 설정은 나중에 Copilot을 활성화해도 유지된다.
- GitHub/Microsoft 등 클라우드 서비스에 민감한 코드를 저장할 때는 서비스 ToS가 언제든 바뀔 수 있다는 점을 전제로 설계해야 한다. 실제로 중요한 비즈니스 로직이나 시크릿은 self-hosted Git(Gitea, GitLab 등)이나 end-to-end 암호화 스토리지로 분리 운영하는 방안을 검토할 수 있다.
Terminology
관련 논문
Neural Particle Automata: 자기조직화 파티클 시스템을 학습하는 신경망 모델
고정된 격자 대신 움직이는 파티클 위에서 동작하는 Neural Cellular Automata의 확장 버전으로, 형태 생성·포인트 클라우드 분류·텍스처 합성 등 다양한 작업에서 자기조직화 동작을 학습할 수 있다.
좋은 Verifier도 망가질 수 있다: Self-Improving VLM이 새로운 태스크에서 오히려 퇴보하는 현상
VLM 자가학습 루프에서 verifier가 특정 태스크에 맞지 않으면 학습할수록 오히려 성능이 떨어지는데, DPO 손실값은 멀쩡히 내려가서 눈치채기도 어렵다.
Self-Distillation에서 Feedback Alignment의 역할
LLM이 스스로를 가르칠 때, 피드백을 모델의 추론 흐름에 단계별로 맞추면 GRPO보다 16점 이상 수학 추론 성능이 오른다.
작고 수정 가능한 CUDA 기반 Language Model 직접 구현체
CUDA로 작성된 GPT(Generative Pretrained Transformer) 미니멀 구현체로, 텍스트뿐 아니라 모든 바이트 스트림을 학습할 수 있어 LLM 내부 구조를 직접 뜯어보고 싶은 개발자에게 유용하다.
Stanford CS336: Language Modeling from Scratch - LLM을 처음부터 직접 만드는 강의
Stanford에서 운영하는 LLM 전 과정 구현 강의로, 토크나이저부터 데이터 수집, 트랜스포머 구현, 분산 학습, RL 기반 정렬까지 직접 코딩하며 배운다. 이론이 아닌 구현 중심이라 실제로 LLM이 어떻게 작동하는지 깊이 이해하고 싶은 개발자에게 가장 체계적인 커리큘럼 중 하나다.
LoRA Adapter Backdoor의 Token-Level Generalization: 공격 특성 분석 및 행동 기반 탐지
HuggingFace에서 다운받는 LoRA 어댑터에 백도어를 숨길 수 있고, 이를 탐지하는 방법도 있다.