4월 24일까지 opt-out 안 하면 GitHub이 private repo로 AI 학습
If you don't opt out by Apr 24 GitHub will train on your private repos
TL;DR Highlight
GitHub이 4월 24일부터 Copilot 사용자의 private repo 상호작용 데이터를 AI 학습에 기본 활용하도록 정책을 변경했다.
Who Should Read
GitHub에 private repo를 보유하고 있거나 GitHub Copilot을 사용 중인 개발자 및 팀. 특히 조직 차원에서 코드 데이터 보안을 신경 써야 하는 개발팀 리드.
Core Mechanics
- GitHub이 2025년 4월 24일부터 Free, Pro, Pro+ Copilot 사용자의 Copilot 상호작용 데이터를 AI 모델 학습에 기본 포함(opt-out 방식)하도록 정책을 바꿨다. 헤드라인이 다소 과장된 면이 있어 혼란이 생겼는데, private repo 전체를 통째로 학습에 쓰는 게 아니라 Copilot을 쓰면서 발생하는 '상호작용 데이터(interaction data)'가 대상이다.
- Business, Enterprise 플랜 구독자는 이 변경의 영향을 받지 않는다. GitHub 측에서 공식적으로 'Business/Enterprise 구독자의 사용 데이터는 학습에 쓰지 않는다'고 명시했다.
- Copilot을 전혀 사용하지 않는 사람은 이번 변경의 직접적인 영향이 없다. 단, 나중에 Copilot을 쓸 계획이 있다면 지금 opt-out 해두면 그 설정이 유지된다.
- opt-out 설정 위치는 github.com/settings/copilot/features 페이지 하단 Privacy 섹션의 'Allow GitHub to use my data for AI model training' 토글이다. 설정하는 데 30초면 된다.
- 조직(Organization) 단위로 일괄 비활성화하는 방법이 명확하지 않다는 지적이 있다. 현재 확인된 설정은 개인 계정 단위이며, 팀원 중 한 명이라도 opt-out 안 하면 해당 repo 데이터가 포함될 수 있는지 여부가 불분명하다.
- Enterprise 계정에 속한 사용자는 개인 Copilot Pro 구독 설정에서 opt-out 옵션이 사라지는 문제가 보고됐다. Enterprise 정책이 개인 설정을 덮어쓰는 구조라 혼란이 발생하고 있다.
- GitHub 측은 이미 배너를 통해 지속적으로 이 변경을 알려왔다고 밝혔지만, 실제로 배너를 읽고 인지한 사용자는 소수였고 이번 HN 게시물을 보고서야 알게 됐다는 반응이 많았다.
- 이번 정책 변경은 '회사가 자유롭게 읽을 수 있는 데이터는 언젠가 AI 학습에 쓰인다'는 업계 흐름의 연장선으로 해석된다. end-to-end 암호화가 아닌 이상 ToS 변경으로 언제든 활용 가능하다는 시각이 커뮤니티에서 공감을 얻었다.
Evidence
- GitHub 직원으로 추정되는 댓글에서 '헤드라인이 사실이 아니다'라고 직접 반박했다. Private repo 전체를 학습 데이터로 쓰는 게 아니라, Copilot 사용 중 발생하는 상호작용 데이터만 수집하며 Business/Enterprise 구독자는 해당 없다고 공식 블로그 링크(github.blog)와 함께 설명했다.
- 조직 관리자 입장에서 '팀원 한 명이 opt-out을 안 하면 그 사람의 Copilot 사용으로 인해 전체 repo 코드가 학습에 노출되는 건지' 우려하는 댓글이 있었고, 이에 대한 명확한 공식 답변이 없어 불안감이 높아졌다. 현재 개인 단위 설정밖에 없어 조직 차원 통제가 어렵다는 점이 문제로 지적됐다.
- '내 private repo는 엉망진창이라 학습시키면 오히려 GitHub이 손해'라는 유머 섞인 댓글이 공감을 얻었는데, 한편으론 실제로 스타일이나 구조를 신경 안 쓴 코드, 주석 없는 코드가 학습 데이터 품질을 떨어뜨릴 수 있다는 시각도 나왔다.
- '솔직히 나는 신경 안 쓴다. 내 repo에 클라이언트 데이터나 크리덴셜이 없고, AI가 내 코드 스타일을 이해하고 따라줘서 오히려 좋다'는 의견도 있었다. 반면 'GitHub/MS를 믿지 못한다. 정책이 있어도 실수로 private 플래그를 무시하는 사고가 날 수 있다'며 정책 신뢰 자체를 문제 삼는 댓글도 있었다.
- GitHub이 정책을 opt-in이 아닌 opt-out 방식으로 설계한 것에 대한 비판이 많았다. 'opt-in으로 바꾸고 참여 인센티브(예: 토큰 쿼터 증가)를 제공하면 신뢰를 회복할 수 있다'는 구체적인 대안 제시도 있었고, '이번 기회에 GitHub 의존도를 줄여야 한다'는 반응도 나왔다.
How to Apply
- GitHub Copilot(Free/Pro/Pro+)을 사용 중인 개발자라면 지금 당장 github.com/settings/copilot/features 에 접속해서 하단 Privacy 항목의 'Allow GitHub to use my data for AI model training'을 비활성화해야 한다. 4월 24일 이전에 설정해야 적용된다.
- 조직(Organization) 단위로 코드 보안을 관리해야 하는 팀 리드라면 모든 팀원에게 개인 계정 opt-out을 안내하고, GitHub Enterprise/Business 플랜으로 전환하면 이 정책 자체가 적용되지 않으므로 플랜 업그레이드도 고려할 수 있다.
- 현재 Copilot을 쓰지 않더라도 향후 사용 가능성이 있다면 opt-out 설정을 미리 해두면 좋다. GitHub에 따르면 opt-out 설정은 나중에 Copilot을 활성화해도 유지된다.
- GitHub/Microsoft 등 클라우드 서비스에 민감한 코드를 저장할 때는 서비스 ToS가 언제든 바뀔 수 있다는 점을 전제로 설계해야 한다. 실제로 중요한 비즈니스 로직이나 시크릿은 self-hosted Git(Gitea, GitLab 등)이나 end-to-end 암호화 스토리지로 분리 운영하는 방안을 검토할 수 있다.
Terminology
관련 논문
PyTorch Lightning AI 학습 라이브러리에서 Shai-Hulud 테마 악성코드 발견
널리 쓰이는 딥러닝 프레임워크 PyTorch Lightning의 PyPI 패키지 버전 2.6.2와 2.6.3이 공급망 공격으로 침해되어, import 시 자격증명 탈취 악성코드가 실행된다.
Alignment Whack-a-Mole: 파인튜닝이 LLM 내부의 저작권 도서 암기를 활성화한다
안전 정렬(alignment)된 LLM도 파인튜닝을 거치면 억제됐던 저작권 책 내용을 그대로 출력하게 된다는 연구로, LLM의 저작권 침해 위험이 단순히 프롬프트 필터링으로는 해결되지 않음을 보여준다.
MacMind – 1989년 Macintosh의 HyperCard로 구현한 Transformer 신경망
HyperTalk으로 1,216개 파라미터짜리 단일 레이어 Transformer를 Macintosh SE/30에서 학습시켜 현대 LLM의 핵심 수학이 30년 전 하드웨어에서도 동일하게 동작함을 증명했다.
MegaTrain: 단일 GPU로 100B+ 파라미터 LLM을 Full Precision으로 학습하기
MegaTrain은 CPU 메모리를 주 저장소로, GPU를 연산 엔진으로만 활용함으로써 H200 GPU 단 한 장으로 120B 파라미터 모델을 풀 정밀도로 학습할 수 있다.
9M 파라미터짜리 초소형 LLM으로 언어 모델 작동 원리 직접 이해하기
물고기 Guppy를 학습한 870만 파라미터 미니 LLM이 Colab 노트북 하나로 5분 만에 처음부터 구현되어, LLM의 블랙박스 이미지를 완전히 걷어낸다.
Nanocode: $200로 TPU에서 JAX로 구현하는 나만의 Claude Code 학습 라이브러리
이 오픈소스 라이브러리는 Constitutional AI 방식으로 $200 TPU에서 1.3B 파라미터 규모의 coding agent 모델을 처음부터 학습하게 하며 개발자가 AI 학습 파이프라인 전체를 직접 이해하고 실습할 수 있는 환경을 제공한다.