Claude.ai 전면 장애 및 API 오류 급증 인시던트 리포트 (2026년 4월 28일)
Claude.ai unavailable and elevated errors on the API
TL;DR Highlight
Anthropic의 Claude.ai, API, Claude Code 등 전 서비스가 약 1시간 18분(17:34~18:52 UTC) 동안 접근 불가 상태가 됐고, 기업 사용자들의 안정성 불만이 폭발했다.
Who Should Read
Claude API 또는 Claude Code를 프로덕션 서비스에 통합해서 쓰고 있는 개발자, 그리고 LLM 서비스의 가용성(uptime)과 멀티모델 전략을 고민하는 팀 리더.
Core Mechanics
- 이번 장애는 2026년 4월 28일 17:34 UTC에 시작해 18:52 UTC에 복구됐고, 총 1시간 18분 동안 지속됐다. 영향을 받은 서비스는 claude.ai, Claude Console(platform.claude.com), Claude API(api.anthropic.com), Claude Code, Claude Cowork, Claude for Government로 사실상 전 서비스가 포함됐다.
- 장애의 원인은 인증(authentication) 관련 이슈로 확인됐다. API 요청 및 Claude Code 로그인 경로에서 인증 오류가 급증했고, claude.ai 자체 접속도 불가능해졌다.
- Anthropic은 17:41 UTC에 조사 시작을 공지하고, 17:51 UTC에 문제 식별, 18:33 UTC에 해결 작업 중임을 알렸으며, 18:59 UTC에 모니터링 단계로 전환 후 19:15 UTC에 최종 해결을 선언하는 순서로 상태 페이지를 업데이트했다.
- 커뮤니티에서 공유된 status.claude.com 데이터에 따르면, 최근 90일간 Claude의 가동률이 '원 나인(one nine)', 즉 90% 초반대 수준으로 떨어진 것으로 언급됐다. 이는 프로덕션 환경에서 허용하기 어려운 수준이라는 비판이 많았다.
- 월 $200,000 이상 엔터프라이즈 tier를 쓰는 조직의 한 사용자는 최근 몇 달간 잦은 장애가 발생했고, Anthropic의 지원(support)도 형편없어 경영진이 분노 상태라고 밝혔다. 이 정도 비용을 쓰면서 '원 나인' 수준의 안정성은 받아들일 수 없다는 반응이었다.
Evidence
- 월 $200,000 이상을 Anthropic 엔터프라이즈 tier에 쓰는 조직 사용자가 최근 몇 달간 장애가 너무 잦고 지원도 열악하다고 토로했다. 경영진 레벨에서 분노가 쌓이고 있다는 말로, 단순 불편을 넘어 계약 재검토까지 이어질 수 있는 상황임을 시사한다.
- Claude Code의 품질에 대한 직접적 불만도 터져나왔다. 한 사용자는 Claude Code가 세션 한도를 30분 만에 소진하면서 루프를 돌다가 아무것도 못 만들었다고 했고, 반면 OpenAI의 Codex에게 더 복잡한 작업을 줬더니 몇 분 내로 원인을 파악하고 테스트까지 작성하며 자동으로 반복 해결했다는 비교 경험을 공유했다.
- 여러 LLM 및 여러 클라이언트를 동시에 쓰는 '멀티모델 전략'이 유효하다는 의견이 나왔다. 한 개발자는 Anthropic, Codex, Gemini를 동시에, 데스크톱/CLI/웹 등 다양한 방식으로 운영 중이라고 했다. 과거 클라우드 인프라에서는 멀티클라우드가 비용 대비 효과가 불명확했지만, LLM은 전환 비용이 낮아서 멀티모델 전략이 훨씬 합리적이라는 주장이었다.
- 자체 GPU로 오픈 모델을 운영하는 팀도 등장했다. 10명짜리 개발 조직이 H100 8장으로 오픈 모델을 직접 운영 중인데, 빅 프로바이더만큼 성능은 안 되지만 서비스가 절대 다운되지 않고 토큰 처리 속도도 충분히 빠르며, 비용도 결국 절감된다는 경험을 공유했다.
- 이번 장애가 Claude Code를 프로덕션에 통합한 기업들에게 주는 교훈에 대한 논의도 있었다. LLM이 프로덕션 스택을 운영하는 상황에서 비결정론적(non-deterministic) 모델에만 의존하면 이런 장애에 속수무책이라는 점에서, 유능한 인간 엔지니어의 필요성이 여전히 크다는 의견이 나왔다.
How to Apply
- Claude API를 프로덕션에서 단일 의존성으로 쓰고 있다면, OpenAI(Codex), Google(Gemini) 등 대체 모델로의 자동 폴백(fallback) 로직을 추가하는 것을 고려하라. 이번 장애처럼 1시간 이상 전면 다운되는 상황에서 서비스 중단 없이 운영을 지속할 수 있다.
- 월 수만 달러 이상의 Claude API 비용을 지출하는 조직이라면, Anthropic의 status.claude.com을 정기적으로 모니터링하고 이메일/SMS 알림을 구독해두는 것이 좋다. 장애 발생 시 자동으로 팀에 알림이 가도록 PagerDuty나 Slack webhook과 연동하면 대응 시간을 줄일 수 있다.
- Claude Code를 개발 워크플로에 적극 활용 중인 팀은 Claude Code 외에 OpenAI Codex CLI 등 대체 코딩 에이전트를 병행 세팅해두면, 이번처럼 인증 오류로 Claude Code 전체가 다운됐을 때도 작업을 이어갈 수 있다.
- 10명 내외의 팀에서 AI 코딩 도구 비용이 부담스럽거나 안정성이 중요한 경우, H100 등 GPU를 임대해 Qwen, DeepSeek 같은 오픈 모델을 직접 서빙하는 방식도 검토해볼 만하다. 초기 세팅 비용이 들지만 다운타임 리스크를 직접 통제할 수 있고 장기적으로 비용 절감이 된다는 실사용 사례가 있었다.
Terminology
관련 논문
Mercor에서 AI 계약직 4만 명의 음성 샘플 4TB 탈취 — 내 목소리가 악용되고 있는지 확인하는 방법
AI 학습 데이터 수집 플랫폼 Mercor에서 4만 명 계약직의 음성 녹음과 신분증 스캔이 함께 유출되어, 딥페이크·음성 사기에 즉시 악용 가능한 '완성형 위조 키트'가 만들어졌다는 보안 분석 글이다.
Claude 구독 취소 후기: 토큰 소진 문제, 품질 저하, 그리고 형편없는 고객 지원
Claude Code Pro 구독자가 3주간 겪은 토큰 과다 소비, 모델 품질 저하, 무성의한 고객 지원 문제를 구체적 사례와 함께 고발한 글로, 커뮤니티에서 비슷한 경험을 가진 개발자들의 공감을 얻고 있다.
서로 다른 Language Model들이 비슷한 숫자 표현 방식을 학습한다
Transformer, LSTM, Linear RNN 등 구조가 전혀 다른 언어 모델들이 숫자를 표현할 때 공통적으로 주기 T=2, 5, 10의 주기적 패턴을 학습한다는 연구 결과로, 모델 아키텍처를 넘어선 '수렴 진화' 현상을 수학적으로 설명한다.
LLM의 CFG(Context-Free Grammar) 해석 능력 진단
LLM이 새로운 문법 규칙을 프롬프트에서 받았을 때 구문은 맞춰도 의미 구조는 무너진다는 걸 체계적으로 증명한 연구
LLM이 만들어낸 보안 리포트 폭탄에 Linux 커널이 레거시 코드를 삭제로 대응
LLM이 쏟아내는 AI 생성 보안 버그 리포트를 감당하지 못한 Linux 커널 메인테이너들이 ISA, PCMCIA, AX.25, ATM, ISDN 등 레거시 드라이버/프로토콜을 커널 트리에서 통째로 제거하기로 결정했다. 관리 불가능한 코드에 AI가 버그 보고를 폭증시키면서 '코드 삭제'라는 극단적 선택을 하게 된 사례다.
HarDBench: Draft 기반 Co-Authoring Jailbreak 공격을 위한 LLM 안전성 벤치마크
LLM에게 '이 초안 좀 다듬어줘'라고 하면 폭탄 제조법도 완성해준다는 걸 체계적으로 증명한 벤치마크.