Claude.ai 전면 장애 및 API 오류 급증 인시던트 리포트 (2026년 4월 28일)
Claude.ai unavailable and elevated errors on the API
TL;DR Highlight
Anthropic의 Claude.ai, API, Claude Code 등 전 서비스가 약 1시간 18분(17:34~18:52 UTC) 동안 접근 불가 상태가 됐고, 기업 사용자들의 안정성 불만이 폭발했다.
Who Should Read
Claude API 또는 Claude Code를 프로덕션 서비스에 통합해서 쓰고 있는 개발자, 그리고 LLM 서비스의 가용성(uptime)과 멀티모델 전략을 고민하는 팀 리더.
Core Mechanics
- 이번 장애는 2026년 4월 28일 17:34 UTC에 시작해 18:52 UTC에 복구됐고, 총 1시간 18분 동안 지속됐다. 영향을 받은 서비스는 claude.ai, Claude Console(platform.claude.com), Claude API(api.anthropic.com), Claude Code, Claude Cowork, Claude for Government로 사실상 전 서비스가 포함됐다.
- 장애의 원인은 인증(authentication) 관련 이슈로 확인됐다. API 요청 및 Claude Code 로그인 경로에서 인증 오류가 급증했고, claude.ai 자체 접속도 불가능해졌다.
- Anthropic은 17:41 UTC에 조사 시작을 공지하고, 17:51 UTC에 문제 식별, 18:33 UTC에 해결 작업 중임을 알렸으며, 18:59 UTC에 모니터링 단계로 전환 후 19:15 UTC에 최종 해결을 선언하는 순서로 상태 페이지를 업데이트했다.
- 커뮤니티에서 공유된 status.claude.com 데이터에 따르면, 최근 90일간 Claude의 가동률이 '원 나인(one nine)', 즉 90% 초반대 수준으로 떨어진 것으로 언급됐다. 이는 프로덕션 환경에서 허용하기 어려운 수준이라는 비판이 많았다.
- 월 $200,000 이상 엔터프라이즈 tier를 쓰는 조직의 한 사용자는 최근 몇 달간 잦은 장애가 발생했고, Anthropic의 지원(support)도 형편없어 경영진이 분노 상태라고 밝혔다. 이 정도 비용을 쓰면서 '원 나인' 수준의 안정성은 받아들일 수 없다는 반응이었다.
Evidence
- 월 $200,000 이상을 Anthropic 엔터프라이즈 tier에 쓰는 조직 사용자가 최근 몇 달간 장애가 너무 잦고 지원도 열악하다고 토로했다. 경영진 레벨에서 분노가 쌓이고 있다는 말로, 단순 불편을 넘어 계약 재검토까지 이어질 수 있는 상황임을 시사한다.
- Claude Code의 품질에 대한 직접적 불만도 터져나왔다. 한 사용자는 Claude Code가 세션 한도를 30분 만에 소진하면서 루프를 돌다가 아무것도 못 만들었다고 했고, 반면 OpenAI의 Codex에게 더 복잡한 작업을 줬더니 몇 분 내로 원인을 파악하고 테스트까지 작성하며 자동으로 반복 해결했다는 비교 경험을 공유했다.
- 여러 LLM 및 여러 클라이언트를 동시에 쓰는 '멀티모델 전략'이 유효하다는 의견이 나왔다. 한 개발자는 Anthropic, Codex, Gemini를 동시에, 데스크톱/CLI/웹 등 다양한 방식으로 운영 중이라고 했다. 과거 클라우드 인프라에서는 멀티클라우드가 비용 대비 효과가 불명확했지만, LLM은 전환 비용이 낮아서 멀티모델 전략이 훨씬 합리적이라는 주장이었다.
- 자체 GPU로 오픈 모델을 운영하는 팀도 등장했다. 10명짜리 개발 조직이 H100 8장으로 오픈 모델을 직접 운영 중인데, 빅 프로바이더만큼 성능은 안 되지만 서비스가 절대 다운되지 않고 토큰 처리 속도도 충분히 빠르며, 비용도 결국 절감된다는 경험을 공유했다.
- 이번 장애가 Claude Code를 프로덕션에 통합한 기업들에게 주는 교훈에 대한 논의도 있었다. LLM이 프로덕션 스택을 운영하는 상황에서 비결정론적(non-deterministic) 모델에만 의존하면 이런 장애에 속수무책이라는 점에서, 유능한 인간 엔지니어의 필요성이 여전히 크다는 의견이 나왔다.
How to Apply
- Claude API를 프로덕션에서 단일 의존성으로 쓰고 있다면, OpenAI(Codex), Google(Gemini) 등 대체 모델로의 자동 폴백(fallback) 로직을 추가하는 것을 고려하라. 이번 장애처럼 1시간 이상 전면 다운되는 상황에서 서비스 중단 없이 운영을 지속할 수 있다.
- 월 수만 달러 이상의 Claude API 비용을 지출하는 조직이라면, Anthropic의 status.claude.com을 정기적으로 모니터링하고 이메일/SMS 알림을 구독해두는 것이 좋다. 장애 발생 시 자동으로 팀에 알림이 가도록 PagerDuty나 Slack webhook과 연동하면 대응 시간을 줄일 수 있다.
- Claude Code를 개발 워크플로에 적극 활용 중인 팀은 Claude Code 외에 OpenAI Codex CLI 등 대체 코딩 에이전트를 병행 세팅해두면, 이번처럼 인증 오류로 Claude Code 전체가 다운됐을 때도 작업을 이어갈 수 있다.
- 10명 내외의 팀에서 AI 코딩 도구 비용이 부담스럽거나 안정성이 중요한 경우, H100 등 GPU를 임대해 Qwen, DeepSeek 같은 오픈 모델을 직접 서빙하는 방식도 검토해볼 만하다. 초기 세팅 비용이 들지만 다운타임 리스크를 직접 통제할 수 있고 장기적으로 비용 절감이 된다는 실사용 사례가 있었다.
Terminology
관련 논문
MTG Bench: LLM들이 Magic: The Gathering을 얼마나 잘 플레이하는지 테스트
카드 게임 MTG의 규칙 준수 능력으로 LLM의 복잡한 규칙 추론 능력을 측정하는 독창적인 벤치마크로, gpt-5.5가 95.4점으로 1위를 차지했다.
ALIGNBEAM: Cross-Vocabulary Logit Mixing을 통한 Inference-Time Safety Alignment 전이
도메인 파인튜닝으로 망가진 LLM 안전성을, 재학습 없이 추론 시점에 작은 안전 모델에서 빌려와 복구하는 방법.
iPad가 Tailscale에 연결되어 있었다: WebRTC 디버깅 이야기
WebRTC 데이터 채널에서 iPad만 응답을 못 받는 희귀 버그를 추적한 결과, webrtc-rs의 하드코딩된 MTU 상수와 Tailscale의 IPv6 Fragment 패킷 드롭이 동시에 작용한 복합 버그였다는 2주간의 디버깅 실화.
LLM이 고전적인 Hyperparameter 최적화 알고리즘을 이길 수 있을까?
LLM 기반 하이퍼파라미터 최적화 에이전트와 CMA-ES, TPE 같은 고전 알고리즘을 직접 비교한 연구로, LLM 단독으로는 고전 방법을 이기지 못하지만 두 방법을 합친 하이브리드 'Centaur'가 최고 성능을 낸다는 결론이 나왔다.
눈이 보는 것, LLM이 놓치는 것: Human Perception을 이용한 Adversarial Text Attack
Bold, 하이라이트, 공백 배치 같은 타이포그래피 트릭으로 GPT-4o, Llama Guard 등 10개 콘텐츠 모더레이션 시스템을 99% 이상 우회할 수 있다.
Claude가 rsync의 버그를 증가시켰는가? 데이터 분석
rsync 프로젝트에 Claude AI가 도입된 이후 버그가 늘었다는 소셜 미디어 주장을 실제 데이터와 통계 분석으로 검증한 글로, 결론적으로 Claude 도입 후 릴리즈가 역사적 분포에서 유독 버그가 많다는 통계적 근거는 없었다.