Claude.ai 전면 장애 및 API 오류 급증 인시던트 리포트 (2026년 4월 28일)

TL;DR Highlight

Anthropic의 Claude.ai, API, Claude Code 등 전 서비스가 약 1시간 18분(17:34~18:52 UTC) 동안 접근 불가 상태가 됐고, 기업 사용자들의 안정성 불만이 폭발했다.

Who Should Read

Claude API 또는 Claude Code를 프로덕션 서비스에 통합해서 쓰고 있는 개발자, 그리고 LLM 서비스의 가용성(uptime)과 멀티모델 전략을 고민하는 팀 리더.

Core Mechanics

이번 장애는 2026년 4월 28일 17:34 UTC에 시작해 18:52 UTC에 복구됐고, 총 1시간 18분 동안 지속됐다. 영향을 받은 서비스는 claude.ai, Claude Console(platform.claude.com), Claude API(api.anthropic.com), Claude Code, Claude Cowork, Claude for Government로 사실상 전 서비스가 포함됐다.
장애의 원인은 인증(authentication) 관련 이슈로 확인됐다. API 요청 및 Claude Code 로그인 경로에서 인증 오류가 급증했고, claude.ai 자체 접속도 불가능해졌다.
Anthropic은 17:41 UTC에 조사 시작을 공지하고, 17:51 UTC에 문제 식별, 18:33 UTC에 해결 작업 중임을 알렸으며, 18:59 UTC에 모니터링 단계로 전환 후 19:15 UTC에 최종 해결을 선언하는 순서로 상태 페이지를 업데이트했다.
커뮤니티에서 공유된 status.claude.com 데이터에 따르면, 최근 90일간 Claude의 가동률이 '원 나인(one nine)', 즉 90% 초반대 수준으로 떨어진 것으로 언급됐다. 이는 프로덕션 환경에서 허용하기 어려운 수준이라는 비판이 많았다.
월 $200,000 이상 엔터프라이즈 tier를 쓰는 조직의 한 사용자는 최근 몇 달간 잦은 장애가 발생했고, Anthropic의 지원(support)도 형편없어 경영진이 분노 상태라고 밝혔다. 이 정도 비용을 쓰면서 '원 나인' 수준의 안정성은 받아들일 수 없다는 반응이었다.

Evidence

월 $200,000 이상을 Anthropic 엔터프라이즈 tier에 쓰는 조직 사용자가 최근 몇 달간 장애가 너무 잦고 지원도 열악하다고 토로했다. 경영진 레벨에서 분노가 쌓이고 있다는 말로, 단순 불편을 넘어 계약 재검토까지 이어질 수 있는 상황임을 시사한다.
Claude Code의 품질에 대한 직접적 불만도 터져나왔다. 한 사용자는 Claude Code가 세션 한도를 30분 만에 소진하면서 루프를 돌다가 아무것도 못 만들었다고 했고, 반면 OpenAI의 Codex에게 더 복잡한 작업을 줬더니 몇 분 내로 원인을 파악하고 테스트까지 작성하며 자동으로 반복 해결했다는 비교 경험을 공유했다.
여러 LLM 및 여러 클라이언트를 동시에 쓰는 '멀티모델 전략'이 유효하다는 의견이 나왔다. 한 개발자는 Anthropic, Codex, Gemini를 동시에, 데스크톱/CLI/웹 등 다양한 방식으로 운영 중이라고 했다. 과거 클라우드 인프라에서는 멀티클라우드가 비용 대비 효과가 불명확했지만, LLM은 전환 비용이 낮아서 멀티모델 전략이 훨씬 합리적이라는 주장이었다.
자체 GPU로 오픈 모델을 운영하는 팀도 등장했다. 10명짜리 개발 조직이 H100 8장으로 오픈 모델을 직접 운영 중인데, 빅 프로바이더만큼 성능은 안 되지만 서비스가 절대 다운되지 않고 토큰 처리 속도도 충분히 빠르며, 비용도 결국 절감된다는 경험을 공유했다.
이번 장애가 Claude Code를 프로덕션에 통합한 기업들에게 주는 교훈에 대한 논의도 있었다. LLM이 프로덕션 스택을 운영하는 상황에서 비결정론적(non-deterministic) 모델에만 의존하면 이런 장애에 속수무책이라는 점에서, 유능한 인간 엔지니어의 필요성이 여전히 크다는 의견이 나왔다.

How to Apply

Claude API를 프로덕션에서 단일 의존성으로 쓰고 있다면, OpenAI(Codex), Google(Gemini) 등 대체 모델로의 자동 폴백(fallback) 로직을 추가하는 것을 고려하라. 이번 장애처럼 1시간 이상 전면 다운되는 상황에서 서비스 중단 없이 운영을 지속할 수 있다.
월 수만 달러 이상의 Claude API 비용을 지출하는 조직이라면, Anthropic의 status.claude.com을 정기적으로 모니터링하고 이메일/SMS 알림을 구독해두는 것이 좋다. 장애 발생 시 자동으로 팀에 알림이 가도록 PagerDuty나 Slack webhook과 연동하면 대응 시간을 줄일 수 있다.
Claude Code를 개발 워크플로에 적극 활용 중인 팀은 Claude Code 외에 OpenAI Codex CLI 등 대체 코딩 에이전트를 병행 세팅해두면, 이번처럼 인증 오류로 Claude Code 전체가 다운됐을 때도 작업을 이어갈 수 있다.
10명 내외의 팀에서 AI 코딩 도구 비용이 부담스럽거나 안정성이 중요한 경우, H100 등 GPU를 임대해 Qwen, DeepSeek 같은 오픈 모델을 직접 서빙하는 방식도 검토해볼 만하다. 초기 세팅 비용이 들지만 다운타임 리스크를 직접 통제할 수 있고 장기적으로 비용 절감이 된다는 실사용 사례가 있었다.

Terminology

uptime서비스가 정상적으로 작동하고 있는 시간의 비율. '원 나인(one nine)'은 약 90%, '파이브 나인(five nine)'은 99.999%를 의미하며, 프로덕션 서비스에서는 보통 최소 '쓰리 나인(99.9%)' 이상을 요구한다.

authentication error사용자가 자신이 누구인지 증명하는 과정(로그인, API 키 검증 등)에서 발생하는 오류. 이번 장애처럼 인증 서버에 문제가 생기면 아무도 서비스에 접근할 수 없게 된다.

non-deterministic같은 입력을 줘도 매번 다른 출력이 나올 수 있는 특성. LLM은 본질적으로 비결정론적이라서 동일한 프롬프트에도 다른 결과가 나올 수 있고, 이게 프로덕션 예측 가능성을 낮추는 요인이다.

fallback주 시스템이 실패했을 때 자동으로 전환되는 대체 시스템 또는 로직. 예를 들어 Claude API가 다운되면 자동으로 OpenAI API를 호출하도록 설정해두는 것.

session limitClaude Code 등의 서비스에서 한 세션(사용 구간)에 사용할 수 있는 토큰 또는 요청 수의 상한선. 이 한도에 도달하면 세션이 종료되거나 추가 사용이 제한된다.

prefix cachingLLM API에서 반복되는 프롬프트 앞부분(prefix)을 서버에 캐시해두어 동일한 컨텍스트를 재전송하지 않아도 되게 하는 기능. 비용과 응답 속도 모두 개선된다.