초고속 AI 추론 칩의 등장: 17,000 tokens/sec를 향한 길
The path to ubiquitous AI (17k tokens/sec)
TL;DR Highlight
Taalas가 AI 모델을 실리콘에 직접 새겨 넣어 17,000 tokens/sec 추론을 달성했으며, 현재 최고 속도 대비 10배 빠르다.
Who Should Read
AI 추론 서비스의 레이턴시와 인프라 비용에 고민이 많은 ML 엔지니어 또는 AI 스타트업 기술 의사결정자. 특히 로보틱스, 실시간 에이전트 파이프라인처럼 밀리초 단위 응답이 필요한 시스템을 설계하는 개발자.
Core Mechanics
- Taalas는 AI 모델 가중치를 ASIC(특정 용도용 반도체)에 물리적으로 새기는 '하드코어 모델' 방식을 채택했다. 소프트웨어로 돌리는 GPU 기반 추론과 달리 웨이트가 마스크 ROM에 고정되기 때문에 추론 속도가 극적으로 올라간다.
- 첫 번째 칩에서 Llama 3.1 8B 모델을 3-bit 양자화로 실행해 17,000 tokens/sec를 달성했다. 현재 최고 수준(약 1,700 tokens/sec) 대비 약 10배 빠른 속도다.
- 하드웨어 사양은 TSMC 6nm 공정, 880mm² 다이, 53B 트랜지스터 규모다. 댓글 분석에 따르면 8B q3 모델을 수용하기 위해 칩 10개를 연결하는 구성(총 2.4kW)으로 추정된다.
- 제조 비용은 기존 GPU 대비 20분의 1, 토큰당 전력 소비는 10분의 1을 목표로 한다. 이 수치가 실현되면 per-token 비용 구조를 근본적으로 바꿀 수 있다.
- 핵심 기술은 '1 트랜지스터로 4-bit 곱셈'을 구현하는 마스크 ROM 방식이다. 트랜지스터의 구동 강도(fin 개수, 임계 전압)가 곧 저장된 가중치이며, 입력 활성화를 펄스 폭/카운트로 인코딩해 전류 적분으로 곱셈을 수행한다.
- 가중치가 실리콘에 고정되기 때문에 모델 업데이트가 불가능하다는 단점이 있다. 2026년 봄에 '중간 크기 thinking 모델'을 같은 하드웨어로 출시 예정이며, 다음 세대 하드웨어는 FP4 정밀도를 지원할 계획이다.
- 12개월 내에 프론티어급 LLM을 자사 칩에서 구동하겠다는 로드맵을 공개했다. 창업자들은 AMD와 Nvidia 합산 25년 경력 보유자이며, 현재까지 2억 달러 VC 투자를 유치했다.
- 현재 데모 사이트(chatjimmy.ai)에서 실제 속도를 체험할 수 있다. 엔터 키를 누르는 순간 응답이 나타나는 수준으로, 기존 AI 챗봇의 스트리밍 타이핑 방식과 체감 차이가 크다.
Evidence
- 많은 댓글에서 모델 품질(8B Llama의 할루시네이션, 오답)을 비판했지만, 이는 핵심을 놓친 반응이라는 반론도 나왔다. 이 데모의 목적은 Llama 3.1 8B의 정확도를 보여주는 게 아니라 전용 하드웨어의 추론 속도를 증명하는 것이기 때문이다.
- 한 유저가 캐싱 의혹을 제기했다. '태양계에서 가장 큰 행성은?'을 물었더니 엉뚱한 답변이 돌아왔다는 경험을 공유했는데, 응답 내용이 이전 질문의 캐시처럼 보였다고 했다.
- 칩 구조에 대한 기술적 분석이 이어졌다. N6 공정 850mm² 다이에서 SRAM만으로는 최대 3GB밖에 확보할 수 없어 8B q3 모델을 단일 칩에 담기 어렵다는 분석과 함께, 10개 칩을 연결해 2.4kW로 운용하는 구성일 것이라는 역산이 나왔다.
- '이 속도면 AI 평가 방법론 자체가 바뀌어야 한다'는 흥미로운 관점도 있었다. MMLU 같은 정적 벤치마크는 인간 속도 기반으로 설계됐는데, 17k tokens/sec라면 기존 벤치마크 전체 시간 안에 수만 건의 적대적 에이전트 상호작용을 돌릴 수 있어 평가 패러다임이 달라진다는 주장이다.
- 모델이 실리콘에 고정된다는 점에서 사업 모델에 대한 의문도 제기됐다. 'AI 모델 교체 주기가 몇 달인데, 칩을 계속 새로 사야 하는가'라는 질문과 함께, 오히려 프론티어 랩들이 경쟁사의 칩에서 가중치를 전자현미경으로 추출하는 역공학 문제가 새로운 업계 이슈가 될 것이라는 예측도 나왔다.
How to Apply
- 밀리초 단위 응답이 필수인 실시간 에이전트 파이프라인(로보틱스 제어, 게임 NPC, 실시간 콘텐츠 필터링 등)을 개발 중이라면, Taalas API가 상용화될 때 소형 모델용 레이턴시 집약적 레이어에 적용을 검토해볼 수 있다.
- 현재 당장 적용하고 싶다면 Groq의 추론 API로 유사한 고속 소형 모델 경험을 미리 해볼 수 있다. OpenRouter 통계에 따르면 Llama 3.1 8B는 이미 일주일 22% 성장으로 1일 100억 토큰이 처리될 만큼 좁은 도메인 작업에서 충분히 유용하다.
- 에이전트 파이프라인 설계 시 '17k tokens/sec로 중간급 모델을 30번 반복 개선하는 게 1번의 프론티어 모델 호출보다 나은가'라는 아키텍처 질문을 이미 던져볼 수 있다. 단일 최고 성능 모델 의존에서 다단계 경량 모델 파이프라인으로의 전환 실험에 참고하자.
Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.