Ultrafast machine learning on FPGAs via Kolmogorov-Arnold Networks
TL;DR Highlight
기존 MLP 대신 KAN 아키텍처를 FPGA에 최적화해 나노초 단위 추론과 온라인 학습을 가능하게 한 석사 논문 소개. FPGA 2026 Best Paper를 수상했고 고빈도 거래처럼 초저지연이 필수인 환경에서 주목할 만하다.
Who Should Read
초저지연(나노초~마이크로초) 추론이 필요한 엣지 컴퓨팅이나 금융 시스템 개발자, 또는 FPGA 기반 ML 가속기에 관심 있는 하드웨어/임베디드 엔지니어.
Core Mechanics
- GPU는 대규모 배치 연산에 최적화되어 있지만 명령어 스케줄링, 동적 메모리 접근 등 오버헤드 때문에 나노초 단위 초저지연이 필요한 워크로드에는 적합하지 않다. 이런 경우엔 FPGA 같은 커스텀 하드웨어 가속기가 더 낫다.
- FPGA는 LUT(Lookup Table, 입력 조합마다 출력값을 미리 저장해두는 작은 회로), 플립플롭(FF, 상태 저장 소자) 등으로 구성된 재구성 가능한 디지털 로직 소자다. 뉴럴넷을 프로세서 위에서 실행하는 '명령어'로 구현하는 게 아니라 디지털 회로 자체로 구현하기 때문에 극도로 빠른 추론이 가능하다.
- FPGA에서 연산하려면 실수값을 비트열로 변환하는 양자화(Quantization)가 필요하다. 고정소수점 양자화(Fixed-point Quantization)는 소수점 위치를 고정해 2진수로 숫자를 표현하는 방식이며, 예를 들어 8비트에 소수점 이하 4비트를 쓰면 -8에서 7.9375 사이를 0.0625 간격으로 표현할 수 있다.
- LUT-NN(Lookup Table Neural Network)은 FPGA의 LUT를 그대로 뉴럴넷의 기본 연산 단위로 사용하는 방식이다. 학습 가능한 이진 함수를 LUT 형태로 직접 표현해 하드웨어 효율을 극대화한다.
- KAN(Kolmogorov-Arnold Networks)은 전통적인 MLP(Multi-Layer Perceptron)와 달리 노드가 아닌 엣지(연결선)에 학습 가능한 스플라인(Spline) 함수를 배치하는 아키텍처다. 이 구조가 FPGA의 LUT 기반 연산과 잘 맞아 효율적인 하드웨어 구현이 가능하다.
- 첫 번째 논문 KANELÉ(FPGA 2026 Best Paper)는 KAN을 LUT 기반으로 효율적으로 평가(Evaluation)하는 하드웨어 아키텍처를 다룬다. 두 번째 논문(ICML 2026)은 스플라인의 지역성(Spline Locality) 특성을 활용해 FPGA 위에서 온라인 학습(Online Learning, 데이터가 실시간으로 들어오면서 모델이 갱신되는 방식)까지 초고속으로 수행하는 방법을 제안한다.
- 이 연구는 석사 논문을 기반으로 한 실제 구현 결과물이며, 두 편 모두 Duc Hoang과 공동 1저자(equal contribution)로 작성되었고 Philip C. Harris가 지도를 맡았다.
Evidence
- LLM 추론 가속에 사용할 수 있냐는 질문에 대해, 댓글 작성자가 3.28M 파라미터짜리 작은 모델로 100,000 tokens/s를 목표로 실험해봤는데 이미 이 연구의 적용 범위보다 한 자릿수 이상 크다며 사실상 불가능하다는 경험을 공유했다. 이 연구는 처리량(Throughput)보다 지연시간(Latency) 최소화에 집중한 것이라는 분석이다.
- 이 접근법은 결국 아주 작은 모델이거나 아주 큰 FPGA가 있어야 의미가 있는 게 아니냐는 의문이 제기됐다. 서브 마이크로초 지연이 필요한 단순한 ML 태스크라면 의미가 있지만 그렇지 않으면 실용성이 제한적이라는 시각이다.
- KAN이 실용적인 하드웨어 분야에서 자리를 잡아가고 있다는 점에서 긍정적으로 평가하는 반응도 있었다. 이론적 아이디어였던 KAN이 실제 하드웨어 최적화 논문으로 이어진 것을 반기는 분위기다.
- 저자가 이 연구 결과로 고빈도 거래(HFT, High-Frequency Trading) 회사에 채용될 것이라는 댓글이 달렸다. 나노초 단위 지연이 수익과 직결되는 HFT 분야가 이 연구의 가장 유력한 적용처임을 시사하는 반응이다.
- 원문 포스트가 일시적으로 내려가는 일이 있었고, 한 사용자가 Web Archive 링크(https://web.archive.org/web/20260609200156/https://aarushgup...)를 공유했다.
How to Apply
- 나노초~마이크로초 단위 추론이 필요한 시스템(예: 고빈도 거래 신호 처리, 입자 물리 트리거 시스템, 네트워크 패킷 분류)을 개발 중이라면, GPU/CPU 대신 FPGA + KAN 아키텍처 조합을 검토하고 두 논문(KANELÉ, arXiv:2602.02056)의 벤치마크 수치를 기준으로 요구사항 충족 여부를 먼저 확인해라.
- 실시간으로 데이터가 들어오면서 모델이 즉시 업데이트되어야 하는 온라인 학습 시나리오(예: 센서 데이터 이상 탐지, 실시간 제어 시스템)라면, ICML 2026 논문의 스플라인 지역성 기반 온라인 학습 방법론을 참고해 FPGA 위에서 학습과 추론을 동시에 처리하는 구조를 설계할 수 있다.
- LLM처럼 수백만 파라미터 이상의 대형 모델 추론 가속에는 이 접근법이 맞지 않는다. 모델 크기가 작고(수천~수만 파라미터), 지연시간 요구사항이 극단적으로 엄격한 태스크인지 먼저 확인한 후에 적용 여부를 결정해야 한다.
Terminology
Related Papers
DiffusionGemma: 4x Faster Text Generation
Google이 토큰을 순차적으로 생성하는 기존 LLM 방식 대신 256토큰 블록을 한 번에 생성하는 diffusion 방식으로 최대 4배 빠른 추론 속도를 달성한 오픈 실험 모델 DiffusionGemma를 공개했다. Apache 2.0 라이선스로 배포되며 소비자용 GPU에서도 실행 가능해 엣지 디바이스와 실시간 인터랙티브 워크플로우에 새로운 가능성을 열어준다.
Silurus/ooxml: Pixel-faithful Office documents, rendered in the browser
Rust + WebAssembly로 DOCX/XLSX/PPTX 파일을 브라우저 Canvas에 직접 렌더링하는 오픈소스 라이브러리로, 코드 전체가 Claude(AI)로 작성된 점이 화제가 됐다.
Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering
LLM 멀티에이전트 시스템으로 소프트웨어 개발을 자동화할 때 토큰의 59.4%가 Code Review 단계에서 소비된다는 연구 결과로, AI 에이전트 비용 구조를 처음으로 체계적으로 측정한 논문이다.
Show HN: Lowfat – pluggable CLI filter that saved 91.8% of my LLM tokens
AI 에이전트가 CLI 명령어 출력을 읽을 때 불필요한 노이즈를 제거해 토큰 사용량을 줄여주는 Rust 기반 CLI 필터 도구. Claude Code, OpenCode 등 주요 AI 코딩 에이전트와 통합 가능하다.
DyCon: Dynamic Reasoning Control via Evolving Difficulty Modeling
LLM의 내부 hidden state에서 난이도를 실시간으로 추정해 쉬운 문제엔 추론을 빨리 끊고, 어려운 문제엔 깊이 생각하게 만드는 training-free 방법
1-Bit Bonsai Image 4B Image Generation for Local Devices
4B 파라미터 이미지 생성 모델의 가중치를 1비트/3값으로 극단적으로 압축해서 iPhone에서도 돌아가게 만든 모델. 7.75GB짜리 diffusion transformer를 0.93GB까지 줄였다.