LLM Architecture Gallery — 주요 LLM 아키텍처 도해 모음
LLM Architecture Gallery
TL;DR Highlight
Sebastian Raschka 박사가 Llama, DeepSeek, Qwen, Gemma 등 수십 개 주요 LLM의 아키텍처 구조도와 핵심 스펙을 한 페이지에 정리한 갤러리로, 모델 간 설계 차이를 한눈에 비교할 수 있다.
Who Should Read
LLM을 직접 학습하거나 파인튜닝하려는 ML 엔지니어, 또는 오픈소스 모델 선택 시 아키텍처 차이를 빠르게 파악하고 싶은 AI 개발자.
Core Mechanics
- Llama 3 8B는 GQA(Grouped Query Attention, KV 캐시를 여러 헤드가 공유해 메모리를 줄이는 방식)와 RoPE(위치 인코딩 기법)를 사용하는 표준 Dense 모델로, OLMo 2 등 다른 모델과의 비교 기준점(baseline)으로 활용된다.
- DeepSeek V3와 R1은 671B 전체 파라미터 중 37B만 활성화하는 Sparse MoE(Mixture of Experts) 구조에 MLA(Multi-head Latent Attention)를 사용한다. 특히 Dense 프리픽스와 Shared Expert를 추가해 대형 모델을 추론 시 현실적으로 운용할 수 있게 설계했다.
- DeepSeek R1은 새로운 베이스 아키텍처가 아니라 V3와 동일한 구조를 유지하면서 추론(reasoning) 특화 학습 레시피만 바꾼 모델이다. 아키텍처 혁신보다 학습 방식의 변화가 성능 차이를 만든 사례다.
- Gemma 3 27B는 전체 어텐션 레이어 중 5개 중 1개만 글로벌 어텐션을 쓰고 나머지 5개는 슬라이딩 윈도우 로컬 어텐션(SWA)을 쓰는 5:1 혼합 방식을 채택해, 이전 Gemma 2보다 로컬 어텐션 비중을 크게 높였다.
- Llama 4 Maverick은 400B 전체 파라미터 중 17B만 활성화하는 MoE 구조로, DeepSeek V3의 설계 방향을 따르지만 어텐션은 GQA를 사용하고 전문가(Expert) 수는 더 적고 크기는 더 크게 설계했다.
- Qwen3 시리즈는 235B MoE부터 4B Dense까지 다양한 크기를 제공하며, 전 라인업에서 QK-Norm(쿼리·키 벡터를 정규화해 학습 안정성을 높이는 기법)을 일관되게 적용한다. 235B-A22B MoE 버전은 DeepSeek V3와 구조가 매우 유사하지만 Shared Expert를 제거했다.
- OLMo 2 7B는 표준 Pre-norm 대신 잔차 연결 내부에 Post-norm을 배치하는 독특한 정규화 방식을 채택해 학습 안정성을 높였으며, GQA 대신 고전적인 MHA(Multi-Head Attention)를 유지한 점이 특징이다.
- 이 갤러리는 각 모델의 config.json과 기술 보고서 링크, 파라미터 수, 날짜, Decoder 타입, 어텐션 방식, 핵심 설계 포인트를 팩트 시트 형태로 함께 제공해, 원 논문을 찾아보지 않아도 빠른 비교가 가능하다.
Evidence
- 댓글에서 이 갤러리가 과거 신경망 구조를 한눈에 정리했던 'Neural Network Zoo(asimovinstitute.org)'와 비슷한 역할을 할 것 같다는 반응이 있었다. 해당 사이트는 수십 종의 신경망 아키텍처를 시각화해 교육 자료로 널리 쓰였는데, LLM 버전이 필요했다는 공감이 많았다.
- 한 댓글에서 zoomhub.net을 이용해 아키텍처 다이어그램을 확대·축소해서 볼 수 있는 링크(https://zoomhub.net/LKrpB)를 제공했다. 원본 이미지가 세부 정보가 많아 클릭 확대만으로는 불편하다는 점에 대한 실용적인 대안이다.
- 모델들의 '진화 계보'나 '패밀리 트리' 형태의 시각화가 추가되면 좋겠다는 의견이 있었다. 어떤 모델이 어떤 모델에서 영향을 받았는지, 아키텍처 혁신의 흐름을 시간 순서로 파악하기 어렵다는 점과, 파라미터 규모 차이를 시각적으로 비교할 수 있는 스케일 뷰도 요청됐다.
- 작성자에게 '이걸 만들면서 LLM 아키텍처에 대해 몰랐던 점이나 놀라운 점을 새로 발견했는가'라는 질문이 달렸다. 단순한 자료 수집을 넘어 저자 자신의 인사이트를 궁금해하는 반응으로, 커뮤니티에서 이 갤러리를 단순 레퍼런스가 아닌 학습 자료로 바라본다는 것을 보여준다.
How to Apply
- 새 프로젝트에서 오픈소스 LLM을 선택할 때, 갤러리에서 후보 모델들의 Decoder 타입(Dense vs MoE), 활성 파라미터 수, 어텐션 방식(GQA/MHA/MLA), KV 헤드 수를 팩트 시트로 빠르게 비교하면 추론 비용과 메모리 요구사항을 사전에 가늠할 수 있다.
- LLM 파인튜닝 전에 목표 모델의 config.json 링크를 갤러리에서 바로 찾아 레이어 수, 히든 사이즈, 어텐션 헤드 구성을 확인하면, LoRA 적용 시 타깃 모듈 지정이나 배치 사이즈 계산을 더 정확하게 할 수 있다.
- 팀 내 아키텍처 스터디나 온보딩 자료로 활용할 때, Neural Network Zoo처럼 이 갤러리를 기준점으로 삼아 Dense와 MoE의 차이, QK-Norm이나 SWA 같은 최신 기법이 어느 모델부터 도입됐는지 흐름을 설명하면 효과적이다.
Terminology
MoEMixture of Experts의 약자. 모델 전체 파라미터 중 입력마다 일부 '전문가' 레이어만 골라서 활성화하는 구조로, 전체 파라미터는 많지만 실제 연산량은 줄일 수 있다.
GQAGrouped Query Attention. KV(Key-Value) 캐시를 여러 쿼리 헤드가 공유하게 해 메모리 사용량을 줄이는 어텐션 기법으로, 추론 속도와 메모리 효율을 동시에 잡는다.
MLAMulti-head Latent Attention. DeepSeek이 도입한 어텐션 변형으로, KV 캐시를 압축된 잠재 벡터로 저장해 메모리를 크게 줄이는 방식이다.
QK-Norm어텐션 계산 시 쿼리(Q)와 키(K) 벡터를 정규화하는 기법. 학습 후반부에 어텐션 값이 폭발적으로 커지는 불안정 현상을 방지한다.
SWASliding Window Attention. 모든 토큰 쌍을 계산하는 대신 가까운 윈도우 내 토큰끼리만 어텐션을 계산해 긴 시퀀스에서 연산량을 줄이는 방식이다.
Dense입력이 들어올 때 모델의 모든 파라미터가 활성화되는 일반적인 Transformer 구조. MoE와 대비되는 개념으로, 구조가 단순하고 예측 가능하다.