LLM Architecture Gallery — 주요 LLM 아키텍처 도해 모음 | AI Paper Digest

TL;DR Highlight

Sebastian Raschka 박사가 Llama, DeepSeek, Qwen, Gemma 등 수십 개 주요 LLM의 아키텍처 구조도와 핵심 스펙을 한 페이지에 정리하여 모델 간 설계 차이를 한눈에 비교 가능하게 했다.

Who Should Read

LLM을 직접 학습하거나 파인튜닝하려는 ML 엔지니어, 또는 오픈소스 모델 선택 시 아키텍처 차이를 빠르게 파악하고 싶은 AI 개발자.

Core Mechanics

Llama 3 8B는 GQA(Grouped Query Attention, KV 캐시를 여러 헤드가 공유해 메모리를 줄이는 방식)와 RoPE(위치 인코딩 기법)를 사용하는 표준 Dense 모델로, OLMo 2 등 다른 모델과의 비교 기준점(baseline)으로 활용된다.
DeepSeek V3와 R1은 671B 전체 파라미터 중 37B만 활성화하는 Sparse MoE(Mixture of Experts) 구조에 MLA(Multi-head Latent Attention)를 사용한다. 특히 Dense 프리픽스와 Shared Expert를 추가해 대형 모델을 추론 시 현실적으로 운용할 수 있게 설계했다.
DeepSeek R1은 새로운 베이스 아키텍처가 아니라 V3와 동일한 구조를 유지하면서 추론(reasoning) 특화 학습 레시피만 바꾼 모델이다. 아키텍처 혁신보다 학습 방식의 변화가 성능 차이를 만든 사례다.
Gemma 3 27B는 전체 어텐션 레이어 중 5개 중 1개만 글로벌 어텐션을 쓰고 나머지 5개는 슬라이딩 윈도우 로컬 어텐션(SWA)을 쓰는 5:1 혼합 방식을 채택해, 이전 Gemma 2보다 로컬 어텐션 비중을 크게 높였다.
Llama 4 Maverick은 400B 전체 파라미터 중 17B만 활성화하는 MoE 구조로, DeepSeek V3의 설계 방향을 따르지만 어텐션은 GQA를 사용하고 전문가(Expert) 수는 더 적고 크기는 더 크게 설계했다.
Qwen3 시리즈는 235B MoE부터 4B Dense까지 다양한 크기를 제공하며, 전 라인업에서 QK-Norm(쿼리·키 벡터를 정규화해 학습 안정성을 높이는 기법)을 일관되게 적용한다. 235B-A22B MoE 버전은 DeepSeek V3와 구조가 매우 유사하지만 Shared Expert를 제거했다.
OLMo 2 7B는 표준 Pre-norm 대신 잔차 연결 내부에 Post-norm을 배치하는 독특한 정규화 방식을 채택해 학습 안정성을 높였으며, GQA 대신 고전적인 MHA(Multi-Head Attention)를 유지한 점이 특징이다.
이 갤러리는 각 모델의 config.json과 기술 보고서 링크, 파라미터 수, 날짜, Decoder 타입, 어텐션 방식, 핵심 설계 포인트를 팩트 시트 형태로 함께 제공해, 원 논문을 찾아보지 않아도 빠른 비교가 가능하다.

Evidence

댓글에서 이 갤러리가 과거 신경망 구조를 한눈에 정리했던 'Neural Network Zoo(asimovinstitute.org)'와 비슷한 역할을 할 것 같다는 반응이 있었다. 해당 사이트는 수십 종의 신경망 아키텍처를 시각화해 교육 자료로 널리 쓰였는데, LLM 버전이 필요했다는 공감이 많았다.
한 댓글에서 zoomhub.net을 이용해 아키텍처 다이어그램을 확대·축소해서 볼 수 있는 링크(https://zoomhub.net/LKrpB)를 제공했다. 원본 이미지가 세부 정보가 많아 클릭 확대만으로는 불편하다는 점에 대한 실용적인 대안이다.
모델들의 '진화 계보'나 '패밀리 트리' 형태의 시각화가 추가되면 좋겠다는 의견이 있었다. 어떤 모델이 어떤 모델에서 영향을 받았는지, 아키텍처 혁신의 흐름을 시간 순서로 파악하기 어렵다는 점과, 파라미터 규모 차이를 시각적으로 비교할 수 있는 스케일 뷰도 요청됐다.
작성자에게 '이걸 만들면서 LLM 아키텍처에 대해 몰랐던 점이나 놀라운 점을 새로 발견했는가'라는 질문이 달렸다. 단순한 자료 수집을 넘어 저자 자신의 인사이트를 궁금해하는 반응으로, 커뮤니티에서 이 갤러리를 단순 레퍼런스가 아닌 학습 자료로 바라본다는 것을 보여준다.

How to Apply

새 프로젝트에서 오픈소스 LLM을 선택할 때, 갤러리에서 후보 모델들의 Decoder 타입(Dense vs MoE), 활성 파라미터 수, 어텐션 방식(GQA/MHA/MLA), KV 헤드 수를 팩트 시트로 빠르게 비교하면 추론 비용과 메모리 요구사항을 사전에 가늠할 수 있다.
LLM 파인튜닝 전에 목표 모델의 config.json 링크를 갤러리에서 바로 찾아 레이어 수, 히든 사이즈, 어텐션 헤드 구성을 확인하면, LoRA 적용 시 타깃 모듈 지정이나 배치 사이즈 계산을 더 정확하게 할 수 있다.
팀 내 아키텍처 스터디나 온보딩 자료로 활용할 때, Neural Network Zoo처럼 이 갤러리를 기준점으로 삼아 Dense와 MoE의 차이, QK-Norm이나 SWA 같은 최신 기법이 어느 모델부터 도입됐는지 흐름을 설명하면 효과적이다.

Terminology

MoEMixture of Experts의 약자. 모델 전체 파라미터 중 입력마다 일부 '전문가' 레이어만 골라서 활성화하는 구조로, 전체 파라미터는 많지만 실제 연산량은 줄일 수 있다.

GQAGrouped Query Attention. KV(Key-Value) 캐시를 여러 쿼리 헤드가 공유하게 해 메모리 사용량을 줄이는 어텐션 기법으로, 추론 속도와 메모리 효율을 동시에 잡는다.

MLAMulti-head Latent Attention. DeepSeek이 도입한 어텐션 변형으로, KV 캐시를 압축된 잠재 벡터로 저장해 메모리를 크게 줄이는 방식이다.

QK-Norm어텐션 계산 시 쿼리(Q)와 키(K) 벡터를 정규화하는 기법. 학습 후반부에 어텐션 값이 폭발적으로 커지는 불안정 현상을 방지한다.

SWASliding Window Attention. 모든 토큰 쌍을 계산하는 대신 가까운 윈도우 내 토큰끼리만 어텐션을 계산해 긴 시퀀스에서 연산량을 줄이는 방식이다.

Dense입력이 들어올 때 모델의 모든 파라미터가 활성화되는 일반적인 Transformer 구조. MoE와 대비되는 개념으로, 구조가 단순하고 예측 가능하다.

LLM Architecture Gallery — 주요 LLM 아키텍처 도해 모음