LLM Architecture Gallery — 주요 LLM 아키텍처 도해 모음
LLM Architecture Gallery
TL;DR Highlight
Sebastian Raschka 박사가 Llama, DeepSeek, Qwen, Gemma 등 수십 개 주요 LLM의 아키텍처 구조도와 핵심 스펙을 한 페이지에 정리하여 모델 간 설계 차이를 한눈에 비교 가능하게 했다.
Who Should Read
LLM을 직접 학습하거나 파인튜닝하려는 ML 엔지니어, 또는 오픈소스 모델 선택 시 아키텍처 차이를 빠르게 파악하고 싶은 AI 개발자.
Core Mechanics
- Llama 3 8B는 GQA(Grouped Query Attention, KV 캐시를 여러 헤드가 공유해 메모리를 줄이는 방식)와 RoPE(위치 인코딩 기법)를 사용하는 표준 Dense 모델로, OLMo 2 등 다른 모델과의 비교 기준점(baseline)으로 활용된다.
- DeepSeek V3와 R1은 671B 전체 파라미터 중 37B만 활성화하는 Sparse MoE(Mixture of Experts) 구조에 MLA(Multi-head Latent Attention)를 사용한다. 특히 Dense 프리픽스와 Shared Expert를 추가해 대형 모델을 추론 시 현실적으로 운용할 수 있게 설계했다.
- DeepSeek R1은 새로운 베이스 아키텍처가 아니라 V3와 동일한 구조를 유지하면서 추론(reasoning) 특화 학습 레시피만 바꾼 모델이다. 아키텍처 혁신보다 학습 방식의 변화가 성능 차이를 만든 사례다.
- Gemma 3 27B는 전체 어텐션 레이어 중 5개 중 1개만 글로벌 어텐션을 쓰고 나머지 5개는 슬라이딩 윈도우 로컬 어텐션(SWA)을 쓰는 5:1 혼합 방식을 채택해, 이전 Gemma 2보다 로컬 어텐션 비중을 크게 높였다.
- Llama 4 Maverick은 400B 전체 파라미터 중 17B만 활성화하는 MoE 구조로, DeepSeek V3의 설계 방향을 따르지만 어텐션은 GQA를 사용하고 전문가(Expert) 수는 더 적고 크기는 더 크게 설계했다.
- Qwen3 시리즈는 235B MoE부터 4B Dense까지 다양한 크기를 제공하며, 전 라인업에서 QK-Norm(쿼리·키 벡터를 정규화해 학습 안정성을 높이는 기법)을 일관되게 적용한다. 235B-A22B MoE 버전은 DeepSeek V3와 구조가 매우 유사하지만 Shared Expert를 제거했다.
- OLMo 2 7B는 표준 Pre-norm 대신 잔차 연결 내부에 Post-norm을 배치하는 독특한 정규화 방식을 채택해 학습 안정성을 높였으며, GQA 대신 고전적인 MHA(Multi-Head Attention)를 유지한 점이 특징이다.
- 이 갤러리는 각 모델의 config.json과 기술 보고서 링크, 파라미터 수, 날짜, Decoder 타입, 어텐션 방식, 핵심 설계 포인트를 팩트 시트 형태로 함께 제공해, 원 논문을 찾아보지 않아도 빠른 비교가 가능하다.
Evidence
- 댓글에서 이 갤러리가 과거 신경망 구조를 한눈에 정리했던 'Neural Network Zoo(asimovinstitute.org)'와 비슷한 역할을 할 것 같다는 반응이 있었다. 해당 사이트는 수십 종의 신경망 아키텍처를 시각화해 교육 자료로 널리 쓰였는데, LLM 버전이 필요했다는 공감이 많았다.
- 한 댓글에서 zoomhub.net을 이용해 아키텍처 다이어그램을 확대·축소해서 볼 수 있는 링크(https://zoomhub.net/LKrpB)를 제공했다. 원본 이미지가 세부 정보가 많아 클릭 확대만으로는 불편하다는 점에 대한 실용적인 대안이다.
- 모델들의 '진화 계보'나 '패밀리 트리' 형태의 시각화가 추가되면 좋겠다는 의견이 있었다. 어떤 모델이 어떤 모델에서 영향을 받았는지, 아키텍처 혁신의 흐름을 시간 순서로 파악하기 어렵다는 점과, 파라미터 규모 차이를 시각적으로 비교할 수 있는 스케일 뷰도 요청됐다.
- 작성자에게 '이걸 만들면서 LLM 아키텍처에 대해 몰랐던 점이나 놀라운 점을 새로 발견했는가'라는 질문이 달렸다. 단순한 자료 수집을 넘어 저자 자신의 인사이트를 궁금해하는 반응으로, 커뮤니티에서 이 갤러리를 단순 레퍼런스가 아닌 학습 자료로 바라본다는 것을 보여준다.
How to Apply
- 새 프로젝트에서 오픈소스 LLM을 선택할 때, 갤러리에서 후보 모델들의 Decoder 타입(Dense vs MoE), 활성 파라미터 수, 어텐션 방식(GQA/MHA/MLA), KV 헤드 수를 팩트 시트로 빠르게 비교하면 추론 비용과 메모리 요구사항을 사전에 가늠할 수 있다.
- LLM 파인튜닝 전에 목표 모델의 config.json 링크를 갤러리에서 바로 찾아 레이어 수, 히든 사이즈, 어텐션 헤드 구성을 확인하면, LoRA 적용 시 타깃 모듈 지정이나 배치 사이즈 계산을 더 정확하게 할 수 있다.
- 팀 내 아키텍처 스터디나 온보딩 자료로 활용할 때, Neural Network Zoo처럼 이 갤러리를 기준점으로 삼아 Dense와 MoE의 차이, QK-Norm이나 SWA 같은 최신 기법이 어느 모델부터 도입됐는지 흐름을 설명하면 효과적이다.
Terminology
관련 논문
LLM이 TLA+로 실제 시스템을 제대로 모델링할 수 있을까? — SysMoBench 벤치마크
LLM이 TLA+ 명세를 작성할 때 문법은 잘 통과하지만 실제 시스템과의 동작 일치도(conformance)는 46% 수준에 그친다는 걸 체계적으로 검증한 벤치마크 연구로, AI 기반 형식 검증의 현실적 한계를 보여준다.
Natural Language Autoencoders: Claude의 내부 활성화를 자연어 텍스트로 변환하는 기법
Anthropic이 LLM 내부의 숫자 벡터(활성화값)를 직접 읽을 수 있는 자연어로 변환하는 NLA 기법을 공개했다. AI가 실제로 무슨 생각을 하는지 해석하는 interpretability 연구의 새로운 진전이다.
ProgramBench: LLM이 프로그램을 처음부터 다시 만들 수 있을까?
LLM이 FFmpeg, SQLite, PHP 인터프리터 같은 실제 소프트웨어를 문서만 보고 처음부터 재구현할 수 있는지 측정하는 새 벤치마크로, 최고 모델도 전체 태스크의 3%만 95% 이상 통과하는 수준에 그쳤다.
MOSAIC-Bench:코딩 에이전트의 Compositional Vulnerability 유도 측정
티켓 3장으로 쪼개면 Claude/GPT도 보안 취약점 코드를 53~86% 확률로 그냥 짜준다.
LLM의 거절(Refusal) 동작은 단 하나의 방향(Direction)으로 제어된다
13개의 오픈소스 채팅 모델을 분석했더니, 모델이 유해한 요청을 거절하는 동작이 내부 활성화 공간에서 단 하나의 1차원 벡터 방향으로 인코딩되어 있었다. 이 방향을 제거하면 안전 파인튜닝이 사실상 무력화되므로, 현재 안전 학습 방식이 얼마나 취약한지 보여준다.
LLM의 구조화된 출력(Structured Output)을 테스트하는 새 벤치마크 SOB 공개
스키마 준수 여부만 보던 기존 벤치마크의 한계를 넘어, 실제 값의 정확도까지 7가지 지표로 평가하는 Structured Output Benchmark(SOB)가 공개됐다. 인보이스 파싱, 의료 기록 추출처럼 JSON 출력의 정확성이 중요한 프로덕션 시스템에서 어떤 모델을 써야 할지 판단하는 데 직접적으로 참고할 수 있다.