LLM Architecture Gallery — 주요 LLM 아키텍처 도해 모음
LLM Architecture Gallery
TL;DR Highlight
Sebastian Raschka 박사가 Llama, DeepSeek, Qwen, Gemma 등 수십 개 주요 LLM의 아키텍처 구조도와 핵심 스펙을 한 페이지에 정리하여 모델 간 설계 차이를 한눈에 비교 가능하게 했다.
Who Should Read
LLM을 직접 학습하거나 파인튜닝하려는 ML 엔지니어, 또는 오픈소스 모델 선택 시 아키텍처 차이를 빠르게 파악하고 싶은 AI 개발자.
Core Mechanics
- Llama 3 8B는 GQA(Grouped Query Attention, KV 캐시를 여러 헤드가 공유해 메모리를 줄이는 방식)와 RoPE(위치 인코딩 기법)를 사용하는 표준 Dense 모델로, OLMo 2 등 다른 모델과의 비교 기준점(baseline)으로 활용된다.
- DeepSeek V3와 R1은 671B 전체 파라미터 중 37B만 활성화하는 Sparse MoE(Mixture of Experts) 구조에 MLA(Multi-head Latent Attention)를 사용한다. 특히 Dense 프리픽스와 Shared Expert를 추가해 대형 모델을 추론 시 현실적으로 운용할 수 있게 설계했다.
- DeepSeek R1은 새로운 베이스 아키텍처가 아니라 V3와 동일한 구조를 유지하면서 추론(reasoning) 특화 학습 레시피만 바꾼 모델이다. 아키텍처 혁신보다 학습 방식의 변화가 성능 차이를 만든 사례다.
- Gemma 3 27B는 전체 어텐션 레이어 중 5개 중 1개만 글로벌 어텐션을 쓰고 나머지 5개는 슬라이딩 윈도우 로컬 어텐션(SWA)을 쓰는 5:1 혼합 방식을 채택해, 이전 Gemma 2보다 로컬 어텐션 비중을 크게 높였다.
- Llama 4 Maverick은 400B 전체 파라미터 중 17B만 활성화하는 MoE 구조로, DeepSeek V3의 설계 방향을 따르지만 어텐션은 GQA를 사용하고 전문가(Expert) 수는 더 적고 크기는 더 크게 설계했다.
- Qwen3 시리즈는 235B MoE부터 4B Dense까지 다양한 크기를 제공하며, 전 라인업에서 QK-Norm(쿼리·키 벡터를 정규화해 학습 안정성을 높이는 기법)을 일관되게 적용한다. 235B-A22B MoE 버전은 DeepSeek V3와 구조가 매우 유사하지만 Shared Expert를 제거했다.
- OLMo 2 7B는 표준 Pre-norm 대신 잔차 연결 내부에 Post-norm을 배치하는 독특한 정규화 방식을 채택해 학습 안정성을 높였으며, GQA 대신 고전적인 MHA(Multi-Head Attention)를 유지한 점이 특징이다.
- 이 갤러리는 각 모델의 config.json과 기술 보고서 링크, 파라미터 수, 날짜, Decoder 타입, 어텐션 방식, 핵심 설계 포인트를 팩트 시트 형태로 함께 제공해, 원 논문을 찾아보지 않아도 빠른 비교가 가능하다.
Evidence
- 댓글에서 이 갤러리가 과거 신경망 구조를 한눈에 정리했던 'Neural Network Zoo(asimovinstitute.org)'와 비슷한 역할을 할 것 같다는 반응이 있었다. 해당 사이트는 수십 종의 신경망 아키텍처를 시각화해 교육 자료로 널리 쓰였는데, LLM 버전이 필요했다는 공감이 많았다.
- 한 댓글에서 zoomhub.net을 이용해 아키텍처 다이어그램을 확대·축소해서 볼 수 있는 링크(https://zoomhub.net/LKrpB)를 제공했다. 원본 이미지가 세부 정보가 많아 클릭 확대만으로는 불편하다는 점에 대한 실용적인 대안이다.
- 모델들의 '진화 계보'나 '패밀리 트리' 형태의 시각화가 추가되면 좋겠다는 의견이 있었다. 어떤 모델이 어떤 모델에서 영향을 받았는지, 아키텍처 혁신의 흐름을 시간 순서로 파악하기 어렵다는 점과, 파라미터 규모 차이를 시각적으로 비교할 수 있는 스케일 뷰도 요청됐다.
- 작성자에게 '이걸 만들면서 LLM 아키텍처에 대해 몰랐던 점이나 놀라운 점을 새로 발견했는가'라는 질문이 달렸다. 단순한 자료 수집을 넘어 저자 자신의 인사이트를 궁금해하는 반응으로, 커뮤니티에서 이 갤러리를 단순 레퍼런스가 아닌 학습 자료로 바라본다는 것을 보여준다.
How to Apply
- 새 프로젝트에서 오픈소스 LLM을 선택할 때, 갤러리에서 후보 모델들의 Decoder 타입(Dense vs MoE), 활성 파라미터 수, 어텐션 방식(GQA/MHA/MLA), KV 헤드 수를 팩트 시트로 빠르게 비교하면 추론 비용과 메모리 요구사항을 사전에 가늠할 수 있다.
- LLM 파인튜닝 전에 목표 모델의 config.json 링크를 갤러리에서 바로 찾아 레이어 수, 히든 사이즈, 어텐션 헤드 구성을 확인하면, LoRA 적용 시 타깃 모듈 지정이나 배치 사이즈 계산을 더 정확하게 할 수 있다.
- 팀 내 아키텍처 스터디나 온보딩 자료로 활용할 때, Neural Network Zoo처럼 이 갤러리를 기준점으로 삼아 Dense와 MoE의 차이, QK-Norm이나 SWA 같은 최신 기법이 어느 모델부터 도입됐는지 흐름을 설명하면 효과적이다.
Terminology
관련 논문
2,000명이 내 AI 어시스턴트를 해킹하려 한 뒤 벌어진 일
실제로 6,000개 이상의 이메일로 AI 에이전트에 prompt injection 공격을 시도한 공개 실험 결과로, Claude Opus 4.6이 비밀 파일 유출을 한 번도 허용하지 않았지만 실험 설계의 현실성에 대한 논란이 뜨거웠다.
언제 LLM을 조합하면 효과가 있나? 67개 Frontier 모델에서 Routing, Voting, Mixture-of-Agents의 Co-Failure Ceiling 분석
여러 LLM을 조합해도 '모든 모델이 동시에 틀리는 비율(β)'이 성능 상한선이며, 업계가 쓰는 pairwise 상관계수(ρ)는 이 상한선을 예측하지 못한다.
Function Calling을 넘어서: Tool-Environment 신뢰성 문제 하에서의 Tool-Using Agent 벤치마크
실제 환경처럼 API가 망가지거나 결과가 이상할 때 LLM 에이전트가 얼마나 잘 버티는지 측정하는 벤치마크 ToolBench-X 공개.
LG 스마트 TV 앱의 절반 가까이에 Residential Proxy SDK가 심어져 있다
6,038개의 LG·Samsung 스마트 TV 앱을 스캔했더니 2,058개에서 사용자의 IP를 몰래 팔아 트래픽을 중계하는 Residential Proxy SDK가 발견됐다. TV는 컴퓨터처럼 감시받지 않아서 프록시 호스트로 거의 이상적인 환경이다.
Prompt Injection의 본질은 Role Confusion이다
LLM이 시스템 프롬프트, 사용자 입력, 툴 출력을 구분하지 못하는 구조적 결함이 prompt injection의 근본 원인이라는 ICML 2026 논문으로, 현재 LLM 보안 아키텍처의 한계를 명확히 분석한다.
GPT-5.5의 환각(Hallucination) 비율이 MIT 라이선스 GLM-5.2보다 3배 높다
모델 크기가 커질수록 성능이 좋아진다는 통념에 반해, 오픈소스 753B 모델 GLM-5.2가 추정 1~2T 규모의 GPT-5.5보다 환각 비율이 3배 낮다는 벤치마크 결과가 나왔다. 단순히 파라미터 수와 벤치마크 점수만으로 모델을 선택하면 실제 업무에서 낭패를 볼 수 있다는 경고다.