LLM 내부 동작 인터랙티브 시각화
LLM Visualization
TL;DR Highlight
인터랙티브 웹사이트가 Transformer 기반 LLM의 토큰 처리 과정을 단계별로 시각화하여 코드 작성 없이도 사용자들이 LLM 내부 구조를 직관적으로 이해하게 한다.
Who Should Read
LLM 구조를 개념적으로는 알지만 실제 연산 흐름이 잘 안 잡히는 개발자, 또는 팀원이나 학습자에게 Transformer를 설명해야 하는 ML 엔지니어.
Core Mechanics
- bbycroft.net/llm은 GPT 계열 LLM의 토큰 임베딩 → 어텐션(Attention) → FFN → 출력 확률 분포까지의 전 과정을 인터랙티브 3D 시각화로 보여준다.
- Attention 메커니즘이 각 토큰 간 관계를 어떻게 계산하는지, Q/K/V 행렬 연산이 어떤 식으로 진행되는지를 레이어별로 단계 추적할 수 있다.
- 시각화는 실제 모델 가중치가 아닌 구조 설명용 소형 예시 모델 기반이라 '전체 과정의 흐름'을 이해하는 데 초점이 맞춰져 있다.
- Andrej Karpathy가 유튜브 영상(youtu.be/7xTGNNLPyMI)에서 이 시각화를 직접 워크스루(walk-through)하며 설명해 학습 자료로서의 가치가 더 높아졌다.
- Georgia Tech의 Transformer Explainer(poloclub.github.io/transformer-explainer), Jay Alammar의 Illustrated Transformer 등 유사 학습 자료들과 함께 교육 자료 생태계를 이루고 있다.
- 댓글에서 지적된 한계: '전 과정을 시각화할 수 있지만, 왜 특정 결정을 내리는지(해석 가능성)는 여전히 블랙박스'라는 점이 AI 해석가능성(interpretability) 연구의 미해결 과제로 언급됐다.
- 입력 텍스트를 직접 바꿔가며 어텐션 흐름이나 임베딩 공간 변화를 실시간으로 확인하는 기능은 아직 없어, 실제 모델 가중치 기반 커스텀 입력 지원이 향후 개선 요청으로 나왔다.
Evidence
- Karpathy의 유튜브 워크스루 영상(youtu.be/7xTGNNLPyMI)이 이 시각화와 함께 보기 좋은 자료로 여러 댓글에서 추천됐다. 시각화만으로는 이해가 어려운 수식 흐름을 영상이 보완해준다는 평.
- '전체 연산을 볼 수 있는데 왜 이런 답을 내는지는 모른다'는 역설적 상황을 지적하는 댓글이 공감을 받았다. 시각화가 곧 해석 가능성은 아니라는 점을 짚은 것.
- 실제 가중치와 커스텀 입력을 지원하면 좋겠다는 의견이 여럿 나왔다. 3Blue1Brown의 LLM 영상에서 임베딩 벡터가 '의미'를 표현하는 방식을 탐색했던 것처럼, 의미 공간 탐색 기능도 요청됐다.
- HN 특유의 '댓글이 적은 고품질 기술 글' 패턴이라는 메타 댓글이 있었다. 읽는 데 시간이 오래 걸리는 글은 앞에 달린 댓글만 보고 참여하거나, 다 읽고 나면 이미 프런트 페이지에서 내려가 있어서 토론이 활성화되기 어렵다는 구조적 문제 지적.
- 5살 아이 코딩 클럽에 보여주겠다는 댓글과 대학 강의 보조 자료로 쓰겠다는 댓글이 있었다. 비전공자나 입문자에게 LLM 구조를 설명하는 교육 도구로서의 가치가 높게 평가됐다.
How to Apply
- LLM 구조를 팀에 설명해야 하는 상황이라면, 이 시각화를 슬라이드 대신 라이브 데모로 활용하면 어텐션 레이어가 어떻게 쌓이는지 직관적으로 전달할 수 있다. Karpathy 영상과 함께 보여주면 효과가 배가된다.
- Transformer 논문('Attention is All You Need')을 읽다가 Q/K/V 연산이나 포지셔널 인코딩 개념이 추상적으로 느껴진다면, 이 시각화에서 해당 레이어를 직접 탐색하며 수식과 연결 짓는 식으로 활용한다.
- LLM 파인튜닝이나 프롬프트 엔지니어링 작업 중 모델 동작이 예상과 다를 때, 이 시각화로 토큰 처리 흐름 전체를 재점검하면 '어느 단계에서 무슨 일이 일어나는지'에 대한 멘탈 모델을 교정할 수 있다.
Terminology
관련 논문
LLM이 TLA+로 실제 시스템을 제대로 모델링할 수 있을까? — SysMoBench 벤치마크
LLM이 TLA+ 명세를 작성할 때 문법은 잘 통과하지만 실제 시스템과의 동작 일치도(conformance)는 46% 수준에 그친다는 걸 체계적으로 검증한 벤치마크 연구로, AI 기반 형식 검증의 현실적 한계를 보여준다.
Natural Language Autoencoders: Claude의 내부 활성화를 자연어 텍스트로 변환하는 기법
Anthropic이 LLM 내부의 숫자 벡터(활성화값)를 직접 읽을 수 있는 자연어로 변환하는 NLA 기법을 공개했다. AI가 실제로 무슨 생각을 하는지 해석하는 interpretability 연구의 새로운 진전이다.
ProgramBench: LLM이 프로그램을 처음부터 다시 만들 수 있을까?
LLM이 FFmpeg, SQLite, PHP 인터프리터 같은 실제 소프트웨어를 문서만 보고 처음부터 재구현할 수 있는지 측정하는 새 벤치마크로, 최고 모델도 전체 태스크의 3%만 95% 이상 통과하는 수준에 그쳤다.
MOSAIC-Bench:코딩 에이전트의 Compositional Vulnerability 유도 측정
티켓 3장으로 쪼개면 Claude/GPT도 보안 취약점 코드를 53~86% 확률로 그냥 짜준다.
LLM의 거절(Refusal) 동작은 단 하나의 방향(Direction)으로 제어된다
13개의 오픈소스 채팅 모델을 분석했더니, 모델이 유해한 요청을 거절하는 동작이 내부 활성화 공간에서 단 하나의 1차원 벡터 방향으로 인코딩되어 있었다. 이 방향을 제거하면 안전 파인튜닝이 사실상 무력화되므로, 현재 안전 학습 방식이 얼마나 취약한지 보여준다.
LLM의 구조화된 출력(Structured Output)을 테스트하는 새 벤치마크 SOB 공개
스키마 준수 여부만 보던 기존 벤치마크의 한계를 넘어, 실제 값의 정확도까지 7가지 지표로 평가하는 Structured Output Benchmark(SOB)가 공개됐다. 인보이스 파싱, 의료 기록 추출처럼 JSON 출력의 정확성이 중요한 프로덕션 시스템에서 어떤 모델을 써야 할지 판단하는 데 직접적으로 참고할 수 있다.