EuroLLM: 유럽이 만든 EU 24개 공식 언어 지원 오픈소스 LLM
EuroLLM: LLM made in Europe built to support all 24 official EU languages
TL;DR Highlight
유럽 8개 대학·기관의 오픈소스 LLM이 EU 24개 공식 언어를 모두 지원하고 1.7B·9B·22B 세 가지 크기로 제공되어 미국·중국 외 지역의 AI 주권을 확보한다.
Who Should Read
유럽어 다국어 서비스를 구축 중인 백엔드·ML 엔지니어, 또는 온프레미스 환경에서 클라우드 모델 없이 소수 언어(라트비아어, 아이리시어 등)를 처리해야 하는 개발자.
Core Mechanics
- EuroLLM-22B는 35개 언어로 구성된 4조 토큰(4 trillion tokens) 데이터로 학습된 현재 최상위 모델이며, 32K 토큰 컨텍스트를 지원한다. Base(파인튜닝용)와 Instruct(채팅·명령 수행용) 두 버전을 제공한다.
- EuroLLM-9B는 2024년 12월에 출시된 모델로, MMLU-Pro 벤치마크에서 17.6%를 기록했다. 랜덤 찍기가 10%임을 감안하면 일반 추론 성능은 낮지만, 라트비아어 같은 소수 EU 언어에서는 GPT-OSS 20B나 Qwen3 30B보다 훨씬 뛰어났다는 실사용 보고가 있다.
- EuroLLM-1.7B는 엣지 디바이스(스마트폰, IoT 등 저사양 기기)용으로 설계된 경량 모델이다. 곧 출시될 EuroMoE-2.6B-A0.6B는 MoE(Mixture of Experts, 필요한 전문가 네트워크만 활성화해 효율을 높이는 구조) 방식으로 실제 활성 파라미터가 600M에 불과해 역시 엣지 타겟이다.
- 스페인 바르셀로나의 MareNostrum 5 슈퍼컴퓨터(유럽 EuroHPC JU 소속)에서 학습됐다. 9B 모델은 6개월 이내에 개발 완료됐으며, 물리 시뮬레이션용 HPC 자원을 AI 학습에 전용한 사례다.
- 프로젝트 참여 기관은 리스본공과대학(IST), 에든버러대학, 파리-사클레대학, 소르본대학, 암스테르담대학, Unbabel, Naver Labs Europe 등 8곳이다. EU Horizon Europe·ERC·EuroHPC 공적 자금으로 지원받았다.
- EU 24개 공식 언어 중 아일랜드어(Irish)는 코퍼스 대부분이 법률·행정 번역문이어서 구어체 데이터가 극히 적다. 이런 소멸 위기 언어에 LLM이 긍정적 역할을 할 수 있지만, 부정확한 언어 모델이 오히려 언어를 왜곡할 위험도 있다는 우려가 제기됐다.
- 곧 출시 예정인 EuroVLM-9B는 EuroLLM-9B에 비전 인코더를 추가한 멀티모달 모델로, 이미지·음성 이해까지 지원할 예정이다.
Evidence
- 실제 라트비아어 처리에 EuroLLM-9B Instruct를 써본 개발자가 '소형 모델 중 라트비아어 지식이 단연 최고였고, GPT-OSS 20B나 Qwen3 30B A3B는 비교도 안 됐다'고 밝혔다. 다만 코딩·툴 콜링 능력이 부족해 RAG 파이프라인에서 로직은 Qwen3로, 번역·포매팅만 EuroLLM으로 나눠야 했다는 단점도 공유했다.
- '요즘 주요 LLM은 이미 다국어 데이터로 학습되니 굳이 전용 모델이 필요하냐'는 회의적 의견이 있었다. 실제로 클라우드 환경에서는 Google Gemini 2.5 Pro가 라트비아어 최고 성능이라는 경험담이 있었지만, 온프레미스가 필수인 규제 산업에서는 대안이 없다는 반론도 나왔다.
- EuroLLM-9B의 MMLU-Pro 점수가 17.6%에 불과해 '랜덤 수준에 가깝다'는 비판이 있었고, 두 달 앞서 출시된 TildeAI의 TildeOpen-30B(19개 유럽어 지원, 30B)가 거의 주목받지 못한 것과 대조적으로 이 모델이 트래픽을 받는 이유가 마케팅이라는 시각도 있었다.
- HuggingFace에서 9B 모델 다운로드 시 연락처 정보 제공에 동의해야 한다는 점이 지적됐다. 오픈소스 모델에서는 보기 드문 조건이라 어떤 정보를 왜 수집하는지 불투명하다는 우려가 있었다.
- 'EU가 AI 경쟁에서 미국·중국과 맞서려면 맨해튼 프로젝트 수준의 집중 투자가 필요하고, 자체 AI 칩 생산 능력과 수직 통합도 함께 갖춰야 한다'는 의견이 있었다. 유럽에서 Mistral 외에 두각을 나타내는 AI 기업이 없다는 문제도 제기됐다.
How to Apply
- 온프레미스 환경에서 라트비아어·에스토니아어·몰타어 같은 소수 EU 언어를 처리해야 한다면, EuroLLM-9B Instruct를 HuggingFace에서 내려받아 번역·요약·QA 전용 서버로 구성하면 클라우드 의존 없이 GDPR 준수 파이프라인을 만들 수 있다.
- 소수 언어 처리 품질이 낮은 대형 모델을 쓰고 있다면, RAG나 에이전트 파이프라인에서 로직·추론은 Qwen3 같은 범용 모델에 맡기고, 최종 출력의 언어 변환·포매팅만 EuroLLM에 위임하는 하이브리드 구조를 고려할 수 있다.
- 엣지 디바이스(모바일, 임베디드)에서 다국어 EU 언어 추론이 필요하면, EuroLLM-1.7B 또는 곧 출시되는 EuroMoE-2.6B-A0.6B(활성 파라미터 600M)를 검토하라. 두 모델 모두 HuggingFace에서 무료로 내려받아 파인튜닝할 수 있다.
- 번역 전용 용도라면 Base 모델보다 Instruct 모델을 쓰되, 단순히 'Translate to <language>:' 프롬프트만 쓰면 결과가 들쭉날쭉할 수 있다. 몇 가지 번역 예시를 few-shot으로 넣어주거나, 출력 형식을 명시하는 시스템 프롬프트를 추가하면 품질이 개선된다.
Terminology
관련 논문
Neural Particle Automata: 자기조직화 파티클 시스템을 학습하는 신경망 모델
고정된 격자 대신 움직이는 파티클 위에서 동작하는 Neural Cellular Automata의 확장 버전으로, 형태 생성·포인트 클라우드 분류·텍스처 합성 등 다양한 작업에서 자기조직화 동작을 학습할 수 있다.
PyTorch Training Loop 완전 해부: 각 줄이 하는 일과 순서를 바꾸면 생기는 문제
PyTorch 학습 루프의 각 코드 줄이 왜 그 위치에 있어야 하는지, 순서를 바꾸거나 빠뜨렸을 때 어떤 문제가 생기는지를 단계별로 설명한 심층 가이드다.
좋은 Verifier도 망가질 수 있다: Self-Improving VLM이 새로운 태스크에서 오히려 퇴보하는 현상
VLM 자가학습 루프에서 verifier가 특정 태스크에 맞지 않으면 학습할수록 오히려 성능이 떨어지는데, DPO 손실값은 멀쩡히 내려가서 눈치채기도 어렵다.
Self-Distillation에서 Feedback Alignment의 역할
LLM이 스스로를 가르칠 때, 피드백을 모델의 추론 흐름에 단계별로 맞추면 GRPO보다 16점 이상 수학 추론 성능이 오른다.
작고 수정 가능한 CUDA 기반 Language Model 직접 구현체
CUDA로 작성된 GPT(Generative Pretrained Transformer) 미니멀 구현체로, 텍스트뿐 아니라 모든 바이트 스트림을 학습할 수 있어 LLM 내부 구조를 직접 뜯어보고 싶은 개발자에게 유용하다.
Stanford CS336: Language Modeling from Scratch - LLM을 처음부터 직접 만드는 강의
Stanford에서 운영하는 LLM 전 과정 구현 강의로, 토크나이저부터 데이터 수집, 트랜스포머 구현, 분산 학습, RL 기반 정렬까지 직접 코딩하며 배운다. 이론이 아닌 구현 중심이라 실제로 LLM이 어떻게 작동하는지 깊이 이해하고 싶은 개발자에게 가장 체계적인 커리큘럼 중 하나다.