EuroLLM: 유럽이 만든 EU 24개 공식 언어 지원 오픈소스 LLM

TL;DR Highlight

유럽 8개 대학·기관의 오픈소스 LLM이 EU 24개 공식 언어를 모두 지원하고 1.7B·9B·22B 세 가지 크기로 제공되어 미국·중국 외 지역의 AI 주권을 확보한다.

Who Should Read

유럽어 다국어 서비스를 구축 중인 백엔드·ML 엔지니어, 또는 온프레미스 환경에서 클라우드 모델 없이 소수 언어(라트비아어, 아이리시어 등)를 처리해야 하는 개발자.

Core Mechanics

EuroLLM-22B는 35개 언어로 구성된 4조 토큰(4 trillion tokens) 데이터로 학습된 현재 최상위 모델이며, 32K 토큰 컨텍스트를 지원한다. Base(파인튜닝용)와 Instruct(채팅·명령 수행용) 두 버전을 제공한다.
EuroLLM-9B는 2024년 12월에 출시된 모델로, MMLU-Pro 벤치마크에서 17.6%를 기록했다. 랜덤 찍기가 10%임을 감안하면 일반 추론 성능은 낮지만, 라트비아어 같은 소수 EU 언어에서는 GPT-OSS 20B나 Qwen3 30B보다 훨씬 뛰어났다는 실사용 보고가 있다.
EuroLLM-1.7B는 엣지 디바이스(스마트폰, IoT 등 저사양 기기)용으로 설계된 경량 모델이다. 곧 출시될 EuroMoE-2.6B-A0.6B는 MoE(Mixture of Experts, 필요한 전문가 네트워크만 활성화해 효율을 높이는 구조) 방식으로 실제 활성 파라미터가 600M에 불과해 역시 엣지 타겟이다.
스페인 바르셀로나의 MareNostrum 5 슈퍼컴퓨터(유럽 EuroHPC JU 소속)에서 학습됐다. 9B 모델은 6개월 이내에 개발 완료됐으며, 물리 시뮬레이션용 HPC 자원을 AI 학습에 전용한 사례다.
프로젝트 참여 기관은 리스본공과대학(IST), 에든버러대학, 파리-사클레대학, 소르본대학, 암스테르담대학, Unbabel, Naver Labs Europe 등 8곳이다. EU Horizon Europe·ERC·EuroHPC 공적 자금으로 지원받았다.
EU 24개 공식 언어 중 아일랜드어(Irish)는 코퍼스 대부분이 법률·행정 번역문이어서 구어체 데이터가 극히 적다. 이런 소멸 위기 언어에 LLM이 긍정적 역할을 할 수 있지만, 부정확한 언어 모델이 오히려 언어를 왜곡할 위험도 있다는 우려가 제기됐다.
곧 출시 예정인 EuroVLM-9B는 EuroLLM-9B에 비전 인코더를 추가한 멀티모달 모델로, 이미지·음성 이해까지 지원할 예정이다.

Evidence

실제 라트비아어 처리에 EuroLLM-9B Instruct를 써본 개발자가 '소형 모델 중 라트비아어 지식이 단연 최고였고, GPT-OSS 20B나 Qwen3 30B A3B는 비교도 안 됐다'고 밝혔다. 다만 코딩·툴 콜링 능력이 부족해 RAG 파이프라인에서 로직은 Qwen3로, 번역·포매팅만 EuroLLM으로 나눠야 했다는 단점도 공유했다.
'요즘 주요 LLM은 이미 다국어 데이터로 학습되니 굳이 전용 모델이 필요하냐'는 회의적 의견이 있었다. 실제로 클라우드 환경에서는 Google Gemini 2.5 Pro가 라트비아어 최고 성능이라는 경험담이 있었지만, 온프레미스가 필수인 규제 산업에서는 대안이 없다는 반론도 나왔다.
EuroLLM-9B의 MMLU-Pro 점수가 17.6%에 불과해 '랜덤 수준에 가깝다'는 비판이 있었고, 두 달 앞서 출시된 TildeAI의 TildeOpen-30B(19개 유럽어 지원, 30B)가 거의 주목받지 못한 것과 대조적으로 이 모델이 트래픽을 받는 이유가 마케팅이라는 시각도 있었다.
HuggingFace에서 9B 모델 다운로드 시 연락처 정보 제공에 동의해야 한다는 점이 지적됐다. 오픈소스 모델에서는 보기 드문 조건이라 어떤 정보를 왜 수집하는지 불투명하다는 우려가 있었다.
'EU가 AI 경쟁에서 미국·중국과 맞서려면 맨해튼 프로젝트 수준의 집중 투자가 필요하고, 자체 AI 칩 생산 능력과 수직 통합도 함께 갖춰야 한다'는 의견이 있었다. 유럽에서 Mistral 외에 두각을 나타내는 AI 기업이 없다는 문제도 제기됐다.

How to Apply

온프레미스 환경에서 라트비아어·에스토니아어·몰타어 같은 소수 EU 언어를 처리해야 한다면, EuroLLM-9B Instruct를 HuggingFace에서 내려받아 번역·요약·QA 전용 서버로 구성하면 클라우드 의존 없이 GDPR 준수 파이프라인을 만들 수 있다.
소수 언어 처리 품질이 낮은 대형 모델을 쓰고 있다면, RAG나 에이전트 파이프라인에서 로직·추론은 Qwen3 같은 범용 모델에 맡기고, 최종 출력의 언어 변환·포매팅만 EuroLLM에 위임하는 하이브리드 구조를 고려할 수 있다.
엣지 디바이스(모바일, 임베디드)에서 다국어 EU 언어 추론이 필요하면, EuroLLM-1.7B 또는 곧 출시되는 EuroMoE-2.6B-A0.6B(활성 파라미터 600M)를 검토하라. 두 모델 모두 HuggingFace에서 무료로 내려받아 파인튜닝할 수 있다.
번역 전용 용도라면 Base 모델보다 Instruct 모델을 쓰되, 단순히 'Translate to <language>:' 프롬프트만 쓰면 결과가 들쭉날쭉할 수 있다. 몇 가지 번역 예시를 few-shot으로 넣어주거나, 출력 형식을 명시하는 시스템 프롬프트를 추가하면 품질이 개선된다.

Terminology

MoE (Mixture of Experts)모델 안에 여러 '전문가' 네트워크를 두고, 입력마다 필요한 전문가만 골라 활성화하는 구조. 전체 파라미터는 많아도 실제 계산량은 적어 효율적이다.

EuroHPC JUEU가 공동으로 운영하는 슈퍼컴퓨터 네트워크. 물리 시뮬레이션이나 기후 연구 등에 쓰이던 자원을 AI 학습에도 제공한다.

MMLU-Pro대학원 수준의 다양한 학문 분야(법, 의학, 수학 등) 문제를 풀어보는 LLM 추론 능력 벤치마크. 선택지가 10개라 랜덤 찍기 정확도가 10%다.

Instruct 모델사전 학습된 Base 모델에 지시-응답 형식 데이터로 추가 파인튜닝해, 사람의 명령을 따르도록 조정한 버전. 채팅이나 번역 요청에 바로 쓸 수 있다.

AI 주권 (AI Sovereignty)자국 또는 자체 블록(EU) 내 기술로 AI를 개발·운영해 외부 빅테크 플랫폼에 종속되지 않으려는 정책·기술적 목표.

엣지 디바이스클라우드 서버가 아닌 스마트폰, 산업용 단말기, IoT 기기처럼 현장에 배치된 저사양 하드웨어. 네트워크 없이도 모델을 로컬 실행해야 한다.