Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델

TL;DR Highlight

FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.

Who Should Read

이미지 편집 기능(배경 제거, 객체 삭제, 복원 등)을 서비스에 붙이고 싶은데 10B급 모델의 연산 비용이 부담스러운 백엔드/ML 엔지니어. 또는 온디바이스나 브라우저에서 실시간 이미지 처리를 구현하려는 개발자.

Core Mechanics

인페인팅(inpainting)이란 이미지의 특정 영역을 자연스럽게 채워 넣는 기술인데, 기존 산업용 최고 성능 모델인 FLUX.1-Fill-Dev는 파라미터가 11.9B에 달해 실제 서비스 배포에 연산 비용이 너무 크다는 문제가 있었다.
Moebius는 파라미터 수 0.22B(2억 2천만)로 FLUX.1-Fill-Dev의 2% 미만 크기임에도 불구하고, 자연 장면(Places2)과 인물 사진(CelebA-HQ, FFHQ) 등 6개 벤치마크에서 동등하거나 일부 시나리오에서는 능가하는 품질을 보였다.
핵심 아키텍처 혁신은 LλMI(Local-λ Mix Interaction) 블록이다. 기존 Transformer의 self-attention과 cross-attention은 입력 길이가 길어질수록 연산량이 제곱으로 늘어나는데(quadratic overhead), LλMI는 공간적 컨텍스트와 전역 의미 정보를 고정 크기 선형 행렬로 압축해 이 문제를 우회한다.
지식 증류(Knowledge Distillation) 전략도 핵심인데, 교사 모델 PixelHacker로부터 픽셀 공간이 아닌 잠재 공간(latent space) 내에서만 학습을 진행한다. 픽셀 공간 디코딩을 건너뛰기 때문에 학습 비용이 크게 줄고, 미세한 중간 피처부터 거시적인 diffusion 경로까지 여러 단계에서 정렬하는 멀티 그래뉴얼리티(multi-granularity) 방식을 사용한다.
그래디언트 노름 적응적 손실 가중치(gradient norm adaptive loss weighting) 메커니즘으로 학습 중 여러 손실 함수를 동적으로 균형 잡아, 경량 구조에서 발생하는 표현력 병목 현상을 최소화했다.
추론 속도는 단일 GPU에서 스텝당 26.01ms로, FLUX.1-Fill-Dev 대비 전체 추론 시간 기준 15배 이상 빠르다. 이 수준이면 소비자용 GPU나 엣지 디바이스에서 실시간에 가까운 처리가 가능하다.
LDM(Latent Diffusion Model) 프레임워크 위에 LCG(Latent Categories Guidance)를 결합해 동작하며, U-Net 디노이징 백본을 LλMI 블록으로 재구성한 구조다.
논문에서는 '아키텍처 압축 + 증류 전략'의 최적 균형점을 탐색하는 실험도 진행했는데, 너무 과하게 압축하면 학습으로도 회복 불가능한 표현력 포화(representation saturation)가 발생한다는 것을 확인하고 그 경계를 체계적으로 매핑했다.

Evidence

simonw가 Claude Opus 4.8의 도움을 받아 ONNX 변환에 성공했고, 브라우저에서 완전히 동작하는 인터랙티브 데모(약 1.3GB 다운로드)를 공개했다. 코드와 Claude 작업 트랜스크립트까지 공유해 브라우저 기반 ML 추론 구현 참고 사례로 주목받았다.
실제로 HuggingFace Spaces의 데모(multimodalart/Moebius)를 써봤더니 자연 이미지에서는 그럭저럭 동작했지만, 인페인팅된 영역이 주변보다 눈에 띄게 매끄럽게 처리되고 새로운 객체 생성에서는 성능이 많이 떨어진다는 평이 있었다. 또한 출력 해상도가 512×512로 제한되는 점이 실용성을 크게 낮춘다는 지적도 나왔다.
논문에서 Moebius가 서핑보드 비교 이미지에서 우수한 것처럼 표현했지만, 실제로는 경쟁 모델이 서핑보드를 잘라냈다고 감점 처리한 것과 마찬가지로 Moebius는 반대로 서핑보드를 늘리는 'structural confusion'을 보였다는 날카로운 지적이 있었다. 자사 모델에 유리한 기준으로 비교한 것 아니냐는 공정성 문제 제기다.
논문 본문에 'Synergy × (Architecture + Distillation) = Shattering the Impossible Triangle'처럼 AI가 생성한 듯한 마케팅성 문구가 과학 논문에 등장한다는 점을 이상하게 여기는 댓글이 있었다. 연구 결과 자체와 무관하게 논문 작성 스타일에 대한 비판이다.
몇 년 전 배너 광고 인페인팅 프로젝트를 실제로 진행했던 개발자가 당시 Stable Diffusion 기반으로 작업했는데, 광고주마다 다른 해상도 요구사항(일부는 200×60 같은 극단적 비율)과 입력 이미지 전처리 규격이 달라서 파이프라인 구성이 매우 복잡했고 결국 클라이언트가 사용하지 않았다는 경험을 공유했다. 인페인팅 기술 자체보다 프로덕션 통합의 어려움이 크다는 현실적인 사례다.

How to Apply

브라우저 기반 이미지 편집 기능을 구현하고 싶다면 simonw가 공개한 moebius-web 레포지토리(ONNX 변환 버전)를 참고하면 된다. 서버 없이 클라이언트 단에서 약 1.3GB 모델을 다운로드해 실행하는 구조여서 서버 비용 없이 인페인팅 기능을 제공할 수 있다.
모바일 앱이나 엣지 디바이스에서 실시간 인페인팅(예: 사진에서 불필요한 객체 제거, 배경 복원)이 필요한 경우, 0.22B 파라미터 규모는 스마트폰 NPU에서도 충분히 동작할 가능성이 높으므로 ONNX 또는 CoreML/TFLite로 변환해 온디바이스 추론 파이프라인 구축을 시도해볼 수 있다.
e-커머스 상품 이미지 편집(배경 제거 후 재합성, 광고 배너용 객체 삭제 등) 서비스를 구축하는 경우, 512×512 해상도 제한을 감안해 입력 이미지를 타일 분할 후 처리하는 방식으로 고해상도 대응을 검토해볼 수 있다. 다만 현재 출력 해상도 한계가 있으므로 고해상도가 핵심인 유스케이스라면 업스케일러 파이프라인 병합을 함께 설계해야 한다.
만화/웹툰 번역 파이프라인에서 말풍선 텍스트를 지우고 번역 텍스트를 삽입하는 인페인팅이 필요한 경우, 기존 LaMa 모델 대비 개선된 품질을 제공할 수 있는지 Moebius로 A/B 테스트해볼 수 있다. 특히 복잡한 텍스처 복원에서 강점이 있다고 논문이 주장하므로 스크린톤 패턴 복원 시나리오에 적합할 수 있다.

Terminology

Inpainting이미지에서 특정 영역(예: 지우개로 지운 부분)을 주변 맥락에 맞게 자연스럽게 채워 넣는 기술. 사진에서 사람을 지우거나 손상된 이미지를 복원할 때 사용한다.

Knowledge Distillation크고 성능 좋은 '교사 모델'이 아는 것을 작은 '학생 모델'에게 가르치는 학습 방법. 학생 모델이 교사 모델의 출력을 흉내내도록 훈련해 작은 크기로도 높은 성능을 낼 수 있게 한다.

Latent Space이미지를 픽셀 그대로 다루는 대신, 압축된 수학적 표현(잠재 표현)으로 변환한 공간. 이 공간에서 연산하면 훨씬 가볍고 빠르다.

LDMLatent Diffusion Model의 약자. Stable Diffusion의 기반 기술로, 노이즈에서 이미지를 점진적으로 복원하는 과정을 픽셀이 아닌 압축된 잠재 공간에서 수행하는 생성 모델.

ONNXOpen Neural Network Exchange의 약자. 다양한 딥러닝 프레임워크(PyTorch, TensorFlow 등)에서 학습한 모델을 서로 다른 환경(브라우저, 모바일 등)에서 실행할 수 있도록 변환하는 표준 포맷.

Quadratic Overhead입력 길이(N)가 늘어날 때 연산량이 N²으로 늘어나는 현상. Transformer의 attention 메커니즘이 이 문제를 가지고 있어 긴 입력이나 고해상도 이미지 처리 시 급격히 느려진다.