1-Bit Bonsai Image 4B Image Generation for Local Devices

TL;DR Highlight

4B 파라미터 이미지 생성 모델의 가중치를 1비트/3값으로 극단적으로 압축해서 iPhone에서도 돌아가게 만든 모델. 7.75GB짜리 diffusion transformer를 0.93GB까지 줄였다.

Who Should Read

모바일/엣지 디바이스에서 이미지 생성 기능을 구현하고 싶은 iOS/macOS 앱 개발자, 또는 로컬 AI 추론 최적화에 관심 있는 ML 엔지니어.

Core Mechanics

PrismML이 공개한 Bonsai Image 4B는 FLUX.2 Klein 4B 아키텍처를 그대로 유지하면서 transformer 가중치만 1-bit({-1, +1}) 또는 Ternary({-1, 0, +1})로 바꾼 모델이다.
1-bit 변형은 유효 비트 수가 1.125 bits/weight, Ternary 변형은 1.71 bits/weight로, 원본 FP16 대비 각각 8.3x, 6.4x 용량이 줄었다. 구체적으로 diffusion transformer가 7.75GB → 0.93GB(1-bit), 1.21GB(Ternary)가 됐다.
정밀도에 민감한 projection layer 약 5%는 FP16으로 유지했고, text encoder는 추론 후 offload하는 방식을 사용해서 실제 런타임 메모리를 더 줄였다.
Apple Silicon 기준 전체 배포 페이로드는 1-bit가 3.42GB, Ternary가 3.88GB인데, 원본 FLUX.2 Klein 4B는 15.97GB다. 512x512 이미지 생성 시 mean-active memory는 각각 1.5GB, 1.96GB(원본 11.74GB)다.
iPhone 17 Pro Max에서 512x512 이미지를 약 9.4초, Mac M4 Pro에서 약 6초에 생성한다. Mac M4 Pro 기준으로 full-precision MFLUX 파이프라인보다 최대 5.6배 빠르다.
배포 스택은 Apple Silicon(iPhone, iPad, Mac)과 CUDA GPU를 모두 지원한다. Apple 하드웨어는 MLX low-bit 경로를, CUDA는 Gemlite low-bit GEMM 커널을 사용한다.
성능 평가는 GenEval(객체 구성/속성 바인딩), HPSv3(인간 선호도/미적 품질), DPG-Bench(dense prompt 따르기/의미 충실도) 세 가지 벤치마크로 진행했다.
회사 측 주장으로는 '이 파라미터 클래스에서 iPhone에서 직접 돌아가는 최초의 이미지 모델'이라고 하지만, 커뮤니티에서는 FLUX.2 Klein 4B가 이미 Draw Things 앱으로 iPhone에서 8-bit/6-bit 양자화로 돌아간다며 이 주장의 정확성을 문제삼고 있다.

Evidence

'이 파라미터 클래스에서 iPhone에서 직접 돌아가는 최초의 이미지 모델'이라는 주장에 대해, Draw Things 앱을 통해 FLUX.2 Klein 4B(동일 파라미터 클래스, 사실상 같은 모델)가 이미 8-bit/6-bit 양자화로 iPhone에서 돌아간다는 반박이 있었다. 다만 '직접(directly)'이라는 단어로 빠져나갈 여지를 만들었다는 지적도 있었다.
Stable Diffusion XL 3.5B나 리파이너 모델도 iPhone 13 Pro에서 돌아간다는 댓글도 있어, '최초' 주장의 근거가 더욱 흔들렸다.
실제 bottleneck은 메모리가 아니라 생성 속도라는 의견이 있었다. 8-12GB VRAM의 1080 세대 GPU나 동급 Mac에서 이미 많은 모델이 돌아가고, 이 모델이 기반 모델인 FLUX.2보다 오히려 조금 느리다는 점을 들어 실용적 필요성에 의문을 제기했다.
텍스트 인코더가 1.8GB인데, 이 부분을 압축하지 않으면 결국 총 용량 절감 효과가 제한적이라는 지적이 있었다. 실제로 전체 배포 페이로드(3.42~3.88GB)를 보면 diffusion transformer 외 나머지 부분이 상당한 비중을 차지한다.
미래에는 고가 구독 서비스 대신 하드웨어를 업그레이드해서 로컬 AI를 쓰는 시대가 오길 기대한다는 감성적 반응도 있었고, 로컬 실행 가능한 모델이 늘어날수록 일반 사용자들이 스스로 선택권을 요구하게 될 것이라는 의견도 있었다.

How to Apply

iOS/macOS 앱에 이미지 생성 기능을 추가하고 싶은데 메모리 제약이 걸린다면, Bonsai Image 4B Ternary 변형(3.88GB 페이로드)을 MLX 백엔드로 통합하면 iPhone 17 Pro Max급 기기에서 512x512를 약 9.4초에 생성할 수 있다.
CUDA GPU 환경에서 경량 이미지 생성 서버를 운영한다면 Gemlite low-bit GEMM 커널을 사용하는 Bonsai Image 4B를 적용해 GPU 메모리 사용량을 원본 대비 최대 7.4x 줄이고 더 많은 동시 요청을 처리할 수 있다.
Mac M4 Pro 이상을 사용하는 로컬 개발 환경이라면 Bonsai Studio 앱을 먼저 테스트해보고, LM Studio에 올라온 구현체 중 자신의 워크플로우에 맞는 것을 골라 파이프라인에 통합하면 된다.
생성 이미지 품질보다 메모리 절약이 우선이면 1-bit 변형(0.93GB transformer, 3.42GB 페이로드)을, 프롬프트 충실도와 시각적 품질이 중요하면 Ternary 변형(1.21GB transformer, 3.88GB 페이로드)을 선택하는 기준으로 삼을 수 있다.

Terminology

1-bit 양자화모델 가중치를 -1 또는 +1 두 값만으로 표현하는 극단적 압축 기법. 원래 32비트나 16비트로 저장하던 숫자를 1비트로 줄여서 메모리를 대폭 절약하지만 표현력도 줄어든다.

Ternary 양자화가중치를 -1, 0, +1 세 가지 값으로 표현하는 압축 방법. 1-bit보다 '0'이 추가돼 표현력이 조금 더 높고, 그만큼 품질도 약간 낫다.

diffusion transformer이미지 생성 모델에서 노이즈를 단계적으로 제거하는 핵심 신경망 구조. 각 denoising 스텝마다 반복 실행되므로 크기가 메모리와 속도에 직접적인 영향을 준다.

VAEVariational Autoencoder의 약자. 이미지를 압축된 잠재 공간(latent space)으로 인코딩하고 다시 디코딩하는 모듈로, diffusion 모델 파이프라인에서 최종 이미지를 만드는 역할을 한다.

GEMM 커널행렬 곱셈(General Matrix Multiply)을 GPU에서 효율적으로 실행하는 저수준 연산 코드. low-bit GEMM은 1-bit/ternary 가중치에 맞춰 최적화된 버전이다.

MLXApple이 만든 Apple Silicon 전용 머신러닝 프레임워크. M1/M2/M3/M4 칩의 통합 메모리 구조를 활용해 CPU-GPU 간 데이터 복사 없이 효율적으로 추론할 수 있다.