Google DeepMind vydal DiffusionGemma — 26B MoE model s difúznou hlavou pre rýchle lokálne AI
Čo sa stalo
Google DeepMind vydal DiffusionGemma — experimentálny 26B-parametrový MoE model (3,8B aktívnych) s difúznou hlavou, ktorá generuje text paralelne v blokoch namiesto autoregresívne token po tokene. NVIDIA súčasne optimalizovala beh na RTX GPU a DGX Spark pre lokálnu inferenciu.
Kontext a dopad
Difúzny text generation je dlhodobo skúmaná alternatíva k autoregresívnym transformerom (Inception Labs Mercury, Stanford SEDD), ale dosiaľ nemal silnú produkčnú implementáciu. DiffusionGemma je prvý mainstream MoE model s touto architektúrou, ktorý ide do otvoreného weightu. Pre lokálne AI to môže byť zlomové: paralelný blokový dekódovací proces je výrazne rýchlejší než token-by-token, hlavne na consumer GPU s obmedzenou pamäťovou priepustnosťou.
Detaily
- Architektúra: 26B parametrov, 3,8B aktívnych (MoE)
- Generuje text v paralelných blokoch cez diffusion head
- Optimalizácia: NVIDIA RTX GPU a DGX Spark workstation
- Zaradenie: experimentálny — Google ho pozícionuje ako research preview
- Súčasť rodiny Gemma 3 open-weight modelov
Otvoriť pôvodný zdroj
NVIDIA / Google DeepMind