Weng Insights 🔥 Top

Lilian Weng: Scaling Laws, Carefully — prečo má Kaplan vs. Chinchilla zdanlivo opačné závery

Piatok 26. júna 2026 • Zdroj: Lil'Log

Hlavná myšlienka

Lilian Weng v dlhej eseji rekonštruuje históriu neural scaling laws od Amari a Hestnessa, cez Kaplana (2020) a Chinchilla (2022), a tvrdí, že slávny rozdiel medzi nimi (model-heavy vs. balanced model/data scaling) z veľkej časti pochádza z metodologického artefaktu: Kaplan používal menšie modely, kde embedding parametre dominujú v celkovom parameter count, čo skreslí fit krivky.

Kontext

Postuje to v období, keď frontier laby (OpenAI GPT-5.5, Anthropic Claude Opus 4.8, Google Gemini 3.5) prešli na MoE architektúru a investujú miliardy do training runov, kde výpočet 'optimal model size vs. data' určuje výnos z compute. Súčasne sa AI priemysel dostáva do 'data wall' — train tokens sú obmedzené a opakované tokeny dávajú diminishing returns. Weng nepublikuje často — toto je prvý dlhý technický post za niekoľko mesiacov.

Prečo to stojí za pozornosť

Pre ML inžinierov a researcher-ov ide o reference post, ktorý bude citovaný v pretraining a compute-allocation debatách. Pre decision makerov vo veľkých laboch je dôležité, že scaling-law koeficienty sú prekvapivo citlivé na procedurálne voľby (ako sa počítajú parametre, rounding, precision) — a teda miliardové stávky postavené na nich majú väčšiu neistotu, než sa zdá.

Detaily / argumenty

Kaplan vs. Chinchilla rozdiel pochádza najmä z toho, či sa do parameter count rátajú embedding váhy
V dnešnom data-constrained režime opakované tokeny prinášajú diminishing returns
Väčšie modely v repeat-token režime overfitujú viac — extrapolácia naivne zlyhá
Procedurálne voľby (rounding, precision pri fittingu) menia koeficienty viac, než sa intuitívne čaká
Esej je ~25 min čítania a obsahuje formálne odvodenia

Otvoriť pôvodný zdroj Lil'Log