Lilian Weng: Scaling Laws, Carefully — prečo má Kaplan vs. Chinchilla zdanlivo opačné závery
Hlavná myšlienka
Lilian Weng v dlhej eseji rekonštruuje históriu neural scaling laws od Amari a Hestnessa, cez Kaplana (2020) a Chinchilla (2022), a tvrdí, že slávny rozdiel medzi nimi (model-heavy vs. balanced model/data scaling) z veľkej časti pochádza z metodologického artefaktu: Kaplan používal menšie modely, kde embedding parametre dominujú v celkovom parameter count, čo skreslí fit krivky.
Kontext
Postuje to v období, keď frontier laby (OpenAI GPT-5.5, Anthropic Claude Opus 4.8, Google Gemini 3.5) prešli na MoE architektúru a investujú miliardy do training runov, kde výpočet 'optimal model size vs. data' určuje výnos z compute. Súčasne sa AI priemysel dostáva do 'data wall' — train tokens sú obmedzené a opakované tokeny dávajú diminishing returns. Weng nepublikuje často — toto je prvý dlhý technický post za niekoľko mesiacov.
Prečo to stojí za pozornosť
Pre ML inžinierov a researcher-ov ide o reference post, ktorý bude citovaný v pretraining a compute-allocation debatách. Pre decision makerov vo veľkých laboch je dôležité, že scaling-law koeficienty sú prekvapivo citlivé na procedurálne voľby (ako sa počítajú parametre, rounding, precision) — a teda miliardové stávky postavené na nich majú väčšiu neistotu, než sa zdá.
Detaily / argumenty
- Kaplan vs. Chinchilla rozdiel pochádza najmä z toho, či sa do parameter count rátajú embedding váhy
- V dnešnom data-constrained režime opakované tokeny prinášajú diminishing returns
- Väčšie modely v repeat-token režime overfitujú viac — extrapolácia naivne zlyhá
- Procedurálne voľby (rounding, precision pri fittingu) menia koeficienty viac, než sa intuitívne čaká
- Esej je ~25 min čítania a obsahuje formálne odvodenia