Lilian Weng: Scaling Laws, Carefully — prečo má Kaplan vs. Chinchilla zdanlivo opačné závery
Lilian Weng publikovala ~25-minútovú technickú esej o scaling laws. Vysvetľuje, prečo Kaplan a Chinchilla dostali rozdielne závery (počítanie embedding parametrov v malých modeloch) a varuje pred extrapoláciou v data-constrained režime.