VibeThinker: 3B parametrový model tvrdí, že prekonáva Opus 4.5 v reasoningu
Čo sa stalo
ArXiv paper predstavil VibeThinker — 3B parametrový model, ktorý podľa autorov prekonáva Claude Opus 4.5 na reasoning benchmarkoch. Trénovacia metóda kombinuje supervised fine-tuning a GRPO (group relative policy optimization).
Kontext a dopad
Ak by tvrdenie obstojí pri nezávislých testoch, ide o významný posun v poznaní, že reasoning capability nie je striktne lineárne závislá od veľkosti modelu — analogicky ku Phi alebo Qwen progress. Pre praktikov to znamená dostupnú reasoning capability na 1x GPU. HN diskusia je veľmi intenzívna, čo naznačuje vážny záujem komunity.
Detaily
- Veľkosť: 3B parametrov
- Metóda: SFT + GRPO
- Benchmark claim: beats Opus 4.5 on reasoning
- HN: 305 skóre, 162 komentárov za <12 h
Otvoriť pôvodný zdroj
Hacker News