Alibaba Qwen-AgentWorld: jazykový world model pre agentov v 7 doménach
Čo je nové
- Language World Model: Prvý model trénovaný predikovať ďalší stav prostredia (nie ďalšiu akciu) naprieč agent doménami
- Sedem domén, jeden model: MCP, Search, Terminal, SWE, Web, OS, Android — text aj GUI prostredia
- Dve MoE veľkosti: 397B-A17B a 35B-A3B, obe s 256K kontextom, Apache 2.0
- AgentWorldBench: Nový eval benchmark pokrývajúci všetkých sedem domén, vydaný spolu s váhami
- Trénované na 10M+ reálnych agent trajectoríách: Trojstupňový curriculum končiaci RL s rule-based + quality scoringom
- Benchmark wins: Najvyššia overall simulation quality vs. GPT-5.4, Claude Opus 4.8 a Gemini 3.1 Pro na AgentWorldBench
Prečo to stojí za pozornosť
Vývojárom agent frameworkov a výskumníkom — umožňuje offline rollouty a planning simulovaním reakcie prostredia, čím sa zníži závislosť na živých tool calls počas tréningu a evalu.
Ako to vyskúšať
Váhy a benchmark na Hugging Face a ModelScope pod Apache 2.0; arXiv paper a GitHub repo publikované spolu s oznámením.
Otvoriť pôvodný zdroj
Alibaba Cloud