Simon Willison: DSPy na evaluáciu promtov — schéma bez stĺpcov spôsobuje retry slučky v SQL agentoch
Hlavná myšlienka
Willison použil DSPy — framework na systematickú evaluáciu a optimalizáciu AI promtov — na testovanie systémových promtov pre SQL funkciu Datasette Agent. Kľúčový nález: schéma, ktorá poskytuje len názvy tabuliek bez stĺpcov, spôsobuje, že model hádá mená stĺpcov naslepo a vstupuje do chybových retry slučiek.
Kontext
Toto je priame nadviazanie na jeho prácu na llm knižnici a Datasette. Willison zadal výskum Claude Code, ktorý testoval vylepšenia cez GPT modely na živej databáze s auto-generovanými gold-standard datasetmi a vlastnými metrikami.
Prečo to stojí za pozornosť
Konkrétny, replikovateľný nález s priamym dopadom na prompt engineering pre SQL agentov: explicitné zahrnutie názvov stĺpcov do schémy dramaticky znižuje počet chýb a retry slučiek. Metodológia (DSPy + live databáza + gold datasets) je vzor pre systematické testovanie agentových promtov.
Detaily / argumenty
- DSPy fungoval ako testovací harness: agenti volali skutočné Datasette nástroje voči live databáze
- Problém: inštrukcia 'nevolaj describe_table ak máš info' spôsobovala hádanie stĺpcov a retry slučky
- Riešenie: zahrnúť názvy stĺpcov priamo do schémy alebo upraviť guidance
- Výskum zadaný Claude Code, testovaný cez GPT modely s auto-generovanými gold datasetmi