Forskare vid Stanford har tagit ett stort steg mot nästa generation av intelligenta system. Deras nya skapelse, AgentFlow, är en AI som inte bara svarar på frågor utan kan planera, resonera och använda digitala verktyg för att lösa komplexa uppgifter. Det handlar om en struktur som förvandlar AI från en passiv assistent till en aktiv problemlösare med en imponerande känsla för logik.
AgentFlow är ett avancerat ramverk för AI-agenter uppbyggt av fyra moduler: Planner, Executor, Verifier och Generator. Dessa delar arbetar tillsammans för att uppnå mål på ett metodiskt sätt. Planner avgör vad som ska göras, Executor utför uppgiften, Verifier kontrollerar resultatet och Generator presenterar det slutliga svaret. Allt styrs av ett dynamiskt minnessystem som dokumenterar varje steg och gör processen både transparent och spårbar.
Det mest intressanta är att endast Planner-delen tränas aktivt med reinforcement learning. De övriga modulerna fungerar som stabila verktyg som redan behärskar sina uppgifter. Detta gör att träningen blir mer effektiv och mindre instabil – en elegant lösning som kombinerar styrkan hos automatisering med precisionen hos mänsklig planering.
Forskarna introducerar en metod kallad Flow GRPO, som står för Flow based Group Refined Policy Optimization. Denna metod gör det möjligt för AI att lära sig från långsiktiga resultat utan att fastna i kortsiktiga beslut. Den fungerar genom tre centrala principer:
• En enda belöning ges för hela uppgiften, vilket gör att varje steg kan utvärderas utifrån det slutliga resultatet.
• Uppdateringar görs på token-nivå enligt PPO-modellen, men med en kontrollmekanism kallad KL-regulering som håller modellen på rätt kurs.
• Gruppbaserad normalisering används för att minska variationen mellan olika träningsomgångar och skapa stabilare resultat.
Metoden gör att AI kan förbättra sin planering och sitt beslutsfattande utan att tappa helhetsperspektivet, något som traditionell träning ofta har svårt med.
AgentFlow har testats på tio olika typer av uppgifter inom områden som informationssökning, resonemang, matematik och naturvetenskap. Resultaten är tydliga:
• 14,9 procent bättre inom sökuppgifter
• 14,0 procent bättre inom resonemangsuppgifter
• 14,5 procent bättre inom matematik
• 4,1 procent bättre inom naturvetenskapliga frågor
Forskarna rapporterar dessutom att deras modell med 7 miljarder parametrar överträffar GPT 4o på flera av dessa områden. AgentFlow uppvisar även förbättrad planeringsförmåga och färre fel vid användning av externa verktyg, särskilt i testmiljön GAIA där felen minskade med upp till 28,4 procent.
AgentFlow visar att framtidens AI kan kombinera kreativitet, logik och pålitlighet. Genom att endast träna planeringsdelen och låta de övriga komponenterna vara stabila verktyg, uppnås en balans mellan innovation och kontroll. Resultatet är en AI som kan tänka mer strategiskt och samtidigt agera effektivt.
Eftersom hela projektet är tillgängligt under MIT-licens på GitHub, kan forskare och utvecklare över hela världen redan nu experimentera med tekniken och bygga egna versioner av denna avancerade arkitektur.