
Kleine Modelle, große Agenten: Was AgenticQwen über Tool-Use Destillation lehrt
Agentische Sprachmodelle gehören zu den wichtigsten Entwicklungen der letzten Modellgenerationen. Sie beantworten nicht mehr nur Fragen, sondern bearbeiten Aufgaben iterativ: Sie rufen Werkzeuge auf, interpretieren deren Ergebnisse, korrigieren Fehler, passen ihren Plan an und bewegen sich Schritt für Schritt auf ein Ziel zu.
Besonders sichtbar ist das bei modernen Coding-Agenten wie Claude Code, Codex oder vergleichbaren Systemen. Ein solches Modell schreibt nicht nur Code, sondern liest Dateien, führt Tests aus, analysiert Fehlermeldungen und entscheidet, welcher nächste Schritt sinnvoll ist. Aus einem Sprachmodell wird ein handelndes System.
Doch diese Fähigkeiten haben bisher einen Preis. (Semi-)Zuverlässige agentische Prozesse gelingen vor allem den größten Modellen. Diese laufen meist in der Cloud, sind teuer im Betrieb und für Anwendungen mit sensiblen Daten oder strengen Unternehmensanforderungen nicht immer geeignet. Gerade dort, wo agentische Systeme besonders nützlich wären - z.B. bei interner Suche, Dokumentenanalyse, Support, Compliance oder IT-Sicherheitsprozessen - stellt sich deshalb eine praktische Frage:
Können kleinere Modelle lernen, sich wie große Agenten zu verhalten?
Das Paper „AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use“ der Alibaba Group setzt genau hier an. Die Autoren trainieren kleinere Qwen-Modelle gezielt auf agentische Werkzeugnutzung. Ihr Ziel ist nicht ein neues universelles Spitzenmodell, sondern ein effizienteres Modell, das in wiederkehrenden industriellen Tool-Use-Szenarien einen großen Teil der Fähigkeiten deutlich größerer Modelle übernimmt.
Warum Tool-Use mehr ist als ein Werkzeugaufruf
Ein einzelner Werkzeugaufruf ist selten das eigentliche Problem. Ein Modell kann relativ schnell lernen, wann es eine Suchmaschine, eine Datenbankabfrage oder eine API-Funktion verwenden soll. Schwierig wird es, wenn viele solcher Schritte voneinander abhängen.
Ein Agent muss nicht nur das richtige Werkzeug wählen. Er muss auch erkennen, ob Informationen fehlen, ob eine Nutzerbehauptung mit dem Systemzustand übereinstimmt, ob ein Tool-Ergebnis den Plan verändert und wie er nach einem Fehler weiterarbeitet. Jeder Schritt kann die Grundlage für den nächsten sein. Ein kleiner Fehler am Anfang kann den gesamten weiteren Verlauf verzerren.
Das macht agentische Aufgaben fragiler als einfache Frage-Antwort-Szenarien. Die Qualität entsteht nicht aus einer einzelnen guten Antwort, sondern aus der Stabilität einer ganzen Handlungskette. Kleinere Modelle scheitern hier oft nicht spektakulär, sondern schleichend: ein ungenauer Tool Call, eine nicht überprüfte Annahme, ein übersehener Sonderfall, ein falscher nächster Schritt.
Das AgenticQwen-Paper versucht, genau diese Schwäche systematisch zu adressieren.
Der Kern der Methode: Lernen an den eigenen Grenzfällen
AgenticQwen verwendet zwei Trainingsschleifen, die beide demselben Prinzip folgen: Das Modell wird nicht nur auf immer mehr Daten trainiert, sondern gezielt auf den Aufgaben, an denen es noch scheitert.

Reasoning Data Flywheel: Das erste Schwungrad verbessert klassisches Reasoning. Nach jeder Trainingsrunde werden fehlgeschlagene Aufgaben gesammelt und durch ein großes Teacher-Modell erweitert. Aus einfachen mathematischen Problemen werden schwierigere Varianten mit zusätzlichen Bedingungen, mehreren Lösungsschritten oder neuen Kontexten. Mathematik eignet sich dafür besonders gut, weil Lösungen meist eindeutig überprüfbar sind. Um fehlerhafte synthetische Aufgaben auszusortieren, lässt Alibaba das Teacher-Modell jede neue Aufgabe dreimal lösen und behält sie nur, wenn alle drei Lösungen übereinstimmen.

Agentic Data Flywheel: Das zweite Schwungrad trainiert agentisches Verhalten. Hier geht es nicht um einzelne Antworten, sondern um Tool-Use über mehrere Schritte. Die Autoren beginnen mit einfachen linearen Workflows und erweitern sie zu verzweigten Entscheidungsbäumen. Aus „Flug suchen, buchen, bestätigen“ wird ein Ablauf mit Alternativen: Was passiert, wenn der Flug ausverkauft ist? Was, wenn der Nutzer eine Entschädigung fordert? Was, wenn der Anspruch vom Kundenstatus abhängt?
Zusätzlich setzt das Paper adversarielle simulierte Nutzer ein. Diese versuchen, den Agenten zu falschen Entscheidungen zu verleiten, etwa indem sie eine Barauszahlung fordern, obwohl der Systemstatus nur einen Gutschein erlaubt. Das Modell muss dann lernen, nicht der bloßen Behauptung zu folgen, sondern den relevanten Status per Tool zu prüfen und die geltenden Regeln anzuwenden.
So wird aus Fehlern ein Lehrplan. Das Teacher-Modell produziert nicht einfach zusätzliche Beispiele, sondern erweitert genau jene Regionen des Problemraums, in denen das Student-Modell noch instabil ist.
Was die Ergebnisse zeigen

Die Ergebnisse des Papers sind deutlich. AgenticQwen wird in zwei Varianten vorgestellt: als 8B-Modell und als 30B-Mixture-of-Experts-Modell mit nur etwa 3B aktivierten Parametern pro Inferenzschritt.
Auf öffentlichen agentischen Benchmarks verbessert sich AgenticQwen stark gegenüber den jeweiligen Basismodellen. Besonders auffällig ist AgenticQwen-8B: Es erreicht im Durchschnitt 47,4 Punkte, während das ursprüngliche Qwen3-8B bei 23,8 liegt. Die Leistung verdoppelt sich also nahezu.
AgenticQwen-30B-A3B erreicht 50,2 Punkte und kommt damit nahe an Qwen3-235B heran, das bei 52,0 liegt.
Was man aus AgenticQwen lernen kann
AgenticQwen ersetzt keine Frontier-Modelle. Bei offenen Aufgaben, langen Kontexten und schlecht strukturierten Problemen bleiben große Modelle überlegen. Das Paper zeigt aber: Ein erheblicher Teil agentischer Tool-Use-Fähigkeit lässt sich gezielt in kleinere Modelle übertragen.
Der entscheidende Beitrag liegt nicht in den Benchmarks, sondern in der Datenkonstruktion. Agentenverhalten wird nicht als Dialogproblem behandelt, sondern als Entscheidungsproblem. Ein Agent muss nicht nur wissen, welche Werkzeuge es gibt. Er muss erkennen, welcher Handlungspfad in welchem Zustand gilt.
Dafür reichen lineare Happy Paths nicht aus. Man braucht Fälle mit Ausnahmen, widersprüchlichen Signalen, Fehlern und Reparaturpfaden. Genau diese erzeugt der Flywheel-Ansatz aus den Schwächen des Modells heraus. Trainiert wird also nicht breit und beliebig, sondern an der aktuellen Leistungsgrenze.
Für die Praxis ist das die zentrale Lehre: Wer Unternehmensagenten bauen will, muss realistische Entscheidungsräume modellieren: Tool-Zustände, Regeln, Sonderfälle, Fehlerpfade und irreführende Nutzeräußerungen. Gerade kleinere Modelle müssen gezielt auf solche komplexen Entscheidungsräume optimiert und in ihnen getestet werden. Erst dann zeigt sich, ob sie nicht nur einzelne Werkzeugaufrufe beherrschen, sondern über mehrere Schritte hinweg stabil handeln.
Die Grenzen bleiben klar: Das Verfahren hängt stark am Teacher-Modell, und simulierte Umgebungen sind nur Näherungen realer Systeme. AgenticQwen zeigt also nicht, dass kleine Modelle bald alles können. Es ist ein Hinweis darauf, dass agentische Fähigkeiten gezielt trainierbar sind, wenn man die richtigen Lernumgebungen baut.
Datum: 03.06.2026
Bildquelle: arxiv.org/pdf/2604.21590
In unserer monatlichen Serie “KI-Journal Club” stellen wir wissenschaftliche Beiträge und Presseberichte vor aus den Bereichen Text Mining, Machine Learning, Generative Künstlicher Intelligenz & Natural Language Processing.
Wir beraten Sie gerne.
Sprechen Sie uns an

Bertram Sändig
Bertram ist Experte für KI- und Machine-Learning-Systeme mit einem Fokus auf NLP und Neural Search. Er hält einen B.Sc. in Informatik der FH Brandenburg und seit 2018 einen M.Sc. der TU Berlin mti den Schwerpunkten Machine Learning und Robotik. Parallel zum Studium war er fünf Jahre Leitender Software-Ingenieur im Space Rover Project des Luft- und Raumfahrtsinstituts der TU-Berlin. 2018 stieg er als Machine Learning Engineer bei Neofonie ein und leitet heute das Machine Learning Team bei ontolux, einer Marke der Neofonie GmbH. Mit großer Leidenschaft überführt er aktuelle Forschungsergebnisse in nutzbare Anwendungen für Kunden, vor allem an der Anpassung, Optimierung und Integration von Large Language Modellen in Suchsysteme und das Textanalyse-Toolkit von ontolux.