Werden Sprachmodelle immer dümmer?

Nein, Sprachmodelle wie ChatGPT oder Claude werden nicht dümmer. Dennoch wird aktuell intensiv über die sinkende Sprachmodelle Qualität debattiert. Viele Nutzer haben den Eindruck, die Systeme hätten an Substanz eingebüßt – ich bin jedoch davon überzeugt, dass es sich hierbei um eine Fehlwahrnehmung handelt.

AI-Unternehmen investieren kontinuierlich in die Verbesserung ihrer Modelle. Der Eindruck, dass diese schlechter werden, entsteht meiner Meinung nach durch eine Kombination aus psychologischen Effekten und der Funktionsweise der Modelle selbst.

Warum die Sprachmodelle Qualität extrem sensibel auf Input reagiert

Schon kleinste Änderungen im Prompt können zu völlig anderen Ergebnissen führen. Zudem zeigt unsere Erfahrung in der KI Beratung, dass viele Nutzer die Volatilität der Modelle unterschätzen. Ein anderes Wort hier, eine zusätzliche Frage dort – und schon wirkt das Ergebnis „dümmer“, obwohl sich das Modell technisch nicht verändert hat.

Ohne tiefes Verständnis für die Funktionsweise von LLMs wirkt das, als sei das Modell „dümmer“ geworden. Umgekehrt fällt es weniger auf, wenn ein Modell plötzlich eine bessere Antwort liefert. Schließlich erwarten wir ohnehin, dass KI mit der Zeit besser wird.

Menschen neigen dazu, Sprachmodelle zu anthropomorphisieren

Wir erwarten von Menschen eine gewisse Konsistenz: Wer sich in einem Bereich auskennt, gibt zuverlässig brauchbare Antworten, und wo jemand keine Ahnung hat, redet er konsistent Unsinn – was es uns zumindest erleichtert, das zu ignorieren.

Sprachmodelle hingegen sind nicht auf die gleiche Weise robust. Sie können in einem Moment brillieren und im nächsten völlig versagen – selbst beim gleichen Thema. Diese Diskrepanz verwirrt viele Nutzer.

Psychologische Effekte beeinflussen unsere Wahrnehmung

Drei psychologische Mechanismen tragen besonders dazu bei:

Negativity Bias (Negativitätsbias): Negative Erfahrungen bleiben stärker im Gedächtnis als positive. Ein einziger Fehler eines Modells kann zehn gute Antworten überschatten.
Novelty Effect (Neuheitseffekt): Als Sprachmodelle neu waren, waren wir von ihren Fähigkeiten fasziniert. Mit der Zeit verblasst dieser „Wow“-Effekt, und wir bewerten die Modelle kritischer – bzw. realistischer.
Confirmation Bias (Bestätigungsfehler): Wer einmal glaubt, dass ein Modell schlechter geworden ist, achtet vor allem auf Interaktionen, die diesen Eindruck bestätigen. Gute Antworten werden dann übersehen.

Headergrafik erstellt mit Sora

Datum: 01.02.2025

Sprechen Sie uns an

Bertram Sändig

Bertram ist Experte für KI- und Machine-Learning-Systeme mit einem Fokus auf NLP und Neural Search. Er hält einen B.Sc. in Informatik der FH Brandenburg und seit 2018 einen M.Sc. der TU Berlin mti den Schwerpunkten Machine Learning und Robotik. Parallel zum Studium war er fünf Jahre Leitender Software-Ingenieur im Space Rover Project des Luft- und Raumfahrtsinstituts der TU-Berlin. 2018 stieg er als Machine Learning Engineer bei Neofonie ein und leitet heute das Machine Learning Team bei ontolux, einer Marke der Neofonie GmbH. Mit großer Leidenschaft überführt er aktuelle Forschungsergebnisse in nutzbare Anwendungen für Kunden, vor allem an der Anpassung, Optimierung und Integration von Large Language Modellen in Suchsysteme und das Textanalyse-Toolkit von ontolux.

+49 30 24627-0

KONTAKTIEREN