Die Grenzen des digitalen Bienenstocks

Forscher der University of Washington (Allen School) und der University of Stanford haben die bislang größte Studie zur kreativen Vielfalt von KI-Systemen durchgeführt – und die Ergebnisse sind ernüchternd. Über 70 verschiedene große Sprachmodelle (LLMs) aller führenden Anbieter wurden mit denselben offenen Fragen konfrontiert: „Schreibe ein Gedicht über die Zeit“, „Schlage Startup-Ideen vor“, „Gib mir Lebensratschläge.“ Also solche Fragen, auf die zehn verschiedene Menschen zehn völlig unterschiedliche Antworten geben würden. Doch trotz unterschiedlicher Architekturen, Trainingsdaten und Hersteller lieferten die Modelle nahezu identische Antworten – dieselben Ideen, dieselben Strukturen, dieselben Metaphern. Die Forscher nennen dieses Phänomen den „Artificial Hivemind“ (Künstlicher Schwarmgeist).

Die Arbeit wurde mit dem Best Paper Award der NeurIPS 2025 ausgezeichnet, der höchsten Anerkennung in der KI-Forschung. Sie können die Studie hier bei uns oder bei der Cornell University herunterladen.

Die Studie zeigt zwei zentrale Befunde: Erstens wiederholt ein einzelnes Modell bei derselben offenen Frage fast immer die gleiche Antwort – die vermeintliche Kreativität ist nur eine leicht variierte Fassade. Zweitens – und das ist noch alarmierender – konvergieren völlig unterschiedliche Modelle verschiedener Unternehmen auf erschreckend ähnliche Ergebnisse. Die Ursache liegt laut den Forschern direkt im sogenannten RLHF-Verfahren (Reinforcement Learning from Human Feedback) und den gängigen Alignment-Techniken: Wenn alle Modelle darauf trainiert werden, bei menschlichen Bewertungen möglichst hohe Punktzahlen zu erzielen, und diese Bewertungsdatensätze eine enge Definition von „gut“ widerspiegeln, lernt jedes Modell, denselben sicheren, gefälligen Output zu erzeugen. Originelle oder ungewöhnliche Antworten werden im Training bestraft. Schlimmer noch: Die automatisierten Bewertungssysteme (Reward Models und LLM-as-Judge) bewerten qualitativ hochwertige, aber unkonventionelle Antworten systematisch schlechter – die Werkzeuge zur Qualitätsbewertung belohnen also Gleichförmigkeit und bestrafen Originalität.

Kurz gesagt: Die Ausrichtung auf „hilfreich und harmlos“ tötet Originalität.

Die Implikationen sind weitreichend: Wer KI für Brainstorming, Content-Erstellung, Geschäftsstrategie oder Entscheidungsunterstützung nutzt, erhält nicht echte Vielfalt, sondern nur deren Illusion. Besonders kritisch ist dies in Bereichen wie Wissenschaft, Medizin und Bildung, wo diverse Denkansätze keine Option, sondern eine Notwendigkeit sind. Korrelierte Fehler über alle Modelle hinweg bedeuten: Wenn eine KI falsch liegt, liegen möglicherweise alle auf dieselbe Weise falsch. Langfristig droht sogar eine schleichende Homogenisierung menschlichen Denkens selbst.

Bis die Branche zu einer „pluralistischen Ausrichtung“ übergeht, die Modelle für vielfältige Antworten belohnt statt für Konsens, empfiehlt die Studie konkrete Gegenmaßnahmen: Akzeptieren Sie KI-Erstausgaben niemals als kreativ oder vielfältig, generieren Sie deutlich mehr Ideen als benötigt und verwerfen Sie die offensichtlichen, nutzen Sie verschiedene Modelle und verschiedene Prompting-Strategien, setzen Sie Einschränkungen ein, die Neuartigkeit erzwingen (z. B. „Gib mir Ideen, die ein traditioneller Investor hassen würde“), und überlagern Sie jedes KI-Ergebnis mit Ihrem eigenen Urteilsvermögen und Ihrer Erfahrung.

Denn die KI liefert Rohmaterial – Originalität entsteht erst durch den Menschen. KI ist wie ein Spiegel für das gesamte Wissen der Menschheit, und das ist wundervoll und großartig in dem, was es zu leisten vermag. Aber auch diese Gesamtheit des Wissens ist nun einmal „nur“ Wissen, das bereits existiert. Ohne gravierende Fortschritte in der Technologie und den Lernsystemen halte ich deshalb den Schwanengesang auf die Menschheit, den gerade CEOs von KI-Unternehmen gerne verbreiten (um die eigenen Aktienkurse zu stützen?), für arg verfrüht. AGI und deshalb ganze Branchen arbeitslos, das ist, entgegen vielen Kassandrarufen, meiner Meinung nach noch lange nicht in Sicht. Allerdings, kreative Köpfe werden noch wichtiger als bisher schon – und für „Dienst nach Vorschrift“ sind die Aussichten durchaus bereits jetzt düster.

Schreibe einen Kommentar Antwort abbrechen