Die Foren sind voll von Beschwerden über Anthropic Claude Opus 4.7. Es sei ein Rückschritt gegenüber 4.6, meinen viele, und nicht wenige sagen sogar, Opus 4.5 sei das letzte für den Arbeitseinsatz verlässliche Modell gewesen. Auch für OpenAI ChatGPT 5.4 heißt es, es sei im Coding ein Rückschritt zu 5.3-codex. (Es gibt kein 5.4-codex, es gab ein 5.3 „general purpose“ und ein 5.3-codex für Programmierarbeiten, aber für 5.4 gibt es nur dieses Modell, und das soll angeblich auch für Coding bereits optimiert sein, so dass es keine Extra-Coding-Version benötigt). Ist die Grenze von LLM bereits in Sicht, und alles Gebastel führt nur noch dazu, dass sich die Modelle beginnen, in der eigenen Komplexität zu verheddern?
Hinzu kommt die immer auffälliger werdende Arbeitsverweigerung. Wir hatten dazu kürzlich hier im Blog schon einen Artikel, mittlerweile ist es mir aber auch selbst passiert. Ich schrieb einen wirklich unschuldigen und völlig legitimen Web-Scraper, und mit einem mal meinte Codex, nun könne es mir nicht mehr helfen, es würde vermuten, das sei illegal, was ich da täte. Und alles Zureden und Erklären nützte rein gar nichts – wenn sich eine Maschine mal in so einem Loop festgebissen hat, dann war es das eben.
Tja, wie habe ich weitergemacht? Gestern kam von Moonshot das neueste Modell heraus, Kimi K2.6. Es hat sensationelle Benchmark-Ergebnisse und ist in vielen Bereichen nah an Opus 4.6 und ChatGPT 5.4, übertrifft sie sogar in einer ganzen Reihe von Tests. Und, was soll ich Ihnen sagen, mit Kimi habe ich dann mein Projekt in Rekordzeit fertigstellen können, und ich war wirklich überaus beeindruckt von den enormen Leistungen dieses Modells. Auch ein Kollege, dem ich von einem besonders eindrucksvollen Detailschritt meiner Arbeit mit Kimi an diesem Projekt erzählt habe, meinte daraufhin, „Ja, das muss ich dann unbedingt auch ausprobieren“.
Und Kimi / Moonshot ist ja nicht das einzige konkurrenzfähige Open Source-Modell. Da gibt es noch GLM 5.1 von Z.ai und MiniMax M2.7, die auch beide erst kürzlich herausgekommen sind, und ebenso in Benchmarks gegen die ganz Großen bestehen können. GLM 5.1 übertrifft beispielsweise in drei Coding-Benchmarks sowohl Claude Opus 4.6 als auch ChatGPT 5.4.
Es gibt sehr viele Anbieter, die diese sehr großen Open Source-Modelle (Kimi 3.6 hat 1T, also 1 Billion, Parameter!) performant und günstig zur Verfügung stellen. Man findet diese Modelle bei Ollama Cloud, Chatbox AI, Galaxy.ai, Nousresearch, und vielen mehr, zu deutlich niedrigeren Preisen als denen, die OpenAI und Anthropic mittlerweile abrufen. Und diese Modelle sind aber fast genauso gut wie die Großen, übertreffen die beiden Platzhirsche teilweise sogar. Hinzu kommt, wer auf Privatsphäre Wert legt, ist ebenfalls bei vielen freien Anbietern besser aufgehoben, weil sie, wie z.B. Ollama Cloud, diese ausdrücklich garantieren.
Natürlich ist es aber für Privatsphäre die allerbeste Lösung, eine KI auf dem eigenen Rechner zu fahren. Und auch da hat sich in den letzten Tagen sehr viel getan. Gemma4 (ein sozusagen auf Speicherbedarf optimiertes Gemini 3.2) von Google ist herausgekommen, und Qwen 3.6 von Alibaba. Beide Modelle sind, in Anbetracht ihrer geringen Größe, außerordentlich gut und ganz sicher auch für anspruchsvolle Aufgaben geeignet. Und beide laufen auf regulärer Consumer-Hardware, mit 24GB, besser 32GB VRAM, kann man beide auf dem eigenen Rechner ausreichend performant zum Laufen bringen. Und hat die völlige Unabhängigkeit von externen Anbietern erreicht, bei überraschend guter Leistung, gar nicht so weit weg von den vollständigen Modellen.
Was außerdem bald kommen wird, ist die neue DeepSeek Version 4. Die ist zwar schon seit bald zwei Monaten angekündigt, und immer noch nicht da, aber gesehen haben sie schon einige, und die waren alle rundweg und über die Maßen begeistert. Sie erinnern sich bestimmt, als letztes Jahr die V3 von DeepSeek herauskam, und die Aktien der großen KI-Anbieter sofort drastisch einbrachen, weil auf einmal Open Source mit den teuren Premium Modellen gleichgezogen hatte. Auch V4 soll wieder Open Source werden, sagt DeepSeek, wir werden diese neue Version also auch bald bei den vielen Open Source-Anbietern finden.
Während die beiden Großen sich gegenseitig beharken, und mit obskuren Methoden sowohl die Preise treiben, als auch die Leistung für die allgemeinen Endkunden drücken, und ihre besten Modelle nur noch gegen Premium-Preise ausgesuchten Unternehmenskunden zugänglich machen wollen, rennt ihnen Open Source gerade davon.
PS: Vielleicht fällt es Ihnen auf, ich weigere mich, über Claude Mythos zu schreiben. Was da gerade läuft, ist mieseste Fear-Porn-Propaganda, wenn Sie mich fragen, und das ist ja schon die ganze Zeit die Masche von Anthropic. Außerdem heißt es gerüchteweise auf Twitter/X, einige Hacker hätten das sagenumwobene Modell schon im Zugriff gehabt, und die Leistung sei kaum besser gewesen als die von 4.7 (was ja, wie oben geschrieben, auch schon für viele nur eine große Enttäuschung ist). Sprich, von Claude Mythos glaube ich erstmal gar nichts, solange alles dazu nur Geraune hinter verschlossenen Türen ist.

