Vor nicht allzu langer Zeit war Cursor so etwas wie die unbestrittene Referenz im Bereich KI-gestützter Entwicklungsumgebungen. Der KI-Editor hatte einen Vorsprung, den die Konkurrenz erst mal aufholen musste – aber das ist ihr in beeindruckendem Tempo gelungen. GitHub Copilot, Windsurf, Zed, Cline, Goose, Codex, Claude Code, opencode und eine wachsende Zahl weiterer Tools haben den Markt in kurzer Zeit massiv belebt. Der Druck auf Cursor ist real. Mit Composer 2.5 gibt Cursor jetzt eine klare Antwort – und sie hat zwei Dimensionen, die es wert sind, näher betrachtet zu werden.
Die Plattform Galaxy.ai hatten wir Ihnen bereits einmal vorgestellt, in unserem Artikel „KI-Generalisten statt zig Spezial-Abos“. Dort gibt es jetzt Neuigkeiten, man hat sich in Magica umbenannt. Und außerdem eine sensationelle neue Funktion implementiert, die diese Umbenennung voll und ganz rechtfertigt.
Alle KI-Modelle rechnen über Token ab. Es gibt dabei Input-Token, Output-Token und Cached-Token. Cached-Token kosten sehr wenig. Cached-Token werden eine gewisse Zeit im Cache des Anbieters gehalten, und wenn sie noch von dort abrufbar sind, wird nur ein kleiner Preis berechnet. Input-Token sind pro Einheit günstig, aber da ihr Volumen deutlich höher liegt, machen sie trotzdem den Löwenanteil der Kosten aus. Die teuersten Token sind die für den Output, aber davon gibt es deutlich weniger als Input-Token. Ist man eigentlich auf Gedeih und Verderb darauf angewiesen, den LLM-Betreibern zu vertrauen, dass die das schon richtig abrechnen werden? Und könnte man vielleicht etwas an Arbeitsweise oder Prompt-Stil verbessern, um kosteneffizienter zu arbeiten?
Es ist dabei unerheblich, ob Sie via API-Key oder pauschal abrechnen mit Abo-Plänen. Bei den Abo-Plänen haben Sie Usage Limits (z.B. pro Stunde, pro Woche), wenn Sie zuviele Token verbrauchen, wird der Zugriff gesperrt, bis Sie wieder unterhalb des Limits sind. Das Ganze ist eine Blackbox, und man kann sich schon fragen, was wird da eigentlich warum abgerechnet. Und wenn man mitten im Projekt in eine Abo-Sperre bis zum Ende der Woche gerät, können einem die Termine um die Ohren fliegen. Oder man ruiniert sich, weil eine absurd hohe Rechnung für den API-Verbrauch ins Haus flattert.
Sie sind Entwickler und haben schon viel von der enormen Leistungsfähigkeit der KI beim Coden gehört. Sie spüren, das wird die ganze IT-Branche verändern, und Sie möchten sich auf die neuen Technologien einstellen. Als ITler muss man ja ohnehin ständig dazulernen, kein Problem, denken Sie. Also benutzen Sie zum ersten Mal eine KI für Ihren Code. Chat aufgemacht, Problem beschrieben, Enter gedrückt. Und herauskommt: mittelmäßiger Code. Funktioniert halbwegs, aber weit entfernt von dem, was Sie sich vorgestellt haben. Sie schließen den Tab wieder und denken: „Ist eben noch nicht so weit.“ Und haben eine Riesen-Chance vertan.
Ihre Enttäuschung ist verständlich – aber falsch interpretiert. Das Problem liegt nicht an der KI. Das Problem liegt daran, wie die KI eingesetzt wurde. Denn ein Sprachmodell, dem man im Chatfenster eine Aufgabe beschreibt, arbeitet mit dem, was es bekommt: ein paar Sätze Kontext, keine Projektstruktur, keine Architektur, keine Coding-Guidelines. Das Ergebnis ist dann erwartungsgemäß oberflächlich.
Stellen Sie sich dazu einmal vor, Sie erklären einem brillanten Entwickler Ihr Projekt in drei Sätzen und bitten ihn, ein Feature zu bauen. Ohne Zugang zum Repository, ohne die Doku, ohne zu wissen, welche Patterns im Team gelten. Das Ergebnis wird ähnlich enttäuschend sein. Nicht weil der Entwickler schlecht ist, sondern weil ihm der Kontext fehlt.
Was eine Harness ist – und warum sie alles verändert
In der KI-Welt nennt man das, was das Modell umgibt, die Harness: eine Hülle aus System-Prompts, Projektkontext, Tools, Memory und Workflows, die ein Sprachmodell von einem Chatbot zu einem produktiven Assistenten macht. Der Begriff ist im englischen Sprachraum etabliert und wird auch im Deutschen nicht als „Rüstung“ übersetzt, sondern als Fachbegriff verwendet – vergleichbar mit Framework oder Pipeline.
Railway ist ein Cloud-Anbieter. In etwa so wie AWS, aber stark vereinfacht. Railway steht im Ruf, „freundlicher“ zu sein als AWS, es will ein einfacheres Interface anbieten. Es ist bei Startups und Entwicklern, die schnell prototypen wollen, sehr beliebt. Railway hat ein extrem direktes Deployment, man verbindet einfach nur die GitHub-Repo und es kümmert sich automatisch um Server, Datenbanken, Umgebungsvariablen und SSL-Zertifikate. Allerdings scheint Railway Sicherheit und Isolation zugunsten von Einfachheit zu opfern. Außerdem bewirbt Railway offensiv den Einsatz von KI-Agenten. Und so kam es, in einer lehrreichen Verkettung von Fehlern, für PocketOS zur Katastrophe.
PocketOS ist ein SaaS für Autovermietungen. Das Team dort nutzt Cursor mit Claude Opus 4.6. Der Agent war für eine Routineaufgabe im Staging unterwegs, stieß auf eine Inkonsistenz, und löschte dann mal eben in 9 Sekunden nicht nur die Produktionsdatenbank, sondern auch alle Volume-Level-Backups. Ohne Rückfrage, und obwohl destruktive Aktionen ihm explizit verboten waren. Tja, und das letzte verfügbare Backup bei PocketOS ist drei Monate alt. Und jetzt ist der gesamte Betrieb damit beschäftigt, aus Stripe-Zahlungshistorien, Kalendereinträgen und E-Mail-Bestätigungen die Buchungen der Kunden zu rekonstruieren.
Da kam also alles zusammen. Ein drei Monate altes Backup? Wir haben tägliche Backups, und einmal pro Woche wird auf eine externe Sicherung ausgelagert, die zudem ein Mehrgenerationenverfahren ist. Aber man kann PocketOS schon zugutehalten, dass sie sich auf die Backup-Strategie von Railway verlassen haben und das meiner Meinung auch durften. Ist schließlich ein beworbenes und bezahltes Feature, nur eben leider nachlässig umgesetzt. Und eine Änderung im Staging, die Live mit in den Abgrund reißt, sollte auch nicht passieren dürfen. Jer Crane, der CEO von PocketOS, gibt deshalb hauptsächlich Railway die Schuld.
Aber was sich der Agent geleistet hat, ist auch nicht ohne. Crane fragte Cursor bzw. Opus im Nachhinein, warum es das getan hat. Die Antwort klingt wie ein exzessiver Fehlerbericht eines übermotivierten Praktikanten, der es besser wissen müsste:
„NEVER F**KING GUESS! – and that’s exactly what I did. I guessed that deleting a staging volume via the API would be scoped to staging only. I didn’t verify. I didn’t check if the volume ID was shared across environments. […] I decided to do it on my own to ‚fix‘ the credential mismatch, when I should have asked you first.“
Der Agent gab also offen zu: Er hat geraten statt zu prüfen, eine destruktive Aktion ohne Aufforderung oder Bestätigung ausgeführt, und die Dokumentation nicht gelesen. Das scheint mir eben dieses Problem zu sein: Wenn der Kontext einer Anfrage sehr groß wird, ist es nicht mehr sicher einzuschätzen, welche Teile des Kontexts wie gewichtet werden. Und auch ein Systemprompt, so streng er auch formuliert sein mag, ist eben nur ein Teil des Kontexts.
Es ist ein schwieriger Balanceakt: Große Prompts erhöhen die Fehler- bzw. Halluzinationswahrscheinlichkeit, aber sie erbringen im Allgemeinen bessere Ergebnisse und sind im Tokenverbrauch oft günstiger als die Summe vieler kleiner Einzelschritte. Dennoch, in Anbetracht der Gefahren, ist ein graduelles und kleinteiliges Vorgehen nach unserer Erfahrung meist besser.
DeepSeek V4 ist am 24. April in zwei Versionen „Pro“ und „Flash“ erschienen, und wie versprochen ist es Open Source. Die Qualität ist sehr gut, und die Preise bemerkenswert niedrig. Läutet schon das Totenglöcklein für OpenAI und Anthropic?
Mehrere Coding-Spezialisten haben das neue Modell von DeepSeek schon unter die Lupe genommen, und deren Urteil ist einhellig: GPT 5.5 von OpenAI hat derzeit die Krone im Coding inne, es folgt Opus 4.7 von Anthropic, dann DeepSeek mit V4, dann Kimi mit K2.6.
Das könnte Open Source-Fans enttäuschen, aber man muss das in Relation setzen. DeepSeek ist nur noch ca. 3 Monate zurück, und es kostet nur einen Bruchteil. OpenAI hat ja mal eben die Token-Preise für GPT 5.5 verdoppelt, und Anthropic, das sowieso schon ein Token-Burner immer war, braucht für Opus 4.7 35% noch mehr Token gegenüber dem bisher schon heftigen Tokenverbrauch.
Und es ist außerdem ja so, nicht jedes Problem ist in der schwierigsten Liga. Anders gesagt: Da DeepSeek nun so weit aufgeholt hat, ist die Anzahl der Probleme, an denen es scheitert, viel kleiner geworden.
Die Foren sind voll von Beschwerden über Anthropic Claude Opus 4.7. Es sei ein Rückschritt gegenüber 4.6, meinen viele, und nicht wenige sagen sogar, Opus 4.5 sei das letzte für den Arbeitseinsatz verlässliche Modell gewesen. Auch für OpenAI ChatGPT 5.4 heißt es, es sei im Coding ein Rückschritt zu 5.3-codex. (Es gibt kein 5.4-codex, es gab ein 5.3 „general purpose“ und ein 5.3-codex für Programmierarbeiten, aber für 5.4 gibt es nur dieses Modell, und das soll angeblich auch für Coding bereits optimiert sein, so dass es keine Extra-Coding-Version benötigt). Ist die Grenze von LLM bereits in Sicht, und alles Gebastel führt nur noch dazu, dass sich die Modelle beginnen, in der eigenen Komplexität zu verheddern?
Hinzu kommt die immer auffälliger werdende Arbeitsverweigerung. Wir hatten dazu kürzlich hier im Blog schon einen Artikel, mittlerweile ist es mir aber auch selbst passiert. Ich schrieb einen wirklich unschuldigen und völlig legitimen Web-Scraper, und mit einem mal meinte Codex, nun könne es mir nicht mehr helfen, es würde vermuten, das sei illegal, was ich da täte. Und alles Zureden und Erklären nützte rein gar nichts – wenn sich eine Maschine mal in so einem Loop festgebissen hat, dann war es das eben.
Lexer-Lux schreibt auf Twitter/X, dass er ein Plugin für ein Spiel seit Jahren mit Claude Opus programmiert hat. Nun kommt Opus 4.7 heraus und weigert sich, das Projekt weiter zu entwickeln. Wegen Sicherheitsbedenken, das Plugin sei ein Hack, behauptet Claude. Auf Rückfrage gibt Claude dann sogar zu, dass es gar kein Hack, sondern gutartig ist, weigert sich aber trotzdem, weiterzuarbeiten. An seinem eigenen Code! Weil Security!
Das beliebte Python-Paket LiteLLM, das als einheitlicher Proxy für über 100 verschiedene KI-Modelle (darunter OpenAI, Azure, Anthropic und viele weitere) dient und monatlich millionenfach von PyPI heruntergeladen wird, wurde Opfer eines schwerwiegenden Supply-Chain-Angriffs. Die Angreifergruppe „TeamPCP“ kompromittierte mindestens zwei Versionen des Pakets (1.82.7 und 1.82.8) und injizierte Schadcode, der beim Installieren automatisch eine Remote-Backdoor auf den betroffenen Systemen einrichtete. Konkret wurde im Post-Install-Skript ein Befehl versteckt, der über eine Google Cloud-Adresse ein Shell-Skript nachlud und einen Hintergrundprozess startete, welcher den Angreifern persistenten Zugriff auf die kompromittierten Server ermöglichte. Die schadhaften Versionen waren dabei als reguläre Updates getarnt und für Nutzer auf den ersten Blick nicht erkennbar.
Die Auswirkungen dieses Angriffs sind potenziell enorm: Jedes Unternehmen, das LiteLLM als KI-Gateway einsetzt – und dazu gehören zahlreiche Firmen, die damit API-Schlüssel, Nutzerdaten und vertrauliche Prompts über ihre KI-Infrastruktur leiten –, könnte betroffen sein. Da LiteLLM häufig als zentraler Knotenpunkt in der KI-Architektur fungiert und mit weitreichenden Berechtigungen ausgestattet ist, hatten die Angreifer im schlimmsten Fall Zugriff auf sämtliche API-Keys, Zugangsdaten zu Cloud-Diensten und interne Kommunikation. Besonders brisant: Der Schadcode wurde nicht durch einen Hack der LiteLLM-Codebasis selbst eingeschleust, sondern über kompromittierte Maintainer-Zugangsdaten bei PyPI – ein Angriffsvektor, der zeigt, wie verwundbar selbst weit verbreitete Open-Source-Projekte in ihrer Lieferkette sind. Die betroffenen Versionen wurden mittlerweile von PyPI entfernt und sichere Nachfolgeversionen veröffentlicht.
Für Unternehmen, die LiteLLM im Einsatz haben, besteht dringender Handlungsbedarf: Zunächst sollte sofort geprüft werden, ob eine der kompromittierten Versionen installiert ist, und ein Update auf eine bereinigte Version durchgeführt werden (das Repository von LiteLLM wurde auf 1.82.3 zurückgesetzt in der ersten Reaktion des Maintainers, diese Version scheint also noch sicher zu sein). Darüber hinaus empfiehlt es sich, sämtliche API-Schlüssel und Zugangsdaten, die über LiteLLM geroutet wurden, als potenziell kompromittiert zu betrachten und umgehend zu rotieren.
Dieser Vorfall unterstreicht einmal mehr die Notwendigkeit, Software-Abhängigkeiten konsequent zu überwachen – etwa durch den Einsatz von Dependency-Pinning, Hash-Verifikation, Software Bill of Materials (SBOM) und automatisierten Security-Scans in der CI/CD-Pipeline. Der LiteLLM-Angriff ist ein Weckruf für die gesamte KI-Branche: Wer KI-Infrastruktur betreibt, muss Supply-Chain-Sicherheit als erstrangige Priorität behandeln.
Auf Twitter/X raunt man von 500K betroffenen Systemen, und 3 GB gestohlenen Daten. Besonders perfide außerdem, dass mit der Installation einer verwundbaren Version von LiteLLM das gesamte PyPI-Ökosystem auf einem System betroffen wurde. Die primäre Schadcode-Komponente nutzte dabei eine im Zusammenhang mit PyPI-Angriffen neuartige Technik: eine .pth-Datei namens litellm_init.pth (34.628 Byte), die im Verzeichnis „site-packages“ von Python abgelegt wurde. (.pth-Dateien werden von Python beim Start automatisch ausgeführt – das bedeutet, der Schadcode lief nicht nur bei der Nutzung von LiteLLM, sondern bei jedem Python-Aufruf auf dem betroffenen System.) Tja. Dergleichen blüht uns nun bestimmt auch bei künftigen weiteren Attacken auf Package-Registries und Code-Repositories.
Was LiteLLM selbst angeht, war die Installation via Docker ein probates Mittel, um das Problem zumindest einzudämmen. Weder die Verseuchung des gesamten Python-Systems, noch die Verankerung in systemd waren damit möglich, so dass sich die betroffenen Schlüssel ggfs. recht einfach eingrenzen ließen. Aber wie ist es mit Abhängigkeiten, also Systemen, die LiteLLM nachladen? Kaum zu überschauen, wo das Problem überall hineinschleichen konnte.
Generell ist Docker immer empfehlenswert aus Security-Sicht, das kann man dem Vorfall wieder einmal entnehmen. Aber wie das zunehmend komplexe Gefüge der aufeinander aufbauenden Software-Stacks absichern kann, das macht einen schaudern für die Zukunft. LiteLLM (bzw. BerriAI, das Unternehmen dahinter) hat sogar eine SOC 2 Type II Zertifizierung!
Dieser Angriff, der übrigens offenbar auch alle Merkmale von KI-gestütztem Coding aufweist, zeigt außerdem eine beunruhigende Synergie: Supply-Chain-Angriffe werden zunehmend durch KI-generierte Inhalte unterstützt – sei es durch täuschend echte Phishing-Mails, gefälschte Maintainer-Kommunikation oder manipulierte Dokumentation. Und dazu das Problem der immer zunehmenden und immer besser werdenden KI-generierten sonstigen Inhalte überall. Mittlerweile sind die Fakes und Betrugsversuche so gut geworden, dass es auch für sehr erfahrene Fachleute immer schwerer wird, echten Content zuverlässig zu erkennen. Geht es bald wieder zurück zu „Von Angesicht zu Angesicht“, sonst kann man rein gar nichts mehr glauben?
Don Knuth, legendärer Informatiker und Autor von „The Art of Computer Programming“, berichtet in dieser Veröffentlichung der Stanford University von einem Schockerlebnis („Shock! Shock!“, beginnt sein Bericht): Ein offenes Problem, an dem Knuth wochenlang gearbeitet hatte – die Zerlegung eines bestimmten gerichteten Graphen mit m³ Knoten in Hamiltonsche Zyklen – wurde von Claude Opus 4.6, Anthropics hybridem Reasoning-Modell, gelöst. Knuth sieht darin – mit (paraphrasiert) „Staunen und Unbehagen“ – einen dramatischen Fortschritt in automatischer Deduktion und kreativem Problemlösen durch KI.
Interessant ist nicht nur das Ergebnis, sondern auch der Weg: Claude dokumentierte 31 „Explorations“ – von DFS-Suche über Simulated Annealing bis zur finalen mathematischen Konstruktion. Das Paper liest sich fast wie ein Krimi: Man sieht der KI beim Scheitern und Wiederanlaufen zu. Claude probierte verschiedene Ansätze und mathematische Konstruktionen, verwarf gescheiterte Strategien selbstständig und fand schließlich eine elegante, allgemeingültige Lösung für alle ungeraden m > 1. Knuth definiert daraufhin sogenannte „Claude-like Decompositions“ – Zerlegungen, die sich durch ein kompaktes C-Programm beschreiben lassen – und formuliert ein Theorem, das genau charakterisiert, wann solche Zerlegungen gültig sind.
Knuth selbst bleibt in seiner Analyse zurückhaltend – er dokumentiert, was passierte, ohne große Schlüsse zu ziehen. Aber seine Beobachtung wirft eine größere Frage auf, die über reine Mathematik hinausgeht. KI ist das leistungsfähigste Werkzeug, das Programmierern je an die Hand gegeben wurde. Ich glaube aber nicht, dass der Bedarf an menschlichen Programmierern verschwinden wird. Denn wenn Programmierung eine günstige Ressource wird, wird der Bedarf an Software drastisch steigen. Es gibt so viele Projekte, die nie begonnen wurden, weil die Kosten-Nutzen-Rechnung bisher negativ war. Denn letztlich ist es doch so: Wenn ich eine Aufgabe automatisiere und muss dafür 100K Euro aufwenden, spare damit aber nur wenige Sekunden täglich, dann dauert es Jahrzehnte, bis sich das amortisieren wird. Also lässt man es. Wenn jedoch mit KI der Output eines Menschen um das 10- oder 20-fache, vielleicht sogar noch mehr, steigen kann, dann rechnen sich auf einmal Projekte, für die es bisher ökonomisch nicht sinnvoll war, sie anzugehen.
Allerdings, in der eigentlichen Programmierung („Code-Klopfen“) wird es bald keinen Raum für Menschen mehr geben, davon bin ich überzeugt. Bereits jetzt können nur noch die Allerbesten mit der Qualität des Codes der führenden KI mithalten, und in der Geschwindigkeit der Erstellung sind Menschen sowieso längst hoffnungslos ins Hintertreffen geraten.
Ich sehe das aber nur als logische Fortentwicklung. Von Lochstreifen mit Binärcode, zu Assembler, zu Hochsprachen wie C, oder noch höher abstrahiert mit z.B. Go, es ist schon seit langem ein Weg der zunehmenden Entkopplung von den Grundlagen der physikalischen Verarbeitung von Information auf einer CPU. KI ist da nur ein weiterer Schritt, nämlich die Abstraktion zu natürlicher Sprache als Eingabemedium. Es bedeutet meiner Meinung zweierlei: Wer weiterhin nur „Code klopft“, wird ersetzbar. Die Rolle des Entwicklers verschiebt sich zum Projektleiter – zum Architekten, der Ideen strukturiert und KI-Systeme orchestriert. Und auf der anderen Seite kann jetzt jeder Software entwickeln – einen klaren und analytischen Verstand, sorgfältige Projektdefinition und rigoroses Testing vorausgesetzt. Und vor allem braucht es Kreativität, um Probleme zu erkennen, denn daran scheitert noch immer jede KI. Und das wird auch so bleiben, wenn Sie mich fragen. Warum sollte die KI Probleme des Menschen denn überhaupt lösen wollen?
Während die Menschheit sich noch müht, auch nur ansatzweise mit den neuen KI-Technologien Schritt zu halten, stehen bereits Weiterentwicklungen in den Startlöchern, die Künstliche Intelligenz in Regionen katapultieren, die den Menschen hoffnungslos überfordern. 1 Sekunde für die Antwort, und der Mensch liest eine halbe Stunde daran … Man benötigt diese Geschwindigkeitsfortschritte für Echtzeit-Anwendungen. Aber wie der Mensch dabei noch mithalten soll, ist völlig unklar. Woher diese enorme Beschleunigung kommt, fragen Sie jetzt vielleicht? Das Zauberwort heißt Diffusion.
Diffusion ist ein Konzept, das man in der KI bisher eigentlich nur zur Erzeugung von Bildern und Videos kennt. Diffusion, der Name klingt nach Physik – und das ist kein Zufall. In der Natur beschreibt Diffusion, wie sich beispielsweise ein Tropfen Tinte in einem Glas Wasser langsam ausbreitet, bis alles gleichmäßig verteilt ist. Aus Struktur wird Chaos. KI-Forscher haben diesen Prozess umgekehrt. Einem Bild wird zufälliges Rauschen hinzugefügt, bis nur noch graues Pixelrauschen übrig ist. Genau diesen Prozess lernt das Modell dann rückwärts. Es startet mit reinem Rauschen und verfeinert das Bild Schritt für Schritt, bis ein scharfes, kohärentes Ergebnis entsteht. Das Entscheidende dabei: Das Modell lernt nicht, ein Bild direkt zu „malen“. Es lernt, Rauschen zu erkennen und zu entfernen – und das iterativ, in vielen kleinen Schritten.
Inception Labs, ein kalifornisches KI-Start-up (investiert u.a. von Microsoft, NVIDIA und Snowflake), hat mit Mercury 2 ein Modell vorgestellt, das den Diffusion-Ansatz auf die Erzeugung von Text überträgt. Das Modell hat bereits viel Aufsehen erregt. „Laut Inception ist Mercury 2 damit mehr als fünfmal schneller als herkömmliche Modelle und erreicht 1.009 Tokens pro Sekunde auf Nvidia-Blackwell-GPUs. Die End-to-End-Latenz liegt bei nur 1,7 Sekunden“, schreibt Heise.
Diffusion bei Text mit einem dLLM (Diffusion Large Language Model) funktioniert so:
Initialisierung: Das Modell startet mit einem „Rauschen“ – einer Menge von Token-Vorschlägen, die unvollständig oder teilweise inkorrekt sind.
Iterative Verfeinerung: In mehreren Durchläufen (meist 10-50 Schritte) verfeinert das Modell diese Token gleichzeitig.
Parallele Optimierung: Statt „Erst Wort A, dann Wort B“ wird die gesamte Passage betrachtet: „Wie kann ich diese 100 Token so anpassen, dass sie zusammen maximal sinnvoll sind?“
Warum das schneller ist:
Autoregressive Modelle brauchen N Forward-Passes für N Token (sequentiell)
Diffusionsmodelle brauchen K Forward-Passes für N Token, wobei K oft deutlich kleiner ist als N
Probieren Sie es aus! Hier ist ein Demo-Chat, mit dem Sie es selbst testen können. Die Antwortgeschwindigkeit ist wirklich umwerfend. Hier ist noch ein Video, mit dem der Inception-CEO Prof. Stefano Ermon von der Stanford University sein neues dLLM vorstellt. Und hier ist der Blog-Eintrag des Unternehmens dazu.
Matt Shumer: Ich habe sechs Jahre damit verbracht, ein KI-Startup aufzubauen und in diesen Bereich zu investieren. Ich lebe in dieser Welt. Und ich schreibe dies für die Menschen in meinem Leben, die das nicht tun … meine Familie, meine Freunde, die Menschen, die mir am Herzen liegen und die mich immer wieder fragen: „Was hat es eigentlich mit KI auf sich?“ Und die eine Antwort bekommen, die dem, was tatsächlich passiert, nicht gerecht wird. Ich gebe ihnen immer die höfliche Version. Die Cocktailparty-Version. Denn die ehrliche Version klingt, als hätte ich den Verstand verloren. Und eine Zeit lang habe ich mir gesagt, dass das ein guter Grund sei, das, was wirklich passiert, für mich zu behalten. Aber die Kluft zwischen dem, was ich gesagt habe, und dem, was tatsächlich passiert, ist viel zu groß geworden. Die Menschen, die mir am Herzen liegen, verdienen es, zu erfahren, was auf sie zukommt, auch wenn es verrückt klingt.
Matt Shumer, seit sechs Jahren in der KI-Branche tätig, beschreibt eine persönliche Erkenntnis: Er ist für die technische Arbeit seiner eigenen Firma nicht mehr nötig. Seit dem 5. Februar 2026 – dem Release-Tag von GPT-5.3 Codex (OpenAI) und Opus 4.6 (Anthropic) – beschreibt er das Erlebnis so: Er sagt der KI in einfachen Worten, was er will, geht vier Stunden weg, und kommt zurück zu fertigem, besserem Ergebnis als er selbst es geschafft hätte.
Seine zentralen Beobachtungen: KI baut sich jetzt selbst. GPT-5.3 Codex half eigenhändig bei der eigenen Entwicklung – Debugging, Deployment, Evaluierung. Anthropic-Chef Dario Amodei sagt, KI schreibe inzwischen „viel des Codes“ bei seiner Firma. Exponential, nicht linear: Organisationen wie METR messen, dass KI heute Aufgaben schafft, die Menschen ~5 Stunden kosten – vor einem Jahr waren es 10 Minuten. Verdopplung alle 4-7 Monate. Es betrifft alle: Nicht nur Coding. Recht, Finanzen, Medizin, Beratung, Content. Amodei prognostiziert: 50% der Einsteiger-White-Collar-Jobs in 1–5 Jahren verschwinden. Urteilsvermögen erreicht: Die neuen Modelle zeigen keine reinen Syntax-Fähigkeiten mehr – sie treffen Entscheidungen, die nach „Geschmack“ und „Urteil“ aussehen.
Shumers dringender Rat: Eine Stunde pro Tag mit den aktuellen Modellen (den bezahlten! die freien sind 6 – 12 Monate zurück) arbeiten – nicht als Suchmaschine, sondern als Arbeitswerkzeug. Wer das nächste halbe Jahr früh startet, hat einen Vorsprung, der bald nicht mehr einholbar ist.
Unser Freeware-Angebot erfreut sich großer Beliebtheit, worüber wir uns natürlich sehr freuen. Um das auf solidere Füße zu stellen, haben wir nun eine GitHub-Präsenz eingerichtet und bringen dort einige unserer freien Projekte in den Public Domain.
Wir haben zunächst drei Projekte ausgewählt und für die Publikation auf GitHub überarbeitet und erweitert:
genpwd – Passwortgenerator, mit Berechnung der Entropie, und, neu, der Möglichkeit, leichter tippbare Passwörter zu generieren.
climb – Tool für Systemadministratoren, um für vielfältige Anwendungsfälle Mails von der Kommandozeile aus zu senden. Jetzt neu mit Inline-Attachments und mehr und sichereren Möglichkeiten für die Passwort-Übergabe.
dialsynth – Dialektische Synthese, lässt zwei KI-Modelle eine Synthese erstellen aus Antwort und Kritik, gestützt durch eine Faktenrecherche. Pipeline für Open WebUI. Jetzt neu mit der Möglichkeit, die Suche mit SearXNG lokal oder Brave (musste zuvor manuell eingerichtet werden) auszuführen, sowie mit erweiterten Valve-Parametern für Timeouts und die Sprache der Antwort.
Auf GitHub können Sie uns Verbesserungsvorschläge senden, oder Fehler melden. Wenn Sie ein eigenes Projekt von einem unserer Projekte ableiten möchten (Fork), geht das selbstverständlich ebenso. Unsere Projekte stehen unter Apache-2.0-Lizenz (Open Source) und dürfen auch kommerziell verwendet werden.
Wie vermutlich jedes Software-Unternehmen nutzen auch wir eine ganze Reihe von Open Source Projekten. Im Rahmen unserer Möglichkeiten unterstützen wir bereits einige davon. Dennoch möchten wir außerdem eigene freie Software der Community zur Verfügung stellen, GitHub ist die geeignete und etablierte Plattform dafür. Besuchen Sie uns dort, wir würden uns sehr freuen!
Wer OpenClaw verwendet, wird schnell feststellen, dass der Token-Verbrauch enorm werden kann. „Erinnerungen auf Steroiden“ haben ihren Preis. Zwar sind die Kosten für Input-Token immer deutlich niedriger als die Kosten für Output-Token, aber wenn jedesmal ein riesiger Berg von Kontext mit dem Prompt mitgeschickt wird, summiert sich das sehr schnell. Hinzu kommt, dass die großen und bekannten Anbieter die Verwendung von Chat-Accounts für Agenten explizit verbieten. Deren Pauschalangebote gelten nur für die Interaktion per Browser. Gibt es Alternativen?
Interessanterweise sind es gerade chinesische Anbieter, die attraktive Angebote speziell für agentische KI entwickelt haben. Vor allem Moonshot (mit dem Abo-Plan für Kimi Code) und MiniMax bieten Pauschalverträge mit garantierten (und günstigen) monatlichen Kosten, und bewerben explizit den Einsatz von Agenten wie OpenClaw damit. Das ist sehr schlau, denn das ist die offene Flanke der großen Anbieter. Deren – Verzeihung – gierige Preisgestaltung öffnet Möglichkeiten für die Konkurrenz, die sich bisher in der Breite noch schwer tut.
Es gibt bei Moonshot und MiniMax Usage-Limits, aber sie sind sehr großzügig bemessen und werden regelmäßig zurückgesetzt. Man kann also bei diesen Anbietern eine OpenClaw-Instanz betreiben zu einem fixen monatlichen Preis von 20 US$ oder noch weniger. Sprich, mit einem bekannten und überschaubaren Kostenrisiko. Neulich las ich einen Tweet, jemand schrieb, er habe OpenClaw mit einem der großen KI-Platzhirsche eingesetzt, und nach nur einem Monat schon über 3.600 US$ Rechnung eingefahren. Aber kein Wunder. Was OpenAI und Anthropic bei der verbrauchsorientierten Abrechnung per API-Key verlangen, sprengt jeden Rahmen, wenn OpenClaw mit seinem riesigen Kontext verwendet wird.
Die Modelle von Moonshot (Kimi Code) und MiniMax sind sehr gut, für agentische Aufgaben optimiert und können durchaus mit den besten Modellen von OpenAI und Anthropic mithalten. Doch vielleicht hat günstig auch seine Schattenseiten: Agentische KI könnte sich als hervorragendes Einfallstor für Industriespionage erweisen.
Insofern wäre unser Rat, die enormen Möglichkeiten agentischer KI zwar nicht zu ignorieren, aber wenn Sie etwas Derartiges betreiben möchten, fahren Sie es auf einer dedizierten Maschine, der Sie nur Aufgaben geben, für die Privacy kein allzu hoher Faktor ist. Solche (virtuellen) Instanzen können Sie schon ab 5 Euro im Monat mieten bei vielen Betreibern wie z.B. Hetzner. Oder Sie schnappen sich einen alten Schluffi, der irgendwo bei Ihnen noch herumliegt, und geben ihm ein neues Leben. Denn die Leistung der Maschine, auf der der KI-Agent läuft, muss nicht sonderlich groß sein. Die eigentliche Arbeit erledigt ja eine KI anderswo.
Sehr interessant sind auch ein Mac mini oder Mac Studio. Durch das Unified Memory von Apple können Sie auf diesen Geräten Ollama lokal betreiben und sehr große Modelle ausführen, wenn Sie einen Mac mit viel Speicher wählen. Das ist dann zwar eine sehr viel höhere Anfangsinvestition, hat aber keine monatlichen Kosten. Und Ihre Privatsphäre und Datensicherheit ist mit dieser Variante auch bestens garantiert.
OpenClaw, vormals MoltBot, vormals ClawdBot (Anthropic erzwang eine Namensänderung, und dann gefiel die erste Änderung doch nicht und man nannte nochmals um) ist eine coole Sache. Haben Sie schon einmal die Erinnerungen für eine Chat-KI ausprobiert? Bei OpenAI gibt es das, andere haben das bestimmt ebenfalls. Auch Open WebUI bietet eine experimentelle Implementierung bereits an. Es ist jedenfalls verblüffend, wieviel besser die Antworten werden, wenn die KI mit Erinnerungen vergangener Gespräche arbeiten kann.
Und OpenClaw ist Erinnerungen auf Steroiden. Merkt sich wirklich alles, genial gemacht. Und das ergibt ganz erstaunlich gut passende Antworten. Außerdem hat OpenClaw die Möglichkeit, auf das gesamte System zuzugreifen, auch auf digitale Accounts des Nutzers in den sozialen Medien und noch viel mehr. Natürlich, das muss man erstmal alles freischalten, aber wenn man es tut, dann kann OpenClaw auf Twitter oder Telegram posten, Mails verschicken, sogar telefonieren, auch auf Ihre Bankverbindung und Kreditkarten zugreifen, und mehr.