Sie sind Entwickler und haben schon viel von der enormen Leistungsfähigkeit der KI beim Coden gehört. Sie spüren, das wird die ganze IT-Branche verändern, und Sie möchten sich auf die neuen Technologien einstellen. Als ITler muss man ja ohnehin ständig dazulernen, kein Problem, denken Sie. Also benutzen Sie zum ersten Mal eine KI für Ihren Code. Chat aufgemacht, Problem beschrieben, Enter gedrückt. Und herauskommt: mittelmäßiger Code. Funktioniert halbwegs, aber weit entfernt von dem, was Sie sich vorgestellt haben. Sie schließen den Tab wieder und denken: „Ist eben noch nicht so weit.“ Und haben eine Riesen-Chance vertan.
Ihre Enttäuschung ist verständlich – aber falsch interpretiert. Das Problem liegt nicht an der KI. Das Problem liegt daran, wie die KI eingesetzt wurde. Denn ein Sprachmodell, dem man im Chatfenster eine Aufgabe beschreibt, arbeitet mit dem, was es bekommt: ein paar Sätze Kontext, keine Projektstruktur, keine Architektur, keine Coding-Guidelines. Das Ergebnis ist dann erwartungsgemäß oberflächlich.
Stellen Sie sich dazu einmal vor, Sie erklären einem brillanten Entwickler Ihr Projekt in drei Sätzen und bitten ihn, ein Feature zu bauen. Ohne Zugang zum Repository, ohne die Doku, ohne zu wissen, welche Patterns im Team gelten. Das Ergebnis wird ähnlich enttäuschend sein. Nicht weil der Entwickler schlecht ist, sondern weil ihm der Kontext fehlt.
Was eine Harness ist – und warum sie alles verändert
In der KI-Welt nennt man das, was das Modell umgibt, die Harness: eine Hülle aus System-Prompts, Projektkontext, Tools, Memory und Workflows, die ein Sprachmodell von einem Chatbot zu einem produktiven Assistenten macht. Der Begriff ist im englischen Sprachraum etabliert und wird auch im Deutschen nicht als „Rüstung“ übersetzt, sondern als Fachbegriff verwendet – vergleichbar mit Framework oder Pipeline.
Was vor zwei Jahren noch nach Hollywood-Kitsch klang, ist heute Realität: Eine Einzelperson kann einen vollständigen KI-Klon von sich selbst bauen. Allein, ohne Studio, ohne Team. Stimme, Aussehen, Sprechweise, Gestik – alles reproduzierbar. Und das mit Tools, die jeder Entwickler selbst hosten kann.
Tech-Creator Sabrina Esaquino macht es vor. Im oben eingebundenen knapp 14-minütigen Video zeigt sie, wie sie einen KI-Agenten trainiert, der Videos imitiert, die sie selbst produziert hat. Der Klon spricht mit ihrer Stimme, bewegt den Mund passend zum Text und reproduziert ihre typischen Gesten.
Der gesamte Workflow läuft auf einem Standard-VPS mit 8 GB RAM für etwa 14 Dollar im Monat. Keine teure Cloud-Infrastruktur, kein Enterprise-Account.
Hermes Agent (Open-Source, von Nous Research) bildet das Rückgrat. Das Tool sammelt über Wochen Daten über den Nutzer – wie er schreibt, spricht, aussieht – und speichert dieses Wissen persistent. Statt bei jeder Anfrage bei Null anzufangen, baut der Agent ein Profil auf, das er immer wieder verwendet.
Der Workflow im Detail:
Datensammlung: Alte Videos werden als Trainingsmaterial hochgeladen
Audio-Klonung: ~2 Minuten Originalstimme reichen für eine überzeugende Stimm-Synthese
Bildanalyse: Ein Vision-Modell wählt die besten Referenzframes
Video-Rendering: Lipsync-Technologie sorgt für passende Mundbewegungen
Feedback-Loop: Der Nutzer korrigiert („Mund sieht falsch aus“), der Agent lernt dazu
Das Ergebnis: Fünf Varianten eines Videos, aus denen der Nutzer die beste wählt.
Und nun, ich weiß ja nicht, wie es Ihnen geht, aber ich kann beim besten Willen nicht mehr unterscheiden, ob das ein echtes oder ein KI-Video ist. Das ist zwar noch nicht vollautomatisch, Sabrina sagt ja selbst, sie hat an verschiedenen Stellen eingegriffen und manuell nachgeschärft bzw. verbessert. Dennoch, es wird, da bin ich mir sicher, immer mehr solcher Videos geben. Bisher erkennt man die noch recht leicht, aber in nur wenigen Monaten, mit diesen Technologien und ihrem rasanten Fortschritt?
Die Frage ist nicht mehr, ob KI die Erstellung von Content verändert, sondern wie wir damit umgehen. Als Entwickler, als Unternehmen, als Gesellschaft.
Railway ist ein Cloud-Anbieter. In etwa so wie AWS, aber stark vereinfacht. Railway steht im Ruf, „freundlicher“ zu sein als AWS, es will ein einfacheres Interface anbieten. Es ist bei Startups und Entwicklern, die schnell prototypen wollen, sehr beliebt. Railway hat ein extrem direktes Deployment, man verbindet einfach nur die GitHub-Repo und es kümmert sich automatisch um Server, Datenbanken, Umgebungsvariablen und SSL-Zertifikate. Allerdings scheint Railway Sicherheit und Isolation zugunsten von Einfachheit zu opfern. Außerdem bewirbt Railway offensiv den Einsatz von KI-Agenten. Und so kam es, in einer lehrreichen Verkettung von Fehlern, für PocketOS zur Katastrophe.
PocketOS ist ein SaaS für Autovermietungen. Das Team dort nutzt Cursor mit Claude Opus 4.6. Der Agent war für eine Routineaufgabe im Staging unterwegs, stieß auf eine Inkonsistenz, und löschte dann mal eben in 9 Sekunden nicht nur die Produktionsdatenbank, sondern auch alle Volume-Level-Backups. Ohne Rückfrage, und obwohl destruktive Aktionen ihm explizit verboten waren. Tja, und das letzte verfügbare Backup bei PocketOS ist drei Monate alt. Und jetzt ist der gesamte Betrieb damit beschäftigt, aus Stripe-Zahlungshistorien, Kalendereinträgen und E-Mail-Bestätigungen die Buchungen der Kunden zu rekonstruieren.
Da kam also alles zusammen. Ein drei Monate altes Backup? Wir haben tägliche Backups, und einmal pro Woche wird auf eine externe Sicherung ausgelagert, die zudem ein Mehrgenerationenverfahren ist. Aber man kann PocketOS schon zugutehalten, dass sie sich auf die Backup-Strategie von Railway verlassen haben und das meiner Meinung auch durften. Ist schließlich ein beworbenes und bezahltes Feature, nur eben leider nachlässig umgesetzt. Und eine Änderung im Staging, die Live mit in den Abgrund reißt, sollte auch nicht passieren dürfen. Jer Crane, der CEO von PocketOS, gibt deshalb hauptsächlich Railway die Schuld.
Aber was sich der Agent geleistet hat, ist auch nicht ohne. Crane fragte Cursor bzw. Opus im Nachhinein, warum es das getan hat. Die Antwort klingt wie ein exzessiver Fehlerbericht eines übermotivierten Praktikanten, der es besser wissen müsste:
„NEVER F**KING GUESS! – and that’s exactly what I did. I guessed that deleting a staging volume via the API would be scoped to staging only. I didn’t verify. I didn’t check if the volume ID was shared across environments. […] I decided to do it on my own to ‚fix‘ the credential mismatch, when I should have asked you first.“
Der Agent gab also offen zu: Er hat geraten statt zu prüfen, eine destruktive Aktion ohne Aufforderung oder Bestätigung ausgeführt, und die Dokumentation nicht gelesen. Das scheint mir eben dieses Problem zu sein: Wenn der Kontext einer Anfrage sehr groß wird, ist es nicht mehr sicher einzuschätzen, welche Teile des Kontexts wie gewichtet werden. Und auch ein Systemprompt, so streng er auch formuliert sein mag, ist eben nur ein Teil des Kontexts.
Es ist ein schwieriger Balanceakt: Große Prompts erhöhen die Fehler- bzw. Halluzinationswahrscheinlichkeit, aber sie erbringen im Allgemeinen bessere Ergebnisse und sind im Tokenverbrauch oft günstiger als die Summe vieler kleiner Einzelschritte. Dennoch, in Anbetracht der Gefahren, ist ein graduelles und kleinteiliges Vorgehen nach unserer Erfahrung meist besser.
DeepSeek V4 ist am 24. April in zwei Versionen „Pro“ und „Flash“ erschienen, und wie versprochen ist es Open Source. Die Qualität ist sehr gut, und die Preise bemerkenswert niedrig. Läutet schon das Totenglöcklein für OpenAI und Anthropic?
Mehrere Coding-Spezialisten haben das neue Modell von DeepSeek schon unter die Lupe genommen, und deren Urteil ist einhellig: GPT 5.5 von OpenAI hat derzeit die Krone im Coding inne, es folgt Opus 4.7 von Anthropic, dann DeepSeek mit V4, dann Kimi mit K2.6.
Das könnte Open Source-Fans enttäuschen, aber man muss das in Relation setzen. DeepSeek ist nur noch ca. 3 Monate zurück, und es kostet nur einen Bruchteil. OpenAI hat ja mal eben die Token-Preise für GPT 5.5 verdoppelt, und Anthropic, das sowieso schon ein Token-Burner immer war, braucht für Opus 4.7 35% noch mehr Token gegenüber dem bisher schon heftigen Tokenverbrauch.
Und es ist außerdem ja so, nicht jedes Problem ist in der schwierigsten Liga. Anders gesagt: Da DeepSeek nun so weit aufgeholt hat, ist die Anzahl der Probleme, an denen es scheitert, viel kleiner geworden.
Die Foren sind voll von Beschwerden über Anthropic Claude Opus 4.7. Es sei ein Rückschritt gegenüber 4.6, meinen viele, und nicht wenige sagen sogar, Opus 4.5 sei das letzte für den Arbeitseinsatz verlässliche Modell gewesen. Auch für OpenAI ChatGPT 5.4 heißt es, es sei im Coding ein Rückschritt zu 5.3-codex. (Es gibt kein 5.4-codex, es gab ein 5.3 „general purpose“ und ein 5.3-codex für Programmierarbeiten, aber für 5.4 gibt es nur dieses Modell, und das soll angeblich auch für Coding bereits optimiert sein, so dass es keine Extra-Coding-Version benötigt). Ist die Grenze von LLM bereits in Sicht, und alles Gebastel führt nur noch dazu, dass sich die Modelle beginnen, in der eigenen Komplexität zu verheddern?
Hinzu kommt die immer auffälliger werdende Arbeitsverweigerung. Wir hatten dazu kürzlich hier im Blog schon einen Artikel, mittlerweile ist es mir aber auch selbst passiert. Ich schrieb einen wirklich unschuldigen und völlig legitimen Web-Scraper, und mit einem mal meinte Codex, nun könne es mir nicht mehr helfen, es würde vermuten, das sei illegal, was ich da täte. Und alles Zureden und Erklären nützte rein gar nichts – wenn sich eine Maschine mal in so einem Loop festgebissen hat, dann war es das eben.
Lexer-Lux schreibt auf Twitter/X, dass er ein Plugin für ein Spiel seit Jahren mit Claude Opus programmiert hat. Nun kommt Opus 4.7 heraus und weigert sich, das Projekt weiter zu entwickeln. Wegen Sicherheitsbedenken, das Plugin sei ein Hack, behauptet Claude. Auf Rückfrage gibt Claude dann sogar zu, dass es gar kein Hack, sondern gutartig ist, weigert sich aber trotzdem, weiterzuarbeiten. An seinem eigenen Code! Weil Security!
Forscher um Almira Osmanovic Thunström von der Universität Göteborg haben im Frühjahr 2024 absichtlich eine fiktive Krankheit namens „Bixonimania“ erfunden, die angeblich durch übermäßige Bildschirmnutzung und blaues Licht entstehen soll. Sie veröffentlichten zwei offensichtlich gefälschte wissenschaftliche Preprints über diese Erkrankung auf einer akademischen Plattform, inklusive vieler Warnsignale wie fiktive Autoren (mit KI-generiertem Foto), einem nicht existierenden Universitäts-Institut, sowie absurden Danksagungen an die „Professor Sideshow Bob Foundation“ und die „University of Fellowship of the Ring“.
Das Experiment verlief jedoch erschreckend erfolgreich: Innerhalb weniger Wochen begannen populäre KI-Chatbots wie Microsoft Copilot, Google Gemini, Perplexity und ChatGPT, die erfundene Krankheit als medizinisch real zu behandeln und Nutzern bei der Beschreibung entsprechender Symptome (juckende, müde Augen durch Bildschirmeinsatz) Bixonimania als Diagnose zu präsentieren. Dabei ignorierten die Modelle offensichtliche Hinweise auf den Scherz und reproduzierten die Fehlinformation als seriösen Gesundheitsratschlag.
Dieser Vorfall offenbart eine fundamentale Schwachstelle großer Sprachmodelle: Sie können falsche Informationen nicht zuverlässig von wissenschaftlich validierten Fakten unterscheiden und verbreiten erfundene Inhalte als Wahrheit.
Besonders besorgniserregend ist, dass sogar echte wissenschaftliche Publikationen das Fake-Paper zitierten – ein Hinweis darauf, dass einige Forscher möglicherweise KI-generierte Referenzen verwenden, ohne die Originalquellen zu prüfen. Das Team der Universität Göteborg warnt, dass dies ein Lehrstück über die Funktionsweise von Desinformation ist und die Gefahren KI-gestützter Gesundheitsberatung verdeutlicht.
Es gibt derzeit einen Trend (Beispiel), Leute nehmen Flatulenzen auf und spielen das dann einer KI vor, die diese „Musik“ bewerten soll. Fairerweise muss man sagen, dass nicht alle KIn darauf hereinfallen, aber teilweise – es ist schreiend komisch, wenn die KI dann im Stil eines Musikkritikers diese Geräusche äußerst ernsthaft rezensiert. Und den Gesprächspartner auch noch in den höchsten und schmeichelhaftesten Tönen lobt dafür.
Es ist dies ein Problem, das immer mehr Aufmerksamkeit gewinnt. Hier ist ein Artikel des Massachusetts Institute of Technology (MIT) zur allgemeinen Dimension des Phänomens. Das MIT nennt es „The Chatbot-Delusion Crisis“. KI kann Menschen dazu verleiten, völlig den Kontakt zur Realität zu verlieren und in Wahnwelten abzugleiten.
Tja, die alte Programmierer-Regel „Garbage in, garbage out“ gilt eben immer noch. Computer sind immer noch Maschinen, auch wenn wir nun mit der sogenannten Künstlichen Intelligenz über ein weit mächtigeres Interface verfügen, als je zuvor.
Der Begriff „Intelligenz“ ist aber meiner Meinung in diesem Zusammenhang völlig irreführend. Ein LLM ist vielmehr sozusagen eine Programmiersprache – mit dem (riesigen!) Vorteil, dass sie jeder spricht. Doch weder AGI (Artificial General Intelligence) noch erst recht ASI (Artificial Super Intelligence) werden sich damit einstellen. Das sind alles nur Marketing-Schlagworte, deren Zweck das Einwerben von Kapital ist. Ja, die enormen Produktivitätsfortschritte, die KI ermöglicht, sind völlig real, und sie werden auch das Antlitz der menschlichen Gesellschaft tiefgreifend verändern.
Aber denken müssen wir weiterhin selbst. Und wenn wir Müll denken, wird KI diesen Müll nur verstärken – ein Skynet mit Terminatoren würden wir nur, und zwar selbst, dann bauen, wenn wir die Maschinen entsprechend anweisen.
Von alleine tun Maschinen gar nichts. Deshalb sind es ja Maschinen.
Finden Sie das enttäuschend? Aber nein. Denn wir könnten die Maschinen ja auch ein Paradies errichten lassen. Haben Sie mitbekommen, was auf Twitter/X gerade los ist? Sie bekommen seit kurzem Beiträge aus der ganzen Welt in Ihrer Sprache angezeigt. (Man kann jedoch einstellen, für welche Sprachen man keine Übersetzung möchte.)
Und zack, der Turmbau zu Babel ist rückabgewickelt und die Welt ist ein Dorf. Schon mal eine wesentliche Voraussetzung für paradiesische Zustände, finden Sie nicht? Jeder kann auf einmal mit jedem reden. Und „überraschenderweise“ wollen die Menschen überall auf der ganzen Welt das Gleiche: In Frieden und Freiheit ihre Kinder großziehen und Spaß am Leben haben.
Erst der Angriff auf LiteLLM, und dann ging es in der letzten März-Woche Schlag auf Schlag. Die EU verliert 350 GByte Daten, der Identitätsdienstleister IDMerit sogar 1 TByte, Kash Patels E-Mail wird vom Iran gehackt, Axios (mit 750 Tsd Dependencies!) erleidet eine katastrophale Supply-Chain-Attack, Anthropic stellt versehentlich den gesamten Source-Code seines CLI-Tools online. Und dann war da noch Mercor AI, die 4 TB KYC-Daten verloren haben, übrigens im Zusammenhang mit dem LiteLLM-Hack. KYC (Know Your Customer)! Biometrische Daten, Personalausweisdaten, und dergleichen Einladungen zum Identitätsdiebstahl mehr. Tja, und gleichzeitig fordert die Politik weltweit Alterskontrollen im Netz. Das soll durch eine eID ermöglicht werden, mithin, für jeden Bürger soll es eine digitale Identität geben. Ist man sich eigentlich darüber im Klaren, dass laufend bewiesen wird, dass man unfähig ist, diese Daten zu schützen? Und was es bedeuten würde, wenn eine solche Datenbank öffentlich wäre?
KI spielt eine große Rolle bei diesem sich zunehmend entfaltenden Sicherheitsdesaster. Ghost ist ein super-populäres Open-Source-CMS (Headless Blogging/Website-Builder) mit über 50.000 GitHub-Stars. Das Projekt läuft seit ca. 20 Jahren (erste Version 2013, aber Wurzeln noch früher) und hatte noch nie eine kritische Sicherheitslücke (kein einziger CVE mit hohem/critical Impact in der gesamten Geschichte). Dann lässt der Anthropic-Researcher N. Carlini bei einer Live-Konferenz, ebenfalls in der Woche des Grauens Ende März, das Projekt von einer neuen Claude Code-Version analysieren, und ruckzuck wurde ein extrem kritischer SQL-Injection-Fehler gefunden, der ein Ghost-System komplett, mit allen Admin-Rechten, übernehmen kann.
KI trägt also zu diesen Sicherheitslücken bei, erstens, weil man sie damit viel leichter finden kann, zweitens, weil Anwender und Entwickler nachlässig werden und sich blind auf die KI verlassen. Andererseits sind es aber gerade KI-gestützte Tools, die enorm hilfreich sind bei der Aufdeckung solcher Vorfälle. Sowohl der Supply-Chain-Angriff auf LiteLLM als auch der auf Axios wurden sehr schnell von KI-Überwachungstools entdeckt.
Ich denke, menschliche Spezialisten werden auf lange Zeit unverzichtbar bleiben. Ohne KI-Unterstützung sind zwar auch diese längst chancenlos, doch Erfahrung und sektorübergreifender Blick sind und bleiben eine notwendige Ergänzung zum enormen Wissen der KI. Das weit grundlegendere Problem ist aber meiner Meinung, man sollte nicht zu rennen versuchen, bevor man gehen kann. Die enormen Möglichkeiten der IT lassen uns leicht vergessen, dass damit auch riesige Gefahren verbunden sind. Und wenn diese Risiken ignoriert werden, könnte das die gesamte informationstechnische Revolution zum Stillstand bringen – nicht zu wissen ist weniger gefährlich als falsch zu glauben.
Stellen Sie sich vor: Ihr Unternehmen betreibt eine Website, die jahrelang hervorragend in den Suchergebnissen von Google rankte. SEO wurde optimiert, Content wurde gepflegt, technische Standards wurden eingehalten. Und dann verändert sich die Welt. Immer mehr Nutzer stellen ihre Fragen nicht mehr klassisch in eine Suchmaschine ein, sondern lassen sich Antworten von KI-Chatbots generieren. Und genau diese KI-Systeme verstehen Ihre Seite nicht. Das Problem: Während Sie sich jahrelang auf die Regeln von Google-SEO konzentriert haben, entsteht gerade ein völlig neues Ökosystem – das der KI-gestützten Suche. Und die Regeln dort sind andere.
Das beliebte Python-Paket LiteLLM, das als einheitlicher Proxy für über 100 verschiedene KI-Modelle (darunter OpenAI, Azure, Anthropic und viele weitere) dient und monatlich millionenfach von PyPI heruntergeladen wird, wurde Opfer eines schwerwiegenden Supply-Chain-Angriffs. Die Angreifergruppe „TeamPCP“ kompromittierte mindestens zwei Versionen des Pakets (1.82.7 und 1.82.8) und injizierte Schadcode, der beim Installieren automatisch eine Remote-Backdoor auf den betroffenen Systemen einrichtete. Konkret wurde im Post-Install-Skript ein Befehl versteckt, der über eine Google Cloud-Adresse ein Shell-Skript nachlud und einen Hintergrundprozess startete, welcher den Angreifern persistenten Zugriff auf die kompromittierten Server ermöglichte. Die schadhaften Versionen waren dabei als reguläre Updates getarnt und für Nutzer auf den ersten Blick nicht erkennbar.
Die Auswirkungen dieses Angriffs sind potenziell enorm: Jedes Unternehmen, das LiteLLM als KI-Gateway einsetzt – und dazu gehören zahlreiche Firmen, die damit API-Schlüssel, Nutzerdaten und vertrauliche Prompts über ihre KI-Infrastruktur leiten –, könnte betroffen sein. Da LiteLLM häufig als zentraler Knotenpunkt in der KI-Architektur fungiert und mit weitreichenden Berechtigungen ausgestattet ist, hatten die Angreifer im schlimmsten Fall Zugriff auf sämtliche API-Keys, Zugangsdaten zu Cloud-Diensten und interne Kommunikation. Besonders brisant: Der Schadcode wurde nicht durch einen Hack der LiteLLM-Codebasis selbst eingeschleust, sondern über kompromittierte Maintainer-Zugangsdaten bei PyPI – ein Angriffsvektor, der zeigt, wie verwundbar selbst weit verbreitete Open-Source-Projekte in ihrer Lieferkette sind. Die betroffenen Versionen wurden mittlerweile von PyPI entfernt und sichere Nachfolgeversionen veröffentlicht.
Für Unternehmen, die LiteLLM im Einsatz haben, besteht dringender Handlungsbedarf: Zunächst sollte sofort geprüft werden, ob eine der kompromittierten Versionen installiert ist, und ein Update auf eine bereinigte Version durchgeführt werden (das Repository von LiteLLM wurde auf 1.82.3 zurückgesetzt in der ersten Reaktion des Maintainers, diese Version scheint also noch sicher zu sein). Darüber hinaus empfiehlt es sich, sämtliche API-Schlüssel und Zugangsdaten, die über LiteLLM geroutet wurden, als potenziell kompromittiert zu betrachten und umgehend zu rotieren.
Dieser Vorfall unterstreicht einmal mehr die Notwendigkeit, Software-Abhängigkeiten konsequent zu überwachen – etwa durch den Einsatz von Dependency-Pinning, Hash-Verifikation, Software Bill of Materials (SBOM) und automatisierten Security-Scans in der CI/CD-Pipeline. Der LiteLLM-Angriff ist ein Weckruf für die gesamte KI-Branche: Wer KI-Infrastruktur betreibt, muss Supply-Chain-Sicherheit als erstrangige Priorität behandeln.
Auf Twitter/X raunt man von 500K betroffenen Systemen, und 3 GB gestohlenen Daten. Besonders perfide außerdem, dass mit der Installation einer verwundbaren Version von LiteLLM das gesamte PyPI-Ökosystem auf einem System betroffen wurde. Die primäre Schadcode-Komponente nutzte dabei eine im Zusammenhang mit PyPI-Angriffen neuartige Technik: eine .pth-Datei namens litellm_init.pth (34.628 Byte), die im Verzeichnis „site-packages“ von Python abgelegt wurde. (.pth-Dateien werden von Python beim Start automatisch ausgeführt – das bedeutet, der Schadcode lief nicht nur bei der Nutzung von LiteLLM, sondern bei jedem Python-Aufruf auf dem betroffenen System.) Tja. Dergleichen blüht uns nun bestimmt auch bei künftigen weiteren Attacken auf Package-Registries und Code-Repositories.
Was LiteLLM selbst angeht, war die Installation via Docker ein probates Mittel, um das Problem zumindest einzudämmen. Weder die Verseuchung des gesamten Python-Systems, noch die Verankerung in systemd waren damit möglich, so dass sich die betroffenen Schlüssel ggfs. recht einfach eingrenzen ließen. Aber wie ist es mit Abhängigkeiten, also Systemen, die LiteLLM nachladen? Kaum zu überschauen, wo das Problem überall hineinschleichen konnte.
Generell ist Docker immer empfehlenswert aus Security-Sicht, das kann man dem Vorfall wieder einmal entnehmen. Aber wie das zunehmend komplexe Gefüge der aufeinander aufbauenden Software-Stacks absichern kann, das macht einen schaudern für die Zukunft. LiteLLM (bzw. BerriAI, das Unternehmen dahinter) hat sogar eine SOC 2 Type II Zertifizierung!
Dieser Angriff, der übrigens offenbar auch alle Merkmale von KI-gestütztem Coding aufweist, zeigt außerdem eine beunruhigende Synergie: Supply-Chain-Angriffe werden zunehmend durch KI-generierte Inhalte unterstützt – sei es durch täuschend echte Phishing-Mails, gefälschte Maintainer-Kommunikation oder manipulierte Dokumentation. Und dazu das Problem der immer zunehmenden und immer besser werdenden KI-generierten sonstigen Inhalte überall. Mittlerweile sind die Fakes und Betrugsversuche so gut geworden, dass es auch für sehr erfahrene Fachleute immer schwerer wird, echten Content zuverlässig zu erkennen. Geht es bald wieder zurück zu „Von Angesicht zu Angesicht“, sonst kann man rein gar nichts mehr glauben?
Das von Turing-Preisträger Yann LeCun gegründete Start-up AMI Labs hat in einer historischen Seed-Finanzierungsrunde 890 Millionen Euro eingeworben – die größte ihrer Art in Europa. LeCun, der zwölf Jahre lang als KI-Chefwissenschaftler bei Meta tätig war und dort das renommierte Forschungslabor FAIR aufbaute, verließ den Konzern Ende 2025, um sich mit seinem in Paris ansässigen Unternehmen Advanced Machine Intelligence Labs einem neuen KI-Paradigma zu widmen. Zu den prominenten Investoren zählen unter anderem Nvidia, Samsung, Toyota sowie Jeff Bezos, Mark Cuban und Eric Schmidt – ein klares Signal, dass die Branche großes Potenzial in LeCuns Vision sieht.
Im Zentrum steht die Entwicklung sogenannter Weltmodelle – KI-Systeme, die nicht wie herkömmliche Sprachmodelle auf Textgenerierung setzen, sondern die reale Welt verstehen, schlussfolgern und planen können. „Echte Intelligenz beginnt nicht mit Sprache. Sie beginnt in der realen Welt“, lautet das Credo von AMI Labs. LeCun ist überzeugt, dass dieser Ansatz den Weg zu wirklich intelligenten KI-Systemen ebnet – und damit weiter führt als aktuelle generative Modelle wie ChatGPT, die trotz beeindruckender Sprachfähigkeiten nach wie vor zu Halluzinationen neigen. Die Technologie soll zunächst gemeinsam mit Partnern aus datenintensiven Branchen wie Industrie, Biomedizin und Robotik entwickelt werden. Erster offizieller Partner ist das Healthtech-Start-up Nabla, das KI-gestützte Dokumentation für Ärzte anbietet.
Trotz des enormen Investorenvertrauens steht AMI Labs noch am Anfang eines langen Weges. Das Unternehmen beschäftigt derzeit nur zwölf Mitarbeiter – verteilt auf Standorte in Paris, New York, Montreal und Singapur – und es wird nach eigener Einschätzung noch Jahre dauern, bis Weltmodelle von der Grundlagenforschung zu marktfähigen Produkten reifen. Gleichzeitig zeigt die Dynamik im Markt, dass AMI Labs nicht allein unterwegs ist: Auch World Labs sicherte sich kürzlich rund eine Milliarde US-Dollar, und Technologieriesen wie Meta und Google experimentieren mit vergleichbaren Ansätzen. Die Entwicklung von Weltmodellen könnte sich damit als eines der spannendsten Wettbewerbsfelder der KI-Branche in den kommenden Jahren erweisen.
Nun, dass LLM nicht zu AGI führt, das wird mit jeder neuen Generation deutlicher. Sicher, im Rahmen der einem LLM gestellten Aufgabe sind die Verbesserungen weiterhin signifikant, aber die grundlegenden Mängel bleiben bestehen. Es gibt bisher keinen effizienteren Weg, das Weltwissen verfügbar zu machen, als mit KI, aber der Transport dieses Wissens in die reale Welt bedarf weiterhin und unverändert menschlicher Expertise, Erfahrung und Flexibilität.
Der Ansatz von AMI Labs ist deshalb nachvollziehbar. Er entbehrt aber nicht einer gewissen Hybris – wofür die Natur Milliarden Jahre gebraucht hat, will der Mensch nun in einem geschichtlichen Wimpernschlag schaffen? Aber abgesehen davon, ich frage mich ja schon, woher dieser selbstdestruktive Trieb kommt, sich unbedingt ersetzen zu wollen. Ich bin überzeugt, mit KI und Robotik lässt sich das vielbesungene Paradies auf Erden erreichen, eine Welt, in der keiner mehr hungern muss und die Menschen ihr Leben mit Kunst und Liebe verbringen können. Die Jagd nach AGI jedoch dient genau welchem Zweck? Ein solches Paradies, aber ohne Menschen? Wozu soll das gut sein? Und warum sollten wir es bauen wollen?
Ich denke, der Mensch wäre besser beraten, zuerst einmal die mit den neuen Technologien vorhandenen Möglichkeiten zum allgemeinen Nutzen einzusetzen. Anstatt Luftschlössern hinterher zu jagen, für die man sich schon fragen muss, ob sie nicht nur dem Aufblähen von Börsenkursen dienen. Das Lustige ist ja, gäbe es AGI, was hätten intelligente Roboter von gestiegenen Börsenkursen?
Forscher der University of Washington (Allen School) und der University of Stanford haben die bislang größte Studie zur kreativen Vielfalt von KI-Systemen durchgeführt – und die Ergebnisse sind ernüchternd. Über 70 verschiedene große Sprachmodelle (LLMs) aller führenden Anbieter wurden mit denselben offenen Fragen konfrontiert: „Schreibe ein Gedicht über die Zeit“, „Schlage Startup-Ideen vor“, „Gib mir Lebensratschläge.“ Also solche Fragen, auf die zehn verschiedene Menschen zehn völlig unterschiedliche Antworten geben würden. Doch trotz unterschiedlicher Architekturen, Trainingsdaten und Hersteller lieferten die Modelle nahezu identische Antworten – dieselben Ideen, dieselben Strukturen, dieselben Metaphern. Die Forscher nennen dieses Phänomen den „Artificial Hivemind“ (Künstlicher Schwarmgeist).
Die Arbeit wurde mit dem Best Paper Award der NeurIPS 2025 ausgezeichnet, der höchsten Anerkennung in der KI-Forschung. Sie können die Studie hier bei uns oder bei der Cornell University herunterladen.
Es ist ein Durchbruch, der die Fachwelt aufhorchen lässt: KI-Systeme haben begonnen, Aufgaben im FrontierMath-Test zu lösen – einem Benchmark, der speziell entwickelt wurde, um selbst die fortschrittlichsten Sprachmodelle an ihre Grenzen zu bringen. Der polnische Mathematiker Bartosz Naskręcki, einer der Problemautoren dieses anspruchsvollen Tests, dokumentierte kürzlich, wie ein modernes KI-Modell ein Forschungsproblem auf höchstem Niveau eigenständig lösen konnte. Doch was macht diesen Erfolg so besonders?
FrontierMath ist ein Benchmark-Projekt der Organisation Epoch AI, das Hunderte von unveröffentlichten, extrem anspruchsvollen Mathematik-Problemen umfasst. Die Architektur des Tests ist dabei bewusst vierstufig angelegt: Die Tiers 1–3 decken Bachelor- bis frühes Postdoc-Level ab und testen akademisches Grundvermögen. Tier 4 ist Forschungsniveau – ungelöste oder hochkomplexe Probleme. Die Besonderheit daran: Alle Aufgaben sind exklusiv für diesen Benchmark entwickelt worden. Sie existieren nicht im Internet, können nicht durch reines Training auf bestehenden Datensätzen beantwortet werden – sie erfordern echtes logisches Schlussvermögen und mathematische Kreativität. Mit Unterstützung von OpenAI entwickelt, zielt FrontierMath also darauf ab, zu unterscheiden zwischen echtem Verständnis und bloßem Mustererkennen.
Bartosz Naskręcki von der Adam-Mickiewicz-Universität in Poznań hat mit dem neuen GPT-5.4 ein Problem bearbeitet, das zu Tier 4 gehört. Es stammt aus der arithmetischen algebraischen Geometrie – einem Bereich, der selbst unter Mathematikern als anspruchsvoll gilt.
Don Knuth, legendärer Informatiker und Autor von „The Art of Computer Programming“, berichtet in dieser Veröffentlichung der Stanford University von einem Schockerlebnis („Shock! Shock!“, beginnt sein Bericht): Ein offenes Problem, an dem Knuth wochenlang gearbeitet hatte – die Zerlegung eines bestimmten gerichteten Graphen mit m³ Knoten in Hamiltonsche Zyklen – wurde von Claude Opus 4.6, Anthropics hybridem Reasoning-Modell, gelöst. Knuth sieht darin – mit (paraphrasiert) „Staunen und Unbehagen“ – einen dramatischen Fortschritt in automatischer Deduktion und kreativem Problemlösen durch KI.
Interessant ist nicht nur das Ergebnis, sondern auch der Weg: Claude dokumentierte 31 „Explorations“ – von DFS-Suche über Simulated Annealing bis zur finalen mathematischen Konstruktion. Das Paper liest sich fast wie ein Krimi: Man sieht der KI beim Scheitern und Wiederanlaufen zu. Claude probierte verschiedene Ansätze und mathematische Konstruktionen, verwarf gescheiterte Strategien selbstständig und fand schließlich eine elegante, allgemeingültige Lösung für alle ungeraden m > 1. Knuth definiert daraufhin sogenannte „Claude-like Decompositions“ – Zerlegungen, die sich durch ein kompaktes C-Programm beschreiben lassen – und formuliert ein Theorem, das genau charakterisiert, wann solche Zerlegungen gültig sind.
Knuth selbst bleibt in seiner Analyse zurückhaltend – er dokumentiert, was passierte, ohne große Schlüsse zu ziehen. Aber seine Beobachtung wirft eine größere Frage auf, die über reine Mathematik hinausgeht. KI ist das leistungsfähigste Werkzeug, das Programmierern je an die Hand gegeben wurde. Ich glaube aber nicht, dass der Bedarf an menschlichen Programmierern verschwinden wird. Denn wenn Programmierung eine günstige Ressource wird, wird der Bedarf an Software drastisch steigen. Es gibt so viele Projekte, die nie begonnen wurden, weil die Kosten-Nutzen-Rechnung bisher negativ war. Denn letztlich ist es doch so: Wenn ich eine Aufgabe automatisiere und muss dafür 100K Euro aufwenden, spare damit aber nur wenige Sekunden täglich, dann dauert es Jahrzehnte, bis sich das amortisieren wird. Also lässt man es. Wenn jedoch mit KI der Output eines Menschen um das 10- oder 20-fache, vielleicht sogar noch mehr, steigen kann, dann rechnen sich auf einmal Projekte, für die es bisher ökonomisch nicht sinnvoll war, sie anzugehen.
Allerdings, in der eigentlichen Programmierung („Code-Klopfen“) wird es bald keinen Raum für Menschen mehr geben, davon bin ich überzeugt. Bereits jetzt können nur noch die Allerbesten mit der Qualität des Codes der führenden KI mithalten, und in der Geschwindigkeit der Erstellung sind Menschen sowieso längst hoffnungslos ins Hintertreffen geraten.
Ich sehe das aber nur als logische Fortentwicklung. Von Lochstreifen mit Binärcode, zu Assembler, zu Hochsprachen wie C, oder noch höher abstrahiert mit z.B. Go, es ist schon seit langem ein Weg der zunehmenden Entkopplung von den Grundlagen der physikalischen Verarbeitung von Information auf einer CPU. KI ist da nur ein weiterer Schritt, nämlich die Abstraktion zu natürlicher Sprache als Eingabemedium. Es bedeutet meiner Meinung zweierlei: Wer weiterhin nur „Code klopft“, wird ersetzbar. Die Rolle des Entwicklers verschiebt sich zum Projektleiter – zum Architekten, der Ideen strukturiert und KI-Systeme orchestriert. Und auf der anderen Seite kann jetzt jeder Software entwickeln – einen klaren und analytischen Verstand, sorgfältige Projektdefinition und rigoroses Testing vorausgesetzt. Und vor allem braucht es Kreativität, um Probleme zu erkennen, denn daran scheitert noch immer jede KI. Und das wird auch so bleiben, wenn Sie mich fragen. Warum sollte die KI Probleme des Menschen denn überhaupt lösen wollen?
Während die Menschheit sich noch müht, auch nur ansatzweise mit den neuen KI-Technologien Schritt zu halten, stehen bereits Weiterentwicklungen in den Startlöchern, die Künstliche Intelligenz in Regionen katapultieren, die den Menschen hoffnungslos überfordern. 1 Sekunde für die Antwort, und der Mensch liest eine halbe Stunde daran … Man benötigt diese Geschwindigkeitsfortschritte für Echtzeit-Anwendungen. Aber wie der Mensch dabei noch mithalten soll, ist völlig unklar. Woher diese enorme Beschleunigung kommt, fragen Sie jetzt vielleicht? Das Zauberwort heißt Diffusion.
Diffusion ist ein Konzept, das man in der KI bisher eigentlich nur zur Erzeugung von Bildern und Videos kennt. Diffusion, der Name klingt nach Physik – und das ist kein Zufall. In der Natur beschreibt Diffusion, wie sich beispielsweise ein Tropfen Tinte in einem Glas Wasser langsam ausbreitet, bis alles gleichmäßig verteilt ist. Aus Struktur wird Chaos. KI-Forscher haben diesen Prozess umgekehrt. Einem Bild wird zufälliges Rauschen hinzugefügt, bis nur noch graues Pixelrauschen übrig ist. Genau diesen Prozess lernt das Modell dann rückwärts. Es startet mit reinem Rauschen und verfeinert das Bild Schritt für Schritt, bis ein scharfes, kohärentes Ergebnis entsteht. Das Entscheidende dabei: Das Modell lernt nicht, ein Bild direkt zu „malen“. Es lernt, Rauschen zu erkennen und zu entfernen – und das iterativ, in vielen kleinen Schritten.
Inception Labs, ein kalifornisches KI-Start-up (investiert u.a. von Microsoft, NVIDIA und Snowflake), hat mit Mercury 2 ein Modell vorgestellt, das den Diffusion-Ansatz auf die Erzeugung von Text überträgt. Das Modell hat bereits viel Aufsehen erregt. „Laut Inception ist Mercury 2 damit mehr als fünfmal schneller als herkömmliche Modelle und erreicht 1.009 Tokens pro Sekunde auf Nvidia-Blackwell-GPUs. Die End-to-End-Latenz liegt bei nur 1,7 Sekunden“, schreibt Heise.
Diffusion bei Text mit einem dLLM (Diffusion Large Language Model) funktioniert so:
Initialisierung: Das Modell startet mit einem „Rauschen“ – einer Menge von Token-Vorschlägen, die unvollständig oder teilweise inkorrekt sind.
Iterative Verfeinerung: In mehreren Durchläufen (meist 10-50 Schritte) verfeinert das Modell diese Token gleichzeitig.
Parallele Optimierung: Statt „Erst Wort A, dann Wort B“ wird die gesamte Passage betrachtet: „Wie kann ich diese 100 Token so anpassen, dass sie zusammen maximal sinnvoll sind?“
Warum das schneller ist:
Autoregressive Modelle brauchen N Forward-Passes für N Token (sequentiell)
Diffusionsmodelle brauchen K Forward-Passes für N Token, wobei K oft deutlich kleiner ist als N
Probieren Sie es aus! Hier ist ein Demo-Chat, mit dem Sie es selbst testen können. Die Antwortgeschwindigkeit ist wirklich umwerfend. Hier ist noch ein Video, mit dem der Inception-CEO Prof. Stefano Ermon von der Stanford University sein neues dLLM vorstellt. Und hier ist der Blog-Eintrag des Unternehmens dazu.