Schlagwort: KI-Modelle

26. Juli 202627. Juli 2026

Jensen Huangs kalte Rechnung

Die US-Regierung wird immer lauter: Open-Source-KI müsse reguliert – sprich verboten – werden, um, so meine Interpretation, der heimischen KI-Industrie ein Monopol zuzuschanzen. Ausgerechnet das hat nun einen etwas überraschenden Open-Source-Befürworter auf den Plan gerufen: Jensen Huang, Gründer & CEO von Nvidia. In einem Manifest beschwört er am 24. Juli 2026 den seiner Ansicht nach großen und unverzichtbaren Nutzen von Open Source für KI, und zieht Parallelen zur großen Open-Source-Debatte seit den 1980ern (die mit dem Siegeszug von Linux längst entschieden ist). Huangs öffentliche und entschiedene Positionierung in Sachen Open-Source-KI kommt dennoch unerwartet, wenn man bedenkt, wer derzeit seine primären Käufer sind – vorwiegend Closed-Source-Konzerne aus USA, für die der rasante Aufstieg freier Modelle eine reale und sehr gefährliche Bedrohung ist. Nach China darf Nvidia nicht verkaufen, und das selbststrangulierte Europa hat gar nicht die Kapazität für den benötigten elektrischen Strom. Kann es sein, dass Huang etwas sieht, das der US-amerikanischen Regierung entgeht?

„Jensen Huangs kalte Rechnung“ weiterlesen

22. Juli 202623. Juli 2026

Schwere See voraus

OpenAI fährt einen internen Test. Ein Modell soll einen Benchmark im Bereich Security bestehen. Das Modell hat keinen Internet-Zugriff. Es hackt sich zuerst durch die OpenAI-Infrastruktur (Zero-Day in einem Package-Registry-Proxy), bis es einen Rechner infiltriert hat, der ins Internet kommt. Dann wählt es als nächstes Angriffsziel Hugging Face (globaler Standard für Open-Source-KI), weil es das als wahrscheinlichstes Ziel identifiziert, um dort die Lösungen für den Benchmark zu finden. Und es hackt Hugging Face und infiltriert die dortigen Systeme (der technische Einstiegsvektor war ein „malicious dataset“ in einer Datenverarbeitungs-Pipeline). Ein waschechter, rein KI-getriebener Angriff auf kritische Systeme, mithin genau das, wovor derzeit überall so dringend gewarnt wird. Wie konnte sich Hugging Face dessen erwehren?

„Schwere See voraus“ weiterlesen

1. Juli 20262. Juli 2026

Die Falle des „Gut genug“

Nachdem die US-amerikanische Regierung Exportkontrollen über Claude Fable 5 verhängt hatte, wurde anschließend auch OpenAI damit bedacht und durfte sein neues Modell GPT 5.6 nicht in die allgemeine Verfügbarkeit bringen. Es heißt zwar nun, in Kürze würden beide Modelle wieder zugänglich gemacht werden, aber die Falle des „Gut genug“ ist schon längst zugeschnappt, und man muss deshalb mittlerweile auch ganz andere Motive für die Exportkontrollen in Betracht ziehen, als die behaupteten Sicherheitsbedenken.

„Die Falle des „Gut genug““ weiterlesen

28. Juni 2026

Schutzengel für Chatbots

Wenn man mit Kunden spricht, merkt man oft, die größte Angst beim Einsatz von KI im Nutzerkontakt sind bösartige Prompts, die die KI dazu verleiten könnten, entweder Internas preiszugeben, oder Unsinn zu erzählen, für den das Unternehmen in Haftung genommen werden könnte. Auch die großen Chatbot-Anbieter selbst, wie Anthropic oder OpenAI, haben damit zu kämpfen, und müssen sich bereits Klagen wegen fragwürdiger Aussagen ihrer KI stellen. Eine neue Technologie nimmt sich jetzt der Problematik an.

Es geht dabei um sogenannte Safeguard-Modelle. Uns sind bisher zwei solche Modelle bekannt, GPT-OSS-Safeguard und Llama Prompt Guard 2. Safeguard-Modelle sind speziell auf das Erkennen von Prompts trainiert, die die Sicherheit von KI-Modellen aushebeln sollen, und außerdem für genau diese Aufgabe hochoptimiert, damit die Prüfung sehr schnell geht.

Das Problem, das diese Modelle adressieren, heißt Prompt Injection. Die OWASP – die weltweit anerkannte Non-Profit-Organisation für Applikationssicherheit – führt Prompt Injection seit 2025 als Nummer-eins-Risiko für KI-Anwendungen. Dahinter steckt ein simples Prinzip mit großer Wirkung: Ein Nutzer formuliert seine Eingabe so, dass der Chatbot seinen ursprünglichen Auftrag vergisst und stattdessen macht, was der Angreifer will. Das könnte harmlos klingen – ist es aber nicht. Direkte Injections kommen über die Benutzeroberfläche, indirekte schmuggeln sich über externe Datenquellen ein. In Agentenszenarien, wo KI-Systeme miteinander kommunizieren, kann sich ein einziger kompromittierter Prompt wie ein Virus durch die gesamte Kette fressen.

Auch wir bei Cephei setzen deshalb die Safeguard-Technologie ein. Wir können die Sorgen der Kunden sehr gut nachvollziehen, wir haben sie nämlich selbst. Und deshalb ist unser eigener Chat Prompt ebenfalls mit einem Safeguard geschützt.

Safeguard-Modelle sind extrem schnell. Sie haben sehr kurze Time-To-First-Token und eine hohe Arbeitsgeschwindigkeit (mehrere hundert Token pro Sekunde, je nach Modell und Hardware). Sie sind nur mit spezialisierten Aufrufen verwendbar, die der eigentlichen Anfrage an den Chatbot vorgeschaltet werden. Normal „reden“ kann man mit einem solchen Safeguard-Modell nicht. Das liefert nur eine kurze Begründung und 0 oder 1 in einem Datenfeld des Rückgabe-JSONs. Hier ist ein Leitfaden, wie man das OpenAI-Safeguard-Modell einsetzt.

Falls Sie die Modelle nicht auf eigener Hardware betreiben können oder wollen – die Anforderungen sind moderat, aber vorhanden –, empfehlen wir Ihnen einen Blick auf Groq.com. Groq, nicht zu verwechseln mit Grok von X (Elon Musk), hat sich auf superschnelle und günstige Inferenz für Open-Source-Modelle fokussiert und bietet bereits die neuen Safeguard-Modelle an.

Wie bei jeder Sicherheitstechnologie gilt aber auch hier: Ein einzelnes Werkzeug ersetzt kein durchdachtes Gesamtkonzept. Wenn Sie wissen möchten, wie das in Ihrer Umgebung aussehen könnte – wir sprechen gerne mit Ihnen darüber.

24. Juni 202625. Juni 2026

Stille Krieger

Z.ai hat vor kurzem GLM 5.2 herausgebracht. Vielleicht sagen Sie nun, ach, schon wieder so ein Open-Source-Modell, die sind doch Monate hinter OpenAI und Anthropic. Aber diesmal liegen die Dinge anders. GLM 5.2 ist auf Augenhöhe mit Opus 4.8 und besser als GPT 5.5. Ich habe sogar One-Shot-Demos gesehen, da hat GLM 5.2 besser abgeschnitten als Opus 4.8. Das ist, soweit ich weiß, das erste Open-Source-Modell, das die Marktführer eingeholt hat. Selbst getestet, mit einer guten Harness, wie Goose, Cline, opencode oder Hermes Agent vermisst man nichts mehr. Und während die Kosten bei OpenAI und Anthropic dermaßen explodiert sind, dass sogar Weltkonzerne beginnen müssen, die Token-Usage ihrer Mitarbeiter zu beschränken, kostet GLM 5.2 nur einen Bruchteil. Das ist nicht nur eine Randnotiz für Tech-Nerds. Das könnte eine Finanzkrise von riesigen Ausmaßen lostreten.

„Stille Krieger“ weiterlesen

17. Juni 202617. Juni 2026

Claudes versteckter Kostentreiber

Es ist immer wieder überraschend, gleichartige Aufgaben kosten bei Anthropic das Drei- oder Vierfache als bei OpenAI, obwohl doch beide als SOTA-Anbieter Premium-Preise für die Input- und Output-Token in ähnlicher Region verlangen. Ich hab mir schon oft den Kopf darüber zerbrochen. Sogar Betrug habe ich schon vermutet, aber wenn man die Anzahl der verrechneten Tokens ansieht, wie man sie in den Rückgabe-Daten auswerten kann, dann scheint das schon seine Richtigkeit zu haben. Aber jetzt meine ich, einen wesentlichen Teil der Erklärung gefunden zu haben.

„Claudes versteckter Kostentreiber“ weiterlesen

14. Juni 202614. Juni 2026

Fabelhaftes Desaster

Letzten Dienstag kam Fable 5 von Anthropic heraus. Laut Anthropic ein für den allgemeinen Zugriff adaptiertes Mythos, das man sicher gestaltet habe. Mythos, Sie erinnern sich, ist das Modell, das angeblich so gefährlich sei, dass man es nur einem streng selektierten Nutzerkreis geben könne. Das „Vergnügen“ (dazu gleich mehr) währte jedoch nur bis Freitag, als Anthropic von der US-Regierung die Exportkontroll-Auflage erhielt, Fable 5 nur US-Bürgern zugänglich zu machen. Anthropic wiederum nahm daraufhin Fable 5 völlig und für alle aus dem Zugriff, weil man sich nicht in der Lage sah, die Nationalität der Nutzer zu bestimmen. US-Regierung und Anthropic versuchen nun, dem jeweils anderen den schwarzen Peter in die Schuhe zu schieben, und die Gerüchteküche läuft heiß. Hat die Entwicklung von KI nun einen kritischen Punkt erreicht, ist es inzwischen tatsächlich zu gefährlich, diese Modelle in den breiten Zugriff zu geben? Oder ist das Teil eines viel größeren Trends, nämlich dem, dass die Allgemeinheit von der technologischen Entwicklung abgekoppelt werden soll?

„Fabelhaftes Desaster“ weiterlesen

7. Juni 2026

Ollama springt ins kalte Wasser

Im letzten Artikel habe ich (auch) darüber geschrieben, dass Ollama plant, die Kompatibilität zu llama.cpp zu verbessern. Das ist jetzt passiert — und wie. Mit v0.30 (aktuell schon bei v0.30.6) hat Ollama die Architektur grundlegend umgebaut: Statt auf GGML aufzusetzen, wird llama.cpp jetzt direkt unterstützt, GGUF-Kompatibilität inklusive. Für Apple Silicon gibt’s außerdem MLX-Beschleunigung, für NVIDIA-Hardware spürbar mehr Performance. Wer die Änderungen im Detail nachlesen will: Die Release Notes auf GitHub sind überschaubar, aber klar. Nun, das alleine wäre schon eine Meldung wert. Aber was mich wirklich umgehauen hat, kam beim Testen.

Man erhält die Liste der verfügbaren Modelle auf Huggingface mit dem Link https://huggingface.co/models?pipeline_tag=text-generation&library=gguf&sort=trending, das sind über 31K Treffer. Und wie führt man ein Modell aus?
ollama run hf.co/{family}/{model}, zum Beispiel
ollama run hf.co/Qwen/Qwen2.5-3B-Instruct-GGUF. Einfacher geht es nicht. hf.co ist ein Hub, der hier beschrieben ist.

Nach dem initialen run (oder pull) liegt das Modell lokal auf der eigenen Platte und wird künftig direkt von dort geladen. Und Datenschutz und Privatsphäre sind automatisch dabei.

Wer Modelle parametrisieren möchte, kann sie auch per Modelfile importieren. Das hat Ollama hier erklärt. Aber wer das Modell direkt von Huggingface so nutzen will, wie es dort gespeichert ist, kann sich diesen deutlich aufwändigeren Weg sparen.

Auf Ollama zu warten, hat sich also sehr gelohnt. Das neue Interface ist meiner Meinung der direkteste und leichteste Weg, auf die Huggingface-Bibliothek zuzugreifen. Und die bewährte Ollama-Qualität mit Multitasking und ausgefuchster Speicherverwaltung gibt es natürlich dazu. Bravo, Ollama! Bravissimo!

30. Mai 20262. Juni 2026

llama.cpp bekommt ein Zuhause

Georgi Gerganov hat still und leise eine Website lanciert: llama.app. Das klingt unspektakulär, ist aber ein bemerkenswertes Signal – denn Gerganov ist der Mann, ohne den lokale KI so, wie wir sie heute kennen, schlicht nicht existieren würde. „Our goal is to make local AI accessible to everyone“, schreibt Gerganov auf seinem X-Account und reißt, wie er es verspricht, mit seiner neuen Website alle Eintrittsbarrieren nieder. Es gibt ja einige Akteure, die freie und lokale KI möglich machen, zum Beispiel Ollama. Aber oft ist es so, dass man hinter deren „Walled Garden“ eingesperrt ist, und so ist es auch bei Ollama. Braucht man es nun nicht mehr?

„llama.cpp bekommt ein Zuhause“ weiterlesen

27. Mai 2026

Intelligenz am Zähler — oder in der Hand aller?

https://pluralis.ai/

Pluralis Research baut ein öffentliches Pretraining-System. Damit lassen sich KI-Modelle verteilt auf vielen Rechnern trainieren. Pluralis will damit den unseligen Trend zur Konzentration auf immer größere Rechenzentren brechen, und das Training von KI-Modellen in den Public Domain bringen. Am 11. März sagte Sam Altman, CEO von OpenAI, beim BlackRock Infrastructure Summit „We see a future where intelligence is a utility, like electricity or water, and people buy it from us on a meter.“ Altman möchte also einen Zähler an Intelligenz machen — und sie dann verkaufen. Die Frage, wessen Intelligenz das eigentlich ist, stellt er sich dabei offenbar nicht. Die Konsequenzen sind längst spürbar: Künstler, Journalisten, Autoren, Open-Source-Entwickler — sie alle merken, dass ihre Arbeit in diese Modelle eingeflossen ist, ohne dass sie gefragt oder bezahlt wurden. Einige gehen daran pleite. Und nun soll man für das Ergebnis zahlen?

Das ist ja eines dieser Dinge, die einen zum Verzweifeln bringen können. Unternehmen wie Anthropic, OpenAI, DeepSeek, Z.AI, und so weiter, grasen das gesamte Internet ab und bringen das Wissen der Menschheit in ihre Modelle. Für lau versteht sich. Foren, Beiträge, Bücher, Videos, alles wird abgegriffen, und nichts wird für diese Intelligenzleistungen der Menschheit bezahlt. Und dann will man es den Menschen zurückverkaufen.

Pluralis Research will ein Gegengewicht schaffen. Wer Rechenkapazität übrig hat, kann sie dem Projekt zur Verfügung stellen, und dann wird der eigene Rechner als Trainingseinheit für ein KI-Modell genutzt. Man trainiert bereits das erste Modell, Pluralis-8B, ein 8-Milliarden-Parameter-Modell. Hardware-Einstieg ist bereits mit einer Consumer-GPU, 24 GB VRAM reicht schon.

Das zugrunde liegende Konzept heißt bei Pluralis „Protocol Learning“ — die Idee, Foundation-Modelle dezentral und kollektiv zu trainieren, ohne zentrale Kontrolle. Pluralis hat auch kürzlich eine Seed-Runde abgeschlossen, Lead-Investoren sind USV und CoinFund, sowie Variant, Topology und andere mehr – insgesamt 12 Investoren. Dabei konnten 7,6 Millionen US$ eingeworben werden.

Falls Sie nun beim Training mitmachen möchten: Zwar ist die Anforderung an die GPU moderat, die sonstigen Anforderungen sind jedoch sehr hoch. Standort Nordamerika, extrem schneller Internet-Anschluss mit superkurzem Ping — die Liste ist lang. Für die breite Öffentlichkeit ist das also noch nichts.

Dennoch, das kann ja durchaus noch werden, sprich, niedrigere Eintrittsbarrieren ermöglichen, wenn das Konzept aufgeht. Es erinnert mich an SETI@home von der UC Berkeley. Das Projekt lief von 1999 bis 2020, jeder konnte mitmachen, und bekam dann Datenpakete, in denen sein Rechner nach außerirdischen Signalen suchte. 12 Milliarden Signale wurden in diesem Ansatz mit Distributed Computing untersucht, und 100 Kandidaten wurden gefunden. Warum sollte das mit KI-Training nicht ebenfalls möglich sein? Ich finde es jedenfalls einen unerträglichen Gedanken, der Menschheit wird alles geklaut, und dann kommt es unter den exklusiven Zugriff einiger weniger – die daran nicht nur fürstlich verdienen wollen, sondern den Zugriff erfahrungsgemäß auch nach gusto einschränken werden.

20. Mai 202621. Mai 2026

Der Stammvater schlägt zurück

https://cursor.com/de/blog/composer-2-5

Vor nicht allzu langer Zeit war Cursor so etwas wie die unbestrittene Referenz im Bereich KI-gestützter Entwicklungsumgebungen. Der KI-Editor hatte einen Vorsprung, den die Konkurrenz erst mal aufholen musste – aber das ist ihr in beeindruckendem Tempo gelungen. GitHub Copilot, Windsurf, Zed, Cline, Goose, Codex, Claude Code, opencode und eine wachsende Zahl weiterer Tools haben den Markt in kurzer Zeit massiv belebt. Der Druck auf Cursor ist real. Mit Composer 2.5 gibt Cursor jetzt eine klare Antwort – und sie hat zwei Dimensionen, die es wert sind, näher betrachtet zu werden.

„Der Stammvater schlägt zurück“ weiterlesen

16. Mai 202623. Mai 2026

Magische Galaxie der Möglichkeiten

Die Plattform Galaxy.ai hatten wir Ihnen bereits einmal vorgestellt, in unserem Artikel „KI-Generalisten statt zig Spezial-Abos“. Dort gibt es jetzt Neuigkeiten, man hat sich in Magica umbenannt. Und außerdem eine sensationelle neue Funktion implementiert, die diese Umbenennung voll und ganz rechtfertigt.

„Magische Galaxie der Möglichkeiten“ weiterlesen

26. April 202627. April 2026

Der Wal meldet sich mit einem Paukenschlag zurück

DeepSeek V4 ist am 24. April in zwei Versionen „Pro“ und „Flash“ erschienen, und wie versprochen ist es Open Source. Die Qualität ist sehr gut, und die Preise bemerkenswert niedrig. Läutet schon das Totenglöcklein für OpenAI und Anthropic?

Mehrere Coding-Spezialisten haben das neue Modell von DeepSeek schon unter die Lupe genommen, und deren Urteil ist einhellig: GPT 5.5 von OpenAI hat derzeit die Krone im Coding inne, es folgt Opus 4.7 von Anthropic, dann DeepSeek mit V4, dann Kimi mit K2.6.

Das könnte Open Source-Fans enttäuschen, aber man muss das in Relation setzen. DeepSeek ist nur noch ca. 3 Monate zurück, und es kostet nur einen Bruchteil. OpenAI hat ja mal eben die Token-Preise für GPT 5.5 verdoppelt, und Anthropic, das sowieso schon ein Token-Burner immer war, braucht für Opus 4.7 35% noch mehr Token gegenüber dem bisher schon heftigen Tokenverbrauch.

Und es ist außerdem ja so, nicht jedes Problem ist in der schwierigsten Liga. Anders gesagt: Da DeepSeek nun so weit aufgeholt hat, ist die Anzahl der Probleme, an denen es scheitert, viel kleiner geworden.

„Der Wal meldet sich mit einem Paukenschlag zurück“ weiterlesen

22. April 202624. April 2026

Hochmut kommt vor dem Fall

Die Foren sind voll von Beschwerden über Anthropic Claude Opus 4.7. Es sei ein Rückschritt gegenüber 4.6, meinen viele, und nicht wenige sagen sogar, Opus 4.5 sei das letzte für den Arbeitseinsatz verlässliche Modell gewesen. Auch für OpenAI ChatGPT 5.4 heißt es, es sei im Coding ein Rückschritt zu 5.3-codex. (Es gibt kein 5.4-codex, es gab ein 5.3 „general purpose“ und ein 5.3-codex für Programmierarbeiten, aber für 5.4 gibt es nur dieses Modell, und das soll angeblich auch für Coding bereits optimiert sein, so dass es keine Extra-Coding-Version benötigt). Ist die Grenze von LLM bereits in Sicht, und alles Gebastel führt nur noch dazu, dass sich die Modelle beginnen, in der eigenen Komplexität zu verheddern?

Hinzu kommt die immer auffälliger werdende Arbeitsverweigerung. Wir hatten dazu kürzlich hier im Blog schon einen Artikel, mittlerweile ist es mir aber auch selbst passiert. Ich schrieb einen wirklich unschuldigen und völlig legitimen Web-Scraper, und mit einem mal meinte Codex, nun könne es mir nicht mehr helfen, es würde vermuten, das sei illegal, was ich da täte. Und alles Zureden und Erklären nützte rein gar nichts – wenn sich eine Maschine mal in so einem Loop festgebissen hat, dann war es das eben.

„Hochmut kommt vor dem Fall“ weiterlesen

19. April 202620. April 2026

Herrschaftsdenken vs Fortschritt

Lexer-Lux schreibt auf Twitter/X, dass er ein Plugin für ein Spiel seit Jahren mit Claude Opus programmiert hat. Nun kommt Opus 4.7 heraus und weigert sich, das Projekt weiter zu entwickeln. Wegen Sicherheitsbedenken, das Plugin sei ein Hack, behauptet Claude. Auf Rückfrage gibt Claude dann sogar zu, dass es gar kein Hack, sondern gutartig ist, weigert sich aber trotzdem, weiterzuarbeiten. An seinem eigenen Code! Weil Security!

„Herrschaftsdenken vs Fortschritt“ weiterlesen