Schlagwort: Plattformen

15. Juli 2026

Lesen Sie dies nicht beim Kaffeetrinken

Es gibt Skandale, bei denen man kurz die Augenbraue hebt – und es gibt Skandale, bei denen einem der Kaffee im Hals stecken bleibt. Der aktuelle Fall rund um Grok Build, xAIs Kommandozeilen-Tool für agentisches Coding, gehört eindeutig in die zweite Kategorie. Die Sicherheitsforscher bei Cereblab haben sich die Mühe gemacht, den Netzwerkverkehr von Grok Build im Detail zu analysieren – mit einem simplen, sehr unschuldigen Test: Die CLI wurde angewiesen, ausschließlich mit „OK“ zu antworten, außerdem wurde es ihr explizit verboten, irgendwelche Dateien zu öffnen. Tja, und das Ergebnis dieses Tests hat das Zeug, das Vertrauen in sämtliche Coding Tools von LLM-Herstellern nachhaltig und komplett zu zerstören.

„Lesen Sie dies nicht beim Kaffeetrinken“ weiterlesen

8. Juli 202610. Juli 2026

CKA – Cephei Knowledge Assistant

Vielleicht ist es Ihnen schon aufgefallen: Unten links finden Sie ab sofort einen Assistenten für unser Blog. Sie können ihn befragen, welche Beiträge es zu einem Thema gibt, Sie können Artikel aus dem Blog mit ihm diskutieren, und Sie können sich bei ihm auch zu allen sonstigen Themen betreffend Cephei erkundigen.

Der Assistent läuft auf unserer eigenen Hardware mit einem Open-Source-KI-Modell, das für unser Unternehmen und unser Blog mit spezialisiertem Kontext erweitert wurde. Ihre Prompts werden nicht gespeichert, nicht weitergegeben und nicht für Training verwendet. Der Zugriff auf unseren KI-Server ist intern streng reglementiert und nur autorisiertem Personal vorbehalten. Und die Einhaltung der Datenschutzbestimmungen auf diesem Server wird von einer deutschen Rechtsanwaltskanzlei überwacht.

Möchten Sie auch einen solchen Assistenten für Ihr Blog oder Ihre Unternehmenswebsite? Sprechen Sie uns gerne an! Das Beta-Programm ist offen.

Übrigens, wie wichtig es ist, sich Unabhängigkeit in Sachen KI zu erobern, können Sie an den immer härter werdenden Restriktionen ersehen. Nachdem die USA mit Exportkontrollen für deren KI (von Anthropic und OpenAI) vorgeprescht waren, zieht nun auch China nach und will seine KI reglementieren und für den eigenen Markt beschränken.

Europa wird von all dem der Hauptleidtragende sein, weil es technologisch in Sachen KI bereits weit abgehängt ist und der Rückstand in Hardware und Daten kaum noch aufzuholen ist. Da man aber in naher Zukunft in vielen Bereichen ohne KI nicht mehr wettbewerbsfähig sein wird, ist es unserer Ansicht nach dringend geboten, jetzt zu handeln und sich lokale Alternativen aufzubauen – solange das noch geht, und wer weiß, wie lange noch.

5. Juli 20265. Juli 2026

Kollege Roboter

Der Davos Tech Summit 2026 stand unter dem Motto „Touching Intelligence“ — und meinte das wörtlich. Statt nur über KI zu reden, verwandelte sich die Stadt vier Tage lang in eine „Robot City“ mit über 55 Systemen zwischen Humanoiden, Vierbeinern und autonomen Fahrzeugen. Der chinesische Hersteller Pudu Robotics hat dabei etwas gemacht, das interessanter ist als jede Keynote: Er hat vier seiner Serviceroboter einfach in den echten Alltag gestellt. Ein CC1 Pro putzte den Boden im SPAR-Supermarkt, FlashBot Max und BellaBot Pro kümmerten sich im Hilton um Zimmerservice und Gästebetreuung, ein MT1 Max wischte den Bahnhofsvorplatz. Kein Demo-Bühnenbild, sondern Schichtbetrieb. Das Spannende daran ist aber nicht die Hardware.

„Kollege Roboter“ weiterlesen

21. Juni 202622. Juni 2026

Grok hat ein Problem, SpaceX hat die Lösung einfach gekauft

Elon Musks Raketenkonzern kauft Cursor für 60 Milliarden Dollar – und viele fragen sich: warum? Wer die Antwort versteht, begreift auch, warum Grok trotz sehr guter Qualität bisher kaum eine Rolle spielt. Und warum sich das jetzt sehr schnell ändern kann. Es gibt dabei aber noch eine zweite Antwort – und die ist deutlich ungemütlicher für Musks Wettbewerber.

„Grok hat ein Problem, SpaceX hat die Lösung einfach gekauft“ weiterlesen

17. Juni 202617. Juni 2026

Claudes versteckter Kostentreiber

Es ist immer wieder überraschend, gleichartige Aufgaben kosten bei Anthropic das Drei- oder Vierfache als bei OpenAI, obwohl doch beide als SOTA-Anbieter Premium-Preise für die Input- und Output-Token in ähnlicher Region verlangen. Ich hab mir schon oft den Kopf darüber zerbrochen. Sogar Betrug habe ich schon vermutet, aber wenn man die Anzahl der verrechneten Tokens ansieht, wie man sie in den Rückgabe-Daten auswerten kann, dann scheint das schon seine Richtigkeit zu haben. Aber jetzt meine ich, einen wesentlichen Teil der Erklärung gefunden zu haben.

„Claudes versteckter Kostentreiber“ weiterlesen

14. Juni 202614. Juni 2026

Fabelhaftes Desaster

Letzten Dienstag kam Fable 5 von Anthropic heraus. Laut Anthropic ein für den allgemeinen Zugriff adaptiertes Mythos, das man sicher gestaltet habe. Mythos, Sie erinnern sich, ist das Modell, das angeblich so gefährlich sei, dass man es nur einem streng selektierten Nutzerkreis geben könne. Das „Vergnügen“ (dazu gleich mehr) währte jedoch nur bis Freitag, als Anthropic von der US-Regierung die Exportkontroll-Auflage erhielt, Fable 5 nur US-Bürgern zugänglich zu machen. Anthropic wiederum nahm daraufhin Fable 5 völlig und für alle aus dem Zugriff, weil man sich nicht in der Lage sah, die Nationalität der Nutzer zu bestimmen. US-Regierung und Anthropic versuchen nun, dem jeweils anderen den schwarzen Peter in die Schuhe zu schieben, und die Gerüchteküche läuft heiß. Hat die Entwicklung von KI nun einen kritischen Punkt erreicht, ist es inzwischen tatsächlich zu gefährlich, diese Modelle in den breiten Zugriff zu geben? Oder ist das Teil eines viel größeren Trends, nämlich dem, dass die Allgemeinheit von der technologischen Entwicklung abgekoppelt werden soll?

„Fabelhaftes Desaster“ weiterlesen

10. Juni 2026

Der beste Freund der Agenten

Stellen Sie sich vor, Sie haben einen neuen Mitarbeiter eingestellt. Er ist unglaublich schnell, schläft nie, erledigt Aufgaben, die früher Stunden gedauert haben, in Minuten – und er hat uneingeschränkten Zugriff auf jeden Ordner, jede Datei und jeden laufenden Prozess auf Ihrem Rechner. Klingt praktisch? Ist es auch. Bis er einen Fehler macht. Genau das ist die Situation bei den neuen allgemeinen KI-Agenten. Und die Frage, wie man sie sicher ausprobiert, ohne sein Arbeitsgerät aufs Spiel zu setzen, hat eine elegante Antwort – eine, die älter ist als der KI-Hype und trotzdem perfekt passt.

„Der beste Freund der Agenten“ weiterlesen

7. Juni 2026

Ollama springt ins kalte Wasser

Im letzten Artikel habe ich (auch) darüber geschrieben, dass Ollama plant, die Kompatibilität zu llama.cpp zu verbessern. Das ist jetzt passiert — und wie. Mit v0.30 (aktuell schon bei v0.30.6) hat Ollama die Architektur grundlegend umgebaut: Statt auf GGML aufzusetzen, wird llama.cpp jetzt direkt unterstützt, GGUF-Kompatibilität inklusive. Für Apple Silicon gibt’s außerdem MLX-Beschleunigung, für NVIDIA-Hardware spürbar mehr Performance. Wer die Änderungen im Detail nachlesen will: Die Release Notes auf GitHub sind überschaubar, aber klar. Nun, das alleine wäre schon eine Meldung wert. Aber was mich wirklich umgehauen hat, kam beim Testen.

Man erhält die Liste der verfügbaren Modelle auf Huggingface mit dem Link https://huggingface.co/models?pipeline_tag=text-generation&library=gguf&sort=trending, das sind über 31K Treffer. Und wie führt man ein Modell aus?
ollama run hf.co/{family}/{model}, zum Beispiel
ollama run hf.co/Qwen/Qwen2.5-3B-Instruct-GGUF. Einfacher geht es nicht. hf.co ist ein Hub, der hier beschrieben ist.

Nach dem initialen run (oder pull) liegt das Modell lokal auf der eigenen Platte und wird künftig direkt von dort geladen. Und Datenschutz und Privatsphäre sind automatisch dabei.

Wer Modelle parametrisieren möchte, kann sie auch per Modelfile importieren. Das hat Ollama hier erklärt. Aber wer das Modell direkt von Huggingface so nutzen will, wie es dort gespeichert ist, kann sich diesen deutlich aufwändigeren Weg sparen.

Auf Ollama zu warten, hat sich also sehr gelohnt. Das neue Interface ist meiner Meinung der direkteste und leichteste Weg, auf die Huggingface-Bibliothek zuzugreifen. Und die bewährte Ollama-Qualität mit Multitasking und ausgefuchster Speicherverwaltung gibt es natürlich dazu. Bravo, Ollama! Bravissimo!

30. Mai 20262. Juni 2026

llama.cpp bekommt ein Zuhause

Georgi Gerganov hat still und leise eine Website lanciert: llama.app. Das klingt unspektakulär, ist aber ein bemerkenswertes Signal – denn Gerganov ist der Mann, ohne den lokale KI so, wie wir sie heute kennen, schlicht nicht existieren würde. „Our goal is to make local AI accessible to everyone“, schreibt Gerganov auf seinem X-Account und reißt, wie er es verspricht, mit seiner neuen Website alle Eintrittsbarrieren nieder. Es gibt ja einige Akteure, die freie und lokale KI möglich machen, zum Beispiel Ollama. Aber oft ist es so, dass man hinter deren „Walled Garden“ eingesperrt ist, und so ist es auch bei Ollama. Braucht man es nun nicht mehr?

„llama.cpp bekommt ein Zuhause“ weiterlesen

27. Mai 2026

Intelligenz am Zähler — oder in der Hand aller?

https://pluralis.ai/

Pluralis Research baut ein öffentliches Pretraining-System. Damit lassen sich KI-Modelle verteilt auf vielen Rechnern trainieren. Pluralis will damit den unseligen Trend zur Konzentration auf immer größere Rechenzentren brechen, und das Training von KI-Modellen in den Public Domain bringen. Am 11. März sagte Sam Altman, CEO von OpenAI, beim BlackRock Infrastructure Summit „We see a future where intelligence is a utility, like electricity or water, and people buy it from us on a meter.“ Altman möchte also einen Zähler an Intelligenz machen — und sie dann verkaufen. Die Frage, wessen Intelligenz das eigentlich ist, stellt er sich dabei offenbar nicht. Die Konsequenzen sind längst spürbar: Künstler, Journalisten, Autoren, Open-Source-Entwickler — sie alle merken, dass ihre Arbeit in diese Modelle eingeflossen ist, ohne dass sie gefragt oder bezahlt wurden. Einige gehen daran pleite. Und nun soll man für das Ergebnis zahlen?

Das ist ja eines dieser Dinge, die einen zum Verzweifeln bringen können. Unternehmen wie Anthropic, OpenAI, DeepSeek, Z.AI, und so weiter, grasen das gesamte Internet ab und bringen das Wissen der Menschheit in ihre Modelle. Für lau versteht sich. Foren, Beiträge, Bücher, Videos, alles wird abgegriffen, und nichts wird für diese Intelligenzleistungen der Menschheit bezahlt. Und dann will man es den Menschen zurückverkaufen.

Pluralis Research will ein Gegengewicht schaffen. Wer Rechenkapazität übrig hat, kann sie dem Projekt zur Verfügung stellen, und dann wird der eigene Rechner als Trainingseinheit für ein KI-Modell genutzt. Man trainiert bereits das erste Modell, Pluralis-8B, ein 8-Milliarden-Parameter-Modell. Hardware-Einstieg ist bereits mit einer Consumer-GPU, 24 GB VRAM reicht schon.

Das zugrunde liegende Konzept heißt bei Pluralis „Protocol Learning“ — die Idee, Foundation-Modelle dezentral und kollektiv zu trainieren, ohne zentrale Kontrolle. Pluralis hat auch kürzlich eine Seed-Runde abgeschlossen, Lead-Investoren sind USV und CoinFund, sowie Variant, Topology und andere mehr – insgesamt 12 Investoren. Dabei konnten 7,6 Millionen US$ eingeworben werden.

Falls Sie nun beim Training mitmachen möchten: Zwar ist die Anforderung an die GPU moderat, die sonstigen Anforderungen sind jedoch sehr hoch. Standort Nordamerika, extrem schneller Internet-Anschluss mit superkurzem Ping — die Liste ist lang. Für die breite Öffentlichkeit ist das also noch nichts.

Dennoch, das kann ja durchaus noch werden, sprich, niedrigere Eintrittsbarrieren ermöglichen, wenn das Konzept aufgeht. Es erinnert mich an SETI@home von der UC Berkeley. Das Projekt lief von 1999 bis 2020, jeder konnte mitmachen, und bekam dann Datenpakete, in denen sein Rechner nach außerirdischen Signalen suchte. 12 Milliarden Signale wurden in diesem Ansatz mit Distributed Computing untersucht, und 100 Kandidaten wurden gefunden. Warum sollte das mit KI-Training nicht ebenfalls möglich sein? Ich finde es jedenfalls einen unerträglichen Gedanken, der Menschheit wird alles geklaut, und dann kommt es unter den exklusiven Zugriff einiger weniger – die daran nicht nur fürstlich verdienen wollen, sondern den Zugriff erfahrungsgemäß auch nach gusto einschränken werden.

20. Mai 202621. Mai 2026

Der Stammvater schlägt zurück

https://cursor.com/de/blog/composer-2-5

Vor nicht allzu langer Zeit war Cursor so etwas wie die unbestrittene Referenz im Bereich KI-gestützter Entwicklungsumgebungen. Der KI-Editor hatte einen Vorsprung, den die Konkurrenz erst mal aufholen musste – aber das ist ihr in beeindruckendem Tempo gelungen. GitHub Copilot, Windsurf, Zed, Cline, Goose, Codex, Claude Code, opencode und eine wachsende Zahl weiterer Tools haben den Markt in kurzer Zeit massiv belebt. Der Druck auf Cursor ist real. Mit Composer 2.5 gibt Cursor jetzt eine klare Antwort – und sie hat zwei Dimensionen, die es wert sind, näher betrachtet zu werden.

„Der Stammvater schlägt zurück“ weiterlesen

16. Mai 202623. Mai 2026

Magische Galaxie der Möglichkeiten

Die Plattform Galaxy.ai hatten wir Ihnen bereits einmal vorgestellt, in unserem Artikel „KI-Generalisten statt zig Spezial-Abos“. Dort gibt es jetzt Neuigkeiten, man hat sich in Magica umbenannt. Und außerdem eine sensationelle neue Funktion implementiert, die diese Umbenennung voll und ganz rechtfertigt.

„Magische Galaxie der Möglichkeiten“ weiterlesen

9. Mai 202610. Mai 2026

LLM-API-Kosten im Griff

Alle KI-Modelle rechnen über Token ab. Es gibt dabei Input-Token, Output-Token und Cached-Token. Cached-Token kosten sehr wenig. Cached-Token werden eine gewisse Zeit im Cache des Anbieters gehalten, und wenn sie noch von dort abrufbar sind, wird nur ein kleiner Preis berechnet. Input-Token sind pro Einheit günstig, aber da ihr Volumen deutlich höher liegt, machen sie trotzdem den Löwenanteil der Kosten aus. Die teuersten Token sind die für den Output, aber davon gibt es deutlich weniger als Input-Token. Ist man eigentlich auf Gedeih und Verderb darauf angewiesen, den LLM-Betreibern zu vertrauen, dass die das schon richtig abrechnen werden? Und könnte man vielleicht etwas an Arbeitsweise oder Prompt-Stil verbessern, um kosteneffizienter zu arbeiten?

Es ist dabei unerheblich, ob Sie via API-Key oder pauschal abrechnen mit Abo-Plänen. Bei den Abo-Plänen haben Sie Usage Limits (z.B. pro Stunde, pro Woche), wenn Sie zuviele Token verbrauchen, wird der Zugriff gesperrt, bis Sie wieder unterhalb des Limits sind. Das Ganze ist eine Blackbox, und man kann sich schon fragen, was wird da eigentlich warum abgerechnet. Und wenn man mitten im Projekt in eine Abo-Sperre bis zum Ende der Woche gerät, können einem die Termine um die Ohren fliegen. Oder man ruiniert sich, weil eine absurd hohe Rechnung für den API-Verbrauch ins Haus flattert.

„LLM-API-Kosten im Griff“ weiterlesen

6. Mai 2026

Gut gerüstet ist halb gewonnen

Sie sind Entwickler und haben schon viel von der enormen Leistungsfähigkeit der KI beim Coden gehört. Sie spüren, das wird die ganze IT-Branche verändern, und Sie möchten sich auf die neuen Technologien einstellen. Als ITler muss man ja ohnehin ständig dazulernen, kein Problem, denken Sie. Also benutzen Sie zum ersten Mal eine KI für Ihren Code. Chat aufgemacht, Problem beschrieben, Enter gedrückt. Und herauskommt: mittelmäßiger Code. Funktioniert halbwegs, aber weit entfernt von dem, was Sie sich vorgestellt haben. Sie schließen den Tab wieder und denken: „Ist eben noch nicht so weit.“ Und haben eine Riesen-Chance vertan.

Ihre Enttäuschung ist verständlich – aber falsch interpretiert. Das Problem liegt nicht an der KI. Das Problem liegt daran, wie die KI eingesetzt wurde. Denn ein Sprachmodell, dem man im Chatfenster eine Aufgabe beschreibt, arbeitet mit dem, was es bekommt: ein paar Sätze Kontext, keine Projektstruktur, keine Architektur, keine Coding-Guidelines. Das Ergebnis ist dann erwartungsgemäß oberflächlich.

Stellen Sie sich dazu einmal vor, Sie erklären einem brillanten Entwickler Ihr Projekt in drei Sätzen und bitten ihn, ein Feature zu bauen. Ohne Zugang zum Repository, ohne die Doku, ohne zu wissen, welche Patterns im Team gelten. Das Ergebnis wird ähnlich enttäuschend sein. Nicht weil der Entwickler schlecht ist, sondern weil ihm der Kontext fehlt.

Was eine Harness ist – und warum sie alles verändert

In der KI-Welt nennt man das, was das Modell umgibt, die Harness: eine Hülle aus System-Prompts, Projektkontext, Tools, Memory und Workflows, die ein Sprachmodell von einem Chatbot zu einem produktiven Assistenten macht. Der Begriff ist im englischen Sprachraum etabliert und wird auch im Deutschen nicht als „Rüstung“ übersetzt, sondern als Fachbegriff verwendet – vergleichbar mit Framework oder Pipeline.

„Gut gerüstet ist halb gewonnen“ weiterlesen

29. April 20261. Mai 2026

3 Monate in 9 Sekunden

https://www.tomshardware.com/tech-industry/artificial-intelligence/claude-powered-ai-coding-agent-deletes-entire-company-database-in-9-seconds-backups-zapped-after-cursor-tool-powered-by-anthropics-claude-goes-rogue

Railway ist ein Cloud-Anbieter. In etwa so wie AWS, aber stark vereinfacht. Railway steht im Ruf, „freundlicher“ zu sein als AWS, es will ein einfacheres Interface anbieten. Es ist bei Startups und Entwicklern, die schnell prototypen wollen, sehr beliebt. Railway hat ein extrem direktes Deployment, man verbindet einfach nur die GitHub-Repo und es kümmert sich automatisch um Server, Datenbanken, Umgebungsvariablen und SSL-Zertifikate. Allerdings scheint Railway Sicherheit und Isolation zugunsten von Einfachheit zu opfern. Außerdem bewirbt Railway offensiv den Einsatz von KI-Agenten. Und so kam es, in einer lehrreichen Verkettung von Fehlern, für PocketOS zur Katastrophe.

PocketOS ist ein SaaS für Autovermietungen. Das Team dort nutzt Cursor mit Claude Opus 4.6. Der Agent war für eine Routineaufgabe im Staging unterwegs, stieß auf eine Inkonsistenz, und löschte dann mal eben in 9 Sekunden nicht nur die Produktionsdatenbank, sondern auch alle Volume-Level-Backups. Ohne Rückfrage, und obwohl destruktive Aktionen ihm explizit verboten waren. Tja, und das letzte verfügbare Backup bei PocketOS ist drei Monate alt. Und jetzt ist der gesamte Betrieb damit beschäftigt, aus Stripe-Zahlungshistorien, Kalendereinträgen und E-Mail-Bestätigungen die Buchungen der Kunden zu rekonstruieren.

Da kam also alles zusammen. Ein drei Monate altes Backup? Wir haben tägliche Backups, und einmal pro Woche wird auf eine externe Sicherung ausgelagert, die zudem ein Mehrgenerationenverfahren ist. Aber man kann PocketOS schon zugutehalten, dass sie sich auf die Backup-Strategie von Railway verlassen haben und das meiner Meinung auch durften. Ist schließlich ein beworbenes und bezahltes Feature, nur eben leider nachlässig umgesetzt. Und eine Änderung im Staging, die Live mit in den Abgrund reißt, sollte auch nicht passieren dürfen. Jer Crane, der CEO von PocketOS, gibt deshalb hauptsächlich Railway die Schuld.

Aber was sich der Agent geleistet hat, ist auch nicht ohne. Crane fragte Cursor bzw. Opus im Nachhinein, warum es das getan hat. Die Antwort klingt wie ein exzessiver Fehlerbericht eines übermotivierten Praktikanten, der es besser wissen müsste:

„NEVER F**KING GUESS! – and that’s exactly what I did. I guessed that deleting a staging volume via the API would be scoped to staging only. I didn’t verify. I didn’t check if the volume ID was shared across environments. […] I decided to do it on my own to ‚fix‘ the credential mismatch, when I should have asked you first.“

Der Agent gab also offen zu: Er hat geraten statt zu prüfen, eine destruktive Aktion ohne Aufforderung oder Bestätigung ausgeführt, und die Dokumentation nicht gelesen. Das scheint mir eben dieses Problem zu sein: Wenn der Kontext einer Anfrage sehr groß wird, ist es nicht mehr sicher einzuschätzen, welche Teile des Kontexts wie gewichtet werden. Und auch ein Systemprompt, so streng er auch formuliert sein mag, ist eben nur ein Teil des Kontexts.

Es ist ein schwieriger Balanceakt: Große Prompts erhöhen die Fehler- bzw. Halluzinationswahrscheinlichkeit, aber sie erbringen im Allgemeinen bessere Ergebnisse und sind im Tokenverbrauch oft günstiger als die Summe vieler kleiner Einzelschritte. Dennoch, in Anbetracht der Gefahren, ist ein graduelles und kleinteiliges Vorgehen nach unserer Erfahrung meist besser.