You ain’t seen nothing yet

Während die Menschheit sich noch müht, auch nur ansatzweise mit den neuen KI-Technologien Schritt zu halten, stehen bereits Weiterentwicklungen in den Startlöchern, die Künstliche Intelligenz in Regionen katapultieren, die den Menschen hoffnungslos überfordern. 1 Sekunde für die Antwort, und der Mensch liest eine halbe Stunde daran … Man benötigt diese Geschwindigkeits­fortschritte für Echtzeit-Anwendungen. Aber wie der Mensch dabei noch mithalten soll, ist völlig unklar. Woher diese enorme Beschleunigung kommt, fragen Sie jetzt vielleicht? Das Zauberwort heißt Diffusion.

Diffusion ist ein Konzept, das man in der KI bisher eigentlich nur zur Erzeugung von Bildern und Videos kennt.  Diffusion, der Name klingt nach Physik – und das ist kein Zufall. In der Natur beschreibt Diffusion, wie sich beispielsweise ein Tropfen Tinte in einem Glas Wasser langsam ausbreitet, bis alles gleichmäßig verteilt ist. Aus Struktur wird Chaos. KI-Forscher haben diesen Prozess umgekehrt. Einem Bild wird zufälliges Rauschen hinzugefügt, bis nur noch graues Pixelrauschen übrig ist.  Genau diesen Prozess lernt das Modell dann rückwärts. Es startet mit reinem Rauschen und verfeinert das Bild Schritt für Schritt, bis ein scharfes, kohärentes Ergebnis entsteht. Das Entscheidende dabei: Das Modell lernt nicht, ein Bild direkt zu „malen“. Es lernt, Rauschen zu erkennen und zu entfernen – und das iterativ, in vielen kleinen Schritten.

Inception Labs, ein kalifornisches KI-Start-up (investiert u.a. von Microsoft, NVIDIA und Snowflake), hat mit Mercury 2 ein Modell vorgestellt, das den Diffusion-Ansatz auf die Erzeugung von Text überträgt. Das Modell hat bereits viel Aufsehen erregt. „Laut Inception ist Mercury 2 damit mehr als fünfmal schneller als herkömmliche Modelle und erreicht 1.009 Tokens pro Sekunde auf Nvidia-Blackwell-GPUs. Die End-to-End-Latenz liegt bei nur 1,7 Sekunden“, schreibt Heise.

Diffusion bei Text mit einem dLLM (Diffusion Large Language Model) funktioniert so:

  1. Initialisierung: Das Modell startet mit einem „Rauschen“ – einer Menge von Token-Vorschlägen, die unvollständig oder teilweise inkorrekt sind.
  2. Iterative Verfeinerung: In mehreren Durchläufen (meist 10-50 Schritte) verfeinert das Modell diese Token gleichzeitig.
  3. Parallele Optimierung: Statt „Erst Wort A, dann Wort B“ wird die gesamte Passage betrachtet: „Wie kann ich diese 100 Token so anpassen, dass sie zusammen maximal sinnvoll sind?“

Warum das schneller ist:

  • Autoregressive Modelle brauchen N Forward-Passes für N Token (sequentiell)
  • Diffusionsmodelle brauchen K Forward-Passes für N Token, wobei K oft deutlich kleiner ist als N

Probieren Sie es aus! Hier ist ein Demo-Chat, mit dem Sie es selbst testen können. Die Antwortgeschwindigkeit ist wirklich umwerfend. Hier ist noch ein Video, mit dem der Inception-CEO Prof. Stefano Ermon von der Stanford University sein neues dLLM vorstellt. Und hier ist der Blog-Eintrag des Unternehmens dazu.

China außer Rand und Band


Video starten

Quelle Video: Chinesisches Staatsfernsehen, Live-Übertragung der Neujahrsfeier

Oh je, was soll nur aus China werden? Dranbleibflaschendeckel gibt es nicht, aber krumme Gurken. China weigert sich auch, Elektrizität ausschließlich mit mittelalterlichen Technologien zu gewinnen. Und es zwingt seine Bürger nicht dazu, nur Heizungen zu verwenden, die um so schlechter funktionieren, je kälter es ist, und final zerstört sind, sobald mal 2, 3 Tage der Strom ausfällt im Winter. Man stelle es sich vor! Auch die Beförderungstechnologie wird nicht etwa mit einer Energieform erzwungen, die man ausreichend keinesfalls zur Verfügung stellen kann und will.

Und die Kinder! Sehen Sie es sich an, die lassen ihre Kinder Gymnastik machen! Dabei weiß doch jeder, dass Kinder schon im Kindergarten lernen müssen, dass sie im falschen Körper sind und zum anderen Geschlecht umgeschnitzt werden müssen. Sonst könnten die Kinder doch wieder Kinder bekommen!

Was soll nur aus China werden? Ein großes und ruhmreiches Land mit vieltausendjähriger Geschichte zerstört sich selbst. Wie kann man heutzutage sich mit solchem Roboter-Firlefanz und akrobatischen Kindern abgeben. Die Chinesen können einem einfach nur leid tun.

PS: Das Video mit der Roboter-Soldaten-Brigade erspare ich Ihnen. Sie können es sich bestimmt selbst vorstellen, wie diese Kungfu-Roboter mit einer Maschinenpistole in der Hand unerbittlich vorrücken, gegen was auch immer befohlen wird als Feind zu sehen.

Die wahre KI-Revolution findet nicht im Rechenzentrum statt

Riesiger Roboter und mobiler Roboter. KI-generiert (Nano Banana Pro 2).

Während die Tech-Giganten sich einen Wettlauf um die größten Rechenzentren und sogar eigene Atomkraftwerke liefern, vollzieht sich im Schatten eine viel wichtigere Entwicklung: Die radikale Schrumpfung der Intelligenz. Warum die Zukunft der Robotik und Embodied AI nicht „Big Data“, sondern „Smart Efficiency“ heißt.

Derzeit erleben wir eine Phase der technologischen Völlerei. Um ein Prozent mehr Leistung aus einem Modell zu kitzeln, verdoppeln Unternehmen die Parameterzahl und den Energieverbrauch. Der Markt ist überhitzt; es wird Hardware gekauft, als gäbe es kein Morgen. Das Ziel scheint zu sein, Gott in einer Cloud zu erschaffen, die von einem eigenen Kraftwerk gespeist wird.
Doch dieser Ansatz hat einen fatalen Fehler, wenn wir die digitale Welt verlassen und in die physische eintreten: Er ist nicht mobil.

Stellen Sie sich einen humanoiden Roboter vor, der stolpert. Wenn sein „Gehirn“ in der Cloud liegt, müssen die Sensordaten erst zum Server geschickt, dort verarbeitet und der Befehl „Ausbalancieren“ zurückgeschickt werden. Latenzzeit: vielleicht 200 Millisekunden. In dieser Zeit liegt der Roboter bereits auf der Nase.
Echte Autonomie – also Embodied AI – duldet keine Latenz und keine Funklöcher. Das Denken muss dort stattfinden, wo die Handlung geschieht: „On Edge“, direkt im Gerät.

Die Zauberworte der nächsten Jahre lauten deshalb nicht mehr „Trillion Parameters“, sondern:

Quantisierung: Die Reduktion der Rechengenauigkeit, ohne das Ergebnis signifikant zu verschlechtern. Wir brauchen keine 32-bit Fließkommazahlen, um zu erkennen, ob eine Tasse voll ist. 4-bit reichen oft völlig.

Destillation: Ein riesiges „Lehrer-Modell“ trainiert ein winziges „Schüler-Modell“ darauf, nur eine bestimmte Aufgabe perfekt zu erledigen.

Spezialisierte Hardware (NPU): Chips, die nicht für Grafik (GPU), sondern rein für neuronale Netze optimiert sind und einen Bruchteil der Energie benötigen.

Wir kehren zurück zu den Wurzeln guter Ingenieurskunst: Optimierung. Anstatt das Problem mit Hardware zu erschlagen, lösen wir es mit besserer Software. Ein 7-Milliarden-Parameter-Modell, das lokal auf einem Roboter läuft und versteht, wie man eine Tür öffnet, ist wertvoller als ein 1-Billionen-Parameter-Modell in der Cloud, das Gedichte über Türen schreiben kann, aber die Verbindung verliert, wenn das WLAN ausfällt.

Die Ära der verschwenderischen Gigantomanie wird auf eine harte Wand aus physikalischen und ökonomischen Grenzen treffen. Die Gewinner der Robotik-Revolution werden nicht diejenigen sein, die die größten Rechenzentren bauen, sondern diejenigen, die mächtige Intelligenz in kleinste Formfaktoren pressen können.
Es ist wie in der Biologie: Nicht der Größte und Stärkste überlebt, sondern der am besten Angepasste. Und in einer mobilen Welt bedeutet Anpassung Effizienz. Hirn schlägt Muskeln.

NVIDIA Blackwell GPUs unter Linux

Admin verzweifelt am Grafikkarteneinbau. KI-generiert (Nano Banana 2).

Wer eine NVIDIA RTX PRO 6000 Blackwell (oder andere Blackwell-GPUs) unter Linux betreiben will, steht vor drei Hürden: Zwingend erforderliche Open-Source-Kernel-Module, aktuelle Treiber (mindestens Version 570+) und häufig ein Mainboard-BIOS-Update. Dieser Artikel dokumentiert unsere Erfahrungen aus der Praxis.

Das Problem: Blackwell ist anders

NVIDIAs neue Blackwell-Architektur bringt beeindruckende Hardware – die RTX PRO 6000 Blackwell etwa bietet 96 GB VRAM in einer Karte und ist bis zu 30% schneller als die Ada-Generation. Doch beim Einbau in bestehende Linux-Workstations oder Server zeigt sich: Die Installation ist nicht trivial.

Anders als bei früheren GPU-Generationen (Ada Lovelace, Ampere) gelten für Blackwell besondere Anforderungen:

1. Open-Source-Kernel-Module sind Pflicht

Ab der Treiber-Serie 560 hat NVIDIA die Open-Source-Kernel-Module zum Standard gemacht. Für Blackwell-GPUs geht es noch weiter: Die proprietären Kernel-Module funktionieren nicht mehr. Das ist eine fundamentale Änderung:

„From Blackwell, only the open source kernel module can be used. The GSP cannot be deactivated.“ NVIDIA Developer Forum

Konkret bedeutet das:

Paket nvidia-driver-xxx → funktioniert nicht
Paket nvidia-driver-xxx-open → erforderlich

2. Treiber-Mindestversion: 570+

Blackwell-GPUs werden erst ab der Treiber-Serie R570 unterstützt. Für optimale Kompatibilität empfehlen wir die aktuelle R580-Serie zusammen mit CUDA 13.0.

NVIDIA-Treiber mindestens 570.x // empfohlen 580.x
CUDA Toolkit mindestens 12.8 // empfohlen 13.0

3. Mainboard-BIOS-Update oft notwendig

Ein häufig übersehenes Problem: PCIe-Link-Training-Fehler. Blackwell-GPUs nutzen PCIe 5.0, und viele ältere BIOS-Versionen haben Schwierigkeiten mit dem Link-Training.

Symptome: GPU wird nicht erkannt. Oder GPU wird erkannt, läuft aber nur mit PCIe Gen 1 (statt Gen 4/5). Performance-Einbrüche (statt 38 Token/s nur 2 Token/s bei LLM-Inferenz). Instabilität unter Last.

Lösung: Mainboard-BIOS auf die neueste Version aktualisieren. In unserem Fall (ASUS Pro WS WRX90E-SAGE SE) war ein Update von April auf November 2025 notwendig, um PCIe Gen 4 zu erreichen.

Weiterführende Links

NVIDIA Driver Installation Guide – Kernel Modules
https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/kernel-modules.html

NVIDIA Developer Forum – RTX PRO 6000 Blackwell
https://forums.developer.nvidia.com/t/rtx-pro-6000-blackwell-workstation-edition-driver-support/332701

Level1Techs Forum – Blackwell Setup Guide Ubuntu
https://forum.level1techs.com/t/wip-blackwell-rtx-6000-pro-max-q-quickie-setup-guide-on-ubuntu-24-04-lts-25-04/230521

Level1Techs Forum – PCIe Gen 1 Problem WRX90
https://forum.level1techs.com/t/dual-rtx-pro-6000-blackwell-on-wrx90-pcie-stuck-at-gen-1-anyone-else/242079

Phoronix – NVIDIA CUDA 13.0
https://www.phoronix.com/news/NVIDIA-CUDA-13.0

GitHub – vLLM Blackwell Setup Guide
https://github.com/Audible83/vllm-blackwell-setup

Kleiner Tipp noch: Wenn Sie nvtop oder nvidia-smi ausführen, erschrecken Sie vielleicht, wenn es heißt „PCIe Gen1“. Das sind aber nur Stromsparmechanismen. Lassen Sie nvtop während einer Inferenz laufen, und die Anzeige sollte auf Gen4 oder 5 gehen (falls nicht, haben Sie tatsächlich ein Problem 😀).

Ihr Smartphone als digitale Festung

Smartphone entkommt in die Freiheit. KI-generiert (Nano Banana 2 Pro).

Hand aufs Herz: Unsere Smartphones wissen mehr über uns als unsere engsten Freunde. Im geschäftlichen Umfeld sind diese Daten nicht nur privat, sondern oft wettbewerbskritisch. Kontakte, E-Mails, Standortdaten, Planungsdaten – all das sind Informationen, die geschützt werden müssen.

Doch wie schützt man sich effektiv, wenn das Betriebssystem selbst (meist Android oder iOS) als Datenschleuder bekannt ist? Die Antwort klingt für viele zunächst paradox: Wir kaufen Google-Hardware, um Google-Software loszuwerden. Die Lösung heißt GrapheneOS.

Was ist GrapheneOS?

GrapheneOS ist ein Open-Source-Betriebssystem für Mobilgeräte, das auf AOSP (Android Open Source Project) basiert. Der Fokus liegt kompromisslos auf Privatsphäre und Sicherheit. Es wird oft von Journalisten, Sicherheitsexperten und Unternehmen genutzt, die absolute Kontrolle über ihre Daten benötigen. Edward Snowden hat es bereits vor Jahren empfohlen, und seitdem ist es nur besser geworden.

Die Ironie der Hardware: Warum ausgerechnet Pixel?

Es mag seltsam klingen, ein Gerät vom „Datenkraken“ Google zu kaufen, um Privatsphäre zu erlangen. Doch die Google Pixel-Telefone (ab Pixel 6 und neuer) bieten dank des Titan M2 Sicherheitschips und der Möglichkeit, eigene kryptografische Schlüssel für den Boot-Vorgang zu hinterlegen (Verified Boot), die sicherste Hardware-Plattform für Android. GrapheneOS nutzt diese Hardware-Sicherheitsfeatures voll aus, entfernt aber sämtliche Google-Dienste und Tracking-Mechanismen aus dem System.

Die Killer-Features für Unternehmen

Warum schauen wir uns das für den Unternehmenseinsatz an? Hier sind die drei schlagenden Argumente:

  1. Sandboxed Google Play:
    Das ist der „Gamechanger“. Auf einem normalen Android-Handy laufen die Google Play Dienste mit vollen Systemrechten im Hintergrund und können fast alles sehen. GrapheneOS erlaubt es, diese Dienste wie eine ganz normale App in einer „Sandbox“ zu installieren. Das bedeutet: Sie können Apps nutzen, die Google-Dienste benötigen (wie Push-Nachrichten oder Karten), aber Google hat keinen Zugriff auf Ihr Gerät, Ihre IMEI oder Ihre anderen Daten. Sie geben Google nur den kleinen Finger, nicht die ganze Hand.
  2. Storage Scopes & Berechtigungen:
    GrapheneOS erlaubt eine extrem feingranulare Rechteverwaltung. Sie wollen einer App Zugriff auf Bilder geben, aber nicht auf alle Ihre Fotos? Mit „Storage Scopes“ erstellen Sie einen leeren Ordner oder geben nur einzelne Dateien frei, während die App glaubt, sie hätte vollen Zugriff. Auch der Netzwerkzugriff (Internet) kann jeder App einzeln entzogen werden.
  3. Härtung des Systems (Hardening):
    Unter der Haube hat GrapheneOS massive Verbesserungen am Speichermanagement (malloc) und am Kernel vorgenommen. Das macht es für Angreifer extrem schwer, Sicherheitslücken auszunutzen (Exploit Mitigation). Selbst wenn eine App bösartig wäre, bricht sie kaum aus ihrem Käfig aus.

Ist das alltagstauglich?

Früher waren solche Systeme nur etwas für Bastler. Heute ist die Installation über einen Web-Installer in 15 Minuten erledigt. Die allermeisten Banking-Apps, Signal, WhatsApp und Business-Tools funktionieren dank der Sandboxed Play Services einwandfrei. Die Kamera-Qualität auf den Pixels bleibt hervorragend, da GrapheneOS eine eigene, sehr gute Kamera-App mitbringt oder die Google Camera in der Sandbox nutzen kann.

Fazit

Für uns als Unternehmen ist Datensicherheit keine Option, sondern Pflicht. GrapheneOS bietet derzeit die beste Balance aus maximaler Sicherheit („Security Hardening“) und moderner Usability. Es verwandelt das Smartphone wieder in das, was es sein sollte: Ein Werkzeug, das uns dient – und nicht uns überwacht.

Ein Hinweis in eigener Sache: Brandfrisch haben Sie nun die Möglichkeit, sich für unseren Newsletter anzumelden. Sie lesen gerne hier, aber oft besuchen Sie uns, und es gibt nichts Neues? Wir schaffen leider nur 1 – 2 Beiträge in der Woche. Aber nun können Sie unseren Newsletter abonnieren, und wenn es einen neuen Beitrag gibt, erhalten Sie eine Mail dazu. Es kostet nichts, hat keinerlei Verpflichtungen für Sie, ist DSGVO-konform bei einem deutschen Provider gehostet und Sie können unseren Newsletter natürlich jederzeit wieder abbestellen.

Flucht aus dem Walled Garden

Droiden fliehen aus einem Lager. KI-generiert (Nano Banana Pro).

Wer im KI-Bereich arbeitet, kennt das Problem: Auf dem Smartphone sammelt sich schnell ein ganzer Zoo an Apps an. Eine App für ChatGPT, eine für Claude, eine für Gemini und vielleicht noch Perplexity. Das nervt nicht nur, es schränkt auch ein. Man ist an die Oberfläche und die Einschränkungen des jeweiligen Anbieters gebunden.

Für den Desktop ist das Problem längst gelöst. Tools wie Chatbox AI erlauben es uns, unseren eigenen API-Schlüssel (API Key) zu hinterlegen und in einer einzigen, sauberen Oberfläche zwischen GPT5, Claude 3.5 Opus oder Mistral und vielen mehr zu wechseln – oft zu deutlich günstigeren Konditionen als über die monatlichen Abos der Einzelanbieter („Pay as you go“). Und gerade wenn zum Beispiel mal das eine Modell versagt, dann schaltet man eben auf ein anderes um, und damit findet man die Lösung.

Aber wie sieht es mobil aus? Können wir diesen Komfort auch auf Android und iOS genießen? Die kurze Antwort: Ja! Wir stellen Ihnen heute Tools vor, um Ihre KI-Modelle auch dort zu befreien.

Die Lösung für Android: ChatBoost und mehr

Wer ein Android-Gerät nutzt, genießt traditionell etwas mehr Freiheit bei der App-Auswahl. Ein hervorragendes Beispiel dafür ist ChatBoost.

Diese App fungiert als neutrale Schnittstelle. Sie geben einfach Ihre API-Schlüssel von OpenAI, Anthropic oder Google ein und können sofort loslegen. Der Vorteil? Sie zahlen nur für das, was Sie tatsächlich nutzen (via API) und haben alle Chatverläufe an einem Ort.

Alternative für Android: Falls Ihnen ChatBoost nicht zusagt, lohnt sich ein Blick auf BotGem. Diese App ist ebenfalls sehr beliebt und bietet eine ähnliche Funktionalität mit einem aufgeräumten Design. Allerdings ist das ist von einem chinesischen Entwickler mit unklarem Hintergrund, für viele Unternehmen also ein klares No-Go.

Ein Wort der Warnung: Die höhere Freiheit unter Android geht auch mit höherem Risiko einher. AI-Wrapper-Anwendungen gibt es dort viele, aber wirklich empfehlenswerte haben wir nur recht begrenzt gefunden.

Und was ist mit iOS? (iPhone & iPad)

Lange Zeit war es schwierig, gute API-Wrapper im Apple App Store zu finden, aber das hat sich geändert. Während es ChatBoost leider nicht für iOS gibt, stehen starke Alternativen bereit:

Chatbox AI (Mobile): Viele kennen und lieben die Desktop-Version. Die gute Nachricht: Es gibt eine offizielle App für iOS (und Android). Der Vorteil hier ist die nahtlose Synchronisation. Wer seine Prompts und Personas auf dem Desktop eingerichtet hat und die Synchronisierung aktiviert, findet sie oft direkt auf dem iPhone wieder.

Pal – AI Chat Client: Wenn man etwas „Apple-typisches“ sucht, ist Pal – AI Chat Client hervorragend. Es ist minimalistisch, sauber und unterstützt sehr viele Anbieter nativ.

NextChat AI: Ein sehr interessantes Open Source Project (Code bei Github verfügbar), das ebenfalls das Einbinden vieler Anbieter per API erlaubt.

Das bereits bei Android erwähnte Botgem ist übrigens auch im Appstore verfügbar.

Für die Profis: Self-Hosted AI mit Open WebUI

Für Unternehmen und Datenschutz-Enthusiasten ist Open WebUI (früher Ollama WebUI) mittlerweile das Nonplusultra. Es ist eine selbst gehostete Oberfläche, die ChatGPT zum Verwechseln ähnlich sieht, aber komplett auf Ihrem eigenen Server läuft.

Das Problem bisher: Wie greift man mobil bequem darauf zu?

Unter Android ist die App Conduit der klare Favorit. Sie verbindet sich direkt mit Ihrer Open WebUI-Instanz und bietet ein natives App-Gefühl, statt nur eine Webseite im Browser anzuzeigen. Quelloffen, kostenlos, Code in Github einsehbar.

Die Überraschung für iOS-Nutzer: Lange Zeit hieß es, iOS erlaube solche („Web-Wrapper“) Anwendungen nicht. Doch das hat sich geändert! Conduit ist mittlerweile auch im Apple App Store verfügbar. Damit können Sie sich nun auch vom iPhone aus sicher und bequem mit Ihrer firmeneigenen oder privaten Open WebUI-Instanz verbinden, ohne auf Safari zurückgreifen zu müssen.

Ohnehin ist aber auch die Open WebUI Web-Anwendung responsiv und funktioniert gut in mobilen Browsern.

Fazit: Bring Your Own Key (BYOK)

Der Trend geht klar weg von geschlossenen Abo-Modellen hin zu flexiblen „Bring Your Own Key“-Lösungen. Ob mit Chatbox AI, NextChat oder via Conduit und Open WebUI – die Werkzeuge sind da, um KI mobil genauso professionell zu nutzen wie am Desktop.

Fliehen auch Sie auf Ihrem Mobilgerät aus dem Walled Garden!

Ein Hinweis in eigener Sache: Brandfrisch haben Sie nun die Möglichkeit, sich für unseren Newsletter anzumelden. Sie lesen gerne hier, aber oft besuchen Sie uns, und es gibt nichts Neues? Wir schaffen leider nur 1 – 2 Beiträge in der Woche. Aber nun können Sie unseren Newsletter abonnieren, und wenn es einen neuen Beitrag gibt, erhalten Sie eine Mail dazu. Es kostet nichts, hat keinerlei Verpflichtungen für Sie, ist DSGVO-konform bei einem deutschen Provider gehostet und Sie können unseren Newsletter natürlich jederzeit wieder abbestellen.

OpenAI unter Druck, zeigt aber große Resilienz

David kämpft gegen zwei Goliaths. KI-generiert (Nano Banana).

https://www.gamestar.de/artikel/chatgpt-52-die-3-groessten-neuerungen,3444875.html

Es kriselt bei OpenAI – so viel ist klar. Seit dem Release von Gemini 3 und Nano Banana (Pro) sieht OpenAI-CEO Sam Altman ein, dass ChatGPT dem Konkurrenten von Google etwas hinterherhinkt. Und der im Mainstream etwas weniger bekannte Anbieter Anthropic hat mit Claude starke Konkurrenz am Start, die ich persönlich übrigens sehr gerne nutze. Nun ist OpenAIs Antwort auf Gemini 3 und Anthropics Claude Opus 4.5 erschienen […]

In einem beispiellosen Entwicklungstempo hat OpenAI gerade ChatGPT 5.2 veröffentlicht – weniger als einen Monat nach dem Vorgängermodell. Hinter diesem beschleunigten Release-Zyklus steht eine klare Botschaft: Der KI-Wettlauf mit Google Gemini 3 und Anthropic Claude ist in die heiße Phase getreten. Für Unternehmen stellt sich nun die Frage: Was bringt diese neue Version wirklich und wie können wir davon profitieren?

Die drei wichtigsten Neuerungen in GPT-5.2 für Unternehmen:

  • 30% weniger Halluzinationen – mehr Verlässlichkeit. Laut OpenAI produziert GPT-5.2 weniger faktische Fehler. Die Fehlerrate bei faktischen Aussagen soll von von 8,8% auf 6,2% gesunken sein.
  • Neue Tabellen- und Präsentationsfähigkeiten. GPT-5.2 setzt laut GDPval-Benchmark neue Maßstäbe für berufliche Wissensarbeit. Das Modell übertrifft oder erreicht nach den Benchmarks Top-Experten in 70,9% der Vergleiche über 44 Berufe hinweg – und das bei >11x höherer Geschwindigkeit und <1% der Kosten.
  • Bessere Verarbeitung langer Dokumente und Bildanalyse – mit nahezu 100%iger Genauigkeit bei Dokumenten bis zu 256.000 Tokens kann GPT-5.2 jetzt umfangreiche Verträge, Forschungsberichte oder Unternehmensdokumentationen zuverlässig analysieren. Die Bildanalyse verbesserte sich von 64,2% auf 86,3% Genauigkeit.

Auch in meinen ersten Tests konnte ich erheblich gestiegene Leistung und Qualität feststellen (allerdings hat es irgendwie seinen Humor verloren, aber das mag auch an meinen Use Cases gelegen haben). Andere Nutzer äußern sich jedoch teilweise enttäuscht und sagen, dass die erhofften Fortschritte in der Logik ausgeblieben sind.

Dennoch ist ChatGPT 5.2 mehr als ein inkrementelles Update – es ist eine klare Antwort auf den zunehmenden Wettbewerbsdruck im KI-Markt. Für Unternehmen bietet es konkrete Verbesserungen in Verlässlichkeit, Professionalität und Skalierbarkeit. Aber die Frage ist ja längst nicht mehr, ob KI in Unternehmen eingesetzt wird – sondern wie wir ihre stetig wachsenden Fähigkeiten optimal nutzen können. Ich muss zugeben, mir fällt es schwer, mit der Flut an neuen Modellen Schritt zu halten und jeweils zu entscheiden, welches Modell für welche Aufgabe am besten geeignet ist. Und ich beschäftige mich hauptberuflich damit.

Außerdem, ich finde eine weitere Entwicklung im Bereich KI sogar noch spannender. ChatGPT und die anderen US-„Platzhirsche“ (Gemini, Anthropic, LLama) setzen immer noch auf „Muskeln“ – mehr und schnellere Prozessoren, mehr RAM. Aber, Köpfchen schlägt Muskeln, wie wir alle wissen – und deshalb ist für mich die eigentliche Sensation das ebenfalls ganz neu herausgekommene DeepSeek V3.2. China unterliegt einem massiven Embargo, und muss deshalb mit viel weniger Mitteln und veralteter Hardware auskommen. Und dennoch liegt DeepSeek V3.2 nahezu gleichauf mit den aktuellen Top-Modellen der US-Anbieter. Wie schafft DeepSeek das?

Statt immer größere neuronale Netze zu bauen, optimieren die Chinesen die Architektur („Mixture-of-Experts“ und „Sparse Attention“). Sie haben quasi den Motor effizienter gemacht, statt einfach den Tank zu vergrößern. Und ich finde durchaus, bevor der KI-Rüstungswettlauf noch die globale Ökonomie beschädigt, wäre das amerikanischen Ingenieuren auch anzuraten.

Tipp: Falls es Ihnen unangenehm ist, bei einem chinesischen Anbieter ein Konto anzulegen, Sie können DeepSeek V3.2 mit der Ollama Cloud auch auf einem datensicheren, neutralen und die Privatsphäre wahrenden Dienst nutzen, und Chatbox AI oder Open WebUI für die Steuerung der KI einsetzen.

Der RAM-Krieg: OpenAI, die Hardware-Knappheit und der Sieg des Algorithmus

USB-C Steuerung externer Monitore. KI-generiert.

https://www.notebookcheck.com/OpenAI-soll-40-der-weltweiten-DRAM-Produktion-und-sogar-DDR5-RAM-im-Handel-aufkaufen.1177231.0.html

OpenAI, das Unternehmen hinter ChatGPT, ist maßgeblich dafür verantwortlich, dass Arbeitsspeicher-Preise über die vergangenen Monate geradezu explodiert sind. Offenbar kauft OpenAI nicht nur für Server bestimmten DRAM direkt bei den Herstellern, sondern sogar DDR5-RAM-Kits im freien Handel.

Erst neulich berichteten wir hier im Blog über die brechenden Lieferketten im KI-Sektor. Wir warnten vor Engpässen. Doch was sich jetzt herauskristallisiert, ist kein bloßer Engpass mehr – es ist eine Marktmanipulation von historischem Ausmaß. Neue Berichte legen nahe, dass ein einziger Akteur versucht, den weltweiten Vorrat an Arbeitsspeicher aufzusaugen: OpenAI.

Die „40-Prozent-Mauer“

Laut aktuellen Analysen soll OpenAI, der einstige Pionier der Branche, mittlerweile 40 % der weltweiten DRAM-Produktion aufkaufen. Aber es kommt noch absurder: Es geht nicht mehr nur um direkte Lieferverträge mit Giganten wie SK Hynix oder Samsung für Server-Speicher. Berichten zufolge schickt das Unternehmen mittlerweile Mitarbeiter in den Einzelhandel (wie Best Buy in den USA), um physische DDR5-RAM-Riegel aus den Regalen zu kaufen, die eigentlich für Gaming-PCs und Workstations gedacht waren.

Warum tut OpenAI das? Offiziell, um die eigene Rechenkapazität zu erweitern. Inoffiziell pfeifen es die Spatzen von den Dächern des Silicon Valley: Es geht darum, der Konkurrenz die Luft – oder in diesem Fall den Speicher – abzudrehen.

Panik im Elfenbeinturm

Man muss diese aggressive Einkaufspolitik im Kontext der aktuellen KI-Landschaft sehen. OpenAI steht mit dem Rücken zur Wand.
Während Claude Opus 4.5 von Anthropic die Geschäftswelt im Sturm erobert hat und dort mittlerweile als der zuverlässige Standard gilt, und Gemini 3 Pro in Sachen reiner Logik, Kreativität und Coding-Performance neue Maßstäbe setzt, wirkt das aktuelle ChatGPT oft wie ein Relikt aus dem Jahr 2024.

OpenAI versucht nun anscheinend, dieses technologische Defizit durch schiere Masse an Hardware zu kompensieren. Wenn man nicht mehr das klügste Modell hat, versucht man eben, das größte zu bauen – und gleichzeitig zu verhindern, dass andere genug Hardware bekommen, um ihre überlegenen Modelle zu betreiben.

Was wurde aus „Open“?

Hier stellt sich die unvermeidliche Frage nach der Identität des Unternehmens. „OpenAI“ startete einst mit dem Versprechen, künstliche Intelligenz zu demokratisieren. Elon Musks fortwährende Klagen gegen das Unternehmen unterstreichen, wie weit man sich von diesem Ideal entfernt hat. Auch Anthropic wurde von hochrangigen abtrünnigen OpenAI-Entwicklern gegründet, die genau das Gleiche sagen, wie Musk. Aus „Open“ wurde „Closed“, aus „Non-Profit“ wurde eine aggressive Monopol-Strategie. Wer 40 % der weltweiten Ressourcen einer kritischen Komponente aufkauft, will keinen Wettbewerb – er will ihn ersticken. Das sind Methoden, die freien Märkten fundamental zuwiderlaufen und eher an die Ölkartelle des 20. Jahrhunderts erinnern als an die Tech-Utopie des 21. Jahrhunderts.

Der chinesische Weg: Hirnschmalz statt Brechstange

Während im Westen der Hardware-Krieg tobt, lohnt sich ein Blick nach Osten. DeepSeek hat vor wenigen Tagen sein Modell V3.2 vorgestellt. Die Performance? Erschreckend nah an Gemini 3 Pro und oft auf Augenhöhe mit Claude.
Das Erstaunliche daran: China ist massiven US-Embargos unterworfen. Sie haben keinen Zugriff auf die neuesten H100- oder B200-Cluster in der Menge, wie sie OpenAI zur Verfügung stehen. Ihre Hardware ist oft älter, langsamer und weniger effizient.

Wie ist das also möglich?
Die Antwort ist einfach: Software-Optimierung.
Anstatt immer mehr Geld auf das Problem zu werfen, investieren die Ingenieure bei DeepSeek in bessere Algorithmen. Sie optimieren den Code, verbessern die Architektur und holen aus jedem Transistor das Maximum heraus.
Es ist eine alte Weisheit der Informatik, die wir fast vergessen haben: Ein schnellerer Prozessor bringt vielleicht 100 % mehr Leistung. Ein besserer Algorithmus kann aber 1000 % mehr Leistung bringen. Der Weg zu echter AGI (Artificial General Intelligence) führt nicht über noch größere Serverfarmen, die den Stromverbrauch von Kleinstaaten haben, sondern über intelligentere Software.

Praxistipp: Jetzt handeln!

Was bedeutet dieser „Krieg der Giganten“ für Sie und Ihr Unternehmen? Leider nichts Gutes für Ihr IT-Budget.
Die Preise für DDR5-RAM haben sich in den letzten drei Monaten bereits verdreifacht. Ein Ende der Fahnenstange ist nicht in Sicht. Wenn OpenAI weiter den Markt leerkauft, werden auch SSDs und Grafikkarten (die ebenfalls auf Speicherchips angewiesen sind) extrem teuer werden. Laptops sollen 2026 bereits pauschal 20 % teurer werden.

Unsere Empfehlung: Wenn Sie Hardware-Anschaffungen, Server-Upgrades oder auch nur neue Laptops für Mitarbeiter planen – kaufen Sie jetzt. Warten Sie nicht auf sinkende Preise. In diesem Marktumfeld ist „Lieferbarkeit“ das neue Gold.

Der KI-Boom sprengt die Lieferketten

KI saugt die Produktionskapazitäten für Hardware auf. KI-generiert.

https://www.reuters.com/world/china/ai-frenzy-is-driving-new-global-supply-chain-crisis-2025-12-03/

An acute global shortage of memory chips is forcing artificial intelligence and consumer-electronics companies to fight for dwindling supplies, as prices soar for the unglamorous but essential components that allow devices to store data.

Während alle gebannt auf die enormen Produktivitätsgewinne sehen, die KI mit sich bringen kann, braut sich im Hintergrund an unerwarteter Front ein ganz anderer Sturm zusammen. Wir steuern auf eine massive Chipkrise zu – aber anders als die letzte.

Diesmal ist es kein Stillstand der Fabriken, sondern eine brutale Verdrängung. Der gigantische Hunger nach KI-Rechenleistung saugt den Markt für Speicherchips leer. Die Hersteller priorisieren High-End-Komponenten für Rechenzentren und lassen die Produktion für Standard-Chips links liegen. RAM kostet bereits doppelt so viel wie im Frühjahr, SSDs steigen deutlich im Preis, Grafikkarten sind immer schwerer zu bekommen und superteuer.

Aber es ist nicht nur teuer, es ist schlicht nichts mehr da, sagt der Chip-Hersteller SK Hynix. Die Lager sind schon jetzt für das ganze nächste Jahr leergefegt. KI soll die Produktivität steigern, überfordert aber vorher erst einmal die bestehende Produktivität?

Linux auf Laptops mit Nvidia

USB-C Steuerung externer Monitore. KI-generiert.

Laptops mit AMD-Grafikkarten sind erstaunlich schwer zu finden. Das ist unter Windows meist kein Problem, aber mit Linux kann es mühsam werden. Das liegt daran, dass Nvidia seine Treiber nicht offenlegt, wie es AMD tut. Die offenen AMD Treiber können deshalb einwandfrei von Nouveau (Standardgrafiktreiber in Linux) angesprochen werden.

Das ist nicht nur ein Leistungsproblem. Dass Nouveau etwas langsamer ist, als die originären Nvidia-Treiber, könnte man ja verschmerzen, das spielt höchstens beim Gaming eine Rolle. Viel ärgerlicher ist, dass die Nouveau-Treiber unter Linux meist nur den internen Laptop-Bildschirm verbinden können. Externe Monitore können von Nouveau mit Nvidia bei Laptop-Grafikkarten i.Allg. nicht angesteuert werden, weil Nvidia die dafür benötigten Schnittstellen nicht offenlegt und gerade Laptops, vor allem mit dem sogenannten Optimus-Layout, nur über das proprietäre Nvidia-BIOS externe Monitore erreichen können.

Als Entwickler benötigt man heutzutage ja mindestens 2 Bildschirme. Einer für den Code bzw. die IDE, den anderen für die KI 😜 Wenn also eine aktuelle Treiberversion für die Nvidia-Karte Ärger macht, ist das ein Show-Stopper.

Hierzu möchten wir Ihr Augenmerk auf eine oft unterschätzte Alternative lenken: Die Ansteuerung der externen Monitore via USB-C. Ihr Laptop muss dafür USB-C mit DisplayPort Alt Mode unterstützen, und dann benötigen Sie noch ein USB-C Dock mit Grafikkarten-Anschlüssen (gibt es mit HDMI, Display Port und gemischt, wobei Display Port höhere Wiederholfrequenzen unterstützt).

Und voilà, Ihr Laptop mit Nvidia wird von Closed-Source-Treibern unabhängig. Nouveau kann über USB-C verbundene Monitore einwandfrei verbinden. Allerdings werden die externen Monitore dann über die integrierte Grafikkarte im Prozessor gesteuert, das sollte nicht verschwiegen sein. Für 2D-Darstellung mit aktuellen Prozessoren zwar überhaupt kein Problem, aber wenn Sie viel 3D-Grafik benötigen, wird es heikel.

Einzelne 3D-Komponenten, z.B. für die Animationen des Betriebssystems, sind kein Problem, doch tatsächliche 3D-Anwendungen wie CAD etc. sind meistens zu anspruchsvoll für den Prozessor-internen Grafikbeschleuniger. In diesem Fall bleibt dann nur das Gefrickel mit Downgrade des Treibers etc., wobei man sich damit unter Linux gerne das ganze System abschießt – ein vollständiger Partitionsbackup ist also Pflicht vor solchen Experimenten.

Der virale Moment: „Real or Fake?“

Humanoider Roboter serviert Tee. KI-generiert.

https://www.livescience.com/technology/robotics/watch-chinese-companys-new-humanoid-robot-moves-so-smoothly-they-had-to-cut-it-open-to-prove-a-person-wasnt-hiding-inside

Chinese electric vehicle (EV) maker Xpeng has unveiled a new humanoid robot with such lifelike movements that company representatives felt compelled to slice it open onstage to prove a human wasn’t hiding inside.

Der humanoide Roboter IRON ist nicht nur eine Technik-Demo, sondern ein Meilenstein in der „Physical AI“-Ära. XPeng-CEO Xiaopeng schnitt sogar live in einem viral gegangenen Video die flexible Haut auf, um zu beweisen: Kein Mensch, sondern pure Robotik.

Die Rivalität zwischen den USA und China in der Robotik eskaliert, insbesondere im Wettlauf um humanoide Roboter, wo Tesla’s Optimus (USA) und XPeng’s IRON (China) als Spitzenreiter konkurrieren. Während Tesla mit Optimus auf KI-gestützte Autonomie setzt und eine Milliarde Einheiten ankündigt, präsentiert XPeng IRON als „Tesla-Killer“ mit überlegenen Features wie einer Solid-State-Batterie, 82 Freiheitsgraden, 2.250 TOPS-Rechenleistung und einer catwalk-fähigen Beweglichkeit. XPeng plant die Massenproduktion bereits ab 2026 – ein direkter Schlagabtausch, der Chinas Aufholjagd unterstreicht und globale Märkte aufmischt. Zumindest derzeit scheint nach meiner Auffassung China sogar die Nase vorne zu haben, wenn man Demo-Videos des im Vergleich doch noch recht steifen und ungeschickten Tesla Roboters Optimus vergleicht. Aber Tesla schläft nicht und kündigt für 2026 eine neue Generation an.

Partielle Autonomie von Robotern: Der smarte Weg zur Automatisierung

Stellen Sie sich vor: Ein Lieferwagen rollt vor, ein kleiner Roboter springt heraus, navigiert geschickt über den Bürgersteig, stellt ein Paket vor Ihre Tür und fährt seelenruhig zurück. Kein Mensch in Sicht, keine Kratzer am Paket, pure Effizienz. Klingt nach Science-Fiction? Das ist heute schon Realität – und ein perfektes Beispiel für partielle Autonomie von Robotern.

In einem viralen Video auf X zeigt @kimmonismus genau das: Ein Roboter übernimmt die letzte Meile vom Van bis zur Haustür. Der Post hat über 415.000 Views und Tausende Likes – kein Wunder, es fühlt sich an wie der Startschuss für die Roboter-Revolution. Und es gibt bereits viele Unternehmen, die sich mit diesem Szenario beschäftigen, lesen Sie z.B. diesen Übersichtsartikel.

Das ist so ähnlich wie beim Programmieren. Eine komplexe Aufgabe, zum Beispiel in Buchhaltung oder Verwaltung, vollständig zu automatisieren, ist oftmals schwer bis unmöglich (jedenfalls ohne KI, aber auch damit sind die Ergebnisse bisher durchwachsen). Wenn man stattdessen aber eine Teilautomatisierung entwickelt, bei der der Mensch nur an den wesentlichen Stellen eingreift, für die abstraktes Verständnis oder Hintergrundwissen erforderlich ist, kann man mit sehr viel weniger Aufwand ein Programm erstellen, das bereits enorme Effizienzgewinne erbringt.

Ein guter Freund, leider inzwischen verstorben, sagte immer: 100% Perfektion ist die 100% Garantie für Unglück. Wir stellen uns unter der Roboter-Revolution immer vollständig autonome Maschinen vor, die alles ganz alleine erledigen können. Aber Hand in Hand mit dem Menschen, der die Dinge übernimmt, die dem Roboter schwerfallen, während der Roboter den Menschen von Dingen entlastet, die anstrengend oder repetitiv und langweilig sind, das scheint mir viel eher der Weg in die Zukunft zu sein.

Windows 10 Support-Ende

Mit dem heutigen Tag endet der Support für Windows 10. Allerdings noch nicht in der EU, dort gibt es noch ein weiteres Jahr Updates. Erstmal besteht also für hiesige Nutzer kein Grund zur Eile.

Es gibt allerdings eine ganze Menge Software, die sich weigert, noch unter Windows 10 zu funktionieren. Z.B. die Datev-Software. Es kann deshalb nötig sein, trotz weiter verfügbarer Updates für Windows 10 nun dringend wechseln zu müssen.

Aber was tun, wenn Microsoft den Rechner als inkompatibel für den Upgrade einstuft? Und wenn dort wichtige und umfangreiche Daten gespeichert sind, deren Migration auf einen neuen Rechner aufwändig, und vielleicht sogar gefährlich (Datenverlust) ist?

Die Kompatibilitätsanforderungen von Windows 11 lassen sich in drei Bereiche teilen: TPM, UEFI/GPT, Prozessor. Windows 11 setzt einen TPM-Chip voraus. Wenn es den nicht gibt, kann man im BIOS nachsehen, ob er vielleicht abgeschaltet ist.

Windows 11 will außerdem ein UEFI-BIOS mit GPT formatierter Festplatte. Wenn Ihre Festplatte noch MBR ist, gibt es Tools, um die Festplatte auf GPT umzustellen.

Bleibt noch das Thema des Prozessors. Es ist zwar so, dass das die einzige Beschränkung ist, die einen tatsächlichen technischen Sinn hat.  Windows 11 hängt tatsächlich von neueren Prozessor-Features ab. Trotzdem ist Microsoft auch damit über’s Ziel hinaus geschossen, es schließt Prozessoren aus, die die benötigten Funktionen durchaus aufweisen, aber das ist Microsoft egal, es besteht auf ziemlich neuen Prozessoren.

Für dieses Prozessor-Problem bleibt nur der Rückgriff auf Rufus. Rufus kann aber auch die anderen Probleme umgehen, bedeutet, mit Rufus kann man ein Win11-Installations-Image erstellen, das weder TPM, GPT, noch einen neuen Prozessor benötigt. In diesem speziellen von Rufus generierten Image sind die Prüfungen dazu abgeschaltet.

Für die Details, wie Sie mit Rufus ein solches Image für Ihren PC erstellen können, fragen Sie bitte die KI Ihres Vertrauens. Wenn Sie das geschafft haben, können Sie auch auf einem eigentlich inkompatiblen PC einen Inplace-Update auf Windows 11 ausführen, der die Lizenz, Ihre Daten und alle Einstellungen übernimmt.

Eine Gewähr, dass Microsoft nicht etwa zukünftig diese Prüfungen noch einmal in ein Windows 11 Update einbaut, und dann eine solche Rufus-Installation nachträglich deaktiviert, gibt es aber natürlich nicht. Insofern, wenn Ihre Probleme nur TPM und/oder MBR sind, versuchen Sie es erst einmal mit den oben beschriebenen Wegen, das ist bestimmt zukunftssicherer.

VM Falle


Wer unter Linux arbeitet, hat vielleicht ein VM für Windows. Es gibt ja nach wie vor Anwendungen, die nur unter Windows laufen. Eine solche Anwendung ist Banking-Software, die einen Chipkarten-Leser einbindet.

Es gibt da zwar das eine oder andere für Linux, aber für professionelle Anforderungen sieht es mau aus. An sich ist das kein Problem, man reicht den USB Port des Chipkartenlesers an die VM durch, und dann kann die Banking-Software den auch problemlos anprechen.

Allerdings gibt es dabei eine Tücke. Der Linux-Treiber pcscd bekommt davon nichts mit. Und dann flutet er drei mal in der Sekunde das syslog und beschwert sich darüber. Das ist nicht nur ein Platzproblem, das ist so häufig, dass es zu Deadlocks führen kann, und in anderen Anwendungen Daten verlorengehen.

pcscd wird zudem automatisch installiert, wenn ein Chipkartenleser gefunden wird. Wenn man also das Problem nicht bemerkt, dann passiert es im Hintergrund und fällt gar nicht auf. Linux ist durchaus sehr effizient mit seinem Journal und bügelt das scheinbar weg.

Mithin, wer einen Chipkartenleser an eine Windows-VM durchreicht, sollte den pcscd Dienst abschalten und maskieren:

sudo systemctl disable --now pcscd.service pcscd.socket
sudo systemctl mask pcscd.service pcscd.socket

Es geht dabei nicht nur um das journal. Im Durchschnitt 16 Meldungen in der Sekunde sind zwar heftig und machen das journal kaum noch brauchbar. Wichtiger finde ich aber, dass dauernd der USB-Stack bombardiert wird, mit Timeouts und all das. Das könnte durchaus die Systemstabiltät beeinflussen.

Touchscreens im Auto als Unfallrisiko

https://www.golem.de/news/unfallrisiko-touchscreens-im-auto-gefaehrlicher-als-alkohol-2509-200318.html

Touchscreens sind längst Standard in modernen Autos geworden, doch es gibt zunehmend Belege dafür, dass diese digitalen Bedienelemente gefährliche Fahrsituationen schaffen können. Sicherheitsorganisationen führen nun neue Richtlinien ein, die das Fahrzeugdesign grundlegend verändern könnten, wie The Economist berichtet.

Mich wundert schon lange, dass die Nutzung von Handys so streng sanktioniert wird, aber die Bedienelemente im Auto immer mehr visuelle Aufmerksamkeit erfordern. Das „alte“ Verfahren, bei dem man nach einer Eingewöhnungszeit blind alle Bedienelemente finden und benutzen konnte, ohne die Augen von der Straße zu nehmen, hatte durchaus seine Vorteile.