Sie sind Entwickler und haben schon viel von der enormen Leistungsfähigkeit der KI beim Coden gehört. Sie spüren, das wird die ganze IT-Branche verändern, und Sie möchten sich auf die neuen Technologien einstellen. Als ITler muss man ja ohnehin ständig dazulernen, kein Problem, denken Sie. Also benutzen Sie zum ersten Mal eine KI für Ihren Code. Chat aufgemacht, Problem beschrieben, Enter gedrückt. Und herauskommt: mittelmäßiger Code. Funktioniert halbwegs, aber weit entfernt von dem, was Sie sich vorgestellt haben. Sie schließen den Tab wieder und denken: „Ist eben noch nicht so weit.“ Und haben eine Riesen-Chance vertan.
Ihre Enttäuschung ist verständlich – aber falsch interpretiert. Das Problem liegt nicht an der KI. Das Problem liegt daran, wie die KI eingesetzt wurde. Denn ein Sprachmodell, dem man im Chatfenster eine Aufgabe beschreibt, arbeitet mit dem, was es bekommt: ein paar Sätze Kontext, keine Projektstruktur, keine Architektur, keine Coding-Guidelines. Das Ergebnis ist dann erwartungsgemäß oberflächlich.
Stellen Sie sich dazu einmal vor, Sie erklären einem brillanten Entwickler Ihr Projekt in drei Sätzen und bitten ihn, ein Feature zu bauen. Ohne Zugang zum Repository, ohne die Doku, ohne zu wissen, welche Patterns im Team gelten. Das Ergebnis wird ähnlich enttäuschend sein. Nicht weil der Entwickler schlecht ist, sondern weil ihm der Kontext fehlt.
Was eine Harness ist – und warum sie alles verändert
In der KI-Welt nennt man das, was das Modell umgibt, die Harness: eine Hülle aus System-Prompts, Projektkontext, Tools, Memory und Workflows, die ein Sprachmodell von einem Chatbot zu einem produktiven Assistenten macht. Der Begriff ist im englischen Sprachraum etabliert und wird auch im Deutschen nicht als „Rüstung“ übersetzt, sondern als Fachbegriff verwendet – vergleichbar mit Framework oder Pipeline.
Was bedeutet das konkret beim Coden?
- Das Modell sieht Ihren gesamten Code, nicht nur die Datei, die Sie gerade im Chatfenster haben.
- Es versteht die Architektur: welche Module existieren, wie sie zusammenhängen, welche Konventionen gelten.
- Es arbeitet iterativ: Code schreiben, Tests ausführen, Fehler analysieren, korrigieren – nicht einmal prompten und hoffen.
- Es hat Werkzeuge: Zugriff auf Linter, Build-System, Terminal, Versionskontrolle.
- Es erinnert sich: An frühere Entscheidungen, an Fehler, die es schon gemacht hat, an Ihren Coding-Style.
Und der Unterschied ist fundamental. Ohne Harness generiert die KI quasi einfach nur Text. Brauchbar für Artikel und Aufsätze. Aber mit Harness schreibt sie produktiven Code. Mit den aktuellen Top-Modellen sogar auf Weltklasse-Niveau.
Der Stand der Dinge: Coding-Agenten 2026
Der Markt für KI-Coding-Agenten hat sich in den letzten Monaten rasant entwickelt. Wer heute einsteigt, hat die Wahl zwischen verschiedenen Ansätzen – je nach Anforderung, Teamgröße und Sicherheitsbedarf.
Integrierte Agenten für den Alltag
Goose AI ist derzeit einer der stärksten Allrounder. Breite Tool-Unterstützung, solide Harness-Integration, gut geeignet für den produktiven Einsatz im Entwickleralltag. Es gibt nicht nur eine Terminal-UI (CLI), sondern auch eine sehr gute Desktop-UI.
Pi Agent verfolgt den gegensätzlichen Ansatz: eine schlanke, effiziente Minimal-Lösung mit weniger Overhead, die trotzdem produktiv arbeitet – ideal für Teams, die schnell starten wollen, ohne ein komplettes System aufzusetzen.
Große Plattformen, auch für Open Source-Modelle
Claude Code (Anthropic) hat sich als starker Agent für Coding etabliert, mit zunehmend besseren agentischen Workflows. Über die API können auch eigene Modelle integriert werden.
Codex (OpenAI) ist ein weiterer sehr leistungsfähiger Agent und lässt sich ebenfalls für Open Source-Modelle konfigurieren – ein wichtiger Aspekt für Teams, die mehr Kontrolle über ihre KI-Infrastruktur und sensible Daten brauchen.
Der Unterschied zwischen Claude und Codex ist meiner Meinung mehr Geschmackssache – Claude ist der hippe Frisco-Typ mit Blumen im Haar und vielen kreativen Ideen, Codex der grummelige Senior-Developer, der ständig leicht frustriert wirkt, aber trotzdem immer erstklassige und vor allem sehr verlässliche Arbeit abliefert.
Ein Wort der Vorsicht: Wenn Sie Claude oder Codex mit den aktuellen Top-Modellen von Anthropic oder OpenAI verwenden, kann es schnell sehr teuer werden. Weil der Kontext Ihrer Prompts mit Harness erheblich größer ist, steigt der Token-Verbrauch naturgemäß stark an, und die Token-Preise bei den Marktführern sind recht hoch. Deshalb nochmals die Empfehlung für den Einstieg, auch diese Agenten zunächst mit Open Source-Modellen zu verwenden. Sie werden außerdem überrascht sein, wie leistungsfähig die freien Modelle mit einer guten Harness schon sind, zu einem Bruchteil der Kosten. Sogar freie Modelle, die in Consumer-Hardware passen und die Sie also lokal bei sich ausführen können!
Enterprise-fokussiert
Droid (Factory) ist für professionelle Unternehmensumgebungen gebaut. Zwei Aspekte machen es besonders relevant: Erstens ist es konfigurierbar für lokale Open Source-Modelle – ein wesentliches Kriterium für Unternehmen mit strengen Datenschutz- und Compliance-Anforderungen. Zweitens bietet Droid eine starke Unterstützung für die Organisation verteilter Teams. Wenn mehrere Entwickler an einem Projekt arbeiten und dabei eine gemeinsame KI-Umgebung nutzen wollen, liefert Droid die dafür nötige Infrastruktur – inklusive Team-Coordination und geteiltem Kontext. Der Vollständigkeit halber muss man aber sagen, sobald man die verteilte Team-Funktion nutzt, laufen die Daten über die Droid-Plattform. Wer die Daten vollständig in der eigenen Infrastruktur halten will, kann das zwar mit dem On-Premise-Setup tun, verzichtet dann aber auf genau diese Team-Features. Eine Abwägung, die jedes Unternehmen für sich treffen muss.
Open Source-orientiert
OpenCode und Aider stehen für den stark Open Source-orientierten Ansatz. OpenCode setzt auf Flexibilität und Anpassbarkeit, Aider hat sich besonders im iterativen Editieren von Code etabliert – ein Ansatz, der dem natürlichen Arbeitsablauf eines Entwicklers sehr nahekommt. Gerade wenn Sie zu Beginn noch nicht so viel Vertrauen in den Agenten haben, ist Aider immer darauf bedacht, alle Entscheidungen Ihnen zu überlassen und gibt Ihnen deshalb mehr Sicherheit. Nur das automatische Abnicken, das sich schnell einstellt, steht einem dabei im Wege …
Die Harness als neuer Wettbewerbsvorteil
Die Frage ist nicht mehr, welches KI-Modell das beste ist. Die Modelle werden sich angleichen. Der Unterschied liegt im System drumherum. Es ist wirklich überraschend, sogar vergleichweise einfache Modelle, die Sie mit einer einigermaßen starken Hardware-Ausstattung (GraKa mit 24 oder 32 GB VRAM ist empfohlen) lokal auf dem eigenen Rechner laufen lassen können, werden zu erstaunlich leistungsfähigen Coding-Partnern, wenn sie mit dem passenden Harness betrieben werden. Beispiele dafür sind Qwen 3.6, Gemma 4, GLM 4.7. Es gibt für diese Open Source Modelle sogar Varianten, die bereits mit nur 8 GB VRAM sehr ordentlich arbeiten.
Für Unternehmen bedeutet das: Wer heute in die Harness investiert – in die richtigen Agenten, die richtige Konfiguration, die Integration in bestehende Prozesse – hat morgen einen echten Wettbewerbsvorteil. Nicht weil die KI magisch besser wird, sondern weil sie endlich das tun kann, wofür sie gebaut wurde: produktiv arbeiten.
Für Entwickler heißt es zu verstehen, dass eine sorgfältige Konfiguration der Umgebung einer KI mindestens so wichtig ist wie ein guter Prompt. Nach meiner Erfahrung ist diese Konfiguration sogar noch deutlich wichtiger als der Prompt. Die ganze Industrie redet von Prompt Engineering, aber das reine Prompting ist mittlerweile überbewertet, wenn Sie mich fragen. Die KI versteht schon, oft besser, als man das für möglich hält. Aber damit das Modell weiß, was es mit Ihrem Prompt anfangen soll, braucht sie eben eine sorgfältig ausgearbeitete Programmierer-„Persönlichkeit“.
Die Harness ist das, was aus einem guten Modell ein großartiges Werkzeug macht. Und gut gerüstet ist, wie gesagt, halb gewonnen.

