Claudes versteckter Kostentreiber

Es ist immer wieder überraschend, gleichartige Aufgaben kosten bei Anthropic das Drei- oder Vierfache als bei OpenAI, obwohl doch beide als SOTA-Anbieter Premium-Preise für die Input- und Output-Token in ähnlicher Region verlangen. Ich hab mir schon oft den Kopf darüber zerbrochen. Sogar Betrug habe ich schon vermutet, aber wenn man die Anzahl der verrechneten Tokens ansieht, wie man sie in den Rückgabe-Daten auswerten kann, dann scheint das schon seine Richtigkeit zu haben. Aber jetzt meine ich, einen wesentlichen Teil der Erklärung gefunden zu haben.

Der Schlüssel liegt in einer Funktion, die bei OpenAI im Hintergrund einfach passiert – während Anthropic den Kunden in die Pflicht dazu nimmt, mit einer Gebühr für den Versuch obendrauf. Es geht um Prompt-Caching. Bei vielen Anbietern gibt es stark reduzierte Kosten für gecachte Token (bis zu 90 % günstiger). So auch bei Anthropic, OpenAI und Google. Das bedeutet, ein Token, das erst kürzlich benutzt wurde, kann innerhalb einer gewissen Zeitspanne wiederverwendet werden, und wird dann nur mit einer stark reduzierten Gebühr berechnet.

Aber Google und OpenAI haben Prompt-Caching als vollständig transparente, automatische Funktion umgesetzt. Sprich, wer neuere Modelle dieser beiden Anbieter verwendet, bekommt automatisch Prompt-Caching, bei OpenAI teilweise mit einer Retention-Dauer von sogar bis zu 24 Stunden.

Anthropic hingegen hat einen fundamental anderen Ansatz. Die Lebenszeit des Caches ist nur 5 Minuten (bis letztes Jahr war das eine Stunde, seitdem ist es drastisch verkürzt, worüber sich schon viele Entwickler aufgeregt haben). Und vor allem ist Caching bei Anthropic Aufgabe des Kunden. Das Caching muss manuell aktiviert werden, indem man in jeder API-Anfrage cache_control-Felder setzt – entweder als explizite Breakpoints in einzelnen Content-Blöcken oder neuerdings als Request-Level-Feld für den „Automatic Mode“ bei Multi-Turn-Gesprächen.

Das Problem dabei: Bei vielen Tools lässt sich überhaupt nicht eingreifen, wie der Prompt an die API übergeben wird. Ob Sie Open WebUI, Goose AI, ein CLI-Coding-Tool oder einen Agenten wie OpenClaw oder Hermes verwenden, man kann ja gar nicht bestimmen, wie die ihre Prompts an Anthropic aufbauen, und ob sie überhaupt Caching benutzen.

Anthropic treibt es aber außerdem noch auf die Spitze mit einer weiteren Maßnahme: Wenn man das Cache Control-Feld setzt, dann bekommt dieser Request einen Aufschlag von 25 % – man bezahlt also 125 % des normalen Token-Preises. Und da der Cache dann außerdem nur 5 Minuten gilt, kann es in vielen Anwendungsszenarien sein, dass man bloß noch mehr für die Input Token bezahlt hat, ohne dass der Cache jemals gewirkt hat. Stellen Sie sich vor, Sie sitzen an einem Projekt, stellen eine Frage, und dann brauchen Sie länger als 5 Minuten um die Antwort zu bearbeiten. Zack, Cache ist ungültig, und ihn zu befüllen war bloß noch teurer.

Es ist unbestritten, Claude Opus und (das derzeit zurückgezogene) Fable haben großartige Coding- und Analyse-Fähigkeiten. Aber um tatsächlich große Projekte mit Claude zu erstellen, ist es wirklich extrem teuer. Unser Vorschlag dazu: Machen Sie die Planung mit Claude und übergeben Sie dann dieses gespeicherte Ergebnis an OpenAI oder sogar an eines der noch weit günstigeren Open Source Modelle. Das kommt in Summe sehr viel günstiger und erbringt trotzdem hervorragende Qualität.

Quellen

OpenAI: Prompt Caching – offizielle Dokumentation platform.openai.com/docs/guides/prompt-caching

Anthropic: Prompt Caching – offizielle Dokumentation platform.claude.com/docs/en/build-with-claude/prompt-caching

Reddit r/Anthropic: „Anyone actually saving money with Claude’s prompt caching?“ reddit.com/r/Anthropic/comments/1idf7x7

Reddit r/ClaudeAI: „Anthropic quietly switched the default cache TTL from 1 hour to 5 minutes“ reddit.com/r/ClaudeAI/comments/1sk3m12

Google Developers Blog: „Gemini 2.5 Models now support implicit caching“ developers.googleblog.com/gemini-2-5-models-now-support-implicit-caching/

Hacker News: Diskussion zu automatischen Cache-Breakpoints in Claude Code news.ycombinator.com/item?id=47363074

Schreibe einen Kommentar Antwort abbrechen