LLM-API-Kosten im Griff

Alle KI-Modelle rechnen über Token ab. Es gibt dabei Input-Token, Output-Token und Cached-Token. Cached-Token kosten sehr wenig. Cached-Token werden eine gewisse Zeit im Cache des Anbieters gehalten, und wenn sie noch von dort abrufbar sind, wird nur ein kleiner Preis berechnet. Input-Token sind pro Einheit günstig, aber da ihr Volumen deutlich höher liegt, machen sie trotzdem den Löwenanteil der Kosten aus. Die teuersten Token sind die für den Output, aber davon gibt es deutlich weniger als Input-Token. Ist man eigentlich auf Gedeih und Verderb darauf angewiesen, den LLM-Betreibern zu vertrauen, dass die das schon richtig abrechnen werden? Und könnte man vielleicht etwas an Arbeitsweise oder Prompt-Stil verbessern, um kosteneffizienter zu arbeiten?

Es ist dabei unerheblich, ob Sie via API-Key oder pauschal abrechnen mit Abo-Plänen. Bei den Abo-Plänen haben Sie Usage Limits (z.B. pro Stunde, pro Woche), wenn Sie zuviele Token verbrauchen, wird der Zugriff gesperrt, bis Sie wieder unterhalb des Limits sind. Das Ganze ist eine Blackbox, und man kann sich schon fragen, was wird da eigentlich warum abgerechnet. Und wenn man mitten im Projekt in eine Abo-Sperre bis zum Ende der Woche gerät, können einem die Termine um die Ohren fliegen. Oder man ruiniert sich, weil eine absurd hohe Rechnung für den API-Verbrauch ins Haus flattert.

Die Tools der Hersteller helfen oft nur bedingt. Zwar kann man bei manchen Anbietern umfangreiche Logs einsehen, zum Teil auch je nach API-Key getrennt. Aber letztlich muss man auch dabei wieder dem Anbieter vertrauen, und es wäre auch sehr aufwändig, für einen bestimmten Workload den konkret anfallenden Bedarf aus den endlosen Listen zu ermitteln. Die außerdem nicht alle Anbieter überhaupt zur Verfügung stellen.

Generell in diesem Zusammenhang zunächst der Hinweis, fahren Sie niemals ein LLM mit API-Key-basierter Abrechnung ohne Budget-Limits. Einen KI-Anbieter, der solche konfigurierbaren Limits nicht anbietet, sollten Sie dringend meiden. Ich würde sogar so weit gehen zu sagen, wenn das für ein KI-Modell bei API-Key-basierter Abrechnung nicht verfügbar ist, dann ist der Betreiber unseriös. Es gibt mittlerweile schon viele Berichte über Anwender und Teams, die fröhlich einen Monat lang vor sich hin programmiert haben – und dann geradewegs in die Insolvenz gegangen sind, weil sie keine Kostenlimits gesetzt hatten.

Das ist die Grundsicherung, die unbedingte Voraussetzung ist, um unangenehmen Überraschungen vorzubeugen. Den Tokenverbrauch selbst zu kontrollieren, lohnt sich allerdings auch dann, wenn Sie dem Anbieter vertrauen, dass er alles richtig verbucht. Es gibt nämlich Untersuchungen, nach denen bis zu 75% der Token tote Nutzlast sind, das heißt, für die Beantwortung der eigentlichen Frage irrelevant. Das lässt sich zwar technisch niemals ganz vermeiden, aber bei geschicktem Prompting mit einer wohlorganisierten Harness lässt sich das auf ca. 35% drücken.

Genau dafür, nämlich Providerkontrolle, und um den Anteil der leeren Last zu drücken, können Sie einen LLM-Gateway installieren, der auf Ihrem System oder einem Server in Ihrem Netzwerk genau protokolliert, wie viele Token für welche Bereiche (Cached, Input, Output) gesendet werden. Sie können damit Ihrem Provider „auf die Finger sehen“, ob seine Abrechnungsdaten oder die Abo-Plan-Blocks korrekt und plausibel sind, sowie Ihr Prompting optimieren.

Ein LLM-Gateway (auch LLM-Proxy genannt) ist eine Software, die sich zwischen Ihre Anwendung und die KI-Provider schaltet. Der Datenverkehr läuft dann so:

Ihre App ↔ LLM-Gateway ↔ OpenAI / Anthropic / Google / …

Das Gateway ist dabei kein Bottleneck, moderne Gateways arbeiten mit unter 10ms Overhead. Der Vorteil: Jeder einzelne API-Call wird geloggt mit allen relevanten Metriken –

  • Tokens eingehend (Prompt) und ausgehend (Completion)
  • Kosten berechnet pro Request anhand der Preise des jeweiligen Providers
  • Modell und Provider
  • Latenz (Time to First Token, Total Time)
  • User/Team/Feature über Tags zuordbar

Die wichtigsten Tools dazu im Überblick:

LiteLLM – Der Platzhirsch (Open Source)

🔗 Website: https://litellm.ai
🔗 GitHub: https://github.com/BerriAI/litellm
🔗 Docs: https://docs.litellm.ai/docs/simple_proxy

LiteLLM ist das aktuell verbreitetste Open-Source-LLM-Gateway. Es besteht aus zwei Komponenten: einer Python-SDK für direkte Integration und einem eigenständigen Proxy-Server.

Was es kann:

  • 100+ LLM-Provider über eine einheitliche OpenAI-kompatible API
  • Virtual Keys mit Budget-Limits pro User oder Team
  • Echtzeit-Dashboard mit Token-Verbrauch und Kosten
  • Load Balancing über mehrere Provider hinweg
  • Automatische Fallbacks bei Provider-Ausfall
  • Guardrails (Content-Filter, PII-Erkennung)
  • 8ms P95 Latenz bei 1.000 Requests pro Sekunde

Wenn Sie nur ein Tool ausprobieren wollen – nehmen Sie LiteLLM. Es deckt 90% der Anforderungen ab, ist kostenlos und hat eine große Community.

Portkey – Gateway mit Observability-Fokus

🔗 Website: https://portkey.ai
🔗 GitHub: https://github.com/Portkey-AI/gateway

Portkey geht über reines Routing hinaus und positioniert sich als vollständige Produktionsplattform für KI-Anwendungen. Observability und Guardrails sind von Anfang an integriert.

Was es kann:

  • 1.600+ LLMs über Unified API
  • Echtzeit-Observability-Dashboard (Tokens, Kosten, Latenz, Fehlerquoten)
  • Automatische Anomalie-Erkennung bei Kosten-Spikes
  • Guardrails: Output-Validierung, Halluzinations-Checks
  • Prompt-Management mit Versionierung und A/B-Testing
  • MCP Gateway für sichere Tool-Zugriffe

Aktuell: Portkey wurde kürzlich von Palo Alto Networks akquiriert – ein starkes Signal für die strategische Bedeutung von LLM-Governance.

Die richtige Wahl, wenn Sie neben Kosten-Tracking auch Observability und Sicherheitsfeatures brauchen. Enterprise-tauglich, Free-Tier für den Einstieg.

OpenRouter – Der einfache Einstieg

🔗 Website: https://openrouter.ai

Kein Self-Hosting, kein Server-Betrieb. Account erstellen, Credits aufladen, Base-URL ändern – fertig. 300+ Modelle über eine API.

So funktioniert’s:

  1. Account auf openrouter.ai erstellen
  2. Credits aufladen
  3. Base-URL in Ihrer Anwendung ändern auf: https://openrouter.ai/api/v1
  4. Fertig – alle Requests werden automatisch getrackt

Perfekt zum Ausprobieren und für kleine Teams. Für Enterprise-Anforderungen (User-Attribution, Budget-Limits) eher nicht geeignet.

Braintrust Gateway – Gateway plus Evaluation

🔗 Website: https://braintrust.dev

Kombiniert ein LLM-Gateway mit einer Evaluierungsplattform. Neben dem Token-Tracking können Sie testen, ob Ihre KI-Anwendungen die gewünschte Qualität liefern.

Was es kann:

  • Multi-Provider-Routing (OpenAI, Anthropic, Google, AWS Bedrock, Azure, Mistral)
  • Jeder Request wird als strukturierter Trace gespeichert
  • Tag-basierte Kosten-Zuordnung
  • Evaluierung von KI-Outputs direkt im Gateway
  • Debugging-Playground mit echten Produktionsdaten

Für Teams, die nicht nur Kosten tracken, sondern auch die Qualität ihrer KI-Outputs systematisch verbessern möchten.

Architektur-Tipp: Mehrere Provider, ein Gateway

Der eigentliche Nutzen zeigt sich, wenn Sie mehrere Provider gleichzeitig nutzen – für Fallback, Kostenoptimierung oder Compliance. Das Gateway wird zur zentralen Schaltstelle und fasst alle Kosten für die genutzen Anbieter übersichtlich zusammen.

Fazit

Token-basierte Abrechnung ist das Standard-Modell aller KI-Provider. Ohne Monitoring fahren Sie blind – und die Rechnung kommt trotzdem. Ein LLM-Gateway ist die einfachste Methode, Transparenz zu schaffen: ein Proxy, der jeden Request loggt und Ihnen zeigt, wo Ihr Budget hingeht.

Der Einstieg ist dabei einfacher als man denkt. Mit LiteLLM haben Sie in fünf Minuten einen lauffähigen Proxy, der alle Ihre KI-API-Calls trackt. Probieren Sie es aus – bevor die nächste Rechnung überrascht.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert