Anthropic Claude: Mit Prompt-Caching bis zu 90 % der API-Kosten sparen

Die Nutzung von KI-Sprachmodellen wie Anthropic’s Claude kann teuer werden, besonders wenn wiederkehrende Prompts immer wieder vollständig neu verarbeitet werden. Doch es gibt einen Ausweg: Prompt-Caching. Mit nur wenigen Zeilen Code lassen sich bis zu 90 % der Eingabekosten einsparen – ein Game-Changer für Entwickler, die große Sprachmodelle in Produktion einsetzen.

Warum Prompt-Caching die Kosten revolutioniert

Jedes Mal, wenn Sie eine Anfrage an die Claude-API senden, wird Ihr gesamter Prompt – inklusive Systemanweisungen, Tools und Kontext – neu kodiert. Selbst wenn sich nur die letzten Zeilen ändern, wird die gesamte Eingabe erneut berechnet. Prompt-Caching ändert das: Sie markieren bestimmte Abschnitte Ihres Prompts als Cache-Punkte, und die API speichert die kodierte Version dieser Abschnitte serverseitig.

Die Vorteile liegen auf der Hand:

Kostensenkung: Gecachte Token kosten nur 10 % des normalen Eingabepreises.
Effizienz: Keine redundante Kodierung – der Cache wird bei jedem erneuten Zugriff aktualisiert.
Flexibilität: Sie können bis zu vier Cache-Punkte pro Anfrage setzen, um verschiedene Ebenen Ihres Prompts zu optimieren.

Ein einfaches Beispiel: Eine 8 KB große Systemanweisung wird bei jeder Anfrage neu berechnet – bis zu 2.000 Token pro Aufruf. Mit Prompt-Caching zahlen Sie für diese Anweisung nur einmal und sparen so bis zu 90 % der Kosten.

Die Kostenrechnung: Wann lohnt sich der Cache?

Die Einsparungen hängen von der Häufigkeit der Cache-Nutzung ab. Hier ein Vergleich der Kosten für einen typischen Anwendungsfall mit 10 Anfragen in einem fünfminütigen Fenster (basierend auf dem öffentlichen Tarif von 3 US-Dollar pro Million Token für Claude Sonnet 4.6):

| Szenario | Kosten pro Anfrage | Gesamtkosten (10 Anfragen) | Effektiver Preis pro Token | |------------------------------|--------------------|----------------------------|---------------------------| | Ohne Caching (8 KB Präfix) | 0,0060 USD | 0,060 USD | 3,00 USD/Mio. | | 5-Minuten-Cache (1 Cache-Hit)| 0,0075 USD (Erstaufruf) + 0,0006 USD (Cache-Zugriff) | 0,0129 USD | 0,65 USD/Mio. | | 1-Stunden-Cache (1 Cache-Hit)| 0,0120 USD (Erstaufruf) + 0,0006 USD (Cache-Zugriff) | 0,0174 USD | 0,87 USD/Mio. |

Der Break-even-Punkt ist bereits nach der zweiten Anfrage erreicht, wenn Sie die 5-Minuten-Cache-Option nutzen. Die 1-Stunden-Variante rentiert sich ab der dritten Anfrage – ideal für Anwendungen mit längeren Pausen zwischen den Anfragen. Wichtig: Nur die Eingabetoken werden gecacht, die Ausgabetoken bleiben unverändert.

Praktische Implementierung: Code-Beispiele für TypeScript und Python

Die Integration von Prompt-Caching ist denkbar einfach. Sie müssen lediglich die statischen Abschnitte Ihres Prompts mit dem cache_control-Parameter markieren. Hier zwei funktionierende Beispiele:

TypeScript-Implementierung

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic();

// System-Prompt mit Cache-Steuerung
const SYSTEM_PROMPT = `Du bist ein Code-Revisor für ein TypeScript-Monorepo.
[... 1500 weitere Token mit Style-Guide, Beispielen und Repo-Konventionen ...]`;

async function review(diff: string) {
  const response = await client.messages.create({
    model: "claude-sonnet-4-6",
    max_tokens: 1024,
    system: [
      {
        type: "text",
        text: SYSTEM_PROMPT,
        cache_control: { type: "ephemeral" }, // Standard: 5 Minuten TTL
      },
    ],
    messages: [
      {
        role: "user",
        content: diff,
      },
    ],
  });

  console.log({
    cache_creation: response.usage.cache_creation_input_tokens,
    cache_read: response.usage.cache_read_input_tokens,
    fresh_input: response.usage.input_tokens,
  });

  return response;
}

Die erste Anfrage erzeugt Kosten für die Cache-Erstellung (1,25-facher Eingabepreis), während alle folgenden Anfragen nur 10 % des normalen Preises kosten. Der diff-Parameter bleibt uncacheiert, da er nach dem markierten Cache-Punkt liegt.

Python-Implementierung

import anthropic

client = anthropic.Anthropic()

SYSTEM_PROMPT = """Du bist ein Code-Revisor für ein TypeScript-Monorepo.
[... 1500 weitere Token mit Style-Guide, Beispielen und Repo-Konventionen ...]"""

def review(diff: str):
    response = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=1024,
        system=[
            {
                "type": "text",
                "text": SYSTEM_PROMPT,
                "cache_control": {"type": "ephemeral"},  # Standard: 5 Minuten TTL
            }
        ],
        messages=[{"role": "user", "content": diff}],
    )

    print({
        "cache_creation": response.usage.cache_creation_input_tokens,
        "cache_read": response.usage.cache_read_input_tokens,
        "fresh_input": response.usage.input_tokens,
    })

    return response

Für eine längere Cache-Dauer (1 Stunde) ändern Sie einfach den Parameter:

"cache_control": {"type": "ephemeral", "ttl": "1h"}

Optimale Cache-Strategie: So setzen Sie Breakpoints effektiv

Die Kunst liegt darin, die richtigen Abschnitte Ihres Prompts als Cache-Punkte zu markieren. Mit bis zu vier Breakpoints pro Anfrage können Sie verschiedene Ebenen Ihres Prompts optimieren:

Tools (selten ändernde APIs oder Funktionen)
System-Prompt (statische Anweisungen)
Statischer Kontext / RAG-Dokumente (Wissensdatenbank)
Konversationsverlauf (vorherige Nutzer- und KI-Nachrichten)

Der aktuelle Nutzer-Turn bleibt immer uncacheiert, da er sich dynamisch ändert. Hier ein Beispiel für eine optimierte Schichtung:

const response = await client.messages.create({
  model: "claude-sonnet-4-6",
  max_tokens: 2048,
  tools: [
    {
      name: "search_docs",
      description: "...",
      input_schema: {/*...*/},
    },
    {
      name: "run_query",
      description: "...",
      input_schema: {/*...*/},
      cache_control: { type: "ephemeral" }, // Breakpoint 1
    },
  ],
  system: [
    {
      type: "text",
      text: SYSTEM_PROMPT,
      cache_control: { type: "ephemeral" }, // Breakpoint 2
    },
  ],
  messages: [
    // ... vorherige Nachrichten
    { role: "user", content: currentUserTurn }
  ],
});

Durch diese Struktur zahlen Sie nur für den aktuellen Nutzer-Turn und die Antwort des Modells, während alle statischen und semistatischen Abschnitte effizient gecacht werden.

Fazit: Prompt-Caching als Standard für KI-Entwickler

Prompt-Caching ist kein Nischenthema mehr, sondern ein muss für jeden, der Sprachmodelle in Produktion einsetzt. Mit minimalem Aufwand lassen sich die Kosten um bis zu 90 % senken – ohne Einbußen bei der Performance oder Funktionalität.

Die Implementierung ist denkbar einfach, und die Kostenvorteile sind sofort messbar. Nutzen Sie die 5-Minuten-Cache-Option für häufige Anfragen und die 1-Stunden-Option für Anwendungen mit längeren Pausen. So optimieren Sie nicht nur Ihr Budget, sondern auch die Effizienz Ihrer KI-Anwendungen.

Die Zukunft der KI-Entwicklung wird zunehmend von solchen Optimierungen geprägt sein. Wer heute die Weichen stellt, spart nicht nur Geld, sondern sichert sich auch einen Wettbewerbsvorteil.

KI-Zusammenfassung

Discover how prompt caching in the Claude API can slash your input token bills by up to 90% with just 10 lines of code. Includes TypeScript and Python examples.

Anthropic Claude: Mit Prompt-Caching bis zu 90 % der API-Kosten sparen

Warum Prompt-Caching die Kosten revolutioniert

Die Kostenrechnung: Wann lohnt sich der Cache?

Praktische Implementierung: Code-Beispiele für TypeScript und Python

TypeScript-Implementierung

Python-Implementierung

Optimale Cache-Strategie: So setzen Sie Breakpoints effektiv

Fazit: Prompt-Caching als Standard für KI-Entwickler

Kommentare

VR-Therapie gegen Angst: Wie 60 Tage Immersive Technologie mein Wohlbefinden veränderten

Qualitative Nutzdatenanalyse: So wandeln Sie Feedback in klare Erkenntnisse

Rechtliche KI-Automatisierung: Wie Kanzleien 3 Stunden Admin-Arbeit sparen