Die Nutzung von KI-Sprachmodellen wie Anthropic’s Claude kann teuer werden, besonders wenn wiederkehrende Prompts immer wieder vollständig neu verarbeitet werden. Doch es gibt einen Ausweg: Prompt-Caching. Mit nur wenigen Zeilen Code lassen sich bis zu 90 % der Eingabekosten einsparen – ein Game-Changer für Entwickler, die große Sprachmodelle in Produktion einsetzen.
Warum Prompt-Caching die Kosten revolutioniert
Jedes Mal, wenn Sie eine Anfrage an die Claude-API senden, wird Ihr gesamter Prompt – inklusive Systemanweisungen, Tools und Kontext – neu kodiert. Selbst wenn sich nur die letzten Zeilen ändern, wird die gesamte Eingabe erneut berechnet. Prompt-Caching ändert das: Sie markieren bestimmte Abschnitte Ihres Prompts als Cache-Punkte, und die API speichert die kodierte Version dieser Abschnitte serverseitig.
Die Vorteile liegen auf der Hand:
- Kostensenkung: Gecachte Token kosten nur 10 % des normalen Eingabepreises.
- Effizienz: Keine redundante Kodierung – der Cache wird bei jedem erneuten Zugriff aktualisiert.
- Flexibilität: Sie können bis zu vier Cache-Punkte pro Anfrage setzen, um verschiedene Ebenen Ihres Prompts zu optimieren.
Ein einfaches Beispiel: Eine 8 KB große Systemanweisung wird bei jeder Anfrage neu berechnet – bis zu 2.000 Token pro Aufruf. Mit Prompt-Caching zahlen Sie für diese Anweisung nur einmal und sparen so bis zu 90 % der Kosten.
Die Kostenrechnung: Wann lohnt sich der Cache?
Die Einsparungen hängen von der Häufigkeit der Cache-Nutzung ab. Hier ein Vergleich der Kosten für einen typischen Anwendungsfall mit 10 Anfragen in einem fünfminütigen Fenster (basierend auf dem öffentlichen Tarif von 3 US-Dollar pro Million Token für Claude Sonnet 4.6):
| Szenario | Kosten pro Anfrage | Gesamtkosten (10 Anfragen) | Effektiver Preis pro Token | |------------------------------|--------------------|----------------------------|---------------------------| | Ohne Caching (8 KB Präfix) | 0,0060 USD | 0,060 USD | 3,00 USD/Mio. | | 5-Minuten-Cache (1 Cache-Hit)| 0,0075 USD (Erstaufruf) + 0,0006 USD (Cache-Zugriff) | 0,0129 USD | 0,65 USD/Mio. | | 1-Stunden-Cache (1 Cache-Hit)| 0,0120 USD (Erstaufruf) + 0,0006 USD (Cache-Zugriff) | 0,0174 USD | 0,87 USD/Mio. |
Der Break-even-Punkt ist bereits nach der zweiten Anfrage erreicht, wenn Sie die 5-Minuten-Cache-Option nutzen. Die 1-Stunden-Variante rentiert sich ab der dritten Anfrage – ideal für Anwendungen mit längeren Pausen zwischen den Anfragen. Wichtig: Nur die Eingabetoken werden gecacht, die Ausgabetoken bleiben unverändert.
Praktische Implementierung: Code-Beispiele für TypeScript und Python
Die Integration von Prompt-Caching ist denkbar einfach. Sie müssen lediglich die statischen Abschnitte Ihres Prompts mit dem cache_control-Parameter markieren. Hier zwei funktionierende Beispiele:
TypeScript-Implementierung
import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic();
// System-Prompt mit Cache-Steuerung
const SYSTEM_PROMPT = `Du bist ein Code-Revisor für ein TypeScript-Monorepo.
[... 1500 weitere Token mit Style-Guide, Beispielen und Repo-Konventionen ...]`;
async function review(diff: string) {
const response = await client.messages.create({
model: "claude-sonnet-4-6",
max_tokens: 1024,
system: [
{
type: "text",
text: SYSTEM_PROMPT,
cache_control: { type: "ephemeral" }, // Standard: 5 Minuten TTL
},
],
messages: [
{
role: "user",
content: diff,
},
],
});
console.log({
cache_creation: response.usage.cache_creation_input_tokens,
cache_read: response.usage.cache_read_input_tokens,
fresh_input: response.usage.input_tokens,
});
return response;
}Die erste Anfrage erzeugt Kosten für die Cache-Erstellung (1,25-facher Eingabepreis), während alle folgenden Anfragen nur 10 % des normalen Preises kosten. Der diff-Parameter bleibt uncacheiert, da er nach dem markierten Cache-Punkt liegt.
Python-Implementierung
import anthropic
client = anthropic.Anthropic()
SYSTEM_PROMPT = """Du bist ein Code-Revisor für ein TypeScript-Monorepo.
[... 1500 weitere Token mit Style-Guide, Beispielen und Repo-Konventionen ...]"""
def review(diff: str):
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[
{
"type": "text",
"text": SYSTEM_PROMPT,
"cache_control": {"type": "ephemeral"}, # Standard: 5 Minuten TTL
}
],
messages=[{"role": "user", "content": diff}],
)
print({
"cache_creation": response.usage.cache_creation_input_tokens,
"cache_read": response.usage.cache_read_input_tokens,
"fresh_input": response.usage.input_tokens,
})
return responseFür eine längere Cache-Dauer (1 Stunde) ändern Sie einfach den Parameter:
"cache_control": {"type": "ephemeral", "ttl": "1h"}Optimale Cache-Strategie: So setzen Sie Breakpoints effektiv
Die Kunst liegt darin, die richtigen Abschnitte Ihres Prompts als Cache-Punkte zu markieren. Mit bis zu vier Breakpoints pro Anfrage können Sie verschiedene Ebenen Ihres Prompts optimieren:
- Tools (selten ändernde APIs oder Funktionen)
- System-Prompt (statische Anweisungen)
- Statischer Kontext / RAG-Dokumente (Wissensdatenbank)
- Konversationsverlauf (vorherige Nutzer- und KI-Nachrichten)
Der aktuelle Nutzer-Turn bleibt immer uncacheiert, da er sich dynamisch ändert. Hier ein Beispiel für eine optimierte Schichtung:
const response = await client.messages.create({
model: "claude-sonnet-4-6",
max_tokens: 2048,
tools: [
{
name: "search_docs",
description: "...",
input_schema: {/*...*/},
},
{
name: "run_query",
description: "...",
input_schema: {/*...*/},
cache_control: { type: "ephemeral" }, // Breakpoint 1
},
],
system: [
{
type: "text",
text: SYSTEM_PROMPT,
cache_control: { type: "ephemeral" }, // Breakpoint 2
},
],
messages: [
// ... vorherige Nachrichten
{ role: "user", content: currentUserTurn }
],
});Durch diese Struktur zahlen Sie nur für den aktuellen Nutzer-Turn und die Antwort des Modells, während alle statischen und semistatischen Abschnitte effizient gecacht werden.
Fazit: Prompt-Caching als Standard für KI-Entwickler
Prompt-Caching ist kein Nischenthema mehr, sondern ein muss für jeden, der Sprachmodelle in Produktion einsetzt. Mit minimalem Aufwand lassen sich die Kosten um bis zu 90 % senken – ohne Einbußen bei der Performance oder Funktionalität.
Die Implementierung ist denkbar einfach, und die Kostenvorteile sind sofort messbar. Nutzen Sie die 5-Minuten-Cache-Option für häufige Anfragen und die 1-Stunden-Option für Anwendungen mit längeren Pausen. So optimieren Sie nicht nur Ihr Budget, sondern auch die Effizienz Ihrer KI-Anwendungen.
Die Zukunft der KI-Entwicklung wird zunehmend von solchen Optimierungen geprägt sein. Wer heute die Weichen stellt, spart nicht nur Geld, sondern sichert sich auch einen Wettbewerbsvorteil.
KI-Zusammenfassung
Discover how prompt caching in the Claude API can slash your input token bills by up to 90% with just 10 lines of code. Includes TypeScript and Python examples.