Warum MCP-Server die Token-Kosten Ihres KI-Agenten explodieren lassen

Die Einführung von Model Context Protocol (MCP) in KI-Systemen versprach mehr Flexibilität und Leistung. Doch was viele Entwickler übersehen: Jedes verbundene MCP-Server lädt nicht nur die eigentlichen Funktionen, sondern auch die vollständigen Tool-Definitionsmetadaten in den Kontext. Und das passiert bei jedem Gesprächsbeginn – selbst wenn der Agent noch keine einzige Anweisung erhalten hat.

Das Problem? Diese Metadaten umfassen nicht nur Tool-Namen, sondern auch Parameterbeschreibungen, Enum-Werte und sogar API-Dokumentationstexte. Ein einziger Server kann dabei leicht mehrere tausend Token verbrauchen, bevor das erste Kommando ausgeführt wird. Die Folge: Höhere Kosten, langsamere Antworten und eine überlastete Kontextverwaltung.

Der unsichtbare Kostenfaktor: Token-Verbrauch durch Tool-Definitionen

Ein konkretes Beispiel aus der Praxis zeigt das Ausmaß des Problems. Bei der Analyse von vier gängigen MCP-Servern wurde ein extrem unterschiedliches Kostenprofil sichtbar:

PostgreSQL-MCP-Server (1 Tool): ~35 Tokens pro Gespräch
Google Maps-MCP-Server (7 Tools): ~704 Tokens
GitHub-MCP-Server (26 Tools): ~4.242 Tokens
GitHub-MCP-Server (vollständige API): ~55.000 Tokens

Der Unterschied zwischen einem minimalen und einem vollständig geladenen Server beträgt damit bis zu 1.500-fache Token-Kosten – und das ohne eine einzige Funktion ausgeführt zu haben. Zum Vergleich: Ein durchschnittlicher Chat mit einem KI-Agenten verbraucht etwa 3.000 bis 5.000 Tokens. Allein die Tool-Beschreibungen eines großen GitHub-Servers können also mehr als das Zehnfache des eigentlichen Gesprächsverbrauchs ausmachen.

Wie Tokens verschwendet werden: Ein Blick in die Definition

Ein einzelnes Tool-Definitionspaket sieht auf den ersten Blick harmlos aus:

{
  "name": "gmail_create_draft",
  "description": "Erstellt einen Entwurf einer E-Mail mit den angegebenen Parametern wie Empfänger, Betreff und Inhalt.",
  "inputSchema": {
    "type": "object",
    "properties": {
      "to": { "type": "string", "description": "E-Mail-Adresse des Empfängers" },
      "subject": { "type": "string", "description": "Betreffzeile der E-Mail" },
      "body": { "type": "string", "description": "Inhalt der E-Mail" }
    }
  }
}

Doch dieses eine Tool verbraucht bereits 820 Tokens – mehr als der gesamte PostgreSQL-MCP-Server mit seinen bescheidenen 35 Tokens. Multipliziert mit Dutzenden Tools pro Server summiert sich das schnell auf zehntausende Tokens, die bei jedem Gesprächsstart geladen werden.

Die Folgen: Schlechtere Leistung und explodierende Kosten

Der Token-Overhead ist nicht nur ein finanzielles Problem, sondern wirkt sich auch direkt auf die Leistungsfähigkeit des KI-Agenten aus. Studien zeigen:

Qualitätsverlust ab 50 Tools: Sobald mehr als 50 Tool-Definitionen geladen werden, beginnen die Antworten des Modells unscharf zu werden. Der Agent konzentriert sich plötzlich auf irrelevante Funktionen statt auf die eigentliche Aufgabe.

Kostenexplosion bei Skalierung: Bei 1.000 täglichen Anfragen mit vollem Tool-Overhead entstehen tägliche Kosten von rund 170 US-Dollar – monatlich also über 5.000 US-Dollar allein für Metadaten. Das entspricht etwa dem Preis eines kleinen Entwicklungsteams.

Fehlerhafte Empfehlungen: In Tests führte ein überladener Kontext dazu, dass der Agent bei einem Datenbankproblem aus Versehen ein GitHub-Issue erstellte – obwohl die Lösung im Datenbanksystem selbst lag.

Drei wirksame Strategien zur Token-Reduzierung

Glücklicherweise gibt es praktische Lösungen, um den Overhead zu minimieren. Die effektivsten Ansätze sind:

1. Nur benötigte Tools exponieren

Die meisten APIs stellen Hunderte von Funktionen bereit, doch in der Praxis werden oft nur ein Bruchteil genutzt. Durch eine whitelisting-basierte Tool-Auswahl lässt sich der Token-Verbrauch drastisch senken.

Beispiel für eine Steuerberatungssoftware mit 270 möglichen Tools, aber nur 10 relevanten Funktionen:

{
  "mcpServers": {
    "accounting": {
      "allowedTools": [
        "create_transaction",
        "list_transactions",
        "get_trial_balance",
        "list_account_items",
        "list_partners"
      ]
    }
  }
}

Ergebnis: Statt 17.500 Tokens verbrauchen nur noch 650 Tokens – eine Reduzierung um 96 %.

2. Beschreibungen auf das Wesentliche kürzen

API-Dokumentationen sind für Menschen geschrieben und enthalten oft ausführliche Erklärungen. KI-Modelle benötigen jedoch kompakte, präzise Beschreibungen, um effizient zu arbeiten.

Vergleich eines Tool-Definitions-Eintrags vor und nach der Optimierung:

// Vorher (~80 Tokens)
{
  "description": "Verwendet die Buchhaltungs-API, um eine neue Transaktion (Sachbuchung) für die angegebene Firmen-ID zu erstellen. Sie können Betrag, Datum, Kontoposten, Partnername, Memo und weitere Parameter angeben. Die Steuerkategorie wird automatisch bestimmt."
}

// Nachher (~20 Tokens)
{
  "description": "Transaktion erstellen. Argumente: Betrag, Datum, Kontoposten, Partner"
}

Durch diese Straffung lassen sich bis zu 75 % der Tokens einsparen, ohne die Funktionalität zu beeinträchtigen.

3. Server nur bei Bedarf verbinden

Ein häufiger Fehler ist das dauerhafte Verbinden aller MCP-Server, unabhängig von der aktuellen Aufgabe. Stattdessen sollte die Verbindung dynamisch hergestellt und getrennt werden:

Buchhaltungs-Tools nur bei Finanzanalysen aktivieren
GitHub-Integrationen für Code-Reviews freischalten
Datenbank-Tools nur bei Datenbankoperationen laden

Diese Maßnahme eliminiert den Overhead für alle unverwandten Konversationen vollständig.

Die Lösung der Zukunft: MCP Tool Search

Ab Januar 2026 soll eine protokollweite Verbesserung namens MCP Tool Search den Token-Overhead grundlegend reduzieren. Das System erkennt automatisch, wenn die Tool-Definitionen mehr als 10 % des Kontextfensters beanspruchen, und lädt die Metadaten erst bei Bedarf nach – ähnlich einem Lazy-Loading-Mechanismus.

Frühe Tests zeigen eine Reduzierung des Token-Overheads um 95 % im Vergleich zum aktuellen Stand. Die Lösung wird direkt in das MCP-Protokoll integriert und könnte das Problem damit an der Wurzel packen.

Allerdings ist MCP Tool Search noch nicht flächendeckend verfügbar. Bis dahin bleiben die drei Strategien die beste Möglichkeit, unnötige Token-Kosten zu vermeiden.

So überprüfen Sie Ihr MCP-Setup

Die folgenden Schritte helfen Ihnen, den Token-Overhead in Ihrem System zu identifizieren und zu reduzieren:

Tool-Anzahl prüfen: Führen Sie den Befehl tools/list für jeden verbundenen MCP-Server aus und zählen Sie die Gesamtzahl der Tools. Beträgt die Summe mehr als 30, sollten Sie Maßnahmen ergreifen.

Beschreibungen optimieren: Analysieren Sie die JSON-Schemas Ihrer Server auf überflüssige Textblöcke. Jeder Satz in einer Beschreibung wird bei jedem Gespräch neu geladen – und kostet Sie Geld.

Whitelisting nutzen: Die meisten MCP-Clients unterstützen die Filterung von Tools. Nutzen Sie diese Funktion, um nur die tatsächlich benötigten Funktionen zu exponieren.

Vorher/Nachher-Vergleich: Messen Sie den Token-Verbrauch pro Gespräch, bevor und nachdem Sie einen neuen MCP-Server verbinden. Die Zahlen zeigen Ihnen genau, welche Server die größten Kostentreiber sind.

Fazit: MCP als zweischneidiges Schwert

MCP wurde entwickelt, um die Fähigkeiten von KI-Agenten zu erweitern – doch in der Praxis kann es genau das Gegenteil bewirken, wenn Tool-Definitionen unkontrolliert den Kontext überfluten. Die Lösung liegt nicht darin, auf MCP zu verzichten, sondern darin, bewusst mit dem Tool-Overhead umzugehen.

Mit den richtigen Strategien lässt sich der Token-Verbrauch um bis zu 96 % reduzieren, ohne auf die Vorteile der Integration verzichten zu müssen. Und sobald MCP Tool Search flächendeckend verfügbar ist, könnten diese Probleme der Vergangenheit angehören. Bis dahin gilt: Misst, filtert und optimiert – bevor Ihr KI-Agent im Tokensumpf versinkt.

KI-Zusammenfassung

MCP sunucularının token kullanımını ölçtüğümde şaşırtıcı bir şey keşfettim. Tokenlerin meisteninin ajanın sözünü bile etmeden harcandığını gördüm. Token tüketimini azaltmak için üç strateji