Entwickler, die auf KI-gestützte Coding-Tools setzen, stehen oft vor einem Dilemma: Sie binden sich an ein bestimmtes Modell, einen Anbieter oder sogar ein SDK – und verlieren damit Flexibilität und Kosteneffizienz. Genau dieses Problem wollte der Entwickler hinter Anvil lösen. Das Open-Source-Tool nutzt ein intelligentes Routing-System, das unterschiedliche Large Language Models (LLMs) je nach Aufgabe und Komplexität einsetzt – und das Ganze für nur wenige Cent pro Durchlauf.
Warum statische LLM-Integrationen ineffizient sind
Viele KI-Coding-Tools folgen einem starren Muster: Sie binden Nutzer an ein einziges Modell, oft über ein proprietäres SDK. Wer das Modell wechseln möchte, muss das gesamte Toolkit anpassen oder sogar forken. Doch LLMs sind austauschbar – und genau das bietet enormes Potenzial für Effizienz und Kostenersparnis.
„LLMs sind austauschbar, vergleichbar und zunehmend günstig. Warum sollte man diese Möglichkeiten nicht nutzen, um die beste Lösung für jede Phase einer Code-Pipeline zu finden?“
Anvil setzt genau hier an: Statt sich auf ein einzelnes Modell zu verlassen, verteilt es die Aufgaben auf mehrere LLMs – jedes ausgewählt nach seinen Stärken und Kosten.
Ein konkretes Beispiel: So funktioniert das Routing
Ein kürzlicher Durchlauf zeigt, wie effizient das System arbeitet. Für eine einfache Feature-Anfrage durchlief der Agent folgende Phasen mit unterschiedlichen Modellen:
clarify → Ollama qwen3:14b (lokal) ~ $0.00
plan → Claude Sonnet 4.6 (tiefgehende Analyse) ~ $0.05
build → Ollama qwen3:14b (lokal) ~ $0.00
test → Ollama qwen3:14b (lokal) ~ $0.00
validate → Claude Haiku 4.5 (schnell & günstig) ~ $0.01
review → Claude Sonnet 4.6 (Qualitätsprüfung) ~ $0.08
ship → Ollama qwen3:14b (lokal, Git-Operationen) ~ $0.00
──────────
Gesamtkosten: **$0.14**Die meisten Phasen liefen lokal und damit kostenlos ab. Nur die anspruchsvolleren Aufgaben wie Planung und Review wurden mit Premium-Modellen bearbeitet. Das Ergebnis? Ein vollständig getesteter Pull Request für gerade einmal 14 Cent Cloud-Kosten.
Konfiguration statt harter Verdrahtung
Das Routing-System von Anvil basiert nicht auf festem Code, sondern auf einer einfachen YAML-Konfiguration. Diese definiert, welche Fähigkeiten jede Phase benötigt, wie komplex die Aufgabe ist und welche Modell-Tier-Präferenzen gelten:
# ~/.anvil/stage-policy.yaml
stages:
clarify:
capability: reasoning
complexity: S
prefer: [lokal, günstig, premium]
plan:
capability: reasoning
complexity: L
prefer: [premium]
build:
capability: code
complexity: M
prefer: [lokal, günstig, premium]
review:
capability: reasoning
complexity: L
prefer: [premium]Ein Resolver wählt dann das günstigste passende Modell aus einer Liste von Anbietern aus und führt es aus.
Acht Anbieter, eine Pipeline – ohne Abhängigkeiten
Anvil unterstützt acht verschiedene LLM-Anbieter, darunter:
- Claude
- OpenAI
- Gemini
- OpenRouter
- OpenCode
- Ollama
- Gemini CLI
- Google ADK
Jeder Anbieter wird über handgeschriebene HTTP-Adapter angebunden – ohne Nutzung von SDKs oder Frameworks wie LangChain oder Vercel AI SDK. Das hat einen entscheidenden Vorteil: Selbst wenn ein Modell oder Anbieter wegfällt, bleibt der Code funktionsfähig.
„Wenn ein Modell morgen nicht mehr verfügbar ist, sollte dein Code trotzdem weiterlaufen. Provider-Agnostik funktioniert nur, wenn du keine Typen oder Bibliotheken eines bestimmten Anbieters importierst.“
Falls ein Anbieter während eines Durchlaufs eine 429-Fehlermeldung (Rate-Limit) sendet, wechselt das System automatisch zum nächsten Modell in derselben Tier-Gruppe – unabhängig davon, ob es sich um denselben Anbieter oder einen anderen handelt.
Die wichtigsten Features von Anvil v0.1.0
Die erste stabile Version des Tools bringt mehrere innovative Ansätze mit, die sowohl die Kosten als auch die Qualität optimieren sollen:
Neunstufige Pipeline mit intelligenter Fallback-Strategie
Jede Phase der Pipeline ist klein und fokussiert, sodass kurze Agenten-Aufrufe möglich sind. Dank der Fallback-Mechanismen kann ein gesperrter Anbieter den gesamten Durchlauf nicht blockieren.
Hybride Wissensabfrage
Anvil kombiniert mehrere Techniken, um präzisen Kontext für die Modelle bereitzustellen:
- Vektorsuche
- BM25 (ein statistisches Retrieval-System)
- Projektgraph-Abfragen
- Cross-Encoder-Reranking
- AST-Chunking via Tree-sitter
Diese Kombination ermöglicht es günstigeren Modellen, Aufgaben zu übernehmen, die sonst nur mit teuren Premium-Modellen lösbar wären.
Langzeitgedächtnis mit automatischer Aktualisierung
Das Tool speichert gelernte Muster und Kontextinformationen dauerhaft – allerdings mit Mechanismen zur Erkennung veralteter Daten. Stale Informationen werden automatisch entfernt, sodass keine Tokens für bereits bekannte Lösungen verschwendet werden.
Regelbasierte Qualitätskontrolle
Wiederkehrende Probleme in Code-Reviews werden in deterministische Regeln umgewandelt. Erkennt das System ein bekanntes Muster, das bereits zweimal zu Fehlern führte, wird es direkt in der Lint-Phase abgefangen – ohne zusätzliche LLM-Aufrufe.
Planvalidator für frühzeitige Fehlererkennung
Bevor überhaupt Code geschrieben wird, prüft Anvil den geplanten Ablauf auf:
- Fehlende Tests
- Falsche Routing-Entscheidungen
- Undokumentierte Rückfallstrategien
Die günstigste Phase, um Fehler zu beheben, ist die Planungsphase.
Multi-Pass-PR-Review mit Kontextsteuerung
Das Review-System nutzt mehrere Ansätze, um die Qualität von Pull Requests zu sichern:
- Evidenzbasierte Prüfung
- Scope-Abgleich
- Wissensdatenbank-Kontext
- Automatisierte Filterung irrelevanter Kommentare
Premium-Modelle kommen nur dort zum Einsatz, wo sie tatsächlich einen Unterschied machen.
Kosten- und Leistungsüberwachung
Jeder LLM-Aufruf wird mit einer genauen Kostenberechnung aus einer eingepflegten LiteLLM-Preistabelle protokolliert. So gibt es keine Schätzungen oder überraschenden Rechnungen. Anvil ist MIT-lizenziert, läuft lokal und sendet keine Telemetriedaten nach Hause.
So starten Sie mit Anvil
Die Einrichtung ist einfach:
npm install -g @esankhan3/anvil-cli
anvil init
anvil dashboardDie Web-basierte Oberfläche bietet:
- Echtzeit-Pipeline-Ansicht
- Verlauf der Durchläufe
- Wissensgraph
- Speicherinspektor
- Einstellungen für API-Schlüssel
Für lokale Tests reicht bereits Ollama:
brew install ollama
ollama pull qwen3:14bWer keinen lokalen GPU-Zugriff hat, kann stattdessen auf OpenCode Zen zurückgreifen – ein Hosting-Modell, das die gesamte lokale Tier-Schicht ersetzt.
Was bewusst nicht in v0.1.0 enthalten ist
Einige Funktionen wurden bewusst aus der ersten Version ausgeschlossen, um die Architektur schlank und provider-agnostisch zu halten:
- Kein gehostetes Angebot: Anvil bleibt ein reines Open-Source-Tool ohne SaaS-Modell. Der Entwickler möchte die Unabhängigkeit bewahren.
- Keine SDKs von Anbietern: Selbst die Integration erfolgt über selbstgeschriebene HTTP-Adapter, um Abhängigkeiten zu vermeiden.
Das Ziel ist klar: eine Infrastruktur schaffen, die unabhängig von einzelnen Anbietern funktioniert – nicht ein weiteres Wrapper-Tool um deren Client-Bibliotheken.
Ausblick: KI-gestützte Entwicklung neu gedacht
Anvil zeigt, wie flexibel und kosteneffizient moderne KI-Tools sein können, wenn sie nicht an statische Modelle oder Anbieter gebunden sind. Die Kombination aus intelligentem Routing, hybrider Wissensabfrage und langfristigem Gedächtnis setzt neue Maßstäbe für die Automatisierung von Softwareentwicklung.
Mit v0.1.0 ist ein solider Grundstein gelegt – doch die Architektur bietet noch viel Potenzial für Erweiterungen. Wer nach einer Lösung sucht, die nicht nur funktioniert, sondern auch intelligent mit Ressourcen umgeht, sollte Anvil im Auge behalten.
KI-Zusammenfassung
Tek bir modele bağlı kalmak zorunda değilsiniz. Anvil, AI kodlama araçlarınızda her aşama için en uygun LLM’yi otomatik seçerek maliyetleri %90’a kadar düşürüyor.