Needle: KI-Modell für Tool-Calls mit nur 26 Millionen Parametern

Ein neues Open-Source-Projekt namens Needle beweist, dass Sprachmodelle für Tool-Aufrufe nicht zwingend riesige Rechenleistung benötigen. Das Team von Cactus hat ein Modell mit nur 26 Millionen Parametern entwickelt, das auf handelsüblichen Smartphones funktioniert und dabei bis zu 6.000 Tokens pro Sekunde verarbeitet. Diese Leistung stellt bisherige Lösungen, die oft auf Cloud-Server angewiesen sind, in den Schatten.

Ein Paradigmenwechsel für KI-Agenten auf Mobilgeräten

Die meisten heutigen KI-Assistenten nutzen komplexe Sprachmodelle, die Millionen von Parametern benötigen und in der Cloud laufen. Needle hingegen setzt auf ein grundlegend anderes Konzept: Statt auf umfangreiche Trainingsdaten und riesige Rechencluster zu setzen, kombiniert das Modell einfache Aufmerksamkeitsschichten mit einer schlanken Architektur. Das Ergebnis ist ein Modell, das selbst auf Einsteiger-Smartphones oder Wearables wie Smartwatches ohne spürbare Verzögerung funktioniert.

Die Entwickler von Cactus argumentieren, dass viele Aufgaben von KI-Agenten – wie das Ausführen von Funktionen oder das Abrufen von Daten – keine tiefgreifende logische Verarbeitung erfordern. Stattdessen geht es darum, Abfragen effizient an die richtigen Tools weiterzuleiten. Needle zeigt, dass für solche Anwendungen keine überdimensionierten Modelle nötig sind. Die Architektur verzichtet sogar vollständig auf Feedforward-Netzwerke (FFN), da die relevanten Informationen direkt aus dem Kontext extrahiert werden können.

Trainingsprozess und Leistungsdaten

Das Team trainierte Needle in zwei Phasen: Zunächst wurde das Modell mit 200 Milliarden Tokens auf 16 TPU v6e-Chips innerhalb von nur 27 Stunden vortrainiert. Anschließend folgte ein Feinabstimmungsprozess mit synthetisch erzeugten Daten, die 2 Milliarden Tokens umfassten und in lediglich 45 Minuten verarbeitet wurden. Die synthetischen Daten wurden mithilfe von Googles Gemini-Modell generiert und deckten 15 verschiedene Anwendungskategorien ab – von Timern über Messaging-Dienste bis hin zu Navigations- und Smart-Home-Funktionen.

Die Performance von Needle ist beeindruckend: Auf Consumer-Hardware erreicht das Modell eine Prefill-Rate von 6.000 Tokens pro Sekunde und eine Decoding-Rate von 1.200 Tokens pro Sekunde. Im Vergleich zu anderen Modellen wie FunctionGemma-270M, Qwen-0.6B oder Granite-350M schneidet Needle besonders bei der reinen Tool-Verarbeitung besser ab. Allerdings sind diese größeren Modelle in anderen Bereichen, wie etwa der konversationellen Interaktion, leistungsfähiger.

Architektur: Einfache Aufmerksamkeit statt überflüssiger Komplexität

Die zentrale Innovation von Needle liegt in seiner Architektur. Das Modell besteht ausschließlich aus Aufmerksamkeitsschichten und Gating-Mechanismen – Feedforward-Netzwerke, die in herkömmlichen Sprachmodellen für das Speichern von Fakten zuständig sind, wurden komplett weggelassen. Diese Vereinfachung basiert auf der Beobachtung, dass viele Aufgaben keine interne Wissensspeicherung erfordern, wenn die benötigten Informationen direkt im Eingabetext enthalten sind.

Diese Erkenntnis hat weitreichende Implikationen: Sie könnte nicht nur die Entwicklung von KI-Agenten auf mobilen Geräten beschleunigen, sondern auch neue Anwendungen in den Bereichen Retrieval-Augmented Generation (RAG) und Tool-basierte KI ermöglichen. Die Entwickler betonen, dass ihre Architektur auch auf andere Aufgaben übertragbar ist, bei denen externes Wissen eine Rolle spielt.

Praktische Umsetzung und Zukunftsperspektiven

Needle ist vollständig als Open-Source-Projekt unter der MIT-Lizenz verfügbar. Die Modelle und Quelltexte können über die offiziellen Repositories auf GitHub und Hugging Face bezogen werden. Neben der reinen Modellarchitektur bietet das Projekt auch eine einfache Möglichkeit, das Modell auf lokalen Geräten wie Macs oder PCs zu testen und weiterzuentwickeln.

Das Projekt ist Teil der größeren Cactus-Initiative, die sich auf die Entwicklung von Inferenz-Engines für mobile Geräte und Wearables konzentriert. Die Entwickler betonen, dass ihre Arbeit den Weg für KI-Agenten ebnet, die ohne Cloud-Anbindung auskommen und trotzdem komplexe Aufgaben bewältigen können. In Zukunft könnten solche Modelle die Art und Weise, wie wir mit Technologie interagieren, grundlegend verändern – hin zu einer Welt, in der KI-Assistenten direkt auf unseren Geräten laufen und ohne Verzögerung reagieren.

Für Entwickler und Enthusiasten bietet Needle eine spannende Gelegenheit, die Grenzen der mobilen KI zu erkunden. Die Kombination aus Effizienz und Leistungsfähigkeit macht das Projekt zu einem vielversprechenden Kandidaten für die nächste Generation von KI-Anwendungen auf Endgeräten.

KI-Zusammenfassung

Cactus’un Needle modeli, akıllı telefonlar ve giyilebilir cihazlarda çalışan 26 milyon parametreli fonksiyon çağırma modeli sunuyor. Yüksek hız ve verimlilik ile dikkat çekiyor.

Needle: KI-Modell für Tool-Calls mit nur 26 Millionen Parametern

Ein Paradigmenwechsel für KI-Agenten auf Mobilgeräten

Trainingsprozess und Leistungsdaten

Architektur: Einfache Aufmerksamkeit statt überflüssiger Komplexität

Praktische Umsetzung und Zukunftsperspektiven

Kommentare

Ardent: Postgres-Sandboxes in Sekunden für KI-Entwickler ohne Migration

Elon Musk erwog, OpenAI an seine Kinder zu übergeben – Altman

Mini Shai-Hulud-Wurm: 6 Schritte zum Schutz vor Supply-Chain-Angriffen