Die Grenzen zwischen Rechenzentrum und lokaler Hardware verschwimmen zusehends – doch viele Spitzenmodelle der künstlichen Intelligenz scheitern an den harten Realitäten der Edge-Computing-Welt. Genau hier setzt das Startup General Instinct an, gegründet von Guanming und Bill, die zuvor in der Robotik tätig waren.
Nach Jahren der Entwicklung von KI-Systemen für physische Anwendungen stießen sie auf ein wiederkehrendes Hindernis: Die besten Modelle waren für Rechenzentren optimiert, nicht für Edge-Geräte. Hohe Anforderungen an GPU-Leistung, Speicherbandbreite und Netzwerkanbindung machten eine lokale Nutzung praktisch unmöglich. Die Lösung? Eine radikale Neugestaltung der Modellarchitektur, um die Leistung von Frontier-Modellen unter den strengen Bedingungen von Edge-Hardware zu erhalten.
Warum Frontier-Modelle an der Edge scheitern
Frontier-Modelle wie das Qwen3.5-122B-A10B basieren auf massiven Datenzentren und setzen auf Spezialhardware. Mit einer Speicherlast von rund 245 GB in BF16-MoE-Architektur sind sie für den Einsatz auf mobilen oder eingebetteten Systemen schlicht ungeeignet. Die Herausforderung bestand darin, diese Modelle so zu komprimieren, dass sie auf begrenzter Hardware laufen – ohne nennenswerten Verlust an Leistungsfähigkeit.
Das Team von General Instinct verfolgte einen zweistufigen Ansatz:
- Minimierung der aktiven Komponenten: Nur die unverzichtbaren Teile des Modells – darunter Router, Normalisierungsschichten, Gated-DeltaNet/SSM-Layer und die Visuellen Pfade – bleiben in voller Präzision erhalten.
- Aggressive Quantisierung der Experten: Die restlichen Komponenten werden extrem stark komprimiert, etwa auf Sub-4-Bit-Präzision.
Durch gezielte Distillationstechniken gelang es, die während der Quantisierung verlorene Kapazität wiederherzustellen. Das Ergebnis übertrifft sogar etablierte Modelle wie Gemma-4-26B-A4B in Benchmarks wie MMLU-Pro und GPQA-D – und das bei einem Bruchteil der ursprünglichen Größe.
InstinctRazor: Open-Source-Tool für effiziente KI-Modelle
Als Teil ihrer Arbeit veröffentlichte General Instinct das Open-Source-Tool InstinctRazor, das Entwicklern ermöglicht, Frontier-Modelle für Edge-Geräte zu optimieren. Das Tool ist auf GitHub verfügbar und richtet sich an Teams, die KI in Robotik, IoT oder anderen ressourcenbegrenzten Umgebungen einsetzen.
Ein zentrales Feature ist die Möglichkeit, Modelle in einer "kleinen GPU-Konfiguration" zu betreiben. Dabei werden Experten dynamisch aus dem Systemspeicher gestreamt, statt sie vollständig in die VRAM zu laden. Mit einem Kontextfenster von 8.000 Tokens liegt der Spitzenverbrauch bei etwa 7,6 bis 8 GB VRAM – eine deutliche Verbesserung gegenüber herkömmlichen Ansätzen.
Zukunftsperspektiven: KI an der Edge vorantreiben
Die Entwicklungen von General Instinct werfen ein Licht auf die wachsende Bedeutung von KI-Modellen, die ohne Rechenzentrum auskommen. Besonders für die Robotik und autonome Systeme könnte dies ein Game-Changer sein. Die Fähigkeit, Hochleistungsmodelle lokal auszuführen, eröffnet neue Möglichkeiten für Echtzeit-Anwendungen – von industriellen Inspektionsrobotern bis hin zu medizinischen Diagnosegeräten.
Das Team lädt Entwickler ein, ihre Erfahrungen mit lokalen KI-Modellen zu teilen: Welche Modelle setzen Sie derzeit ein? Wo sehen Sie die größten Hürden bei der Produktivsetzung? Die Diskussion verspricht wertvolle Einblicke für die weitere Entwicklung effizienter KI-Systeme an der Edge.
Die Zukunft der künstlichen Intelligenz wird nicht nur in Rechenzentren geschrieben, sondern zunehmend dort, wo Daten entstehen: auf den Geräten selbst.
KI-Zusammenfassung
General Instinct’in InstinctRazor’u ile Qwen3.5-122B-A10B gibi dev modelleri 48 GB’a sıkıştırın. Robotik ve yerleşik sistemlerde yapay zekâ uygulamalarını kolaylaştıran yenilikleri keşfedin.


