Subquadratic aus Miami behauptet 1.000-fache KI-Effizienz durch neue Architektur

Ein junges Unternehmen aus Miami, Subquadratic, hat mit einer umstrittenen Ankündigung die KI-Branche aufgeschreckt: Das Startup behauptet, die erste große Sprachmodell-Architektur entwickelt zu haben, die ohne die seit 2017 geltende Grundregel der quadratischen Skalierung auskommt. Die neue Methode, SubQ 1M-Preview, soll Berechnungen linear statt exponentiell steigen zu lassen – ein Paradigmenwechsel für die Effizienz von KI-Systemen.

Bei einer Kontextlänge von 12 Millionen Tokens soll das Modell die Rechenleistung im Vergleich zu herkömmlichen Modellen um bis zu 1.000 Mal reduzieren. Diese Zahlen sind so außergewöhnlich, dass sie sofort Skepsis auslösten. Doch die technischen Details werfen grundlegende Fragen auf: Kann eine solche Architektur tatsächlich funktionieren, oder handelt es sich um leere Versprechungen?

Die quadratische Skalierung prägt seit Jahren die KI-Ökonomie

Jedes moderne Sprachmodell – von OpenAI über Anthropic bis zu Google – basiert auf der sogenannten Attention-Mechanik. Dabei werden alle Tokens eines Eingabetextes paarweise miteinander verglichen. Diese Methode führt zu einem quadratischen Wachstum der Rechenlast: Verdoppelt sich die Eingabelänge, vervierfacht sich der Rechenaufwand. Diese physikalische Grenze hat die Entwicklung von KI-Modellen maßgeblich beeinflusst.

Aktuell setzen die meisten Anbieter auf Kontextfenster von 128.000 bis 1 Million Tokens, doch selbst diese Größenordnungen sind mit enormen Kosten verbunden. Entwickler greifen daher auf Umwege zurück: Retrieval-Augmented Generation (RAG) kombiniert Suchalgorithmen mit KI-Modellen, um nur relevante Textausschnitte zu verarbeiten. Solche Workarounds sind jedoch teuer, fehleranfällig und schränken die Leistungsfähigkeit ein.

Alexander Whedon, CTO von Subquadratic, formuliert die Kritik an bestehenden Systemen pointiert: "Ich habe unzählige Stunden damit verbracht, Prompts zu optimieren und Retrieval-Pipelines zu bauen – nur um die grundlegende Ineffizienz der Architektur auszugleichen. Das ist eine Verschwendung menschlicher Intelligenz und schränkt die Produktqualität massiv ein."

Ein radikaler Ansatz: Unnötige Berechnungen einfach weglassen

Die Lösung von Subquadratic trägt den Namen Subquadratic Sparse Attention (SSA) und setzt auf eine radikale Vereinfachung: Statt jeden Token mit jedem anderen zu vergleichen, identifiziert das Modell selbstständig, welche Vergleiche tatsächlich relevant sind. Die Auswahl erfolgt kontextabhängig – basierend auf Bedeutung, nicht auf festen Mustern. Dadurch wird die Attention auf signifikante Positionen beschränkt, während irrelevante Tokens ignoriert werden.

Die Vorteile dieser Methode zeigen sich besonders bei langen Eingabetexten. Laut eigenen Angaben erreicht SSA bei 128.000 Tokens eine 7,2-fache Beschleunigung der Vorverarbeitung im Vergleich zu herkömmlicher Attention. Bei einer Million Tokens steigt der Faktor auf 52,2. Whedon erklärt das Prinzip mit einem einfachen Vergleich: "Bei quadratischer Skalierung braucht man viermal so viel Rechenleistung, wenn sich die Eingabelänge verdoppelt. Bei linearer Skalierung reicht dagegen die doppelte Leistung – ein fundamentaler Unterschied."

Das Training des Modells erfolgte in drei Phasen: Zunächst wurde die Grundarchitektur trainiert, gefolgt von einer feinjustierten Anpassung für spezifische Anwendungsfälle. Abschließend kam ein Reinforcement-Learning-Ansatz zum Einsatz, der gezielt die Fähigkeit des Modells verbesserte, Informationen aus weit entfernten Textstellen zu extrahieren – eine Schwachstelle vieler bestehender Systeme.

Benchmark-Ergebnisse sind vielversprechend – doch die Skepsis bleibt

SubQ 1M-Preview schneidet in ersten Tests überraschend gut ab. Auf der Benchmark SWE-Bench Verified, die die Fähigkeit von KI-Modellen zur Lösung von Software-Aufgaben bewertet, erreichte das Modell 81,8 % – und lag damit knapp vor Anthropics Opus 4.6 (80,8 %) und DeepSeek 4.0. Ähnliche Ergebnisse zeigen sich in anderen Disziplinen, etwa bei der Beantwortung komplexer Fragen oder der Analyse langer Dokumente.

Doch die Fachwelt bleibt vorsichtig. Viele Forscher zweifeln an der Skalierbarkeit des Ansatzes und fragen nach unabhängigen Validierungen. Die Branche hat bereits zahlreiche gescheiterte Versuche erlebt, das quadratische Skalierungsproblem zu lösen. Subquadratic wirbt zwar mit einer Seed-Finanzierung von 29 Millionen US-Dollar – darunter Investoren wie Tinder-Mitgründer Justin Mateen und frühe Geldgeber von Anthropic und OpenAI – doch ob das Modell tatsächlich hält, was es verspricht, muss sich erst noch zeigen.

Eines ist jedoch sicher: Sollte sich die Technologie bewähren, könnte sie die KI-Landschaft grundlegend verändern. Die heutigen Umgehungslösungen wären obsolet, und neue Anwendungsfälle würden möglich – von Echtzeit-Analysen ganzer Bibliotheken bis hin zu nahtloser Verarbeitung extrem langer Texte. Die nächsten Monate werden zeigen, ob Subquadratic tatsächlich eine Revolution einleitet oder ob es sich nur um einen weiteren Hype handelt.

KI-Zusammenfassung

Miami merkezli Subquadratic, 12 milyon token kullanarak dikkat hesaplama maliyetini 1000 kata kadar azalttığını iddia eden SubQ modeliyle yapay zekada devrim yaratma iddiasında. Detayları ve araştırmacıların tepkileri burada.

Subquadratic aus Miami behauptet 1.000-fache KI-Effizienz durch neue Architektur

Die quadratische Skalierung prägt seit Jahren die KI-Ökonomie

Ein radikaler Ansatz: Unnötige Berechnungen einfach weglassen

Benchmark-Ergebnisse sind vielversprechend – doch die Skepsis bleibt

Kommentare

Ardent: Postgres-Sandboxes in Sekunden für KI-Entwickler ohne Migration

Elon Musk erwog, OpenAI an seine Kinder zu übergeben – Altman

Needle: KI-Modell für Tool-Calls mit nur 26 Millionen Parametern