IndexCache: Wie DeepSeek O(NL²)-Kosten in Sparse Attention um 75% reduziert
DeepSeek Sparse Attention leidet unter einem versteckten Flaschenhals: Der Indexer selbst läuft in O(NL²)-Komplexität. IndexCache löst das Problem durch Cache-Mechanismen und senkt die Rechenlast um bis zu 75% – ohne Architekturänderungen.