iToverDose/Software· 13 MAI 2026 · 16:01

NVIDIA AIPerf enthüllt: 99 % der LLM-Anfragen scheitern trotz grünem Dashboard

Warum Ihr LLM-Dashboard Sie belügt: Ein einfacher Test mit NVIDIA AIPerf zeigt, wie 99 % der Anfragen unter Last scheitern – obwohl die Metriken grün leuchten. Die wahre Ursache liegt nicht im Modell, sondern in der Warteschlange.

DEV Community3 min0 Kommentare

Die meisten Entwicklungsteams verlassen sich auf oberflächliche LLM-Leistungsmetriken – doch diese können trügerisch sein. Ein aktueller Test mit NVIDIA AIPerf offenbart, wie selbst scheinbar performante Systeme unter realer Last zusammenbrechen, während Monitoring-Dashboards weiterhin grün leuchten. Die Erkenntnis ist ernüchternd: 99 % der Anfragen können die definierten Service-Level-Objektive (SLOs) nicht erfüllen, obwohl die Durchsatzwerte akzeptabel erscheinen.

Warum klassische Benchmarks LLM-Systeme in die Irre führen

Die gängige Praxis, LLM-Leistung mit Einzelbenutzer-Tests zu messen, erzeugt ein falsches Gefühl der Sicherheit. Ein Entwickler testete dies kürzlich mit dem kleinen Modell `granite4:350m`, das lokal über Ollama betrieben wurde. Die initiale Benchmark mit nur einem gleichzeitigen Nutzer zeigte vermeintlich stabile Werte:

  • TTFT (Time to First Token): 223 ms im Durchschnitt
  • ITL (Inter-Token-Latency): 10,67 ms
  • Durchsatz: 0,76 Anfragen pro Sekunde

Diese Zahlen suggerierten eine reibungslose Produktionstauglichkeit. Doch der Test deckte nur die Spitze des Eisbergs auf.

Der kritische Fehler: Testen ohne Lastsimulation

Die nächste Testreihe erhöhte die gleichzeitige Nutzerzahl auf 50 – eine realistischere Last für geteilte Endpunkte. Zusätzlich wurden 10 Warmup-Anfragen durchgeführt, um Kaltstart-Effekte zu minimieren. Das Ergebnis war ein Schock:

  • TTFT stieg auf 41.660 ms – ein Anstieg um das 186-fache
  • p99-TTFT: über 64 Sekunden
  • End-to-End-Durchsatz: 4,86 Tokens pro Sekunde und Nutzer

Während das System weiterhin Anfragen verarbeitete, warteten Nutzer mehr als eine Minute auf die erste Antwort. Die Monitoring-Tools zeigten weiterhin grüne Balken an – doch die Nutzererfahrung war katastrophal.

AIPerfs Goodput-Feature: Die Wahrheit hinter den Metriken

NVIDIA AIPerf geht über herkömmliche Benchmark-Tools hinaus, indem es Goodput misst – also die Anzahl der Anfragen, die tatsächlich definierte SLOs erfüllen. Ein dritter Test mit einem TTFT-SLO von 500 ms brachte die entscheidende Erkenntnis:

  • Anfrage-Durchsatz: 0,91 Anfragen pro Sekunde
  • Goodput: nur 0,01 Anfragen pro Sekunde
  • p99-TTFT: 55.777 ms

Das bedeutet: 99 % aller Anfragen überschritten das SLO um das 100-fache oder mehr. Das System funktionierte technisch, diente aber kaum einem Nutzer.

Die wahre Ursache: Nicht das Modell, sondern die Warteschlange

Ein zentrales Missverständnis im LLM-Benchmarking ist die Verwechslung von TTFT (Time to First Token) und ITL (Inter-Token-Latency). Während die ITL über alle Tests hinweg stabil bei 10 ms blieb, explodierte die TTFT unter Last. Das Modell selbst war nicht das Problem – die Warteschlange vor dem Modell war der Flaschenhals.

Die Daten zeigen ein klares Muster:

  • TTFT stieg von 223 ms auf über 40 Sekunden unter Last.
  • ITL blieb konstant bei ~10 ms.
  • TTST (Time to Second Token) blieb ebenfalls stabil.

Diese Diskrepanz ist entscheidend für die Kapazitätsplanung:

  • Wenn ITL steigt, könnte ein schnelleres Modell oder bessere Hardware helfen.
  • Wenn nur TTFT explodiert, liegt das Problem in der Architektur – etwa in der Warteschlangenverwaltung, Request-Routing oder horizontalen Skalierung des Inferenzservers.

Praktische Empfehlungen für realistischere LLM-Tests

Die Lehren aus diesem Experiment sind einfach, aber folgenreich:

  1. Testen Sie mit realistischen Nutzerlasten – Einzelbenutzer-Tests sind wertlos für Produktionssysteme.
  1. Definieren und messen Sie SLOs – „Durchsatz“ allein ist irreführend; prüfen Sie, wie viele Anfragen tatsächlich die definierten Grenzen erfüllen.
  1. Trennen Sie TTFT und ITL – Diese Metriken erzählen unterschiedliche Geschichten über Ihr System.
  1. Nutzen Sie Tools wie NVIDIA AIPerf, um Goodput und SLO-Konformität zu messen.

Ein einfacher Befehl wie dieser kann die wahre Performance offenbaren:

aiperf profile \
  --model "granite4:350m" \
  --url  \
  --endpoint-type chat \
  --concurrency 50 \
  --goodput 'time_to_first_token:500' \
  --benchmark-duration 60

Fazit: Gute Metriken retten Ihre LLM-Produktion

Die Geschichte des Entwicklers zeigt: Was im Dashboard grün leuchtet, kann im echten Nutzerbetrieb katastrophal scheitern. Die Lösung liegt nicht in schnelleren Modellen, sondern in besserer Architektur und präzisen Testmethoden.

NVIDIA AIPerf und ähnliche Tools ermöglichen es Teams, Goodput und SLO-Konformität zu messen – nicht nur Durchsatz. Wer diese Einsicht ignoriert, riskiert teure Nachbesserungen, frustrierte Nutzer und beschädigtes Vertrauen. Die Frage ist nicht, ob Ihr LLM-System unter Last zusammenbricht, sondern wann Sie es testen, bevor es passiert.

KI-Zusammenfassung

Yapay zekâ modellerinin performansını ölçerken yapılan yaygın hatalar ve NVIDIA AIPerf aracıyla nasıl gerçekçi sonuçlara ulaşılabileceği hakkında derinlemesine bir rehber.

Kommentare

00
KOMMENTAR SCHREIBEN
ID #357PJP

0 / 1200 ZEICHEN

Menschen-Check

4 + 9 = ?

Erscheint nach redaktioneller Prüfung

Moderation · Spam-Schutz aktiv

Noch keine Kommentare. Sei der erste.