KI-Systemdesign ist längst kein Nischenthema mehr – es prägt heute die Architektur moderner Softwareplattformen. Während traditionelle Fragen wie „Design Twitter“ oder „Design Uber“ nach wie vor klassische Konzepte wie Datenbanken, Caching oder Hochverfügbarkeit testen, stehen heute ganz andere Herausforderungen im Fokus. Bewerber müssen zeigen, dass sie nicht nur verteilte Systeme verstehen, sondern auch komplexe KI-Infrastrukturen konzipieren können.
Die wichtigsten Themenbereiche umfassen heute:
- Design eines ChatGPT-ähnlichen Dialogassistenten
- Aufbau eines Retrieval-Augmented Generation (RAG)-Systems
- Planung einer LLM-Inferenzplattform
- Entwicklung eines KI-Agenten mit Tool-Integration
- Schaffung eines unternehmensinternen KI-Assistenten für private Dokumente
- Aufbau einer Evaluierungsplattform für generative KI-Anwendungen
All diese Systeme erfordern zwar weiterhin klassisches verteiltes Systemwissen – APIs, Warteschlangen, Speicher, Authentifizierung und Observability bleiben essenziell. Doch hinzu kommen neue Dimensionen wie teure Beschleunigerhardware, probabilistische Ausgaben, langlaufende Anfragen und Sicherheitskontrollen. Dieser Leitfaden zeigt, welche Fragen im KI-Systemdesign am häufigsten gestellt werden und wie du als Kandidat überzeugende Lösungsansätze präsentierst.
Warum KI-Systemdesign komplexer ist als klassische Systeme
Ein traditioneller Dienst verwandelt eine Eingabe in eine deterministische Ausgabe. Fordert ein Nutzer etwa die Bestellung mit der Nummer 123 an, sollte das System exakt diese Daten zurückgeben – identische Anfragen führen zu identischen Ergebnissen. Generative KI-Systeme funktionieren nach einem völlig anderen Prinzip.
Hier sind einige zentrale Unterschiede:
- Nicht-deterministische Ausgaben: Ein Modell kann auf denselben Prompt unterschiedlich reagieren – grammatikalisch korrekt, aber inhaltlich falsch.
- Latenzabhängigkeit von Token-Anzahl: Die Antwortzeit steigt mit der Länge der generierten Antwort.
- Ressourcenbegrenzung durch GPUs: Die Kapazität hängt von der Speicherverfügbarkeit der Beschleuniger ab, nicht nur von der CPU-Auslastung.
- Qualitätsfaktoren als Architekturfaktor: Neben Verfügbarkeit und Fehlerrate entscheiden Antwortrichtigkeit, Relevanz, Sicherheit und Tool-Nutzung über den Erfolg.
Diese Besonderheiten erfordern völlig neue Designentscheidungen.
Fünf entscheidende Dimensionen im KI-Systemdesign
1. Qualität als integraler Bestandteil der Architektur
Klassische Metriken wie Verfügbarkeit, Latenz oder Durchsatz reichen nicht aus. AI-Systeme benötigen zusätzliche Messwerte:
- Antwortkorrektheit: Wird die Frage präzise beantwortet?
- Relevanz: Passt die Antwort zum Kontext?
- Begründetheit: Stützt sich die Antwort auf vertrauenswürdige Quellen?
- Abrufqualität: Werden die richtigen Dokumente gefunden?
- Halluzinationsrate: Wie oft erfindet das Modell Fakten?
- Sicherheitskonformität: Werden Richtlinien eingehalten?
- Nutzerzufriedenheit: Wie bewerten Nutzer die Interaktion?
Eine Antwort, die nach 200 Millisekunden zurückgegeben wird, ist wertlos, wenn sie falsch ist. Die Architektur muss daher Mechanismen zur Qualitätsmessung und -sicherung enthalten.
2. Rechenintensive Anfragen erfordern intelligente Ressourcenverwaltung
Während ein herkömmlicher API-Server tausende leichte Anfragen pro Sekunde verarbeiten kann, bindet eine einzelne LLM-Anfrage wertvolle GPU-Ressourcen über längere Zeit. Dies erfordert:
- Optimiertes Batching: Mehrere Anfragen parallel verarbeiten, um die GPU-Auslastung zu maximieren.
- Speichermanagement: Effiziente Nutzung des GPU-Speichers durch Modellplatzierung und Quantisierung.
- Anfragenplanung: Priorisierung von Anfragen basierend auf Nutzerbedürfnissen und Kosten.
Ohne diese Maßnahmen explodieren die Betriebskosten oder die Performance leidet.
3. Nutzer erwarten Streaming-Antworten
Nutzer wollen nicht warten, bis die gesamte Antwort generiert wurde. Stattdessen erwarten sie ein flüssiges Streaming der Tokens. Dies führt zu zwei kritischen Messwerten:
- Time to First Token (TTFT): Wie schnell beginnt die Generierung?
- Inter-Token-Latenz: Wie gleichmäßig folgen Tokens aufeinander?
Ein System mit akzeptabler Gesamtlatenz kann trotzdem langsam wirken, wenn der erste Token zu spät erscheint.
4. Vielfältige Datenquellen erfordern unterschiedliche Strategien
Ein KI-System bezieht Daten aus mehreren Quellen, die jeweils eigene Anforderungen stellen:
- Trainingsdaten: Historische Datensätze für Modellfeinjustierung
- Nutzerprompts: Echtzeit-Eingaben mit variabler Länge
- Konversationshistorie: Langfristige Nutzerinteraktionen
- Abgerufene Dokumente: Externe oder interne Wissensquellen
- Tool-Ergebnisse: Ausführungen externer APIs oder Funktionen
- Nutzerfeedback: Bewertungen zur Verbesserung der Antwortqualität
- Evaluierungsdatensätze: Automatisierte Tests zur Qualitätssicherung
- Sicherheitsrichtlinien: Regeln zur Vermeidung schädlicher Inhalte
Jede Datenart erfordert spezifische Strategien für Speicherung, Datenschutz und Aktualität.
5. Ausfälle sind nicht immer eindeutig erkennbar
Ein traditionelles System scheitert entweder oder funktioniert. Bei KI-Systemen gibt es Zwischenstufen:
- Die Anfrage wird technisch erfolgreich verarbeitet, liefert aber eine schlechte Antwort.
- Das Modell ruft falsche Tools auf oder verwendet veraltete Informationen.
- Die Antwort überschreitet das Budget oder verletzt Sicherheitsrichtlinien.
Die Architektur muss daher Mechanismen zur Erkennung und Behandlung solcher „weichen“ Fehler enthalten.
Ein strukturierter Ansatz für jede KI-Systemdesign-Frage
Im Vorstellungsgespräch zählt nicht nur das technische Wissen, sondern auch die klare Struktur deiner Antwort. Folgendes Framework hilft dir, jede Frage systematisch zu beantworten:
Schritt 1: Kläre die Produktanforderungen
Beginne mit präzisen Fragen zur gewünschten Funktionalität. Beispiele:
- Soll der Assistent allgemeine Fragen beantworten oder auf einen spezifischen Bereich spezialisiert sein?
- Benötigt das System Zugriff auf private Unternehmensdaten?
- Darf das System Aktionen ausführen oder nur Antworten liefern?
- Unterstützt es nur Text oder auch andere Medien wie Bilder oder Audio?
- Müssen Antworten in Echtzeit generiert werden?
- Werden Quellenangaben erwartet?
- Welche Entscheidungen erfordern eine manuelle Freigabe?
Ohne diese Klarheit ist die Aufgabenstellung zu vage.
Schritt 2: Definiere Skalierung und Service-Level-Ziele
Schätze folgende Parameter ab:
- Tägliche und Spitzenanfragen
- Durchschnittliche Prompt- und Antwortlänge
- Anzahl gleichzeitiger Nutzer
- Geforderte Time-to-First-Token-Zeit
- Modellgröße und GPU-Speicherbedarf
- Verfügbarkeitsziele
- Kosten pro Anfrage
KI-Systeme sind oft genauso durch Kosten wie durch technische Kapazitäten begrenzt.
Schritt 3: Trenne Anwendungsschicht und Modellschicht
Unterteile dein System in klar getrennte Verantwortungsbereiche:
Anwendungsschicht:
- Authentifizierung und Autorisierung
- Abrechnung und Nutzermanagement
- Konversationshistorie und Dateiverwaltung
- Nutzerpräferenzen und Ratenbegrenzung
- Analysen und Monitoring
Modellschicht:
- Prompt-Konstruktion und -Optimierung
- Dokumentenabruf und Kontextintegration
- Modellauswahl und Routing
- Inferenzplanung und -scheduling
- Sicherheitsprüfungen
- Tool-Ausführung
- Evaluation und Qualitätsmessung
Diese Trennung vereinfacht die Wartbarkeit und Erweiterbarkeit.
Schritt 4: Beschreibe den vollständigen Anfragepfad
Führe durch, was mit einer Nutzeranfrage passiert – von der Eingabe bis zur Antwort. Ein typischer Ablauf umfasst:
- Authentifizierung und Quotenprüfung
- Laden des Kontexts aus vorherigen Interaktionen
- Abrufen relevanter Dokumente oder Informationen
- Konstruktion des Modellprompts (inkl. Kontext und Sicherheitsfilter)
- Auswahl und Routing zum passenden Modell
- Planung und Durchführung der Inferenz
- Streaming der Tokens an den Nutzer
- Nachbereitung: Sicherheitsprüfung, Speicherung der Antwort und Metriken
- Erfassung von Nutzerfeedback zur kontinuierlichen Verbesserung
Jeder Schritt erfordert spezifische Überlegungen zu Performance, Kosten und Qualität.
KI-Systemdesign erfordert heute ein tiefes Verständnis sowohl klassischer Systemarchitektur als auch moderner KI-spezifischer Herausforderungen. Wer diese Komplexität systematisch angeht, überzeugt im Vorstellungsgespräch und schafft robuste Lösungen für die nächste Generation intelligenter Anwendungen.
KI-Zusammenfassung
Discover the unique challenges of AI system design interviews, from handling probabilistic outputs to optimizing LLM inference costs and streaming latency.