KI-Systemdesign im Vorstellungsgespräch: So überzeugst du mit Architekturwissen

KI-Systemdesign ist längst kein Nischenthema mehr – es prägt heute die Architektur moderner Softwareplattformen. Während traditionelle Fragen wie „Design Twitter“ oder „Design Uber“ nach wie vor klassische Konzepte wie Datenbanken, Caching oder Hochverfügbarkeit testen, stehen heute ganz andere Herausforderungen im Fokus. Bewerber müssen zeigen, dass sie nicht nur verteilte Systeme verstehen, sondern auch komplexe KI-Infrastrukturen konzipieren können.

Die wichtigsten Themenbereiche umfassen heute:

Design eines ChatGPT-ähnlichen Dialogassistenten
Aufbau eines Retrieval-Augmented Generation (RAG)-Systems
Planung einer LLM-Inferenzplattform
Entwicklung eines KI-Agenten mit Tool-Integration
Schaffung eines unternehmensinternen KI-Assistenten für private Dokumente
Aufbau einer Evaluierungsplattform für generative KI-Anwendungen

All diese Systeme erfordern zwar weiterhin klassisches verteiltes Systemwissen – APIs, Warteschlangen, Speicher, Authentifizierung und Observability bleiben essenziell. Doch hinzu kommen neue Dimensionen wie teure Beschleunigerhardware, probabilistische Ausgaben, langlaufende Anfragen und Sicherheitskontrollen. Dieser Leitfaden zeigt, welche Fragen im KI-Systemdesign am häufigsten gestellt werden und wie du als Kandidat überzeugende Lösungsansätze präsentierst.

Warum KI-Systemdesign komplexer ist als klassische Systeme

Ein traditioneller Dienst verwandelt eine Eingabe in eine deterministische Ausgabe. Fordert ein Nutzer etwa die Bestellung mit der Nummer 123 an, sollte das System exakt diese Daten zurückgeben – identische Anfragen führen zu identischen Ergebnissen. Generative KI-Systeme funktionieren nach einem völlig anderen Prinzip.

Hier sind einige zentrale Unterschiede:

Nicht-deterministische Ausgaben: Ein Modell kann auf denselben Prompt unterschiedlich reagieren – grammatikalisch korrekt, aber inhaltlich falsch.
Latenzabhängigkeit von Token-Anzahl: Die Antwortzeit steigt mit der Länge der generierten Antwort.
Ressourcenbegrenzung durch GPUs: Die Kapazität hängt von der Speicherverfügbarkeit der Beschleuniger ab, nicht nur von der CPU-Auslastung.
Qualitätsfaktoren als Architekturfaktor: Neben Verfügbarkeit und Fehlerrate entscheiden Antwortrichtigkeit, Relevanz, Sicherheit und Tool-Nutzung über den Erfolg.

Diese Besonderheiten erfordern völlig neue Designentscheidungen.

Fünf entscheidende Dimensionen im KI-Systemdesign

1. Qualität als integraler Bestandteil der Architektur

Klassische Metriken wie Verfügbarkeit, Latenz oder Durchsatz reichen nicht aus. AI-Systeme benötigen zusätzliche Messwerte:

Antwortkorrektheit: Wird die Frage präzise beantwortet?
Relevanz: Passt die Antwort zum Kontext?
Begründetheit: Stützt sich die Antwort auf vertrauenswürdige Quellen?
Abrufqualität: Werden die richtigen Dokumente gefunden?
Halluzinationsrate: Wie oft erfindet das Modell Fakten?
Sicherheitskonformität: Werden Richtlinien eingehalten?
Nutzerzufriedenheit: Wie bewerten Nutzer die Interaktion?

Eine Antwort, die nach 200 Millisekunden zurückgegeben wird, ist wertlos, wenn sie falsch ist. Die Architektur muss daher Mechanismen zur Qualitätsmessung und -sicherung enthalten.

2. Rechenintensive Anfragen erfordern intelligente Ressourcenverwaltung

Während ein herkömmlicher API-Server tausende leichte Anfragen pro Sekunde verarbeiten kann, bindet eine einzelne LLM-Anfrage wertvolle GPU-Ressourcen über längere Zeit. Dies erfordert:

Optimiertes Batching: Mehrere Anfragen parallel verarbeiten, um die GPU-Auslastung zu maximieren.
Speichermanagement: Effiziente Nutzung des GPU-Speichers durch Modellplatzierung und Quantisierung.
Anfragenplanung: Priorisierung von Anfragen basierend auf Nutzerbedürfnissen und Kosten.

Ohne diese Maßnahmen explodieren die Betriebskosten oder die Performance leidet.

3. Nutzer erwarten Streaming-Antworten

Nutzer wollen nicht warten, bis die gesamte Antwort generiert wurde. Stattdessen erwarten sie ein flüssiges Streaming der Tokens. Dies führt zu zwei kritischen Messwerten:

Time to First Token (TTFT): Wie schnell beginnt die Generierung?
Inter-Token-Latenz: Wie gleichmäßig folgen Tokens aufeinander?

Ein System mit akzeptabler Gesamtlatenz kann trotzdem langsam wirken, wenn der erste Token zu spät erscheint.

4. Vielfältige Datenquellen erfordern unterschiedliche Strategien

Ein KI-System bezieht Daten aus mehreren Quellen, die jeweils eigene Anforderungen stellen:

Trainingsdaten: Historische Datensätze für Modellfeinjustierung
Nutzerprompts: Echtzeit-Eingaben mit variabler Länge
Konversationshistorie: Langfristige Nutzerinteraktionen
Abgerufene Dokumente: Externe oder interne Wissensquellen
Tool-Ergebnisse: Ausführungen externer APIs oder Funktionen
Nutzerfeedback: Bewertungen zur Verbesserung der Antwortqualität
Evaluierungsdatensätze: Automatisierte Tests zur Qualitätssicherung
Sicherheitsrichtlinien: Regeln zur Vermeidung schädlicher Inhalte

Jede Datenart erfordert spezifische Strategien für Speicherung, Datenschutz und Aktualität.

5. Ausfälle sind nicht immer eindeutig erkennbar

Ein traditionelles System scheitert entweder oder funktioniert. Bei KI-Systemen gibt es Zwischenstufen:

Die Anfrage wird technisch erfolgreich verarbeitet, liefert aber eine schlechte Antwort.
Das Modell ruft falsche Tools auf oder verwendet veraltete Informationen.
Die Antwort überschreitet das Budget oder verletzt Sicherheitsrichtlinien.

Die Architektur muss daher Mechanismen zur Erkennung und Behandlung solcher „weichen“ Fehler enthalten.

Ein strukturierter Ansatz für jede KI-Systemdesign-Frage

Im Vorstellungsgespräch zählt nicht nur das technische Wissen, sondern auch die klare Struktur deiner Antwort. Folgendes Framework hilft dir, jede Frage systematisch zu beantworten:

Schritt 1: Kläre die Produktanforderungen

Beginne mit präzisen Fragen zur gewünschten Funktionalität. Beispiele:

Soll der Assistent allgemeine Fragen beantworten oder auf einen spezifischen Bereich spezialisiert sein?
Benötigt das System Zugriff auf private Unternehmensdaten?
Darf das System Aktionen ausführen oder nur Antworten liefern?
Unterstützt es nur Text oder auch andere Medien wie Bilder oder Audio?
Müssen Antworten in Echtzeit generiert werden?
Werden Quellenangaben erwartet?
Welche Entscheidungen erfordern eine manuelle Freigabe?

Ohne diese Klarheit ist die Aufgabenstellung zu vage.

Schritt 2: Definiere Skalierung und Service-Level-Ziele

Schätze folgende Parameter ab:

Tägliche und Spitzenanfragen
Durchschnittliche Prompt- und Antwortlänge
Anzahl gleichzeitiger Nutzer
Geforderte Time-to-First-Token-Zeit
Modellgröße und GPU-Speicherbedarf
Verfügbarkeitsziele
Kosten pro Anfrage

KI-Systeme sind oft genauso durch Kosten wie durch technische Kapazitäten begrenzt.

Schritt 3: Trenne Anwendungsschicht und Modellschicht

Unterteile dein System in klar getrennte Verantwortungsbereiche:

Anwendungsschicht:

Authentifizierung und Autorisierung
Abrechnung und Nutzermanagement
Konversationshistorie und Dateiverwaltung
Nutzerpräferenzen und Ratenbegrenzung
Analysen und Monitoring

Modellschicht:

Prompt-Konstruktion und -Optimierung
Dokumentenabruf und Kontextintegration
Modellauswahl und Routing
Inferenzplanung und -scheduling
Sicherheitsprüfungen
Tool-Ausführung
Evaluation und Qualitätsmessung

Diese Trennung vereinfacht die Wartbarkeit und Erweiterbarkeit.

Schritt 4: Beschreibe den vollständigen Anfragepfad

Führe durch, was mit einer Nutzeranfrage passiert – von der Eingabe bis zur Antwort. Ein typischer Ablauf umfasst:

Authentifizierung und Quotenprüfung
Laden des Kontexts aus vorherigen Interaktionen
Abrufen relevanter Dokumente oder Informationen
Konstruktion des Modellprompts (inkl. Kontext und Sicherheitsfilter)
Auswahl und Routing zum passenden Modell
Planung und Durchführung der Inferenz
Streaming der Tokens an den Nutzer
Nachbereitung: Sicherheitsprüfung, Speicherung der Antwort und Metriken
Erfassung von Nutzerfeedback zur kontinuierlichen Verbesserung

Jeder Schritt erfordert spezifische Überlegungen zu Performance, Kosten und Qualität.

KI-Systemdesign erfordert heute ein tiefes Verständnis sowohl klassischer Systemarchitektur als auch moderner KI-spezifischer Herausforderungen. Wer diese Komplexität systematisch angeht, überzeugt im Vorstellungsgespräch und schafft robuste Lösungen für die nächste Generation intelligenter Anwendungen.

KI-Zusammenfassung

Discover the unique challenges of AI system design interviews, from handling probabilistic outputs to optimizing LLM inference costs and streaming latency.