Persönlicher KI-Stimme mit DoRA: Mit unter 2 € das Qwen3-8B optimieren

Vor knapp einem Jahr begann eine einfache, aber entscheidende Frage die KI-Community zu beschäftigen: Können wir große Sprachmodelle so anpassen, dass sie nicht nur allgemeine Antworten liefern, sondern die individuelle Stimme und Denkweise einer Person exakt nachahmen? Ein Entwickler hat diese These nun mit einem überraschend günstigen Ansatz unter Beweis gestellt – und dabei nicht nur die technischen Grenzen verschoben, sondern auch die wirtschaftlichen Möglichkeiten neu definiert.

Vom Telegram-Chat zur KI-Stimme: Der Trainingsprozess im Detail

Die Grundlage für das Experiment bildete ein einfacher, aber sorgfältig kuratierter Datensatz: 6128 persönliche Nachrichtenduos, die aus einem Telegram-Export extrahiert wurden. Jeder Dialogabschnitt bestand aus einer Nachricht einer anderen Person und der entsprechenden Antwort des Nutzers. Um eine ausgewogene Verteilung zu gewährleisten, wurde die Anzahl der Paare pro Chat auf maximal zwölf begrenzt – aktivere Chats dominierten somit nicht das Training. Nach der Bereinigung verblieb ein sauberer Datensatz, der sowohl für das Feintuning als auch für die spätere Validierung geeignet war.

Als Basis diente das hochmoderne Sprachmodell Qwen3-8B, das bereits von Haus aus starke Fähigkeiten in der Konversation besitzt. Der entscheidende Schritt bestand jedoch in der Anwendung der DoRA-Methode (Weight-Decomposed Low-Rank Adaptation), einer Weiterentwicklung der bekannten LoRA-Technik. Während LoRA nur die Richtung der Gewichte anpasst, zerlegt DoRA diese zusätzlich in Magnitude und Richtung und trainiert die Richtungskomponente separat. Das Ergebnis: eine präzisere Anpassung an die individuelle Stimme, ohne die ursprünglichen Fähigkeiten des Modells zu beeinträchtigen.

Die technische Umsetzung war dabei so schlank, dass sie auf einer einzigen RTX 3090 innerhalb von nur 3,5 Stunden abgeschlossen werden konnte. Die Kosten beliefen sich auf etwa 1,50 €, da ein Spot-Vast.ai-GPU-Instanzen genutzt wurde. Mit rund 30 Millionen trainierbaren Parametern – weniger als 0,4 % der Gesamtgröße des Modells – blieb die Dateigröße des Adapters mit 63 MB überschaubar.

Die kritische Erkenntnis: Nur die eigene Stimme zählt

Ein häufiger Fehler bei der Personalisierung von Sprachmodellen besteht darin, die Antworten anderer Personen zu stark in das Training einzubeziehen. Doch wie der Entwickler herausfand, führt dies zu einer Verwässerung der individuellen Stimme. Der Schlüssel zum Erfolg lag daher in der maskierten Verlustfunktion: Beim Training wurde der Verlust ausschließlich auf die Tokens der eigenen Antworten angewendet, nicht auf die Nachrichten anderer. Dadurch konzentrierte sich das Modell ausschließlich auf die Entwicklung einer konsistenten, persönlichen Stimme.

from peft import LoraConfig
from transformers import TrainingArguments

peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    use_dora=True,  # Aktiviert DoRA statt LoRA
    task_type="CAUSAL_LM",
)

training_args = TrainingArguments(
    learning_rate=2e-4,
    lr_scheduler_type="cosine",
    warmup_steps=50,
    num_train_epochs=3,
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,  # Effektive Batch-Größe: 16
    max_seq_length=1024,
    bf16=True,
    gradient_checkpointing=True,
    optim="adamw_torch_fused",
)

Blindtests beweisen: Die KI klingt überzeugender als der Mensch selbst

Um die Wirksamkeit des Ansatzes zu überprüfen, führte der Entwickler einen doppelt verblindeten A/B-Test durch. Dabei wurden 30 reale Nachrichten aus dem Trainingsdatensatz verwendet, für die die tatsächlichen Antworten des Nutzers bekannt waren. Jede Nachricht erhielt drei Antwortmöglichkeiten: die des unangepassten Qwen3-8B, die der DoRA-optimierten Version und die tatsächliche Antwort des Nutzers selbst. Die Reihenfolge der Antworten wurde zufällig vertauscht, um Verzerrungen zu vermeiden.

Die Ergebnisse waren erstaunlich:

In allen Direktvergleichen zwischen DoRA und dem Basis-Modell gewann die personalisierte Version 100 % der Fälle.
Bei der Dreifachwahl (real vs. DoRA vs. Basis) bevorzugten die Tester in 71 % der Fälle die echte Antwort, gefolgt von 29 % für die DoRA-Version – das Basis-Modell erhielt keine Stimmen.

Doch der wirklich bemerkenswerte Fall war ein spezifischer Prompt (p07), bei dem die KI-Antwort sogar besser bewertet wurde als die originale Antwort des Nutzers. Der Entwickler beschrieb die Situation so: "Die DoRA-Antwort klang wie eine typische Antwort von mir – nicht unbedingt das, was ich an diesem Tag tatsächlich geschrieben hatte, aber genau das, was ich normalerweise sagen würde."

Zusätzlich wurde geprüft, ob das Modell durch das Training katastrophales Vergessen erlitt. In einem 50 Aufgaben umfassenden Testset (bestehend aus Fragen zu Hauptstädten, Mathematik, Code und Übersetzungen) blieb die Leistung unverändert – ein Beweis dafür, dass die personalisierte Anpassung die allgemeinen Fähigkeiten des Modells nicht beeinträchtigte.

Fallstricke und Lösungen: Was schiefgehen kann

Nicht jedes Experiment verläuft reibungslos. Drei zentrale Probleme traten auf und mussten behoben werden:

`enable_thinking=False` ist zwingend erforderlich

Qwen3 ist standardmäßig ein Denkmodell, das interne Überlegungen in seiner Antwortstruktur abbildet. Da die Trainingsdaten jedoch keine solchen Denkprozesse enthielten, führte dies während der Inferenz zu hybriden Antworten, die sowohl auf Denkprozessen als auch auf Chat-Stil basierten. Die Lösung: Das Modell muss sowohl beim Training als auch bei der Inferenz explizit in den Chat-Modus versetzt werden.

Versionenkonflikte bei Transformers

Qwen3 wurde mit transformers==4.51 ausgeliefert, während neuere Versionen mindestens PyTorch 2.5 erfordern. Auf der Vast.ai-Instanz mit RTX 3090 musste die Version auf 4.53.0 festgelegt werden – eine kleine, aber zeitaufwendige Hürde.

Cerebras unterstützt DoRA-Adapter nicht

Obwohl das Modell auf Cerebras-Hardware getestet wurde, scheiterte die Integration der Adapter. Für eine produktive Nutzung ist daher entweder Selbsthosting (z. B. über vLLM) oder die Kombination aus Basis-Modell, System-Prompt und RAG (Retrieval-Augmented Generation) erforderlich.

Wirtschaftliche Machbarkeit: Ein Adapter für jeden Nutzer

Die größten Hürden für personalisierte KI-Modelle waren bisher immer die Kosten und die Skalierbarkeit. Doch dieser Ansatz zeigt: Es geht auch günstiger. Mit nur 1 bis 3 € – abhängig von der Größe des eigenen Nachrichtensatzes – lässt sich ein hochwertiger DoRA-Adapter trainieren. Die Hardware-Anforderungen sind moderat:

Eine RTX 3090 mit 24 GB VRAM reicht aus.
Die Trainingszeit beträgt etwa 3,5 Stunden.
Die Datenbasis sollte mindestens 1000 Nachrichtenduos umfassen, optimal sind jedoch 6000 Paare für eine stabile Stimme.

Der Adapter steht unter dem Namen yuka-dora-v1 auf Hugging Face zum Download bereit – allerdings mit einer CC BY-NC 4.0-Lizenz, da die Trainingsdaten aus privaten Chats stammen. Eine öffentliche Version ist aufgrund der Datenschutzbestimmungen nicht möglich.

Die Zukunft der personalisierten KI: Vom Segment zur Einzelperson

Die meisten aktuellen Personalisierungsansätze in der KI-Branche basieren auf Segmentierung: Nutzer werden in etwa 50 verschiedene Personas eingeteilt, und jedem Segment wird ein leicht angepasstes Modell zugeordnet. Doch die Realität zeigt, dass selbst innerhalb einer Gruppe von Nutzern mit ähnlichen Merkmalen die individuelle Stimme und Denkweise entscheidend sind.

Dieses Experiment beweist, dass die Einzelperson die richtige Granularität für personalisierte KI darstellt. Ein günstiger DoRA-Adapter, trainiert auf den eigenen Daten, kann ein Frontier-Sprachmodell in eine präzise Nachbildung der eigenen Persönlichkeit verwandeln – ohne Qualitätsverlust und zu minimalen Kosten. Die wirtschaftliche Machbarkeit ist damit gegeben, und der nächste Schritt liegt nun in der Skalierung dieser Methode für eine breitere Nutzung.

Die Ära der segmentbasierten Personalisierung neigt sich dem Ende zu. Die Zukunft gehört einem Adapter pro Nutzer – trainiert auf kontinuierlich aktualisierten Daten und vollständig im Besitz des Einzelnen.

KI-Zusammenfassung

Qwen3-8B modelini DoRA ile sadece $1,50 maliyetle kişisel bir sese dönüştürün. Kör A/B testlerinde %100 performans artışı ve sıfır unutkanlık. Kurulum ve eğitim adımları burada.

Persönlicher KI-Stimme mit DoRA: Mit unter 2 € das Qwen3-8B optimieren

Vom Telegram-Chat zur KI-Stimme: Der Trainingsprozess im Detail

Die kritische Erkenntnis: Nur die eigene Stimme zählt

Blindtests beweisen: Die KI klingt überzeugender als der Mensch selbst

Fallstricke und Lösungen: Was schiefgehen kann

Wirtschaftliche Machbarkeit: Ein Adapter für jeden Nutzer

Die Zukunft der personalisierten KI: Vom Segment zur Einzelperson

Kommentare

PostgreSQLs Uniquenessprinzip: Wie Heap-Tupel die Indexlogik steuern

Lokale Software statt Cloud: Warum persönliche Tools offline besser funktionieren

KI-gesteuerte Videobearbeitung: So funktioniert ein Browser-Editor mit JSON-Projektdatei