Mit der steigenden Beliebtheit von lokalen KI-Modellen suchen viele Entwickler nach effizienten Wegen, große Sprachmodelle auf ihrem eigenen System zu betreiben. Das Open-Source-Projekt llama.cpp ermöglicht es, Modelle wie Gemma-4 12B auf Standard-Hardware auszuführen – besonders praktisch in der Windows Subsystem for Linux (WSL2). Dieser Leitfaden zeigt, wie Sie die Umgebung einrichten, Abhängigkeiten installieren und das Modell entweder über die Kommandozeile oder eine Web-Oberfläche nutzen.
Voraussetzungen prüfen und WSL2 aktualisieren
Bevor Sie mit der Installation beginnen, sollten Sie sicherstellen, dass Ihre WSL2-Umgebung auf dem neuesten Stand ist. Führen Sie dazu folgende Befehle im Terminal aus:
sudo apt update && sudo apt upgrade -yDies aktualisiert alle Paketquellen und installiert verfügbare Sicherheitsupdates. Der Prozess dauert je nach System einige Minuten. Anschließend können Sie die notwendigen Bibliotheken für den Build-Prozess von llama.cpp vorbereiten.
Abhängigkeiten installieren – CPU- und GPU-Unterstützung
Die Einrichtung von llama.cpp erfordert mehrere Abhängigkeiten. Zunächst werden die grundlegenden Entwicklungswerkzeuge und Bibliotheken installiert:
sudo apt install build-essential cmake git libssl-dev -yFalls Sie eine NVIDIA-Grafikkarte besitzen und CUDA-Unterstützung nutzen möchten, müssen Sie zusätzlich das NVIDIA CUDA Toolkit installieren. Dies ermöglicht eine deutlich schnellere Inferenz durch GPU-Beschleunigung:
sudo apt install nvidia-cuda-toolkit -yFühren Sie nach der Installation den Befehl nvidia-smi aus, um zu überprüfen, ob die Grafikkarte erkannt wurde. Falls keine Ausgabe erscheint, ist keine GPU verfügbar, und das Modell läuft ausschließlich auf der CPU.
llama.cpp aus dem Quellcode kompilieren
Der nächste Schritt ist das Klonen und Kompilieren von llama.cpp. Dieses Projekt stellt zwei Hauptwerkzeuge bereit: llama-cli für die Kommandozeileninteraktion und llama-server für den Betrieb als Webdienst. Folgen Sie diesen Schritten:
git clone
cd llama.cpp
# Build mit CUDA-Unterstützung (für GPU-Beschleunigung)
cmake -B build -DGGML_CUDA=ON -DLLAMA_OPENSSL=ON
cmake --build build --config ReleaseFalls Sie keine GPU verwenden, können Sie die CUDA-Option weglassen:
cmake -B build
cmake --build build --config ReleaseDer Build-Prozess kann je nach Hardware zwischen 10 und 30 Minuten dauern. Währenddessen wird der Quellcode kompiliert und in ausführbare Binärdateien umgewandelt.
Gemma-4 12B herunterladen und ausführen
Das Gemma-4 12B-Modell ist in verschiedenen Quantisierungsstufen auf Hugging Face verfügbar. Für eine optimale Balance zwischen Geschwindigkeit und Speichernutzung empfehlen wir die Version `UD-Q4_K_XL`. Laden Sie das Modell entweder direkt über die Kommandozeile oder manuell herunter:
mkdir -p models
wget -O models/gemma-4-12b-it-UD-Q4_K_XL.gguf \
Modell über die Kommandozeile nutzen
Starten Sie das Modell mit llama-cli für eine interaktive Sitzung:
./build/bin/llama-cli -hf models/gemma-4-12b-it-UD-Q4_K_XL.ggufDas Tool zeigt eine Eingabeaufforderung an, in der Sie Fragen stellen oder Befehle ausführen können. Beispiel:
> hallo
[Start thinking]
Der Benutzer hat "hallo" geschrieben. Eine freundliche Begrüßung ist angemessen.
[End thinking]
Hallo! Wie kann ich Ihnen heute helfen?
[Prompt: 19.5 t/s | Generation: 11.8 t/s]Die Ausgabe enthält auch die Tokens pro Sekunde (t/s) als Leistungsindikator.
Modell als Webdienst betreiben
Für eine nutzerfreundlichere Schnittstelle können Sie llama-server starten. Dies ermöglicht den Zugriff über einen Browser:
./build/bin/llama-server -hf models/gemma-4-12b-it-UD-Q4_K_XL.gguf --port 8080Öffnen Sie anschließend einen Browser und navigieren Sie zu ` um mit dem Modell zu interagieren. Diese Methode eignet sich besonders für Teams oder Entwickler, die eine stabile API für Anwendungen benötigen.
Tipps für optimale Leistung
- Speichernutzung: Die Quantisierung des Modells (z. B. Q4_K_XL) reduziert den Speicherbedarf auf etwa 12–15 GB, sodass es auf den meisten modernen GPUs lauffähig ist.
- GPU vs. CPU: Eine dedizierte Grafikkarte verbessert die Inferenzgeschwindigkeit deutlich. Ohne GPU hängt die Leistung stark von der CPU ab.
- Modellauswahl: Testen Sie verschiedene Quantisierungsstufen (z. B. Q2_K, Q3_K), um einen Kompromiss zwischen Geschwindigkeit und Genauigkeit zu finden.
Mit dieser Anleitung können Sie Gemma-4 12B lokal in WSL2 ausführen und für individuelle KI-Projekte nutzen. Die Kombination aus llama.cpp und WSL2 bietet eine flexible und kostengünstige Alternative zu Cloud-Lösungen. In Zukunft könnten weitere Optimierungen wie DirectML oder ROCm die Leistung auf nicht-NVIDIA-Hardware verbessern. Bleiben Sie dran für Updates!
KI-Zusammenfassung
Windows Subsystem for Linux 2 (WSL2) kullanarak yerel bilgisayarınızda Gemma-4 12B modelini nasıl kurabileceğinizi ve çalıştırabileceğinizi adım adım öğrenin. Tüm bağımlılıklar ve GPU destekli kurulum dahil.