Gemma-4 12B lokal mit WSL2 und llama.cpp ausführen

Mit der steigenden Beliebtheit von lokalen KI-Modellen suchen viele Entwickler nach effizienten Wegen, große Sprachmodelle auf ihrem eigenen System zu betreiben. Das Open-Source-Projekt llama.cpp ermöglicht es, Modelle wie Gemma-4 12B auf Standard-Hardware auszuführen – besonders praktisch in der Windows Subsystem for Linux (WSL2). Dieser Leitfaden zeigt, wie Sie die Umgebung einrichten, Abhängigkeiten installieren und das Modell entweder über die Kommandozeile oder eine Web-Oberfläche nutzen.

Voraussetzungen prüfen und WSL2 aktualisieren

Bevor Sie mit der Installation beginnen, sollten Sie sicherstellen, dass Ihre WSL2-Umgebung auf dem neuesten Stand ist. Führen Sie dazu folgende Befehle im Terminal aus:

sudo apt update && sudo apt upgrade -y

Dies aktualisiert alle Paketquellen und installiert verfügbare Sicherheitsupdates. Der Prozess dauert je nach System einige Minuten. Anschließend können Sie die notwendigen Bibliotheken für den Build-Prozess von llama.cpp vorbereiten.

Abhängigkeiten installieren – CPU- und GPU-Unterstützung

Die Einrichtung von llama.cpp erfordert mehrere Abhängigkeiten. Zunächst werden die grundlegenden Entwicklungswerkzeuge und Bibliotheken installiert:

sudo apt install build-essential cmake git libssl-dev -y

Falls Sie eine NVIDIA-Grafikkarte besitzen und CUDA-Unterstützung nutzen möchten, müssen Sie zusätzlich das NVIDIA CUDA Toolkit installieren. Dies ermöglicht eine deutlich schnellere Inferenz durch GPU-Beschleunigung:

sudo apt install nvidia-cuda-toolkit -y

Führen Sie nach der Installation den Befehl nvidia-smi aus, um zu überprüfen, ob die Grafikkarte erkannt wurde. Falls keine Ausgabe erscheint, ist keine GPU verfügbar, und das Modell läuft ausschließlich auf der CPU.

llama.cpp aus dem Quellcode kompilieren

Der nächste Schritt ist das Klonen und Kompilieren von llama.cpp. Dieses Projekt stellt zwei Hauptwerkzeuge bereit: llama-cli für die Kommandozeileninteraktion und llama-server für den Betrieb als Webdienst. Folgen Sie diesen Schritten:

git clone 
cd llama.cpp

# Build mit CUDA-Unterstützung (für GPU-Beschleunigung)
cmake -B build -DGGML_CUDA=ON -DLLAMA_OPENSSL=ON
cmake --build build --config Release

Falls Sie keine GPU verwenden, können Sie die CUDA-Option weglassen:

cmake -B build
cmake --build build --config Release

Der Build-Prozess kann je nach Hardware zwischen 10 und 30 Minuten dauern. Währenddessen wird der Quellcode kompiliert und in ausführbare Binärdateien umgewandelt.

Gemma-4 12B herunterladen und ausführen

Das Gemma-4 12B-Modell ist in verschiedenen Quantisierungsstufen auf Hugging Face verfügbar. Für eine optimale Balance zwischen Geschwindigkeit und Speichernutzung empfehlen wir die Version `UD-Q4_K_XL`. Laden Sie das Modell entweder direkt über die Kommandozeile oder manuell herunter:

mkdir -p models
wget -O models/gemma-4-12b-it-UD-Q4_K_XL.gguf \

Modell über die Kommandozeile nutzen

Starten Sie das Modell mit llama-cli für eine interaktive Sitzung:

./build/bin/llama-cli -hf models/gemma-4-12b-it-UD-Q4_K_XL.gguf

Das Tool zeigt eine Eingabeaufforderung an, in der Sie Fragen stellen oder Befehle ausführen können. Beispiel:

> hallo
[Start thinking]
Der Benutzer hat "hallo" geschrieben. Eine freundliche Begrüßung ist angemessen.
[End thinking]
Hallo! Wie kann ich Ihnen heute helfen?
[Prompt: 19.5 t/s | Generation: 11.8 t/s]

Die Ausgabe enthält auch die Tokens pro Sekunde (t/s) als Leistungsindikator.

Modell als Webdienst betreiben

Für eine nutzerfreundlichere Schnittstelle können Sie llama-server starten. Dies ermöglicht den Zugriff über einen Browser:

./build/bin/llama-server -hf models/gemma-4-12b-it-UD-Q4_K_XL.gguf --port 8080

Öffnen Sie anschließend einen Browser und navigieren Sie zu ` um mit dem Modell zu interagieren. Diese Methode eignet sich besonders für Teams oder Entwickler, die eine stabile API für Anwendungen benötigen.

Tipps für optimale Leistung

Speichernutzung: Die Quantisierung des Modells (z. B. Q4_K_XL) reduziert den Speicherbedarf auf etwa 12–15 GB, sodass es auf den meisten modernen GPUs lauffähig ist.
GPU vs. CPU: Eine dedizierte Grafikkarte verbessert die Inferenzgeschwindigkeit deutlich. Ohne GPU hängt die Leistung stark von der CPU ab.
Modellauswahl: Testen Sie verschiedene Quantisierungsstufen (z. B. Q2_K, Q3_K), um einen Kompromiss zwischen Geschwindigkeit und Genauigkeit zu finden.

Mit dieser Anleitung können Sie Gemma-4 12B lokal in WSL2 ausführen und für individuelle KI-Projekte nutzen. Die Kombination aus llama.cpp und WSL2 bietet eine flexible und kostengünstige Alternative zu Cloud-Lösungen. In Zukunft könnten weitere Optimierungen wie DirectML oder ROCm die Leistung auf nicht-NVIDIA-Hardware verbessern. Bleiben Sie dran für Updates!

KI-Zusammenfassung

Windows Subsystem for Linux 2 (WSL2) kullanarak yerel bilgisayarınızda Gemma-4 12B modelini nasıl kurabileceğinizi ve çalıştırabileceğinizi adım adım öğrenin. Tüm bağımlılıklar ve GPU destekli kurulum dahil.

Gemma-4 12B lokal mit WSL2 und llama.cpp ausführen

Voraussetzungen prüfen und WSL2 aktualisieren

Abhängigkeiten installieren – CPU- und GPU-Unterstützung

llama.cpp aus dem Quellcode kompilieren

Gemma-4 12B herunterladen und ausführen

Modell über die Kommandozeile nutzen

Modell als Webdienst betreiben

Tipps für optimale Leistung

Kommentare

Chrono Shift: Time Weaver – Ein KI-gestütztes Zeitreise-Plattformspiel

SERP-APIs: Warum SEO- und KI-Teams strukturierte Suchdaten brauchen

KI-Agenten scheitern leise – so erkennen Sie stille Fehler in Claude Code