Die Idee, Sprachmemos direkt in digitale Notizen zu übertragen, ist nicht neu. Doch die meisten Lösungen scheitern an übermäßiger Komplexität: automatische Zusammenfassungen, erfundene Aufgabenlisten oder unnötige Cloud-Abhängigkeiten. Das Projekt Mnemonic setzt dagegen auf eine radikale Vereinfachung – und nutzt dabei gezielt die Stärken der KI-Modelle Gemma 4 E4B.
Entwickelt als macOS-Menüleisten-App mit integrierter Kommandozeile, ermöglicht Mnemonic es Nutzern, mit einer Tastenkombination Sprachaufnahmen zu starten. Sobald die Aufnahme endet, wird der Inhalt direkt in eine tagesaktuelle Markdown-Datei im Format YYYY-MM-DD.md geschrieben. Jeder Eintrag erscheint als einfache Aufzählung – ohne Titel, ohne künstliche Strukturierung und ohne externe Abhängigkeiten. Die Dateien lassen sich problemlos in Tools wie Obsidian integrieren, sodass Nutzer von Suchfunktionen, Backlinks und visuellen Wissensgraphen profitieren können.
Ein minimalistisches Konzept mit lokaler KI-Unterstützung
Die erste Version von Mnemonic versuchte noch, Sprachmemos automatisch zu strukturieren: Jeder 30-sekündige Eintrag erhielt einen Titel, eine Zusammenfassung und eine generierte Aufgabenliste. Doch diese Herangehensweise führte zu ungenauen oder sogar falschen Ergebnissen. Die aktuelle Version beschränkt sich daher auf das Wesentliche: Transkription und leichte Bereinigung der Notizen.
Mit Version 0.3 kamen drei neue Funktionen hinzu, die entweder optional aktiviert werden können oder im Hintergrund ablaufen:
- Bildanhang: Nutzer können einen Screenshot erstellen und direkt dazu sprechen. Alternativ lässt sich mit einer Tastenkombination ein Bereich auswählen, während die Aufnahme startet. Das KI-Modell verarbeitet sowohl die Audio- als auch die Bilddaten und fügt einen passenden Eintrag in die Notizdatei ein. Die Bilddatei wird neben der Audiodatei gespeichert.
- Aufnahmewarteschlange: Die Aufnahmen laufen unabhängig vom Hauptfenster der App ab. Sobald die Tastenkombination losgelassen wird, wechselt die Statusanzeige in den Leerlaufmodus – weitere Aufnahmen können sofort gestartet werden. Ein Hintergrundprozess verarbeitet die Aufnahmen nacheinander, selbst wenn die App geschlossen wird. Bei einem Abbruch bleibt die Warteschlange erhalten.
- Intent-Routing (optional): Ein zweiter, schmaler KI-Aufruf analysiert die Notiz darauf, ob sie eine Handlung auslösen soll – etwa "Erinnere mich morgen um 15 Uhr, Sarah anzurufen". Falls ja, wird ein zuvor freigegebener macOS-Shortcut ausgeführt. Der Nutzer hat fünf Sekunden Zeit, um die Aktion rückgängig zu machen. Die gesamte Verarbeitung erfolgt lokal, ohne Netzwerkzugriff oder externe APIs.
Warum Gemma 4 E4B die richtige Wahl ist
Das Projekt setzt auf das Gemma 4 E4B-Modell, eine der vier verfügbaren Varianten der Gemma-4-Familie. Während die meisten Modelle keine Audioverarbeitung unterstützen, ist E4B speziell für diese Aufgabe optimiert. Die Entscheidung für E4B statt des kleineren E2B-Modells basiert auf mehreren Leistungsvergleichen:
- MMLU Pro: 69,4 % (E4B) vs. 60,0 % (E2B) – ein deutlicher Unterschied in der Verarbeitung technischer Fachbegriffe.
- BBEH: 33,1 % (E4B) vs. 21,9 % (E2B) – entscheidend für präzises Intent-Routing und Selbstkorrekturen.
- Spracherkennung: CoVoST (35,54 vs. 33,47) und FLEURS (0,08 vs. 0,09) zeigen marginale, aber spürbare Verbesserungen.
Mit einer Größe von 4,98 GB (GGUF-Format) bei Q4_K_M lässt sich das Modell problemlos auf einem Mac mit 16 GB RAM betreiben – selbst neben einem IDE und Browser. Die integrierten Audio- und Bildencoder benötigen etwa 1 GB zusätzlichen Speicher.
Ein Modell, zwei Aufgaben: Audio und Bild in einer Verarbeitung
Traditionelle Ansätze für Sprachmemos nutzen eine zweistufige Architektur:
- Automatische Spracherkennung (ASR) wie Whisper oder Parakeet wandelt Sprache in Text um.
- Ein separates KI-Modell bereinigt und strukturiert den Text.
Mnemonic umgeht diese Trennung und verarbeitet Audio und Text in einem einzigen Gemma-4-E4B-Durchlauf. Der Grund: Die KI kann nicht nur die gesprochenen Worte transkribieren, sondern auch Pausen, Zögern und Korrekturen erkennen – Nuancen, die bei einer reinen Textverarbeitung verloren gehen würden. Durch die direkte Verarbeitung der Audiodaten entfällt zudem ein zusätzlicher HTTP-Aufruf, was die Latenz reduziert.
Dieses Prinzip gilt auch für Bilddaten. Statt einem separaten OCR-Schritt (z. B. mit Tesseract oder Apple Vision) sendet Mnemonic sowohl die Audiodatei als auch das Bild an Gemma 4. Das Modell generiert dann einen Eintrag, der sich auf beide Quellen bezieht – etwa: "Der Code-Editor zeigt den von mir erwähnten Fehler in Zeile 42."
Sicherheit und lokale Verarbeitung als Kernprinzip
Mnemonic läuft ausschließlich lokal – keine Daten verlassen das Gerät. Die Anwendung wird als signierte und notarisierte DMG-Datei bereitgestellt, und der Quellcode ist unter der MIT-Lizenz veröffentlicht. Die gesamte Verarbeitung erfolgt über einen lokalen llama-server, der auf 127.0.0.1 läuft.
Die Installation ist denkbar einfach:
brew tap EduardMaghakyan/tap
brew install --cask mnemonicHinter den Kulissen nutzt Mnemonic ein Rust-basiertes Ökosystem: Tauri 2 für die Menüleisten-App, clap für die Kommandozeile und ein gemeinsames mnemonic-core-Paket für Audioverarbeitung, Markdown-Erstellung und die Kommunikation mit dem KI-Server. Die Anwendung ist für Apple Silicon optimiert und unterstützt alle aktuellen macOS-Versionen.
Ausblick: Wo geht die Reise hin?
Mnemonic beweist, dass lokale KI-Anwendungen mit minimalistischem Design und präziser Modellauswahl überzeugende Alternativen zu cloudbasierten Lösungen sein können. Die Entwickler planen bereits weitere Optimierungen, darunter die Unterstützung zusätzlicher Eingabemethoden oder eine noch effizientere Verarbeitung von Echtzeit-Aufnahmen. Eines bleibt jedoch klar: Die Zukunft des digitalen Journalings könnte lokaler, schneller und unkomplizierter sein – dank KI-Modellen wie Gemma 4 E4B.
KI-Zusammenfassung
Mnemonic, yerel olarak çalışan AI modeli Gemma 4 E4B ile sesli notlarınızı otomatik olarak Markdown günlüğünüze aktarıyor. Hiçbir bulut, telemetri ya da gereksiz özetleme olmadan, saf düşüncelerinizi kaydedin.