TinySearch: Webrecherche für kleine lokale KI-Modelle ohne Kontextüberlastung

Lokale KI-Modelle mit weniger als 10 Milliarden Parametern haben oft mit der Herausforderung zu kämpfen, Webinhalte sinnvoll zu verarbeiten. Klassische Suchwerkzeuge liefern zwar Ergebnisse, überfluten die Modelle aber mit überflüssigen Informationen wie Navigationsmenüs, Cookie-Hinweisen oder werblichen Texten. Das Ergebnis ist eine ineffiziente Token-Nutzung und eine Überforderung kleiner Sprachmodelle.

Genau hier setzt TinySearch an. Das Open-Source-Tool ist als MCP-Forschungsprojekt konzipiert und verfolgt einen klaren Ansatz: Statt unstrukturierte Webseiten direkt an das Modell weiterzugeben, bereitet TinySearch die Inhalte gezielt auf. Die Lösung übernimmt die Websuche, das Crawling relevanter Seiten, die Zerlegung der Inhalte in sinnvolle Abschnitte und die anschließende Gewichtung der wichtigsten Informationen. Am Ende steht ein kompakter, quellengestützter Prompt – frei von irrelevanten Details.

Eine Lösung für den Mittelweg zwischen lokaler Effizienz und Webrecherche

TinySearch ist kein Ersatz für kommerzielle Such-APIs oder komplexe Recherchesysteme wie Perplexity oder Exa. Stattdessen bietet es eine minimalistische, aber effektive Alternative für Entwickler, die lokale KI-Agenten mit präzisen Webrecherche-Fähigkeiten ausstatten möchten – ohne dabei auf teure Cloud-Dienste oder überdimensionierte Kontextfenster angewiesen zu sein.

Das Tool eignet sich besonders für:

Lokale LLM-Agenten mit begrenztem Speicherplatz
MCP-basierte Workflows, bei denen Agenten gezielt nach Informationen suchen müssen
Kleine RAG-Experimente (Retrieval-Augmented Generation)
Persönliche Recherchetools für Entwickler oder Forscher
KI-gestützte Coding-Assistenten, die gelegentlich aktuelle Dokumentationen benötigen

Die Kernidee ist einfach: TinySearch liefert dem Modell nur die Informationen, die es tatsächlich benötigt – strukturiert, gewichtet und mit klaren Quellenangaben.

Einfacher Einstieg über Glama oder Docker

Für Nutzer, die keine eigene Infrastruktur aufbauen möchten, bietet sich die Integration über Glama an. Diese Plattform ermöglicht eine schnelle Anbindung von TinySearch an bestehende MCP-Workflows, ohne dass zusätzliche Serverkonfigurationen erforderlich sind. Ideal für erste Tests und schnelle Prototypen.

Wer lieber selbst hostet, kann auf das bereitgestellte Docker-Image zurückgreifen. Die Einrichtung erfolgt in wenigen Schritten:

docker run --rm -p 8000:8000 \
  -e MCP_TRANSPORT=streamable-http \
  -e MCP_HOST=0.0.0.0 \
  marcellm01/tinysearch:latest

Anschließend verbindet man den MCP-Client mit der lokalen Instanz:

{
  "mcpServers": {
    "tinysearch": {
      "url": "
    }
  }
}

TinySearch stellt dabei eine einzige Funktion bereit: research(query). Diese übernimmt die gesamte Recherchekette – von der Suche über das Crawling bis hin zur Aufbereitung der Ergebnisse – und liefert einen strukturierten Prompt zurück. Alternativ kann der Dienst auch über eine FastAPI-Schnittstelle genutzt werden, falls HTTP statt MCP bevorzugt wird.

Wie TinySearch unter der Haube funktioniert

Der innere Ablauf des Tools folgt einer klaren Pipeline, die sicherstellt, dass nur relevante Inhalte an das Modell weitergegeben werden:

Suche: Die Eingabe des Nutzers wird an eine Suchmaschine (z. B. DuckDuckGo) übergeben, um relevante Webseiten zu identifizieren.

Reranking: Die Suchergebnisse werden nach Relevanz gefiltert, um die vielversprechendsten Quellen auszuwählen.

Crawling: Ausgewählte Seiten werden mit Crawl4AI analysiert und der Text extrahiert – dabei werden irrelevante Elemente wie Werbung oder Navigationsleisten automatisch entfernt.

Chunking & Reranking: Der extrahierte Inhalt wird in sinnvolle Abschnitte unterteilt und erneut nach Relevanz gewichtet.

Deduplizierung & Quellensteuerung: Doppelte Inhalte werden entfernt, und die Quellen werden nach Priorität geordnet, um eine ausgewogene Informationsbasis zu gewährleisten.

Prompt-Erstellung: Die finalen Ergebnisse werden in einem strukturierten Format zusammengefasst, das dem Modell klare Anweisungen gibt. Dazu gehören:

Die ursprüngliche Frage
Das heutige Datum
Präzise Anweisungen zur Nutzung der Quellen
Titel und URLs der gefundenen Seiten
Suchvorschauen
Die relevantesten Textausschnitte

Ein Beispiel für die Ausgabe von TinySearch

Die Ausgabe folgt einem festen Schema, das dem Modell maximale Klarheit bietet. Ein typisches Ergebnis könnte so aussehen:

================================================================================
SEARCH-GROUNDED ANSWER PROMPT
================================================================================

FRAGE: Welche aktuellen Basel-III-Updates gibt es?

HEUTIGES DATUM: 2026-05-18

WICHTIGE ANWEISUNGEN:
- Nutze ausschließlich die Informationen unter "ERGEBNISSE".
- Falls die Antwort nicht durch die Quellen gedeckt ist, gib an, dass die Informationen nicht ausreichen.
- Zitiere nach jeder faktischen Aussage die entsprechende Quellen-URL.

ERGEBNISSE

ERGEBNIS 1
TITEL: Basel-III-Reformen 2026 – Zusammenfassung der wichtigsten Änderungen
URL: 
SUCHVORSCHAU: Aktualisierte Eigenkapitalanforderungen für KMU
RELEVANTER TEXT: "Ab dem 1. Juli 2026 gelten für Banken mit einem Gesamtportfolio unter 10 Milliarden Euro neue Eigenkapitalpuffer von mindestens 2,5 % des risikogewichteten Aktiva."

ERGEBNIS 2
...

Dieses Format stellt sicher, dass das Modell weiß, welche Informationen es verwenden darf, woher sie stammen und wann es bei unzureichenden Quellen transparent kommunizieren muss. Besonders bei zeitkritischen Anfragen – etwa zu aktuellen Vorschriften – ist diese Transparenz entscheidend.

Flexible Konfiguration für individuelle Anforderungen

TinySearch unterstützt sowohl lokale Embedding-Modelle als auch OpenAI-kompatible API-Dienste. Im Repository sind bereits vorkonfigurierte Embedding-Optionen enthalten, darunter:

fast: Optimiert für Geschwindigkeit mit dem Modell all-MiniLM-L6-v2 im ONNX-Format
balanced: Ausgewogene Performance mit bge-small-en-v1.5
quality: Höhere Genauigkeit mit bge-base-en-v1.5

Zusätzlich lassen sich Parameter wie Suchtiefe, Reranking-Gewichtung, Chunk-Limits, Crawling-Geschwindigkeit und Tokenizer-Einstellungen anpassen. So können Nutzer das Tool schrittweise an ihre spezifischen Anforderungen anpassen.

Grenzen und klare Zielsetzung

TinySearch ist bewusst kein Allheilmittel. Es bietet keine dauerhafte Indexierung, keine garantierte Vollständigkeit der Suchergebnisse und ersetzt keine professionellen Recherchesysteme. Doch genau das ist der Kern der Philosophie hinter dem Projekt: Statt komplexer Lösungen für alle möglichen Szenarien zu bieten, setzt TinySearch auf Einfachheit und Effizienz.

Der Fokus liegt darauf, lokalen KI-Agenten eine saubere, quellengestützte Basis für Webrecherchen zu liefern – ohne sie mit irrelevanten Kontextinformationen zu überlasten. Für Entwickler, die auf der Suche nach einer unkomplizierten, aber effektiven Lösung sind, könnte TinySearch genau der richtige Ansatz sein.

Die Zukunft der lokalen KI-Agenten wird nicht allein durch Modellgrößen oder Rechenleistung bestimmt, sondern durch intelligente Kontextaufbereitung. Tools wie TinySearch zeigen, dass weniger manchmal mehr sein kann – besonders, wenn es um die Zusammenarbeit zwischen Mensch und Maschine geht.

KI-Zusammenfassung

TinySearch filters web search results into clean, source-grounded snippets for small LLMs, cutting context bloat and improving reasoning without heavy infrastructure.

TinySearch: Webrecherche für kleine lokale KI-Modelle ohne Kontextüberlastung

Eine Lösung für den Mittelweg zwischen lokaler Effizienz und Webrecherche

Einfacher Einstieg über Glama oder Docker

Wie TinySearch unter der Haube funktioniert

Ein Beispiel für die Ausgabe von TinySearch

Flexible Konfiguration für individuelle Anforderungen

Grenzen und klare Zielsetzung

Kommentare

Warum Unternehmen keine Infrastruktur bauen sollten – ein Blick auf moderne Softwarearchitektur

Python-Tool zum YouTube-Download: PyFlowDownloader in Version 0.3.0

HeliosProxy: Die nächste Generation der PostgreSQL-Datenebene