Die Frage klingt einfach: Wie beeinflusst Diabetes die Tuberkulose-Behandlungsergebnisse in Indien? Doch für herkömmliche Retrieval-Augmented-Generation-Systeme (RAG) ist sie ein unlösbares Puzzle. Ein neues Benchmarking-Projekt untersucht nun, warum klassische Vektor-Suche bei solchen medizinischen Querverbindungen versagt – und wie GraphRAG-basierte Ansätze Abhilfe schaffen.
Das Kernproblem: Warum RAG bei medizinischen Querverbindungen scheitert
Standard-RAG-Systeme arbeiten mit isolierten Textfragmenten. Sie erkennen zwar, dass ein Abschnitt von Diabetes handelt und ein anderer von Tuberkulose-Behandlungen spricht – doch die entscheidende Verbindung zwischen beiden Themen entgeht ihnen. Das Problem verschärft sich bei indirekten Zusammenhängen wie dem Einfluss von HbA1c (einem Blutzuckermarker) auf die Wirkung von Rifampicin (einem Tuberkulose-Medikament).
Drei typische Schwachstellen von RAG wurden in Tests wiederholt sichtbar:
- Unsichtbare indirekte Beziehungen: Eine Frage wie "Wie beeinflusst Rifampicin die Blutzuckerkontrolle bei diabetischen Tuberkulose-Patienten?" erfordert Wissen über Enzyminteraktionen – doch keine einzelne Studie deckt beide Aspekte ab.
- Rollenkonfusion bei Entitäten: Eine Abfrage zu MDR-Tuberkulose bei Kindern liefert oft Ergebnisse zu Erwachsenen, weil die Suchbegriffe zwar ähnlich sind, die Zielgruppe aber falsch zugeordnet wird.
- Fehlende Aggregation: Fragen wie "Welche Begleiterkrankungen treten bei Tuberkulose-Patienten in Indien am häufigsten auf?" lassen sich nicht aus einzelnen Dokumenten beantworten. Dazu braucht es eine Analyse des gesamten Korpus.
Drei parallele KI-Pipelines im Test
Um die Leistungsunterschiede systematisch zu messen, hat das Team eine Benchmarking-Plattform entwickelt, die drei verschiedene Retrieval-Strategien parallel auf einem Korpus von über 9.000 indischen Gesundheitsstudien testet. Die Studien stammen aus PubMed Central und decken Themen wie Diabetes, Tuberkulose, Müttergesundheit und Malaria ab.
Jede Pipeline nutzt dasselbe Sprachmodell (GPT-4o-mini), wird aber mit unterschiedlichen Retrieval-Methoden gespeist:
- LLM-Only: Keine externe Wissensquelle – das Modell antwortet ausschließlich auf Basis seines Trainingswissens.
- Basic RAG: Klassische Vektor-Suche mit FAISS-Index und Cross-Encoder-Reranking.
- GraphRAG: Nutzt einen Wissensgraphen von TigerGraph für mehrstufige Abfragen.
Die Metriken umfassen Token-Nutzung, Kosten, Antwortlatenz, LLM-basierte Qualitätsbewertungen und BERTScore F1. Die ersten Tests zeigen bereits jetzt deutliche Unterschiede in der Antwortqualität.
Der aufwendige Weg zum indischen Gesundheitskorpus
Die Zusammenstellung der Studien war eine technische Herausforderung. Über die PubMed-E-Utilities-API wurden zunächst PMIDs (PubMed-Identifikatoren) für indische Studien zu den genannten Themen gesammelt. Ein Python-Skript automatisierte diesen Prozess:
from Bio import Entrez
Entrez.email = "deine@email.de"
def fetch_pmids(domain_query: str, max_results: int = 3000) -> list[str]:
handle = Entrez.esearch(
db="pmc",
term=domain_query,
usehistory="y",
retmax=0
)
search_results = Entrez.read(handle)
handle.close()
web_env = search_results["WebEnv"]
query_key = search_results["QueryKey"]
total = int(search_results["Count"])
pmids = []
batch_size = 200
for start in range(0, min(total, max_results), batch_size):
fetch_handle = Entrez.efetch(
db="pmc",
rettype="xml",
retmode="xml",
retstart=start,
retmax=batch_size,
webenv=web_env,
query_key=query_key
)
records = Entrez.read(fetch_handle)
fetch_handle.close()
pmids.extend([r["MedlineCitation"]["PMID"] for r in records["PubmedArticle"]])
return pmidsEin Beispiel für die Abfrage zu Tuberkulose in Indien:
(tuberculosis[MeSH] OR "TB"[tiab] OR "MDR-TB"[tiab])
AND ("India"[Affiliation] OR "Indian"[Affiliation])
AND (epidemiology[MeSH] OR "public health"[tiab] OR "clinical trial"[tiab])Probleme bei der Datenaufbereitung umfassten:
- Etwa 8 % der Studien hatten keine Zusammenfassungen – hier wurden die ersten 500 Zeichen des Volltextes genutzt.
- Inkonsistente Institutsangaben in den Metadaten (z. B.
AIIMS,All India Institute of Medical Sciences,New Delhi 110029), die standardisiert werden mussten.
- Doppelte Einträge durch verschiedene PMIDs bei unterschiedlichen Versionen einer Studie.
- Die Überprüfung von Rückrufen mit der Retraction Watch-Datenbank war unerlässlich.
Der Wissensgraph: Präzision entscheidet über Erfolg
Der entscheidende Faktor für die Leistung von GraphRAG ist das Schema des Wissensgraphen. Zu dünne Verknüpfungen führen zu leeren Ergebnissen, zu viele zu falschen Verbindungen. Das finale Design umfasst:
- 10 Knotentypen: z. B.
Krankheit,Behandlung,Biomarker,Population,GeografischeRegion.
- 10 Kantentypen mit Bedeutung: z. B.
BEHANDELT(Behandlung → Krankheit),RISIKOFAKTOR_FÜR(Biomarker → Krankheit),KOMPLIKATION_VON(bidirektional zwischen Krankheiten).
Jede Kante erhält einen Konfidenzwert aus dem Extraktionsmodell. Kanten mit einer Vertrauenswürdigkeit unter 0,65 werden bei der Abfrage ignoriert – eine Maßnahme, die die Antwortqualität deutlich verbesserte.
Die finale Graph-Statistik zeigt die Komplexität des Modells:
- ~17.830 Knoten
- ~142.000 Kanten
- Durchschnittlicher Knotengrad: 8,0
- Graphendurchmesser: ~6 Hops
Ein konkreter Vergleich: GraphRAG vs. RAG bei medizinischen Querverbindungen
Stellen wir die Frage: "Wie wirkt sich Diabetes auf die Tuberkulose-Behandlungsergebnisse in Indien aus?"
- Basic RAG: Findet möglicherweise separate Abschnitte zu Diabetes und Tuberkulose, erkennt aber nicht die Verbindung zwischen beiden Themen.
- GraphRAG: Identifiziert über die Kanten
DIABETES → RISIKOFAKTOR_FÜR → TUBERKULOSEundTUBERKULOSE_BEHANDELT_MIT → RIFAMPICINdie relevante Verbindung. Der Pfad könnte beispielsweise lauten:
Diabetes (RISIKOFAKTOR_FÜR) Tuberkulose (BEHANDELT_MIT) Rifampicin (BEINFLUSST_GLYKÄMISCHE_KONTROLLE).
Diese mehrstufige Abfrage ermöglicht es dem System, indirekte Zusammenhänge zu erkennen – etwas, das herkömmliche RAG-Ansätze nicht leisten können.
Ausblick: Was die Benchmarks zeigen könnten
Die ersten Tests bestätigen die Hypothese, dass GraphRAG besonders bei komplexen medizinischen Fragen mit multiplen Entitäten und indirekten Beziehungen überlegen ist. Während Basic RAG oft nur oberflächliche Antworten liefert, kann GraphRAG gezielt relevante Pfade durch den Wissensraum verfolgen.
Sollten sich diese Ergebnisse in den vollständigen Benchmarks bestätigen, könnte dies die Art und Weise, wie medizinische KI-Systeme entwickelt werden, grundlegend verändern – besonders in Kontexten, in denen lokale Gesundheitsdaten und kulturelle Faktoren eine zentrale Rolle spielen.
Die nächsten Schritte umfassen die Erweiterung des Korpus um weitere Krankheitsbilder sowie die Integration von Echtzeit-Datenquellen wie klinischen Studienregistern. Langfristig könnte diese Technologie nicht nur die Forschung beschleunigen, sondern auch die personalisierte Medizin vorantreiben.
KI-Zusammenfassung
Graf tabanlı arama sistemleri, geleneksel arama sistemlerine kıyasla daha iyi performans gösterir ve özellikle, çok adımlı sorulara cevap vermek için gerekli olan kavramlar arasındaki ilişkileri anlamakta daha başarılıdırlar.