iToverDose/Software· 15 MAI 2026 · 04:07

Permission-Aware RAG v4.2: Fünf neue Funktionen für smartere Wissensabfrage

Die neueste Version des permission-aware RAG-Systems von FSx for ONTAP und Amazon Bedrock führt intelligente Routing-Algorithmen, SFTP-basierte Dokumentenaufnahme, automatische Wissensdatenbank-Synchronisation und Sprachinteraktion ein – alles für effizientere und sicherere Wissensabfragen.

DEV Community4 min0 Kommentare

Mit der Version v4.2 des permission-aware RAG-Systems erhalten Unternehmen ein Upgrade, das nicht nur die Wissensabfrage intelligenter, sondern auch die Interaktion natürlicher und die Integration flexibler macht. Das auf FSx for ONTAP und Amazon Bedrock basierende System wurde speziell für unternehmenskritische Anwendungsfälle entwickelt und kombiniert Zugriffssteuerung mit kosteneffizienter Modellauswahl. Die neuen Funktionen adressieren reale Herausforderungen wie unterschiedliche Komplexitätsstufen bei Abfragen, die Integration externer Dokumentenquellen und die Optimierung von Betriebsabläufen.

Drei Routing-Tiers für optimale Kosten-Nutzen-Balance

Unternehmen stehen häufig vor dem Dilemma, ob sie für jede Abfrage ein hochleistungsfähiges Sprachmodell einsetzen sollen oder ob einfachere Anfragen auch mit kostengünstigeren Modellen beantwortet werden können. Die Version v4.2 löst dieses Problem durch ein dreistufiges, automatisches Routing-System, das Abfragen nach ihrem Komplexitätsgrad klassifiziert und an das jeweils passende Modell weiterleitet.

Die drei Routing-Tiers sind wie folgt konfiguriert:

  • Einfach: Routing für Begrüßungen, kurze Faktenabfragen oder Standardanfragen. Standardmäßig wird hier das Modell Claude Haiku 4.5 (anthropic.claude-haiku-4-5-20251001-v1:0) eingesetzt. Die geschätzten Kosten pro Abfrage liegen bei etwa 0,001 US-Dollar (bei ~1.000 Eingabetokens und ~500 Ausgabetokens).
  • Komplex: Für analytische Aufgaben wie Vergleiche, Zusammenfassungen oder strukturierte Datenanalysen. Hier kommt Claude 3.5 Sonnet v2 (anthropic.claude-3-5-sonnet-20241022-v2:0) zum Einsatz. Die geschätzten Kosten pro Abfrage betragen etwa 0,01 US-Dollar.
  • Vollständiger Kontext: Für mehrstufige Analysen, finanzielle Berichte oder die Auswertung mehrerer Dokumente gleichzeitig. In dieser Kategorie wird Claude Opus 4 (anthropic.claude-opus-4-0-20250514-v1:0) genutzt. Die geschätzten Kosten pro Abfrage liegen bei rund 0,10 US-Dollar.

Die genauen Modell-IDs können als Parameter (lightweightModelId, powerfulModelId, heavyModelId) in der Bereitstellung angepasst werden, sodass Teams neue Versionen der Modelle integrieren können, ohne die Routing-Logik anpassen zu müssen. Falls das primär ausgewählte Modell nicht verfügbar ist oder aufgrund von Lastbegrenzungen nicht genutzt werden kann, fällt das System automatisch auf die nächste Stufe zurück und zeichnet dies als RoutingFallback-Metrik in CloudWatch auf. Dies ermöglicht eine kontinuierliche Überwachung der Routing-Entscheidungen und eine Optimierung der Kostenstruktur.

SFTP-basierte Dokumentenaufnahme für externe Partner

Nicht alle Unternehmen sind bereit, Dokumente über eine webbasierte Benutzeroberfläche hochzuladen. Besonders in Branchen wie Recht, Wirtschaftsprüfung oder Regulierungsbehörden ist die SFTP-Integration unverzichtbar. Die Version v4.2 führt daher eine nahtlose Anbindung von AWS Transfer Family an das RAG-System ein, sodass externe Partner Dokumente sicher per SFTP an ein FSx for ONTAP-S3-Zugriffspunkt-System übermitteln können.

Damit diese Funktion genutzt werden kann, müssen folgende Voraussetzungen erfüllt sein:

  • Das FSx for ONTAP-System muss mindestens ONTAP 9.17.1 ausführen.
  • Das FSx-Dateisystem und der S3-Zugriffspunkt müssen sich in derselben AWS-Region befinden.
  • Beide Komponenten müssen sich im Besitz desselben AWS-Kontos befinden.

Die Dokumentenaufnahme erfolgt in mehreren Schritten:

  1. Der externe Partner lädt die Datei per SFTP auf einen AWS Transfer Family-Server hoch.
  2. Der Server leitet die Datei an den entsprechenden S3-Zugriffspunkt weiter.
  3. Ein Lambda-Funktion überwacht regelmäßig Änderungen im S3-Bucket und löst bei neuen Dateien einen Ingestionsprozess aus.
  4. Die Metadaten der Datei, einschließlich Berechtigungsinformationen, werden extrahiert und in die Wissensdatenbank übertragen.

Dieses Setup entspricht der von AWS empfohlenen Architektur für sichere SFTP-Dateifreigaben und ermöglicht es Unternehmen, externe Partner nahtlos in ihre Wissensmanagement-Prozesse einzubinden, ohne Kompromisse bei der Sicherheit oder Compliance eingehen zu müssen.

Automatische Synchronisation der Wissensdatenbank

Eine der größten Herausforderungen bei der Implementierung von RAG-Systemen besteht darin, die Wissensdatenbank aktuell zu halten. Die Version v4.2 führt eine automatische Synchronisationsfunktion ein, die Änderungen in den zugrunde liegenden Dokumenten erkennt und die Wissensdatenbank entsprechend aktualisiert.

Die Synchronisation erfolgt in folgenden Schritten:

  • Ein EventBridge-Scheduler löst in regelmäßigen Abständen (standardmäßig alle fünf Minuten) eine Lambda-Funktion aus.
  • Die Lambda-Funktion führt eine ListObjectsV2-Abfrage durch, um neue oder geänderte Dateien im S3-Bucket zu identifizieren.
  • Für jede geänderte Datei wird ein Ingestionsprozess gestartet, der die Datei in die Wissensdatenbank überträgt und die Berechtigungsmetadaten aktualisiert.

Diese Funktion stellt sicher, dass die Wissensdatenbank immer auf dem neuesten Stand ist und Abfragen stets auf aktuellen Informationen basieren. Gleichzeitig reduziert sie den manuellen Aufwand für die Datenpflege und minimiert das Risiko veralteter Antworten.

Sprachbasierte Interaktion über WebRTC

Eine weitere innovative Funktion der Version v4.2 ist die Unterstützung von Sprachinteraktionen über WebRTC. Benutzer können nun mit dem RAG-System sprechen, anstatt Text einzugeben, was die Benutzerfreundlichkeit deutlich erhöht. Diese Funktion eignet sich besonders für Szenarien, in denen schnelle, hands-free Abfragen erforderlich sind, wie etwa in der Logistik oder im Kundenservice.

Die Implementierung erfolgt über eine WebRTC-basierte Schnittstelle, die eine direkte Audioverbindung zwischen dem Benutzer und dem RAG-System herstellt. Die Sprachdaten werden in Echtzeit an das System übertragen, dort in Text umgewandelt und anschließend verarbeitet. Die Antwort wird ebenfalls als Sprachausgabe zurückgegeben.

Fazit: Ein Schritt in Richtung intelligenterer Wissenssysteme

Die Version v4.2 des permission-aware RAG-Systems markiert einen weiteren Meilenstein in der Entwicklung von KI-gestützten Wissensmanagement-Lösungen. Mit den neuen Funktionen – automatisches Routing, SFTP-basierte Dokumentenaufnahme, automatische Synchronisation der Wissensdatenbank und Sprachinteraktion – bietet das System Unternehmen eine flexible, sichere und kosteneffiziente Lösung für die Wissensabfrage. Die kontinuierliche Weiterentwicklung des Systems zeigt, wie KI-Technologien zunehmend in der Lage sind, reale Geschäftsanforderungen zu adressieren und gleichzeitig die Benutzerfreundlichkeit zu steigern. In Zukunft könnten weitere Innovationen wie erweiterte Kontextanalyse oder multimodale Interaktionen folgen, die das Potenzial von RAG-Systemen noch weiter ausschöpfen.

KI-Zusammenfassung

FSx for ONTAP ve Amazon Bedrock tabanlı Permission-Aware RAG v4.2’nin akıllı model yönlendirme, SFTP belge aktarımı ve sesli sohbet gibi yeni özelliklerini keşfedin.

Kommentare

00
KOMMENTAR SCHREIBEN
ID #6C3DLN

0 / 1200 ZEICHEN

Menschen-Check

8 + 6 = ?

Erscheint nach redaktioneller Prüfung

Moderation · Spam-Schutz aktiv

Noch keine Kommentare. Sei der erste.