Automatisierte Dokumentenanalyse ist für viele Unternehmen eine Herausforderung, besonders wenn es um technische Literatur wie Patente, Forschungsberichte oder Studien geht. Traditionelle Ablagesysteme in SharePoint oder lokalen Ordnern erschweren nicht nur die Suche nach relevanten Inhalten, sondern auch die Beantwortung zentraler Fragen: Welche Technologien befinden sich in welcher Entwicklungsphase? Welche Dokumente sind für unser Geschäft am wichtigsten? Welche Trends zeichnen sich ab?
Um diese Probleme zu lösen, haben wir TechLit Viewer entwickelt – ein durchgängiges System zur Verwaltung technischer Literatur, das auf bewährten Microsoft-365-Tools und KI-basierter Datenextraktion aufbaut. Das System kombiniert LDX hub StructFlow für die intelligente Inhaltsanalyse mit Power Automate für automatisierte Workflows und Power Apps für die interaktive Darstellung. Das Ergebnis ist eine Lösung, die ohne aufwendige Programmierung auskommt und trotzdem präzise Einblicke bietet.
Warum herkömmliche Dokumentenverwaltung an Grenzen stößt
Die manuelle Pflege technischer Dokumente führt schnell zu ineffizienten Prozessen. Mitarbeiter verbringen wertvolle Zeit damit, Dateien zu durchsuchen, Metadaten zu pflegen oder nach bestimmten Kriterien zu filtern. Besonders problematisch wird es, wenn mehrere Stakeholder auf die Daten zugreifen müssen – etwa wenn Führungskräfte Entscheidungen auf Basis aktueller Technologietrends treffen sollen.
Unser Ansatz adressiert diese Herausforderungen durch drei zentrale Komponenten:
- Automatisierte Datenextraktion: KI-gestützte Tools wie StructFlow wandeln unstrukturierte Inhalte wie PDFs oder Patentdokumente in strukturierte Daten um.
- Echtzeit-Aktualisierung: Power Automate sorgt dafür, dass neue Dokumente oder Änderungen sofort verarbeitet und in die Datenbank übernommen werden.
- Flexible Visualisierung: Power Apps und ein eigenständiges HTML-Dashboard bieten verschiedene Sichten – von der detaillierten Dokumentenanalyse bis hin zu strategischen Trendübersichten.
Systemarchitektur: Fünf Schichten für nahtlose Integration
TechLit Viewer besteht aus fünf logischen Ebenen, die zusammen ein robustes Ökosystem für die Dokumentenverwaltung bilden:
- Eingabeebene (Input)
- Dokumente wie PDFs, Patente oder Forschungsberichte werden in einer SharePoint-Dokumentenbibliothek abgelegt. In unserem Testfall wurden 18 Dokumente verarbeitet.
- KI-Extraktionsebene (AI Extraction)
- LDX hub StructFlow extrahiert automatisch acht relevante Felder aus den Dokumenten, darunter Titel, Autoren, Veröffentlichungjahr und Technologie-Reifegrad (TRL).
- Datenhaltungsebene (Data Layer)
- Die extrahierten Daten werden in SharePoint-Listen gespeichert, die als zentrale Datenquelle für die Visualisierung dienen.
- Automatisierungsebene (Automation)
- Zwei Power-Automate-Flows steuern die Verarbeitung: Ein automatischer Trigger bei Änderungen und ein manueller Flow für Massenverarbeitungen.
- Präsentationsebene (Display)
- Power Apps bietet vier verschiedene Bildschirme für unterschiedliche Anwendungsfälle, während ein eigenständiges HTML-Dashboard eine plattformunabhängige Alternative darstellt.
Zwei Power-Automate-Flows für unterschiedliche Anforderungen
Die Automatisierung erfolgt über zwei spezialisierte Flows, die sich in ihrer Funktionsweise ergänzen:
1. TechLit_Pipeline_UPDATE – Der Always-on-Trigger
Dieser Flow wird automatisch ausgelöst, sobald ein Dokument in SharePoint aktualisiert oder neu hinzugefügt wird. Er prüft, ob neue Inhalte vorliegen, sendet diese an StructFlow zur Extraktion und schreibt die Ergebnisse direkt zurück in die SharePoint-Liste. Ideal für den täglichen Betrieb, in dem Dokumente kontinuierlich hinzukommen.
2. TechLit_BulkUpdate – Die manuelle Massenverarbeitung
Dieser Flow wird manuell gestartet und eignet sich für Szenarien, in denen große Datenmengen auf einmal verarbeitet werden müssen. Dazu gehören:
- Schema-Anpassungen nach Änderungen in der Extraktion
- Nachträgliche Verarbeitung bereits vorhandener Dokumente
- Initialer Datenimport nach Systemeinführung
Der Flow durchläuft alle Dokumente in einer Schleife, wartet auf die Verarbeitung durch StructFlow und aktualisiert die Datenbank abschließend. Ein wichtiger Vorteil: Er ermöglicht eine vollständige Re-Extraktion aller Dokumente bei Bedarf.
Die acht extrahierten Felder: Was wirklich zählt
Die Wahl der extrahierten Datenfelder orientierte sich nicht an den technischen Möglichkeiten, sondern an den tatsächlichen Entscheidungsbedürfnissen des Unternehmens. Folgende Felder wurden definiert:
- Titel: Der offizielle Dokumententitel
- Dokumenttyp: Klassifikation (Patent, Forschungsarbeit, Bericht etc.)
- Autoren: Verantwortliche Personen oder Organisationen
- Jahr: Erscheinungs- oder Anmeldejahr
- Fachbereich: Primäres Technologiefeld (z. B. Materialwissenschaft, Energietechnik)
- TRL (Technology Readiness Level): Entwicklungsstand der Technologie (1–9, wobei 1 Grundlagenforschung und 9 Marktreife bedeutet)
- Relevanzbewertung: Einstufung der geschäftlichen Bedeutung (hoch, mittel, niedrig)
- Zusammenfassung: Eine kurze technologische Zusammenfassung
Besonders der TRL-Wert ist ein mächtiges Instrument: Er ermöglicht es, auf einen Blick zu erkennen, ob eine Technologie bereits marktreif ist oder sich noch in der Forschungsphase befindet. Ursprünglich von der NASA entwickelt und später von der EU übernommen, hat sich dieses Schema als Standard für Technologiebewertungen etabliert.
Power Apps: Vier Sichten für unterschiedliche Nutzergruppen
Die Power-Apps-Oberfläche ist in vier Bildschirme unterteilt, die jeweils spezifische Anwendungsfälle abdecken:
1. Suchbildschirm (Search)
- Volltextsuche nach Titel, Autor oder Fachbereich
- Filtermöglichkeiten nach Dokumenttyp, TRL oder Relevanz
- Echtzeitabfragen gegen die SharePoint-Liste
2. Detailansicht (Detail View)
- Anzeige aller extrahierten Felder eines Dokuments
- Visualisierung des TRL-Werts und der Relevanzbewertung
- Direkter Zugriff auf die vollständige Zusammenfassung
3. Metrikenvergleich (Metrics Comparison)
- TRL-Verteilung nach Fachbereichen
- Dokumentenzahlen nach Relevanzkategorien
- Zeitliche Entwicklung der eingestellten Dokumente
4. Technisches Dashboard (Tech Dashboard)
- Fortgeschrittene Visualisierungen mit Chart.js
- Dynamische Diagramme zur Trendanalyse
- Integration einer Volltextsuche über alle Dokumente
Unabhängiges HTML-Dashboard: Strategische Einblicke für alle Stakeholder
Neben der Power-Apps-Lösung wurde ein eigenständiges HTML-Dashboard entwickelt, das ohne Abhängigkeiten von Power Apps auskommt. Dies ermöglicht:
- Einfache Weitergabe an externe Partner oder Führungskräfte
- Nutzung in Umgebungen, in denen Power Apps nicht verfügbar ist
- Anpassbare Visualisierungen für Präsentationen
Das Dashboard nutzt die von StructFlow extrahierten Daten und generiert automatisch Diagramme zur:
- Verteilung der Technologiefelder
- TRL-Verteilung über alle Dokumente
- Zeitlichen Entwicklungstrends
- Aufschlüsselung nach Dokumenttypen
Alle Diagramme werden dynamisch mit der JavaScript-Bibliothek Chart.js erstellt, was eine hohe Flexibilität bei der Darstellung bietet.
Ergebnisse der Testphase: Präzision und Performance
In einem realen Testlauf mit 18 Dokumenten wurden folgende Erkenntnisse gewonnen:
- Extraktionsgenauigkeit: 83 % der Dokumente wurden vollständig und korrekt verarbeitet. Bei den verbleibenden 17 % gab es vereinzelt Probleme mit der Feldklassifizierung (z. B. englische vs. japanische Begriffe im Fachbereich), die jedoch die Funktionalität nicht beeinträchtigten.
- Verarbeitungsgeschwindigkeit: Pro Dokument dauerte die vollständige Verarbeitung inklusive StructFlow-Polling durchschnittlich 67 Sekunden. Die Massenverarbeitung aller 18 Dokumente dauerte etwa 20 Minuten.
- Fachbereichsverteilung: Der größte Anteil entfiel auf Umweltwissenschaften (6 Dokumente), gefolgt von Materialwissenschaften (4). Die TRL-Verteilung zeigte, dass sich die meisten Dokumente in der Grundlagenforschung (TRL 1–3) befanden.
Fazit: Eine skalierbare Lösung für die Zukunft
TechLit Viewer demonstriert, wie Unternehmen mit einer Kombination aus KI, Low-Code-Tools und bewährten Microsoft-365-Komponenten ein leistungsfähiges System zur Verwaltung technischer Literatur aufbauen können. Die Lösung ist nicht nur kostengünstig in der Umsetzung, sondern auch flexibel genug, um an sich ändernde Anforderungen angepasst zu werden.
Die nächsten Schritte könnten darin bestehen, die Extraktion weiter zu verfeinern, zusätzliche Datenquellen zu integrieren oder die Visualisierungen um prädiktive Analysen zu erweitern. Unabhängig von der konkreten Weiterentwicklung zeigt dieses Projekt jedoch eines klar: Die Kombination aus KI-gestützter Datenextraktion und automatisierten Workflows ist der Schlüssel zu effizienterer Dokumentenverwaltung – ohne aufwendige Programmierung oder teure Spezialsoftware.
KI-Zusammenfassung
Learn how to automate tech literature management using Power Automate, Power Apps, and StructFlow—with real results, code samples, and a 5-layer architecture.