Neues Open-Dataset von GitHub fördert mehrsprachige KI-Forschung

Ein Open-Source-Projekt lebt von der Zusammenarbeit – und die findet oft in der Sprache der Community statt. Doch während Code international geschrieben wird, entstehen Dokumentation, Diskussionen und Anleitungen in natürlichen Sprachen. GitHub hat nun ein neues Dataset veröffentlicht, das diese sprachliche Vielfalt sichtbar macht und KI-Forschenden sowie Entwickler:innen als Werkzeug dient.

Das GitHub Multilingual Repositories Dataset ist eine Metadaten-Sammlung, die öffentlich zugängliche Repositories nach nicht-englischen Inhalten durchsucht. Die Analyse zeigt: Die Sprachverteilung variiert stark zwischen README-Dateien, Issues und Pull Requests. Während Koreanisch in Issues am häufigsten vorkommt, dominiert Portugiesisch in READMEs mit über 3 Millionen Repositories. Das Dataset steht unter der CC0-1.0-Lizenz zur Verfügung und ist Teil der europäischen Digitalverpflichtungen von Microsoft aus dem Jahr 2025.

Aufbau des Datasets: Struktur und Inhalte

Das Dataset ist keine reine Textsammlung, sondern eine strukturierte Metadatenbank. Sie enthält über 80 Millionen Einträge zu mehr als 40 Millionen Repositories. Für jedes Repository werden folgende Informationen bereitgestellt:

Sprachklassifizierung der README, des meistkommentierten Issues und des meistkommentierten Pull Requests. Als Eingabe dienten die ersten 150 Zeichen jeder Datei – Texte unter 20 Zeichen wurden ausgeschlossen.
Drei Klassifizierungsmethoden mit Konfidenzwerten: FastText, gcld3 und lingua-py. Nur Klassifizierungen mit einer Konfidenz über 0,5 wurden übernommen.
Repository-Metadaten wie Erstellungsdatum, Speicherplatzbedarf, Sternchen (Stars), Forks, primäre Programmiersprache, SPDX-Lizenz, Issue- und Pull-Request-Anzahl sowie das Erfassungsdatum.

Die Daten wurden bewusst nicht zu einer einzigen Sprachangabe zusammengefasst. Unterschiedliche Klassifizierer liefern abweichende Ergebnisse, besonders bei selteneren Sprachen. Nutzer:innen können selbst entscheiden, welche Methode sie priorisieren – je nach Anforderungen an Präzision oder Abdeckung.

Anwendungsmöglichkeiten: Von der Forschung zur Praxis

Das Dataset eignet sich für Projekte, die sich auf Entwicklerkommunikation konzentrieren und nicht auf allgemeine Webtexte zurückgreifen können. Mögliche Anwendungen umfassen:

Entdeckung von Repositories mit Dokumentation oder Kollaboration in bestimmten Sprachen.
Analyse der Nutzung nicht-englischer Sprachen in Issues, Pull Requests und READMEs.
Erstellung von Benchmark-Datensätzen für KI-Tools wie Code-Generatoren oder Dokumentationsassistenten, die mehrsprachig funktionieren müssen.
Förderung von sprachlicher Inklusion in neuen Entwicklertools durch datenbasierte Argumente für mehr Sprachen.
Messung der Repräsentation unterrepräsentierter europäischer Sprachen im Open Source.

Grenzen und Herausforderungen

Spracherkennung ist in Softwareprojekten besonders schwierig. Kurze Texte wie Badges, Code-Snippets oder gemischte Sprachpassagen erschweren die Klassifizierung. Auch die verwendeten Tools haben unterschiedliche Stärken: Während einige Sprachen wie Portugiesisch gut abdecken, sind andere weniger präsent. Das Dataset dient daher nicht als absolute Wahrheit, sondern als transparentes Werkzeug zur Exploration.

Wichtig ist, dass die Daten keine Rückschlüsse auf einzelne Personen oder Communities zulassen. Die Klassifizierungen beziehen sich ausschließlich auf Repository-Ebene und nicht auf individuelle Nutzer:innen. Zudem sollte das Dataset nicht für sensible Analysen verwendet werden.

Warum mehrsprachige Daten für die KI-Entwicklung entscheidend sind

Viele europäische Sprachen sind in den Trainingsdaten von KI-Systemen unterrepräsentiert. Das führt dazu, dass Tools zwar für Englisch optimiert sind, andere Sprachen aber vernachlässigen. READMEs, Issues und Pull Requests enthalten jedoch die Sprache, die Entwickler:innen tatsächlich nutzen – von Installationsanleitungen bis zu Fehlerberichten.

Durch die Bereitstellung dieses Datasets möchte GitHub dazu beitragen, diese Lücken zu schließen. Es ermöglicht Forschenden und Entwickler:innen, sprachliche Vielfalt besser zu verstehen und KI-Tools inklusiver zu gestalten. Gleichzeitig unterstreicht das Projekt die Bedeutung von Open Data für eine ausgewogene Technologieentwicklung.

Ausblick: Diskussion auf europäischer Ebene

Am 16. Juni wird GitHub die Bedeutung offener Daten für mehrsprachige KI auf dem Open Innovation Dialogue Hub in Straßburg vorstellen. Die Veranstaltung, organisiert vom Microsoft Open Innovation Center, bietet eine Plattform für den Austausch über Datensouveränität und technologische Inklusion in Europa.

KI-Zusammenfassung

GitHub’ın yayınladığı 80 milyon satırlık çok dilli veri seti, araştırmacıların ve geliştiricilerin İngilizce olmayan dillerde kodlama ekosistemini keşfetmesini sağlıyor. Nasıl kullanılır, neler içerir?

Neues Open-Dataset von GitHub fördert mehrsprachige KI-Forschung

Aufbau des Datasets: Struktur und Inhalte

Anwendungsmöglichkeiten: Von der Forschung zur Praxis

Grenzen und Herausforderungen

Warum mehrsprachige Daten für die KI-Entwicklung entscheidend sind

Ausblick: Diskussion auf europäischer Ebene

Kommentare

Malware-Befall auf dem Rechner: Schritt-für-Schritt-Anleitung für Entwickler

Drei Angriffsebenen: Wie Profis RFID, Sub-GHz und Infrarot kombinieren

Persönliche Wissensdatenbank mit Aurora pgvector und Next.js erstellen