SPUNK (SPrachUnabhängiger Nachrichten-Kosmos) – KI-unterstützte Suche in Zeitungen

Projektziel

Die SBB verfügt über ein großes digitales Korpus von Zeitungen in verschiedenen Sprachen - insbesondere des späten 19. bis zum frühen 21. Jahrhunderts. Derzeit erarbeitet die SBB ein Konzept für ein Zeitungskompetenzzentrum, das abteilungsübergreifend die Verantwortung für Zeitungen in der SBB verorten wird. Nicht nur für die historische und zeithistorische Forschung bilden Zeitungen wichtige Quellen. Auch für die sozial- und naturwissenschaftliche Forschung sind sie als besondere Quellen stark nachgefragt. Dennoch ist eine Suche in digital angebotenen historischen oder aktuellen Zeitungen entweder auf kommerziellen Plattformen eines oder mehrerer Verleger möglich (Plattformabhängigkeit) oder aber jede Zeitung muss einzeln durchsucht werden, während in diesem Projekt Zeitungen - gemäß der lizenzrechtlichen Rahmenbedingungen - auch unabhängig ihrer verlegerischen Plattform verlags- und anbieterübergreifend zur Suche angeboten werden.

Das Projektvorhaben zielt darauf ab, besseren Zugang zu Zeitungen sowie perspektivisch weiteren Volltexten der SBB durch die Implementierung KI-basierter Suchfunktionen aufzubauen. Grundlage dafür sind KI-Modelle, die Texte in mathematische Vektoren umwandeln und für die in der SBB bereits umfangreiche Vorarbeiten vorliegen. Durch das Vorhaben sollen Nutzenden zugleich mehrere innovative Zugangswege eröffnet werden. Folgende Schritte sind dafür vorgesehen:

1. Semantische Suche: KI-Modelle werden implementiert, um Inhalte unabhängig von der exakten Formulierung der Suchbegriffe nur durch deren semantische Relevanz zu finden.

2. Multilinguale Suche: KI-Modelle werden implementiert, um Inhalte unabhängig von der Sprache zu finden.

3. Lizenzunabhängige Suche: für alle Inhalte werden TDM-rechtskonforme Zusammenfassungen generiert, die es ermöglichen, den Nutzenden auch Inhalte aus urheberrechtlich geschützten Materialien zu präsentieren.

Die Datengrundlage bilden Zeitungsbestände der SBB ab dem späten 19. Jahrhundert. Die neue Suche bietet einen internationalen und sprachunabhängigen Blick auf die Ereignisse in der Welt, eröffnet Perspektiven und führt sie zugleich zusammen. Der entwickelte Prototyp steht den Nutzenden unmittelbar als neuer Service auf einer Webseite der SBB zur Verfügung.

Projektzeit

Dezember 2024 -  Juli 2026

Drittmittelgeber

Der Beauftragte der Bundesregierung für Kultur und Medien (BKM)

Kontakt

Matthias Kaun 
Ostasien
Abteilungsleiter
Tel.: +49 30 266 430 000
matthias.kaun@sbb.spk-berlin.de