ScannedTables

Werkzeugunterstützung für die automatische Extraktion von Tabellendaten aus historischen Zeitschriften

Qualitative und quantitative Datenanalysen setzen in allen Fachdisziplinen eine strukturierte Datenbasis voraus. Textuelle Daten, wie sie zum Beispiel in Zeitungen vorkommen, sind häufig mit zusätzlichen Tabellendaten versehen, um Informationen auf strukturierte Weise kommunizieren zu können. Dabei wirken solche Tabellen auf den ersten Blick strukturiert, sind aber in den meisten Fällen als semi- oder unstrukturiert zu betrachten, da es oft nicht möglich ist, gezielt auf einzelne Elemente des Datensatzes zuzugreifen.

Das Projekt wurde im Jahr 2024 an der Hochschule Wismar unter der Leitung des assoziierten RosDH-Mitglieds Frank Krüger durchgeführt.

Im Projekt "Werkzeugunterstützung für die automatische Extraktion von Tabellendaten aus historischen Zeitschriften" (Kurztitel: ScannedTables) wurde eine automatische Extraktionspipeline für Tabellendaten aus historischen Zeitschriften am Beispiel des Swinemünder Badeanzeigers entwickelt. Ziel war es, soweit möglich, auf spezifische Tool-Trainings zu verzichten und aufzuzeigen, wie existierende Open-Source-Tools eingesetzt werden können. Hierbei wurden eine Segmentierung der Tabellen mithilfe eines Machine-Learning-Ansatzes, die OCR-Extraktion mit Tesseract, eine OCR-Korrektur sowie die Strukturierung der extrahierten Daten mittels eines Large Language Models (LLM) durchgeführt.

Unter Verwendung der entwickelten Pipeline wurden ca. 350.000 strukturierte Datensätze aus dem Swinemünder Badeanzeiger der Jahre 1910 bis 1932 extrahiert. Für die Disambiguierung und Verlinkung der manuell annotierten Daten wurden die Geokoordinaten der Straßen und Gebäude in Swinemünde manuell ermittelt. Sowohl diese Daten als auch die Zwischenergebnisse der Pipeline – also die extrahierten Tabellen, die OCR-Ergebnisse und die OCR-Korrektur – wurden im Sinne der FAIR- und CARE-Prinzipien bereitgestellt.

Projektleitung:
Prof. Dr.-Ing. Frank Krüger
Professur für Data Science und Machine Learning
Hochschule Wismar
frank.kruegerhs-wismarde

Projektmitarbeiter:
Dr. Steffen Steiner
Arbeitsbereich Allgemeine Elektrotechnik
Hochschule Wismar

Projektlaufzeit:
April 2024 bis Dezember 2024 (9 Monate)

Projektförderung:
NFDI-Konsortium Text+ (Kooperationsprojekt / Ausschreibungsrunde 2023)
Deutsche Forschungsgemeinschaft (DFG)

Kontakt

Digital Humanities
Institut für Germanistik
Gertrudenstraße 11, Torhaus
18057 Rostock

E-Mail: phf.dhuni-rostockde

Ringvorlesung:

Digital Humanities im Fokus

Zoom-Link
Meeting ID: 630 4747 2241
Passwort: 430211

Veranstaltungsort SoSe 2025
Alte Physik
Großer Hörsaal (2. OG)
Universitätsplatz 3
18055 Rostock

Ringvorlesung
RosDH-Hypotheses-Blog
RosDH-Zenodo-Community