ScannedTables
Werkzeugunterstützung für die automatische Extraktion von Tabellendaten aus historischen Zeitschriften
Qualitative und quantitative Datenanalysen setzen in allen Fachdisziplinen eine strukturierte Datenbasis voraus. Textuelle Daten, wie sie zum Beispiel in Zeitungen vorkommen, sind häufig mit zusätzlichen Tabellendaten versehen, um Informationen auf strukturierte Weise kommunizieren zu können. Dabei wirken solche Tabellen auf den ersten Blick strukturiert, sind aber in den meisten Fällen als semi- oder unstrukturiert zu betrachten, da es oft nicht möglich ist, gezielt auf einzelne Elemente des Datensatzes zuzugreifen.
Das Projekt wurde im Jahr 2024 an der Hochschule Wismar unter der Leitung des assoziierten RosDH-Mitglieds Frank Krüger durchgeführt.
Im Projekt "Werkzeugunterstützung für die automatische Extraktion von Tabellendaten aus historischen Zeitschriften" (Kurztitel: ScannedTables) wurde eine automatische Extraktionspipeline für Tabellendaten aus historischen Zeitschriften am Beispiel des Swinemünder Badeanzeigers entwickelt. Ziel war es, soweit möglich, auf spezifische Tool-Trainings zu verzichten und aufzuzeigen, wie existierende Open-Source-Tools eingesetzt werden können. Hierbei wurden eine Segmentierung der Tabellen mithilfe eines Machine-Learning-Ansatzes, die OCR-Extraktion mit Tesseract, eine OCR-Korrektur sowie die Strukturierung der extrahierten Daten mittels eines Large Language Models (LLM) durchgeführt.
Unter Verwendung der entwickelten Pipeline wurden ca. 350.000 strukturierte Datensätze aus dem Swinemünder Badeanzeiger der Jahre 1910 bis 1932 extrahiert. Für die Disambiguierung und Verlinkung der manuell annotierten Daten wurden die Geokoordinaten der Straßen und Gebäude in Swinemünde manuell ermittelt. Sowohl diese Daten als auch die Zwischenergebnisse der Pipeline – also die extrahierten Tabellen, die OCR-Ergebnisse und die OCR-Korrektur – wurden im Sinne der FAIR- und CARE-Prinzipien bereitgestellt.
Projektleitung:
Prof. Dr.-Ing. Frank Krüger
Professur für Data Science und Machine Learning
Hochschule Wismar
frank.kruegerhs-wismarde
Projektmitarbeiter:
Dr. Steffen Steiner
Arbeitsbereich Allgemeine Elektrotechnik
Hochschule Wismar
Projektlaufzeit:
April 2024 bis Dezember 2024 (9 Monate)
Projektförderung:
NFDI-Konsortium Text+ (Kooperationsprojekt / Ausschreibungsrunde 2023)
Deutsche Forschungsgemeinschaft (DFG)
- Krüger, Frank, Antje Theise, Max Schröder, Anja Eggert, und Manuela Reichelt. Code Expedition – Kulturhackathon Rostock 2022: Potentiale offener Kulturdaten. Analyse ankommender Badegäste auf Basis des Swinemünder Bade-Anzeigers. Vortrag, Ringvorlesung "Digital Humanities im Fokus", Universität Rostock, 26. Juni 2023. https://www.germanistik.uni-rostock.de/forschung/digital-humanities/rosdh/ringvorlesung/2023/n/code-expedition-kulturhackathon-rostock-2022-potentiale-offener-kulturdaten-analyse-ankommender-badegaeste-auf-basis-des-swinemuender-bade-anzeigers-167361/ [Zugriff: 27. Januar 2025].
- Krüger, Frank, Max Schröder, Anja Eggert, und Manuela Reichelt. SwineBad: Data Visualisation of Swinemuender Badeanzeiger. Datensatz, GitHub, 2022. https://github.com/ORDS-MV/SwineBad [Zugriff: 27. Januar 2025].
- Steiner, Steffen, und Frank Krüger. SwineBad: Tabellenextraktion und Informationsstrukturierung aus dem Swinemünder Badeanzeiger. Poster, 3. Plenary von Text+, Mannheim, 10.–11. Oktober 2024.
https://events.gwdg.de/event/638/page/161-posters-text-plenary-2024#poster95 [Zugriff: 27. Januar 2025].
- Steiner, Steffen, und Frank Krüger. SwineBad: Tool support for the automatic extraction of newspaper data from data from historical newspapers (Version 1.0). Software, GitHub, 2025. https://github.com/ORDS-MV/SwineBad-Toolsupport [Zugriff: 27. Januar 2025].
- Steiner, Steffen, und Frank Krüger. OCR Groundtruth for Swinemünder Badeanzeiger (1.0.0). Datensatz, Zenodo, 2025. https://doi.org/10.5281/zenodo.14603757.
Kontakt
Digital Humanities
Institut für Germanistik
Gertrudenstraße 11, Torhaus
18057 Rostock
E-Mail: phf.dhuni-rostockde
Ringvorlesung:
Digital Humanities im Fokus
Zoom-Link
Meeting ID: 630 4747 2241
Passwort: 430211
Veranstaltungsort SoSe 2025
Alte Physik
Großer Hörsaal (2. OG)
Universitätsplatz 3
18055 Rostock