Die Referentin spricht vor Ort.
Abstract:
Das "Diccionario del Español Medieval electrónico" ist eine lemmatisierte Datenbank zum mittelalterlichen Spanisch. Sie ist aus der Digitalisierung und Erschließung von rund 700.000 Belegzetteln entstanden. Diese überwiegend handschriftlichen Belegzettel zeigen Auszüge aus altspanischen Texten, in denen das zu untersuchende Wort vorkommt, und dokumentieren somit seine Verwendung und Bedeutung im 10. bis 15. Jahrhundert. In der aktuellen Projektphase sollen die von den Zetteln erfassten Wortbelege mit ihren Quellentexten verknüpft werden. Dafür werden die im digitalen Volltext verfügbaren Quellen in XML/TEI konvertiert und die Belege darin ausgezeichnet.
Der Vortrag zeigt, wie die Belegauszeichnung durch den Einsatz von Texterkennung bei den Belegzetteln weitgehend automatisiert werden soll. Dabei wird auf die Erfahrungen mit den verwendeten Softwares zur Texterkennung, Transkribus und Tesseract, eingegangen und erste Ergebnisse zu Evaluation des Workflows gegeben.
Kurzbio:
Caroline Müller hat Hispanistik und Latinistik an der Technischen Universität Dresden, der Universitat de Lleida und der Christian-Albrechts-Universität zu Kiel sowie Digital Humanities an der Universidad Nacional de Educación a Distancia (UNED) studiert. Seit Juli 2017 arbeitet sie als wissenschaftliche Mitarbeiterin im Projekt "Diccionario del Español Medieval electrónico" (DEMel).