The speaker speaks on site.
Abstract:
Das "Diccionario del Español Medieval electrónico" ist eine lemmatisierte Datenbank zum mittelalterlichen Spanisch. Sie ist aus der Digitalisierung und Erschließung von rund 700.000 Belegzetteln entstanden. Diese überwiegend handschriftlichen Belegzettel zeigen Auszüge aus altspanischen Texten, in denen das zu untersuchende Wort vorkommt, und dokumentieren somit seine Verwendung und Bedeutung im 10. bis 15. Jahrhundert. In der aktuellen Projektphase sollen die von den Zetteln erfassten Wortbelege mit ihren Quellentexten verknüpft werden. Dafür werden die im digitalen Volltext verfügbaren Quellen in XML/TEI konvertiert und die Belege darin ausgezeichnet.
Der Vortrag zeigt, wie die Belegauszeichnung durch den Einsatz von Texterkennung bei den Belegzetteln weitgehend automatisiert werden soll. Dabei wird auf die Erfahrungen mit den verwendeten Softwares zur Texterkennung, Transkribus und Tesseract, eingegangen und erste Ergebnisse zu Evaluation des Workflows gegeben.
Short bio:
Caroline Müller studied Hispanic Studies and Latin Studies at the Dresden University of Technology, the University of Lleida, and the Christian-Albrechts-University of Kiel. Additionally, she pursued Digital Humanities at the Universidad Nacional de Educación a Distancia (UNED). Since July 2017, she has been working as a research associate in the project "Diccionario del Español Medieval electrónico" (DEMel).