JH
Jan Horstmann, geändert vor 5 Jahre.

Testkorpus

Youngling Beiträge: 9 Beitrittsdatum: 20.02.20 Neueste Beiträge
Aus welchen Texten besteht unser Testkorpus? Was sind die Herausforderungen der einzelnen Problemgruppen?
(z.B. Schrifttypen, Sprachen, multilinguale Dokumente, Layouts wie Spalten, Abbildungen/Text-Bild-Kombinationen)
CM
Christiane Müller, geändert vor 4 Jahre.

Wolfenbüttel Testkorpus

Youngling Beiträge: 6 Beitrittsdatum: 01.10.19 Neueste Beiträge
Testkorpus (Digitalisate und GT)
a) Digitalisate: Neben Beispielen aus dem 17. und 18. Jh. sind möglichst auch solche aus dem 16. Jahrhundert zu berücksichtigen, sofern diese für das Implementierungsszenario relevant sind. Außerdem sollten möglichst keine oder allenfalls wenige Titel mit Marginalien in das Testkorpus aufgenommen werden.

b) GT: Was den GT auf der Basis der Digitalen Editionen der HAB angeht, so wäre auf die Sonderzeichen zu achten (nur solche und gleichzeitig möglichst alle, die von den verwendeten OCR-Modellen erkannt werden können). Außerdem sollten keine Normalisierungen vorgenommen worden sein. Die Digitalen Editionen enthalten Strukturinformationen (zu Absätzen etc.) und sie sind in TEI oder anderen XML-Formaten codiert. Das müsste mindestens getestet werden können. OCR-D benötigt letztlich Transkriptionen in PAGE-XML, die neben Text- auch Strukturinformationen (also die Koordinaten der einzelnen Regionen, Zeilen etc.) enthalten.
Dass auch Texte aus dem DTA grundsätzlich für GT in Frage kommen müssten, scheint naheliegend. Gescheiterte Versuche von anderer Seite, das DTA automatisiert als GT nach zu nutzen, machen zwar weniger Mut, allerdings ist hier eine mögliche Kooperation mit dem Implementierungsprojekt Dresden/Leipzig als Chance zu sehen. Die GT-Nachnutzung wird von diesem Implementierungsprojekt allerdings erst während der eigentlichen Projektphase angegangen werden. Für die Pilotierung wird das DTA also nicht einfach als GT verwendbar sein.