Eynollah – mit Deep Learning das Layout in historischen Dokumenten analysieren
Das Layout in digitalisierten historischen Dokumenten enthält eine breite Vielfalt von forschungsrelevanten Informationen. Neben der Segmentierung und Klassifizierung von textuellen Inhalten in bspw. Textzeilen, Überschriften, Marginalien oder Initialen für deren Weiterverarbeitung mit OCR oder HTR rücken zunehmend auch andere Inhalte wie Tabellen, Grafiken/Abbildungen, Stempel, Ornamente/Buchschmuck oder auch Strukturelemente wie Separatoren in den Fokus der Untersuchung. Im Zuge von diversen Forschungsprojekten wird hierfür an der Stabi Berlin die Open Source Software Eynollah entwickelt, die neueste Technologien aus dem Bereich des Deep Learning aufgreift um das Layout digitalisierter historischer Dokumente genauer und detaillierter zu erkennen und damit bessere Daten für Digitalisierung und Digital Humanities bereitzustellen. Es werden die methodischen Grundlagen, Use Cases sowie noch offene Herausforderungen vorgestellt und diskutiert und an illustrativen Beispielen die aktuelle Leistungsfähigkeit sowie Grenzen der Software demonstriert.
- Keine Anmeldung erforderlich.