Automatisierte semantische Anreicherung
von historischen Texten
Wikidata SPARQL-Abfrage für alle Instanzen der Klasse „fiktionale Organisation”
Erkennung und Verknüpfung von Entitäten
mit Wikidata und Wikipedia
Kai Labusch, Sophie Schneider, Clemens Neudecker
Die Staatsbibliothek zu Berlin (SBB) als Teil der Stiftung
Preußischer Kulturbesitz (SPK) treibt seit über 15 Jahren
die Digitalisierung ihrer Bestände voran, um diese online
den Nutzenden zugänglich zu machen. Die Digitalisierung
erfolgt größtenteils durch das hauseigene Digitalisierungszentrum,
das seit 2007 existiert. Hier werden
kontinuierlich Bücher, Zeitungen, Handschriften und dergleichen
gescannt. Aktuell ist ein wachsendes Datenkorpus von mehr als
7 Peta-Bytes vorhanden, das mehr als
200.000 digitalisierte Werke umfasst, wobei bislang nur
für etwa 5 Millionen Seiten Volltexte mittels optischer
Zeichenerkennung (OCR) generiert wurden.