INNOVATIV
Band 79: Janet Wagner Band 78: Philip Franklin Orr Band 77: Carina Dony Band 76:
Linda Freyberg
Sabine Wolf (Hrsg.)
Band 75: Denise Rudolph Band 74: Sophia Paplowski Band 73: Carmen Krause Band 72:
Katrin Toetzke
Dirk Wissen
Band 71: Rahel Zoller Band 70: Sabrina Lorenz Band 69: Jennifer Hale Band 68:
Linda Schünhoff
Benjamin Flämig
Band 67:
Wilfried Sühl-Strohmenger
Jan-Pieter Barbian
Band 66: Tina Schurig Band 65: Christine Niehoff Band 64: Eva May Band 63: Eva Bunge Band 62: Nathalie Hild Band 61: Martina Haller Band 60: Leonie Flachsmann Band 59: Susanne Göttker Band 58: Georg Ruppelt Band 57: Karin Holste-Flinspach Band 56: Rafael Ball Band 55: Bettina Schröder Band 54: Florian Hagen Band 53: Anthea Zöller Band 52: Ursula Georgy Band 51: Ursula Jaksch Band 50: Hermann Rösch (Hrsg) Band 49: Lisa Maria Geisler Band 48: Raphaela Schneider Band 47: Eike Kleiner
Bestellen Sie jetzt online!
9. Juli 2025
  WEITERE NEWS
Aktuelles aus
L
ibrary
Essentials

In der Ausgabe 4/2025 (Juni 2025) lesen Sie u.a.:

  • Neue Anforderungen an Führungs­kompetenz in wissenschaftlichen Bibliotheken
  • KI in der Katalogisierung: Drei Chatbots auf dem Prüfstand
  • Mehr als nur eine ID: Warum Forscher ORCID nutzen und warum nicht
  • Anxiety in der Hochschullehre: zögerlicher Einsatz von ChatGPT
  • Smart Reading in Bibliotheken: Aktive Beteiligung von Leser:innen
  • Kinder im digitalen Zeitalter:
    OECD-Bericht zeigt Handlungsbedarf für Politik und Bildungseinrichtungen
  • Bibliotheken und ihre Rolle beim Klimaschutz
  • Initiative für eine unabhängige Infrastruktur biomedizinischer Literatur –
    ZB MED entwickelt PubMed Alternative
  • Leiterin der Library Of Congress entlassen
  • Data Citations –
    Datenauswertung in Bibliotheken
  • Unternehmen investieren gezielt
    in künstliche Intelligenz
  • Springer Nature spendet KI-Werkzeug „Geppetto“ an die Verlagsbranche zur Bekämpfung betrügerischer Einreichungen
  • Die San José State University
    setzt auf Ihren ersten KI-Bibliothekar
u.v.m.
  fachbuchjournal

Smarte Informationsextraktion für Literaturdatenbanken –
DFG fördert Forschungsprojekt „Smart Harvesting 2“

Freier, digitaler Zugang zu Fachliteratur ist eine Voraussetzung für hochwertige  Forschungsarbeit und die Vermittlung von Wissen. Doch die immer größer werdende Publikationslandschaft macht es für Anbieter von Literaturdatenbanken schwierig, bibliographische Daten zu erheben, aufzubereiten und diese schnell an ihre Nutzer weiterzugeben. Im Forschungsprojekt „Smart Harvesting 2“ arbeiten Forscherinnen und Forscher der TH Köln, Universität Trier und des GESIS – Leibniz-Institut für Sozialwissenschaften jetzt an einer softwarebasierten Lösung zur Erfassung und Aufbereitung bibliografischer Daten aus dem World-Wide-Web. Das Projekt wird mit 414.000 Euro durch die Deutsche Forschungsgemeinschaft (DFG) gefördert. Die Software soll Open Source für Betreiber aller Fachdisziplinen zur Verfügung stehen.

Bisher werden Internetseiten von Verlagen und Publikationsservern meist aufwendig manuell durchsucht, um bibliographische Daten für Literaturdatenbanken zu erheben. Durch die kontinuierlich steigende Zahl wissenschaftlicher Publikationen und Internetseiten stößt diese personal- und zeitintensive Arbeitsweise an ihre Grenzen. Automatisierte Verfahren bieten noch keine universelle Lösung, um Daten zu Fachliteratur effizient und qualitativ hochwertig zu sammeln: Bei der computergesteuerten Informationsextraktion suchen sogenannte Wrapper die Seiteninhalte nach strukturierten Datentexten ab. Dabei wird für jede Art von Datenstruktur ein passender Wrapper benötigt.

„Unsere bisherigen Untersuchungen haben gezeigt, dass die Entwicklung eines universell einsetzbaren, lernenden Algorithmus, der die Muster von Literaturangaben selbstständig erkennt, nicht fehlerfrei möglich ist“, sagt Prof. Dr. Philipp Schaer von der Fakultät für Informations- und Kommunikationswissenschaften der TH Köln. „Die Vielzahl der im Web verwendeten Technologien und Datenstrukturen sowie die sich dynamisch ändernden Seiteninhalte stellen immer noch eine große Herausforderung dar: Bereits nach drei Monaten ist ein bestehendes Wrappersystem veraltet und muss neu programmiert werden. Dieser Entwicklungsaufwand ist für die Einrichtungen einfach zu hoch, weshalb viele noch bei den manuellen Verfahren bleiben.“

Schwerpunkt des DFG-Projekts Smart Harvesting 2 ist deshalb die Entwicklung von wartungsarmen Wrappern, die von Nicht-Informatikern einfach bedient und laufend auf neue Website-Strukturen angepasst werden können. „Bei der Mustererkennung ist das menschliche Gehirn nämlich äußerst smart“, so Philipp Schaer. Die Idee ist, dass eine Informationsfachkraft den ersten Schritt der Mustererkennung übernimmt, in dem er exemplarisch einen Titel, Autor, Seitenzahl etc. auf einer Internetseite markiert. Auf Grundlage der HTML-Struktur liest die Software aus diesen Angaben regelbasierte Muster für die übrigen Inhalte der Website aus. 

Der Aufgabenschwerpunkt der TH Köln ist dabei, ein interaktives Interface für die Benutzerinnen und Benutzer zu bauen,  mit dem sie auf beliebigen Webseiten Informationen extrahieren und diesen Prozess verwalten können. Als Basis dient die Infrastruktur der Universität Trier. Unter der Leitung von Dr. Michael Ley wurde hier mit der Computer Science Bibliography dblp ein Publikationsserver im Bereich der Informatik entwickelt, der die Daten bereits weitestgehend automatisch generiert. Das neue Interface wird im ersten Schritt für die Weiterentwicklung von dblp und für GESIS – Leibniz-Institut für Sozialwissenschaften (Leitung Prof. Dr. Brigitte Mathiak) eingesetzt – um es anschließend in eine Open Source-Software zu überführen. So sollen die entwickelten Technologien und Lösungen auch für andere Disziplinen genutzt werden können.

Das Projekt wird von der  der DFG über zwei Jahre gefördert Erste Ergebnisse für die Fachöffentlichkeit sind für Anfang 2018 geplant.

www.th-koeln.de