16. April 2024
  WEITERE NEWS
Aktuelles aus
L
ibrary
Essentials

In der Ausgabe 2/2024 (März 2024) lesen Sie u.a.:

  • „Need to have”
    statt „nice to have”.
    Die Evolution
    der Daten in der Forschungsliteratur
  • Open-Access-Publikationen: Schlüssel zu höheren Zitationsraten
  • Gen Z und Millennials lieben
    digitale Medien UND Bibliotheken
  • Verliert Google seinen Kompass?
    Durch SEO-Spam werden
    Suchmaschinen zum Bingospiel
  • Die Renaissance des gedruckten Buches: Warum physische Bücher in der digitalen Welt relevant bleiben
  • KI-Halluzinationen: Ein Verwirrspiel
  • Die Technologie-Trends des Jahres 2024
  • KI-Policies und Bibliotheken: Ein globaler Überblick und Handlungsempfehlungen
  • Warum Bücherklauen aus der Mode gekommen ist
u.v.m.
  fachbuchjournal
Ausgabe 6 / 2023

BIOGRAFIEN
Vergessene Frauen werden sichtbar

FOTOGRAFIE
„In Lothars Bücherwelt walten magische Kräfte.“
Glamour Collection, Lothar Schirmer, Katalog einer Sammlung

WISSENSCHAFTSGESCHICHTE
Hingabe an die Sache des Wissens

MUSIK
Klaus Pringsheim aus Tokyo
Ein Wanderer zwischen den Welten

MAKE METAL SMALL AGAIN
20 Jahre Malmzeit

ASTRONOMIE
Sonne, Mond, Sterne

LANDESKUNDE
Vietnam – der aufsteigende Drache

MEDIZIN | FOTOGRAFIE
„Und ja, mein einziger Bezugspunkt
bin ich jetzt selbst“

RECHT
Stiftungsrecht und Steuerrecht I Verfassungsrecht I Medizinrecht I Strafprozessrecht

uvm

Smarte Informationsextraktion für Literaturdatenbanken –
DFG fördert Forschungsprojekt „Smart Harvesting 2“

Freier, digitaler Zugang zu Fachliteratur ist eine Voraussetzung für hochwertige  Forschungsarbeit und die Vermittlung von Wissen. Doch die immer größer werdende Publikationslandschaft macht es für Anbieter von Literaturdatenbanken schwierig, bibliographische Daten zu erheben, aufzubereiten und diese schnell an ihre Nutzer weiterzugeben. Im Forschungsprojekt „Smart Harvesting 2“ arbeiten Forscherinnen und Forscher der TH Köln, Universität Trier und des GESIS – Leibniz-Institut für Sozialwissenschaften jetzt an einer softwarebasierten Lösung zur Erfassung und Aufbereitung bibliografischer Daten aus dem World-Wide-Web. Das Projekt wird mit 414.000 Euro durch die Deutsche Forschungsgemeinschaft (DFG) gefördert. Die Software soll Open Source für Betreiber aller Fachdisziplinen zur Verfügung stehen.

Bisher werden Internetseiten von Verlagen und Publikationsservern meist aufwendig manuell durchsucht, um bibliographische Daten für Literaturdatenbanken zu erheben. Durch die kontinuierlich steigende Zahl wissenschaftlicher Publikationen und Internetseiten stößt diese personal- und zeitintensive Arbeitsweise an ihre Grenzen. Automatisierte Verfahren bieten noch keine universelle Lösung, um Daten zu Fachliteratur effizient und qualitativ hochwertig zu sammeln: Bei der computergesteuerten Informationsextraktion suchen sogenannte Wrapper die Seiteninhalte nach strukturierten Datentexten ab. Dabei wird für jede Art von Datenstruktur ein passender Wrapper benötigt.

„Unsere bisherigen Untersuchungen haben gezeigt, dass die Entwicklung eines universell einsetzbaren, lernenden Algorithmus, der die Muster von Literaturangaben selbstständig erkennt, nicht fehlerfrei möglich ist“, sagt Prof. Dr. Philipp Schaer von der Fakultät für Informations- und Kommunikationswissenschaften der TH Köln. „Die Vielzahl der im Web verwendeten Technologien und Datenstrukturen sowie die sich dynamisch ändernden Seiteninhalte stellen immer noch eine große Herausforderung dar: Bereits nach drei Monaten ist ein bestehendes Wrappersystem veraltet und muss neu programmiert werden. Dieser Entwicklungsaufwand ist für die Einrichtungen einfach zu hoch, weshalb viele noch bei den manuellen Verfahren bleiben.“

Schwerpunkt des DFG-Projekts Smart Harvesting 2 ist deshalb die Entwicklung von wartungsarmen Wrappern, die von Nicht-Informatikern einfach bedient und laufend auf neue Website-Strukturen angepasst werden können. „Bei der Mustererkennung ist das menschliche Gehirn nämlich äußerst smart“, so Philipp Schaer. Die Idee ist, dass eine Informationsfachkraft den ersten Schritt der Mustererkennung übernimmt, in dem er exemplarisch einen Titel, Autor, Seitenzahl etc. auf einer Internetseite markiert. Auf Grundlage der HTML-Struktur liest die Software aus diesen Angaben regelbasierte Muster für die übrigen Inhalte der Website aus. 

Der Aufgabenschwerpunkt der TH Köln ist dabei, ein interaktives Interface für die Benutzerinnen und Benutzer zu bauen,  mit dem sie auf beliebigen Webseiten Informationen extrahieren und diesen Prozess verwalten können. Als Basis dient die Infrastruktur der Universität Trier. Unter der Leitung von Dr. Michael Ley wurde hier mit der Computer Science Bibliography dblp ein Publikationsserver im Bereich der Informatik entwickelt, der die Daten bereits weitestgehend automatisch generiert. Das neue Interface wird im ersten Schritt für die Weiterentwicklung von dblp und für GESIS – Leibniz-Institut für Sozialwissenschaften (Leitung Prof. Dr. Brigitte Mathiak) eingesetzt – um es anschließend in eine Open Source-Software zu überführen. So sollen die entwickelten Technologien und Lösungen auch für andere Disziplinen genutzt werden können.

Das Projekt wird von der  der DFG über zwei Jahre gefördert Erste Ergebnisse für die Fachöffentlichkeit sind für Anfang 2018 geplant.

www.th-koeln.de