b.i.t.online News-Ticker

INNOVATIV

Band 97:
Ioanna Danai Katsougiannopoulou
und Ha Thao Suong Vu

VOLLTEXT OPEN ACCESS

Band 96:
Melanie Reymer

VOLLTEXT OPEN ACCESS

Band 95: Linda Freyberg und Sabine Wolf (Hrsg.)

Band 94:
Sabine Wolf (Hrsg.)

VOLLTEXT OPEN ACCESS

Band 93:
Frauke Birkhoff

Band 92:
Simone Fühles-Ubach u.a.

VOLLTEXT OPEN ACCESS

Band 91:
Eva Seidlmayer u.a.

Band 90:
Jan-Pieter Barbian

Band 89: Meike Kirner

Band 88:
Verena-Christin Schmidt

Band 87: Marieke Tödter

Band 86:
Alexandra Schenk

Band 85: Luis Moßburger

Band 84: Silvia Kruse

Band 83: Linda Freyberg, Sabine Wolf (Hrsg.)

Band 82: Sarah Pielmeier

Band 81: Kirstin Grantz

Band 80:
Stephan Holländer,
Willy Sühl-Strohmenger
und Ludger Syré

Band 79: Janet Wagner

Band 78: Philip Franklin Orr

Band 77: Carina Dony

Band 76:
Linda Freyberg
Sabine Wolf (Hrsg.)

Band 75: Denise Rudolph

Band 74: Sophia Paplowski

Band 73: Carmen Krause

Band 72:
Katrin Toetzke
Dirk Wissen

Band 71: Rahel Zoller

Band 70: Sabrina Lorenz

Band 69: Jennifer Hale

Band 68:
Linda Schünhoff
Benjamin Flämig

Band 67:
Wilfried Sühl-Strohmenger
Jan-Pieter Barbian

Band 66: Tina Schurig

Band 65: Christine Niehoff

Band 64: Eva May

Band 63: Eva Bunge

Band 62: Nathalie Hild

Band 61: Martina Haller

Band 60: Leonie Flachsmann

Band 59: Susanne Göttker

Band 58: Georg Ruppelt

Band 57: Karin Holste-Flinspach

Band 56: Rafael Ball

Band 55: Bettina Schröder

Band 54: Florian Hagen

Band 53: Anthea Zöller

Band 52: Ursula Georgy

Band 51: Ursula Jaksch

Band 50: Hermann Rösch (Hrsg)

Band 49: Lisa Maria Geisler

Band 48: Raphaela Schneider

Band 47: Eike Kleiner

Bestellen Sie jetzt online!

16. Oktober 2025

WEITERE NEWS

Aktuelles aus

ibrary

Essentials

In der Ausgabe 7/2025 (Oktober 2025) lesen Sie u.a.:

Wirtschaftlicher Nutzen und Potenziale von Open Science
Von der Auskunftstheke zum Single-Service-Desk: aktuelle Servicemodelle in großen wissenschaftlichen Bibliotheken
Medienkompetenz und Belastung:
Eltern unter Druck
Was die Gesellschaft zusammenhält:
Welche Rolle öffentlich-rechtliche Medien heute spielen
Neue KI-Skills von Bibliothekar:innen gefragt
Stereotype Darstellungen von Bibliothekar:innen durch ChatGPT
Digitale Bibliotheken: Barrierefreiheit
bleibt für blinde und sehbehinderte Menschen oft auf der Strecke
Generative KI und die Rolle der Bibliothekar:innen im Fächerkontext
Wissenschaftsgeleitet, offen, souverän: Die Allianz der Wissenschaftsorganisationen setzt den Rahmen für Publizieren 2026 bis 2030
Wenn die KI-Suche blockiert
Unsichtbare Arbeit für Künstliche Intelligenz
JSTOR: vom digitalen Archiv
zur Innovationsplattform

u.v.m.

[mehr]

Hier geht es zur Newsletter-Anmeldung

fachbuchjournal

Hier geht es
zum Archiv des
fachbuchjournals
2009 bis 2023

NEWS

Smarte Informationsextraktion für Literaturdatenbanken –
DFG fördert Forschungsprojekt „Smart Harvesting 2“

Freier, digitaler Zugang zu Fachliteratur ist eine Voraussetzung für hochwertige Forschungsarbeit und die Vermittlung von Wissen. Doch die immer größer werdende Publikationslandschaft macht es für Anbieter von Literaturdatenbanken schwierig, bibliographische Daten zu erheben, aufzubereiten und diese schnell an ihre Nutzer weiterzugeben. Im Forschungsprojekt „Smart Harvesting 2“ arbeiten Forscherinnen und Forscher der TH Köln, Universität Trier und des GESIS – Leibniz-Institut für Sozialwissenschaften jetzt an einer softwarebasierten Lösung zur Erfassung und Aufbereitung bibliografischer Daten aus dem World-Wide-Web. Das Projekt wird mit 414.000 Euro durch die Deutsche Forschungsgemeinschaft (DFG) gefördert. Die Software soll Open Source für Betreiber aller Fachdisziplinen zur Verfügung stehen.

Bisher werden Internetseiten von Verlagen und Publikationsservern meist aufwendig manuell durchsucht, um bibliographische Daten für Literaturdatenbanken zu erheben. Durch die kontinuierlich steigende Zahl wissenschaftlicher Publikationen und Internetseiten stößt diese personal- und zeitintensive Arbeitsweise an ihre Grenzen. Automatisierte Verfahren bieten noch keine universelle Lösung, um Daten zu Fachliteratur effizient und qualitativ hochwertig zu sammeln: Bei der computergesteuerten Informationsextraktion suchen sogenannte Wrapper die Seiteninhalte nach strukturierten Datentexten ab. Dabei wird für jede Art von Datenstruktur ein passender Wrapper benötigt.

„Unsere bisherigen Untersuchungen haben gezeigt, dass die Entwicklung eines universell einsetzbaren, lernenden Algorithmus, der die Muster von Literaturangaben selbstständig erkennt, nicht fehlerfrei möglich ist“, sagt Prof. Dr. Philipp Schaer von der Fakultät für Informations- und Kommunikationswissenschaften der TH Köln. „Die Vielzahl der im Web verwendeten Technologien und Datenstrukturen sowie die sich dynamisch ändernden Seiteninhalte stellen immer noch eine große Herausforderung dar: Bereits nach drei Monaten ist ein bestehendes Wrappersystem veraltet und muss neu programmiert werden. Dieser Entwicklungsaufwand ist für die Einrichtungen einfach zu hoch, weshalb viele noch bei den manuellen Verfahren bleiben.“

Schwerpunkt des DFG-Projekts Smart Harvesting 2 ist deshalb die Entwicklung von wartungsarmen Wrappern, die von Nicht-Informatikern einfach bedient und laufend auf neue Website-Strukturen angepasst werden können. „Bei der Mustererkennung ist das menschliche Gehirn nämlich äußerst smart“, so Philipp Schaer. Die Idee ist, dass eine Informationsfachkraft den ersten Schritt der Mustererkennung übernimmt, in dem er exemplarisch einen Titel, Autor, Seitenzahl etc. auf einer Internetseite markiert. Auf Grundlage der HTML-Struktur liest die Software aus diesen Angaben regelbasierte Muster für die übrigen Inhalte der Website aus.

Der Aufgabenschwerpunkt der TH Köln ist dabei, ein interaktives Interface für die Benutzerinnen und Benutzer zu bauen, mit dem sie auf beliebigen Webseiten Informationen extrahieren und diesen Prozess verwalten können. Als Basis dient die Infrastruktur der Universität Trier. Unter der Leitung von Dr. Michael Ley wurde hier mit der Computer Science Bibliography dblp ein Publikationsserver im Bereich der Informatik entwickelt, der die Daten bereits weitestgehend automatisch generiert. Das neue Interface wird im ersten Schritt für die Weiterentwicklung von dblp und für GESIS – Leibniz-Institut für Sozialwissenschaften (Leitung Prof. Dr. Brigitte Mathiak) eingesetzt – um es anschließend in eine Open Source-Software zu überführen. So sollen die entwickelten Technologien und Lösungen auch für andere Disziplinen genutzt werden können.

Das Projekt wird von der der DFG über zwei Jahre gefördert Erste Ergebnisse für die Fachöffentlichkeit sind für Anfang 2018 geplant.

Smarte Informationsextraktion für Literaturdatenbanken – DFG fördert Forschungsprojekt „Smart Harvesting 2“

Smarte Informationsextraktion für Literaturdatenbanken –
DFG fördert Forschungsprojekt „Smart Harvesting 2“