INNOVATIV
Band 79: Janet Wagner Band 78: Philip Franklin Orr Band 77: Carina Dony Band 76:
Linda Freyberg
Sabine Wolf (Hrsg.)
Band 75: Denise Rudolph Band 74: Sophia Paplowski Band 73: Carmen Krause Band 72:
Katrin Toetzke
Dirk Wissen
Band 71: Rahel Zoller Band 70: Sabrina Lorenz Band 69: Jennifer Hale Band 68:
Linda Schünhoff
Benjamin Flämig
Band 67:
Wilfried Sühl-Strohmenger
Jan-Pieter Barbian
Band 66: Tina Schurig Band 65: Christine Niehoff Band 64: Eva May Band 63: Eva Bunge Band 62: Nathalie Hild Band 61: Martina Haller Band 60: Leonie Flachsmann Band 59: Susanne Göttker Band 58: Georg Ruppelt Band 57: Karin Holste-Flinspach Band 56: Rafael Ball Band 55: Bettina Schröder Band 54: Florian Hagen Band 53: Anthea Zöller Band 52: Ursula Georgy Band 51: Ursula Jaksch Band 50: Hermann Rösch (Hrsg) Band 49: Lisa Maria Geisler Band 48: Raphaela Schneider Band 47: Eike Kleiner
Bestellen Sie jetzt online!
21. März 2026
  WEITERE NEWS
Aktuelles aus
L
ibrary
Essentials

In der Ausgabe 02/2026 (März 2026) lesen Sie u.a.:

  • Seniorinnen und Senioren entdecken soziale Netzwerke – Chancen und Aufgaben für Bibliotheken
  • Chatbots im Auskunftsdienst wissenschaftlicher Bibliotheken
  • Bibliotheken unter Druck – Was der Hamburger Sparkurs über den Zustand
    des Wissenschaftssystems verrät
  • Die „Big Three“ der Wissenschaftsinformation – Web of Science, Scopus und OpenAlex im systematischen Vergleich
  • Der Strukturwandel im italienischen Buchmarkt – Lehren für Europa,
    die Leseförderung, den Buchhandel
    und Künstliche Intelligenz
  • GenAI in der Hochschulbildung –
    Wer forscht weltweit zu ChatGPT und Co.?
  • Jenseits des Akronyms –
    Wie wissenschaftliche Bibliotheken DEI
    unter politischem Druck neu verankern
  • Kann Bibliotherapie helfen, die Krisen
    der Gegenwart zu bewältigen?
  • Web-Barrierefreiheit pragmatisch umsetzen – Kleine Schritte mit großer Wirkung
  • Wenn die KI die Nachrichten auswählt, verändert sich die öffentliche Wahrnehmung
  • Zwischen Plattformökonomie und kulturellem Gedächtnis – Hat das physische Medium noch eine Zukunft?
u.v.m.
  fachbuchjournal
2009 bis 2023

Neue KI-Software vereinfacht Recherche
für Wissenschaftsjournalist*innen

Wissenschaftliche Publikationen enthalten eine Fülle von Informationen in verschiedenen Formaten wie Texten, Abbildungen und Grafiken. Diese sind jedoch oft nur schwer durchsuchbar. Um Journalist*innen bei der Auswertung dieser umfangreichen und komplexen Datenbestände zu unterstützen, haben Forschende der TH Köln eine KI-Software entwickelt, die wie ein Chatbot funktioniert. Einige Bausteine der Open-Source-Software sind frei zugänglich.

„Wissenschaftsjournalist*innen stehen vor der Herausforderung, eine schier unüberschaubare Menge an wissenschaftlichen Publikationen zu sichten. Klassische Suchsysteme liefern einfache Trefferlisten, die mühselig einzeln geprüft werden müssen. Das macht die Recherche zeitintensiv. Und da sie zudem meist nur den Volltext durchsuchen, können wichtige Daten, beispielsweise in Tabellen, unentdeckt bleiben“, erklärt Prof. Dr. Philipp Schaer vom Institut für Informationswissenschaft der TH Köln.

Ausgehend von Interviews mit Wissenschaftsjournalist*innen des Science Media Center Germany – einer gemeinnützigen Organisation, die als Vermittler zwischen Wissenschaft und Journalismus fungiert – gewann das Projektteam zunächst ein tieferes Verständnis der Anforderungen und Herausforderungen. Darauf aufbauend entwickelten die Forschenden eine Softwareumgebung, die auf einer Open-Source-Software-Bibliothek basiert. Die Software-Bibliothek ermöglicht es, die Inhalte aus wissenschaftlichen Dokumenten in einem ersten Schritt mithilfe definierter Regeln zu extrahieren und durchsuchbar zu machen. In einem darauffolgenden Schritt wird ein modernerer Ansatz auf Basis von semantischen Textrepräsentationen und Large Language Models genutzt, um Texte und Tabellen auch inhaltlich zu verarbeiten.

„Um diesen Kern herum haben wir eine Software gebaut, die wie ein Chatbot funktioniert. Nutzer*innen stellen eine Anfrage, das System durchsucht den gesamten Dokumentenbestand und stellt die Informationen bereit. Im nächsten Schritt werden diese Daten automatisch verarbeitet, um die Anfrage unter Angabe von Quellen möglichst präzise zu beantworten. Dieser Vorgang nennt sich RAG, das steht für Retrieval Augmented Generation“, beschreibt Schaer die Vorgehensweise des neuen Suchsystems.

Evaluation mit umfangreicher Dokumentensammlung

Um die Software zu evaluieren, wurden Suchanfragen mit einer standardisierten Testkollektion zur COVID-19-Pandemie mit über 160.000 Dokumenten durchgeführt. „Die Auswertung zeigte, dass ein erweiterter Suchzugang mit Tabellen und weiteren nichttextlichen Informationen bei dem RAG-basierten System zu deutlich besseren Ergebnissen führt als klassische Keyword-Suchen. Dies kann zu einer qualitativ besseren und schnelleren journalistischen Aufbereitung wissenschaftlicher Erkenntnisse beitragen“, so Schaer.

Des Weiteren flossen die Ergebnisse der Dissertation des wissenschaftlichen Mitarbeiters Björn Engelmann in das Projekt ein. Er untersuchte, wie verschiedene interne und externe Kontextfaktoren bei der Entwicklung und Evaluation von Informationszugangssystemen berücksichtigt werden können. Hierzu zählen zum Beispiel das Vorwissen der Nutzenden und unterschiedliche Anwendungsgruppen wie Wissenschaftsjournalist*innen sowie die Art der Datenbereitstellung. „Meine Arbeit hat unter anderem geholfen, die Zielgruppe besser zu verstehen und ihre spezifischen Bedürfnisse zu berücksichtigen. Dadurch konnte das im Projekt entstandene Suchsystem zugänglicher gestaltet werden“, erläutert Engelmann.

Simulationen für weitere Verbesserungen der Software

Zudem wurden umfangreiche Simulationen durchgeführt, um das Verhalten von Anwender*innen bei der Suche nach Tabelleninhalten realitätsnah nachzubilden. Dabei erzeugte ein computergestütztes Modell eine Abfolge von Aktionen: vom Formulieren einer Suchanfrage über das Anklicken und Bewerten von Suchergebnissen bis hin zur Auswahl relevanter Informationen. „Durch diese Methode konnten wir verschiedene Szenarien und Parameter testen, etwa wie oft Nutzer*innen neue Anfragen stellen oder wie sie auf unterschiedliche Inhalte reagieren, ohne den hohen Aufwand einer Evaluation mit echten Menschen“, sagt Engelmann.

Das Science Media Center Germany wird die Software für interne Zwecke weiterentwickeln. Einzelne Bausteine sind auf der Entwicklungsplattform GitHub frei verfügbar unter:

- Zielgruppenspezifische Evaluation von Text-Komplexität:
github.com/irgroup/ARTS

- Kontextsensitive Simulation von Suchverhalten:
github.com/irgroup/SUIR

- Simulation von Tabellensuche:
github.com/irgroup/simiir-wtr

- Extraktion und RAG System mit Evaluation:
github.com/irgroup/Reanimator

Über das Projekt

Das Forschungsprojekt „Journalistic Information Extraction“ (JoIE) wurde von Prof. Dr. Philipp Schaer und dem wissenschaftlichen Mitarbeiter Björn Engelmann vom Institut für Informationswissenschaft der TH Köln durchgeführt. Projektpartner war das Science Media Center Germany. Die Klaus Tschira Stiftung gGmbH förderte das Vorhaben über vier Jahre mit rund 380.000 Euro.