b.i.t.online News-Ticker

INNOVATIV

Band 99: Sabine Wolf

Band 98: Hannah Schönlau

Band 97:
Ioanna Danai Katsougiannopoulou
und Ha Thao Suong Vu

VOLLTEXT OPEN ACCESS

Band 96:
Melanie Reymer

VOLLTEXT OPEN ACCESS

Band 95: Linda Freyberg und Sabine Wolf (Hrsg.)

Band 94:
Sabine Wolf (Hrsg.)

VOLLTEXT OPEN ACCESS

Band 93:
Frauke Birkhoff

Band 92:
Simone Fühles-Ubach u.a.

VOLLTEXT OPEN ACCESS

Band 91:
Eva Seidlmayer u.a.

Band 90:
Jan-Pieter Barbian

Band 89: Meike Kirner

Band 88:
Verena-Christin Schmidt

Band 87: Marieke Tödter

Band 86:
Alexandra Schenk

Band 85: Luis Moßburger

Band 84: Silvia Kruse

Band 83: Linda Freyberg, Sabine Wolf (Hrsg.)

Band 82: Sarah Pielmeier

Band 81: Kirstin Grantz

Band 80:
Stephan Holländer,
Willy Sühl-Strohmenger
und Ludger Syré

Band 79: Janet Wagner

Band 78: Philip Franklin Orr

Band 77: Carina Dony

Band 76:
Linda Freyberg
Sabine Wolf (Hrsg.)

Band 75: Denise Rudolph

Band 74: Sophia Paplowski

Band 73: Carmen Krause

Band 72:
Katrin Toetzke
Dirk Wissen

Band 71: Rahel Zoller

Band 70: Sabrina Lorenz

Band 69: Jennifer Hale

Band 68:
Linda Schünhoff
Benjamin Flämig

Band 67:
Wilfried Sühl-Strohmenger
Jan-Pieter Barbian

Band 66: Tina Schurig

Band 65: Christine Niehoff

Band 64: Eva May

Band 63: Eva Bunge

Band 62: Nathalie Hild

Band 61: Martina Haller

Band 60: Leonie Flachsmann

Band 59: Susanne Göttker

Band 58: Georg Ruppelt

Band 57: Karin Holste-Flinspach

Band 56: Rafael Ball

Band 55: Bettina Schröder

Band 54: Florian Hagen

Band 53: Anthea Zöller

Band 52: Ursula Georgy

Band 51: Ursula Jaksch

Band 50: Hermann Rösch (Hrsg)

Band 49: Lisa Maria Geisler

Band 48: Raphaela Schneider

Band 47: Eike Kleiner

Bestellen Sie jetzt online!

17. Juni 2026

WEITERE NEWS

Aktuelles aus

ibrary

Essentials

In der Ausgabe 04/2026 (Mai 2026) lesen Sie u.a.:

Wie verlässlich sind Metadaten für Forschungsdaten wirklich?
Erfundene Quellen – wie KI-Zitationen die Wissenschaft unter Druck setzen
Zwischen Bildschirmzeit, Stress und Lernverlust
Warum Bibliotheken im Zeitalter von KI wichtiger werden und mit einem Vertrauensparadox zu kämpfen haben
Schweden setzt in Schulen wieder auf Bücher
Warum KI-Kompetenz mehr sein muss als Toolwissen
Wie stark KI-Texte das Netz schon prägen
Open Access bringt Vorteile, aber nicht in jedem Fach auf die gleiche Weise
Was ChatGPT und Ghostwriting über Autorschaft verraten
Warum E-Books in US-Schulen zur Kostenfrage werden

u.v.m.

[mehr]

Hier geht es zur Newsletter-Anmeldung

fachbuchjournal

2009 bis 2023

Hier geht es
zum Archiv des
fachbuchjournals
2009 bis 2023

NEWS

Neue KI-Software vereinfacht Recherche
für Wissenschaftsjournalist*innen

Wissenschaftliche Publikationen enthalten eine Fülle von Informationen in verschiedenen Formaten wie Texten, Abbildungen und Grafiken. Diese sind jedoch oft nur schwer durchsuchbar. Um Journalist*innen bei der Auswertung dieser umfangreichen und komplexen Datenbestände zu unterstützen, haben Forschende der TH Köln eine KI-Software entwickelt, die wie ein Chatbot funktioniert. Einige Bausteine der Open-Source-Software sind frei zugänglich.

„Wissenschaftsjournalist*innen stehen vor der Herausforderung, eine schier unüberschaubare Menge an wissenschaftlichen Publikationen zu sichten. Klassische Suchsysteme liefern einfache Trefferlisten, die mühselig einzeln geprüft werden müssen. Das macht die Recherche zeitintensiv. Und da sie zudem meist nur den Volltext durchsuchen, können wichtige Daten, beispielsweise in Tabellen, unentdeckt bleiben“, erklärt Prof. Dr. Philipp Schaer vom Institut für Informationswissenschaft der TH Köln.

Ausgehend von Interviews mit Wissenschaftsjournalist*innen des Science Media Center Germany – einer gemeinnützigen Organisation, die als Vermittler zwischen Wissenschaft und Journalismus fungiert – gewann das Projektteam zunächst ein tieferes Verständnis der Anforderungen und Herausforderungen. Darauf aufbauend entwickelten die Forschenden eine Softwareumgebung, die auf einer Open-Source-Software-Bibliothek basiert. Die Software-Bibliothek ermöglicht es, die Inhalte aus wissenschaftlichen Dokumenten in einem ersten Schritt mithilfe definierter Regeln zu extrahieren und durchsuchbar zu machen. In einem darauffolgenden Schritt wird ein modernerer Ansatz auf Basis von semantischen Textrepräsentationen und Large Language Models genutzt, um Texte und Tabellen auch inhaltlich zu verarbeiten.

„Um diesen Kern herum haben wir eine Software gebaut, die wie ein Chatbot funktioniert. Nutzer*innen stellen eine Anfrage, das System durchsucht den gesamten Dokumentenbestand und stellt die Informationen bereit. Im nächsten Schritt werden diese Daten automatisch verarbeitet, um die Anfrage unter Angabe von Quellen möglichst präzise zu beantworten. Dieser Vorgang nennt sich RAG, das steht für Retrieval Augmented Generation“, beschreibt Schaer die Vorgehensweise des neuen Suchsystems.

Evaluation mit umfangreicher Dokumentensammlung

Um die Software zu evaluieren, wurden Suchanfragen mit einer standardisierten Testkollektion zur COVID-19-Pandemie mit über 160.000 Dokumenten durchgeführt. „Die Auswertung zeigte, dass ein erweiterter Suchzugang mit Tabellen und weiteren nichttextlichen Informationen bei dem RAG-basierten System zu deutlich besseren Ergebnissen führt als klassische Keyword-Suchen. Dies kann zu einer qualitativ besseren und schnelleren journalistischen Aufbereitung wissenschaftlicher Erkenntnisse beitragen“, so Schaer.

Des Weiteren flossen die Ergebnisse der Dissertation des wissenschaftlichen Mitarbeiters Björn Engelmann in das Projekt ein. Er untersuchte, wie verschiedene interne und externe Kontextfaktoren bei der Entwicklung und Evaluation von Informationszugangssystemen berücksichtigt werden können. Hierzu zählen zum Beispiel das Vorwissen der Nutzenden und unterschiedliche Anwendungsgruppen wie Wissenschaftsjournalist*innen sowie die Art der Datenbereitstellung. „Meine Arbeit hat unter anderem geholfen, die Zielgruppe besser zu verstehen und ihre spezifischen Bedürfnisse zu berücksichtigen. Dadurch konnte das im Projekt entstandene Suchsystem zugänglicher gestaltet werden“, erläutert Engelmann.

Simulationen für weitere Verbesserungen der Software

Zudem wurden umfangreiche Simulationen durchgeführt, um das Verhalten von Anwender*innen bei der Suche nach Tabelleninhalten realitätsnah nachzubilden. Dabei erzeugte ein computergestütztes Modell eine Abfolge von Aktionen: vom Formulieren einer Suchanfrage über das Anklicken und Bewerten von Suchergebnissen bis hin zur Auswahl relevanter Informationen. „Durch diese Methode konnten wir verschiedene Szenarien und Parameter testen, etwa wie oft Nutzer*innen neue Anfragen stellen oder wie sie auf unterschiedliche Inhalte reagieren, ohne den hohen Aufwand einer Evaluation mit echten Menschen“, sagt Engelmann.

Das Science Media Center Germany wird die Software für interne Zwecke weiterentwickeln. Einzelne Bausteine sind auf der Entwicklungsplattform GitHub frei verfügbar unter:

- Zielgruppenspezifische Evaluation von Text-Komplexität:
github.com/irgroup/ARTS

- Kontextsensitive Simulation von Suchverhalten:
github.com/irgroup/SUIR

- Simulation von Tabellensuche:
github.com/irgroup/simiir-wtr

- Extraktion und RAG System mit Evaluation:
github.com/irgroup/Reanimator

Über das Projekt

Das Forschungsprojekt „Journalistic Information Extraction“ (JoIE) wurde von Prof. Dr. Philipp Schaer und dem wissenschaftlichen Mitarbeiter Björn Engelmann vom Institut für Informationswissenschaft der TH Köln durchgeführt. Projektpartner war das Science Media Center Germany. Die Klaus Tschira Stiftung gGmbH förderte das Vorhaben über vier Jahre mit rund 380.000 Euro.

Neue KI-Software vereinfacht Recherche für Wissenschaftsjournalist*innen

Neue KI-Software vereinfacht Recherche
für Wissenschaftsjournalist*innen