Vorgestellt: Suchmaschinen generieren Wissen

11.11.2021

Adam Jatowt, Professor für Data Science an der Universität Innsbruck, forscht zu Wissensextraktion aus Textsammlungen. Dazu gehören Nachrichtenarchive, Social Media Posts und wissenschaftliche Arbeiten. Ein wichtiger Aspekt ist dabei die Verarbeitung von natürlicher Sprache durch Computer.

Den Weg zu seinem Forschungsgebiet begann Adam Jatowt mit seinem Interesse an Web-Archiven. In diesen werden Webseiten und Online-Publikationen gesammelt und erhalten, damit sie auch in der Zukunft noch eingesehen werden können. Über dieses Thema gelangte er zu Nachrichtenarchiven, Textsammlungen und zu historischen Dokumenten im Allgemeinen. Im Laufe seiner Forschung hat Jatowt bereits umfangreiche Datensätze mit gesammelten Nachrichtenartikel, Social-Media-Posts und wissenschaftliche Publikationen durchforstet. Informatik, Geschichte und Zeitgeschehen greifen in seiner Arbeit oft direkt ineinander.

Nach seinem Masterabschluss in Elektronik und Telekommunikation an der Technischen Universität Lodz, Polen, zog Jatowt nach Japan. Dort promovierte er in Informationswissenschaft an der Universität Tokyo. Er blieb beinahe 20 Jahre im Land, den größten Teil dieser Zeit forschte und lehrte er an der Universität Kyoto, an die er nach seiner Promotion wechselte. In Kyoto beschäftigte er sich mit der Entwicklung von Suchmaschinen für Textsammlungen und anderen Aufgaben aus dem Bereich der Computerlinguistik. Anfang 2021 wechselte er schließlich wieder den Kontinent und startete seine Professur an der Universität Innsbruck. „An so einem faszinierenden Ort wie Innsbruck, mitten in Europa, an Data Science forschen können – da habe ich nicht lange nachgedacht und mich auf die Professur beworben“, sagt Jatowt. „Nun bin ich in einer ganz neuen Umgebung, habe neue Verantwortung und lerne eine Menge neuer Dinge. Zum Beispiel, wie das Förderungssystem in Europa funktioniert. Das ist im Vergleich zu Asien sehr unterschiedlich.“

Die Berechnung von Antworten

Jatowt arbeitet mit sehr vielfältigen Problemen, bei denen es meist darum geht, Information aus Textsammlungen abzurufen. „Eine Gemeinsamkeit meiner Forschungsprojekte ist es, dass sie sich mit zeitlichen Aspekten der Information befassen. Das kann einerseits zeitbezogene Information in Dokumenten sein, aber auch historische Information in Archiven“, erklärt er. „Im Moment dreht sich dabei vieles um NLP, also Natural Language Processing“. NLP, im Deutschen auch als Computerlinguistik bezeichnet, befasst sich mit der Frage, wie natürliche, also schriftliche und gesprochene menschliche Sprache, von Computern maschinell verarbeitet werden kann.

„Das ist gerade im Question Answering sehr wichtig. Dieses Forschungsfeld boomt gerade, aber birgt noch viele ungelöste Probleme in sich“, sagt Jatowt. „Im Prinzip soll Question Answering es ermöglichen, dass jemand eine in natürlicher Sprache gestellte Frage in eine Suchmaschine geben kann und diese dann eine exakte Antwort auf diese Frage liefert, anstatt zehn Dokumente zu präsentieren, in denen dann die Antwort selbst gesucht werden muss. Dazu benötigt es künstliche Intelligenz, weil eine große Menge an Dokumenten abgerufen und nach der Antwort durchsucht werden muss.“

Jatowt gibt dafür ein simples Beispiel. Ein*e Journalist*in stellt der Suchmaschine eine präzise Frage: „Wie oft war der Präsident Frankreichs zwischen 1980 und 2000 in Österreich zu Besuch?“ Die Wahrscheinlichkeit ist hoch, dass die Daten zu dieser Frage vorhanden sind, aber noch nie zusammengetragen wurden. Folglich kann die Suche nach einem einzelnen Dokument keine Antwort darauf liefern. Die Aufgabe des Algorithmus ist es nun, das Nachrichtenarchiv zu durchsuchen, Meldungen zu vergleichen, zu verarbeiten und eine Antwort auszugeben. Zum Beispiel: Acht. Das ist Wissen, das vorher nirgendwo in dieser Form verfügbar war, sondern aus zahlreichen Quellen neu generiert wurde.

Kausalketten verstehen

Nachrichtenartikel und andere Dokumente einer bestimmten Zeitepoche stehen in komplexen Beziehungen zueinander. Einen einzelnen Artikel zu verstehen ist nicht möglich, ohne das große Geflecht aus anderen zeitgenössischen Nachrichten und den historischen Kontext mit einzubeziehen.

Solche komplexen Erzählungen bereiten Suchmaschinen noch Probleme. Das passiert vor allem dann, wenn die Verknüpfung zwischen verschiedenen Artikeln nicht oberflächlich, also im Text, liegt, sondern sich in Ursachen und Wirkung, in zusammenhängenden Ereignissen oder Schlüsselfiguren finden lässt. „Anstatt des Textes müssen eher Kausalketten verstanden werden, um einen Nutzen aus der Information zu ziehen. Dazu habe ich bereits ein interessantes Projekt durchgeführt, bei dem es darum ging, alte Nachrichtenartikel zu finden, die relevante Inhalte für heutige Nachrichten enthalten“, erzählt Jatowt.

Vielseitige Anwendungen

Auch in der stetig wachsenden Informationsmenge sieht Jatowt eine Herausforderung für die Gesellschaft und einen wichtigen Anwendungsbereich seines Forschungsfelds. „Durch die Digitalisierung von Nachrichten und Archiven kann die Vergangenheit viel besser erfasst und untersucht werden. Wir haben jetzt Millionen Zeitungsartikel, auf die wir zurückgreifen können. Die Herausforderung liegt darin, diese Fülle an Informationen sinnvoll für zeitgenössische Nutzer*innen aufzuarbeiten.“

Für seine Forschung arbeitet Jatowt oft mit Historiker*innen und Journalist*innen zusammen. Es sind allerdings nicht nur diese Berufsgruppen, die von den Anwendungen seiner Forschung profitieren können. Großes Potential sieht Jatowt auch im Finanz- und Versicherungswesen. Unternehmen in diesen Branchen wenden viel Zeit und Ressourcen auf, um zukünftige Ereignisse oder potentielle Risiken vorherzusehen. Ein leicht durchsuchbares Archiv, in dem vergangene Ereignisse und Katastrophen aus den regionalen Nachrichten abrufbar sind, wäre ein sehr nützliches Werkzeug für Entscheidungsträger*innen.

Webseitensuche

Personensuche

Vorgestellt: Suchmaschinen generieren Wissen

Die Berechnung von Antworten

Kausalketten verstehen

Vielseitige Anwendungen

Vor­ge­stell­t: Such­ma­schi­nen ge­ne­rie­ren Wis­sen

Die Berechnung von Antworten

Kausalketten verstehen

Vielseitige Anwendungen

Vorgestellt: Suchmaschinen generieren Wissen