Computer liest historische Handschriften

Handschriften sind so individuell wie Menschen. Dennoch sind Computer heute in der Lage, auch historische Handschriften automatisch zu entschlüsseln. Ein neues, von der Universität Innsbruck koordiniertes EU-Projekt macht diese Technologie nun der Wissenschaftsgemeinde, interessierten Archiven und der breiten Öffentlichkeit zugänglich.
transkribus_400x306.jpg
Bild: Mit der Software Transkribus können historische Handschriften automatisch entschlüsselt werden. (Screenshot)

Wer sich schwer tut, einen in Kurrentschrift verfassten Brief seines Großvaters zu entziffern, der könnte bald digitale Unterstützung erhalten. Denn seit einigen Jahren arbeiten Forscherinnen und Forscher weltweit daran, digitalisierte historische Dokumente vom Computer automatisch entschlüsseln zu lassen. „Die Grundlagenforschung zur Handschriftenerkennung ist schon recht weit fortgeschritten. Nun geht es darum, diese Forschungsergebnisse auch für eine breite Öffentlichkeit nutzbar zu machen“, erzählt Günter Mühlberger, Leiter der Gruppe Digitalisierung und Elektronische Archivierung an der Universität Innsbruck. Mit seinem Team arbeitet er federführend am Aufbau einer Serviceplattform, die sich besonders an Archive und Historiker richtet. „Mit den von der Technischen Universität Valencia und dem Nationalen Forschungszentrum in Athen gelieferten Algorithmen können wir heute bereits 70 bis 80 Prozent eines Dokuments automatisch entziffern.“ Schwierigkeiten bereiten den Computerprogrammen bisher vor allem das komplexe Layout historischer Dokumente, die unterschiedlich geformten Handschriften, aber auch die verschiedenen Sprachen, die sich im Laufe der Zeit auch stark gewandelt haben. „Die Maschine muss zunächst einmal erkennen, wo auf einem Dokument ein Text steht und die einzelnen Zeilen richtig erkennen – eine technische Herausforderung, die nicht zu unterschätzen ist“, sagt Mühlberger.

Mit Unterstützung der Crowd

Die Forscherinnen und Forscher um Günter Mühlberger wollen ihr Know-how nun der internationalen Wissenschaftsgemeinde und der breiten Öffentlichkeit zugänglich machen und gemeinsam die Technologien weiter verbessern. Unterstützt werden sie dabei von der Europäischen Union, die das Vorhaben von insgesamt 13 europäischen Partnern mit insgesamt 8,2 Millionen Euro fördert. „Gemeinsam mit unseren Partnern aus Deutschland, Finnland, Frankreich, Griechenland, Großbritannien und Spanien werden wir eine Serviceplattform entwickeln, über die jede und jeder historische Handschriften bearbeiten kann“, sagt Mühlberger. „Unter unseren Partnern sind auch zahlreiche Archive, die ihre Bestände zur Verfügung stellen.“ Denn die eingesetzten Computeralgorithmen müssen trainiert werden, um die Handschriftenerkennung immer weiter zu verbessern. „Deshalb wollen wir nicht nur Forscherinnen und Forscher aus den Geisteswissenschaften einladen, die neue Infrastruktur zu nutzen, sondern auch die breite Öffentlichkeit. Je mehr mit unseren Programmen zur Handschriftenerkennung gearbeitet wird, umso besser werden diese Algorithmen“, weiß Günter Mühlberger.
Mit der Software und der Unterstützung anderer Nutzer sollte es dann auch möglich sein, den in Kurrentschrift verfassten Brief des Großvaters rasch zu entziffern. So sollen in den nächsten Jahren Katasterbände, Kirchenbücher, Briefe, aber auch unterschiedlichste Personenlisten (Immigranten, Passagiere, etc.), Ratsprotokolle und viele andere historische Dokumente computerlesbar gemacht werden. Die Forscher werden dafür auch eine App für Smartphones anbieten, mit der die Handschriften direkt eingescannt werden können. Um die Menschen zum Mitmachen zu motivieren, sollen gemeinsam mit der Öffentlichkeit auch die Handschriften berühmter Persönlichkeiten gesammelt und automatisch erkennbar gemacht werden. „Alle diese digitalisierten Handschriften können dann am Computer durchsucht werden. Das erspart die sehr aufwändige Abschrift der Texte und gibt einen direkten Zugang zu den Dokumenten“, sagt Mühlberger. „Mittels der automatisierten Schreibererkennung kann man dann zum Beispiel in den Archiven auch nach anderen Handschriften einer bestimmten Person suchen, was bisher so nicht möglich war.“

Aufbau einer europäischen Forschungsinfrastruktur

Die Dimension des Projekts wird deutlich, wenn man bedenkt, dass – im Gegensatz zu Bibliotheken – die von Archiven gesammelten Dokumente grundsätzlich unveröffentlicht und einmalig sind, d.h. meist nur in einem einzigen Exemplar existieren. In ihnen spiegelt sich vor allem das tägliche Leben einzelner Personen wider, sei es als kurze Notiz in einem Tauf- oder Sterberegister, als Eintrag in einer Katastralmappe, als Akt in einem Gerichtsverfahren oder als Notiz in einem Polizeibericht. Diese historischen Schätze der Forschung und der Öffentlichkeit zugänglich zu machen, dem hat sich das von der Universität Innsbruck koordinierte EU-Projekt READ verschrieben. Es wird im Rahmen des Förderprogramms Horizon 2020 mit insgesamt 8,2 Millionen Euro unterstützt, 1,1 Millionen davon fließen an die Universität Innsbruck. Partner sind Universitäten, Forschungseinrichtungen und Archive in ganz Europa. Das auf dreieinhalb Jahre anberaumte Projekt startet Anfang 2016 und hat den Aufbau einer Forschungsinfrastruktur für die europäische Wissenschaftsgemeinde zum Ziel. Da für die massenhafte automatische Handschriftenerkennung auch großen Rechenleistungen erforderlich sind, arbeiten die Innsbrucker Forscher sowohl mit dem Forschungszentrum Hochleistungsrechnen an der Leopold-Franzens-Universität als auch dem Vienna Scientific Cluster eng zusammen. „Die vorhandenen Strukturen und Ressourcen für Hochleistungsrechnen haben sicher dazu beigetragen, dass die EU dieses Projekt genehmigt hat“, betont Mühlberger.

Eine experimentelle Version der Software steht im Internet bereits zum Download zur Verfügung. Expertinnen und Experten, aber auch Laien können sich dort registrieren und das Programm ausprobieren.