Sammlung von Zeitungsausschnitten: 200.000 online abrufbar

21.06.2005

Die Zeitungsausschnittesammlung des IZA ist eine der größten im deutschen Sprachraum. Sie bietet umfassende Informationen zu zehntausenden internationalen Autoren, Schauspielern und Regisseuren. Alle Artikel werden zurzeit an der Abteilung für Digitalisierung (DEA) der UB Innsbruck digitalisiert. Die ersten 200.000 sind online abrufbar: http://webapp.uibk.ac.at/iza/

Die Herausforderung

Im Frühjahr 2004 wurde von DEA ein Konzept zur kompletten Digitalisierung des Bestands entworfen. Dabei mussten einige grundsätzliche Schwierigkeiten bedacht werden:

800.000 A4 Blätter, bzw. 180 Laufmeter Zeitungsartikel, aufgeteilt in 2300 Ordner und 60.000 Dossiers
Zeitungsartikel, die oft mehr schlecht als recht auf A4 umgebrochen und zum Teil doppelseitig aufgeklebt sind
Metadaten, die sich nur handschriftlich auf den Blättern finden
Artikel, die zum größten Teil urheberrechtlich geschützt sind und deshalb nicht im Internet für jedermann angezeigt werden dürfen
Knappe Budgetmittel, die von vornherein jede manuelle Eingabe von Metadaten verunmöglichen

Die Lösung

Um alle Anforderungen bewältigen zu können, wurde ein praxisorientierter Ansatz gewählt, der einen Schwerpunkt auf die automatisierte Verarbeitung der Zeitungsausschnitte legt. Möglich wurde dies nur, durch die Entwicklung eines speziellen Verarbeitungsprogramms.

Die weiteren Eckpunkte des Konzepts:

Verwendung eines Durchzugscanners, der sowohl Farb- und s/w Images in einem Durchgang ausgibt. Die Farbe dient der guten Wiedergabe der handschriftlichen Notizen und der redaktionellen Bilder, das s/w Image der späteren OCR Verarbeitung
Eingabe der Dossiernamen beim Scannen
Entwicklung eines Verarbeitungsprogramms, das die gescannten Images zusammen mit den Indexdaten automatisch einliest

die Texterkennung steuert
die Layoutanalyse durchführt
ein speziell entwickeltes Regelwerk zur automatischen Erfassung der Titel und der redaktionellen Bilder zum Einsatz bringt
die diversen Zwischendateien in XML ausschreibt und
alle Daten in eine Oracle Datenbank des ZID bzw. auf einen Fileserver überspielt.

Anzeige der Artikel im Online-Archiv in der Reihenfolge in der sie auch im Offline-Archiv zu finden sind
Automatisches Ausschneiden der Titelregion eines Artikels und Anzeige dieses Ausschnitts im Online-Archiv (der Titel kann auch bei urheberrechtlich geschützten Werken gezeigt werden)
Implementierung einer Metadaten- und Volltextsuche zum raschen Auffinden von Dossiers und Artikeln
Implementierung einer redaktionellen Bildsuche

Das Service

Das Webinterface soll einen einfachen, selbsterklärenden und effektiven Zugang zum Archiv bieten. Benützer finden einerseits die ursprüngliche Struktur des Archivs vor und können darin blättern.
Sie sehen allerdings aus urheberrechtlichen Gründen nur die Titelregion der Artikel. Eine Ausnahme stellen hier die rund 25% der Kurzartikel dar: Faktenmeldungen fallen nicht unter das Urheberrecht und sind daher frei zugänglich.
Als völlig neues Feature bietet das Webinterface auch die Möglichkeit alle Artikel durch eine Metadaten-, Volltext- und Bildsuche abzufragen.Weiters können die Artikel vorgemerkt und als Papierkopie bestellt werden.

Vorgestellt wird das neue Service heute, Dienstag, ab 18.00 Uhr im ICT-Technologiepark.