Sammlung von Zeitungsausschnitten: 200.000 online abrufbar

Die Zeitungsausschnittesammlung des IZA ist eine der größten im deutschen Sprachraum. Sie bietet umfassende Informationen zu zehntausenden internationalen Autoren, Schauspielern und Regisseuren. Alle Artikel werden zurzeit an der Abteilung für Digitalisierung (DEA) der UB Innsbruck digitalisiert. Die ersten 200.000 sind online abrufbar: http://webapp.uibk.ac.at/iza/
Zeitungsartikel sind online abrufbar
Bild: Zeitungsartikel sind online abrufbar
Die Herausforderung

Im Frühjahr 2004 wurde von DEA ein Konzept zur kompletten Digitalisierung des Bestands entworfen. Dabei mussten einige grundsätzliche Schwierigkeiten bedacht werden:

  • 800.000 A4 Blätter, bzw. 180 Laufmeter Zeitungsartikel, aufgeteilt in 2300 Ordner und 60.000 Dossiers
  • Zeitungsartikel, die oft mehr schlecht als recht auf A4 umgebrochen und zum Teil doppelseitig aufgeklebt sind
  • Metadaten, die sich nur handschriftlich auf den Blättern finden
  • Artikel, die zum größten Teil urheberrechtlich geschützt sind und deshalb nicht im Internet für jedermann angezeigt werden dürfen
  • Knappe Budgetmittel, die von vornherein jede manuelle Eingabe von Metadaten verunmöglichen
Die Lösung

Um alle Anforderungen bewältigen zu können, wurde ein praxisorientierter Ansatz gewählt, der einen Schwerpunkt auf die automatisierte Verarbeitung der Zeitungsausschnitte legt. Möglich wurde dies nur, durch die Entwicklung eines speziellen Verarbeitungsprogramms.

Die weiteren Eckpunkte des Konzepts:

  • Verwendung eines Durchzugscanners, der sowohl Farb- und s/w Images in einem Durchgang ausgibt. Die Farbe dient der guten Wiedergabe der handschriftlichen Notizen und der redaktionellen Bilder, das s/w Image der späteren OCR Verarbeitung
  • Eingabe der Dossiernamen beim Scannen
  • Entwicklung eines Verarbeitungsprogramms, das die gescannten Images zusammen mit den Indexdaten automatisch einliest
  • die Texterkennung steuert
  • die Layoutanalyse durchführt
  • ein speziell entwickeltes Regelwerk zur automatischen Erfassung der Titel und der redaktionellen Bilder zum Einsatz bringt
  • die diversen Zwischendateien in XML ausschreibt und
  • alle Daten in eine Oracle Datenbank des ZID bzw. auf einen Fileserver überspielt.
  • Anzeige der Artikel im Online-Archiv in der Reihenfolge in der sie auch im Offline-Archiv zu finden sind
  • Automatisches Ausschneiden der Titelregion eines Artikels und Anzeige dieses Ausschnitts im Online-Archiv (der Titel kann auch bei urheberrechtlich geschützten Werken gezeigt werden)
  • Implementierung einer Metadaten- und Volltextsuche zum raschen Auffinden von Dossiers und Artikeln
  • Implementierung einer redaktionellen Bildsuche
Das Service

Das Webinterface soll einen einfachen, selbsterklärenden und effektiven Zugang zum Archiv bieten. Benützer finden einerseits die ursprüngliche Struktur des Archivs vor und können darin blättern.
Sie sehen allerdings aus urheberrechtlichen Gründen nur die Titelregion der Artikel. Eine Ausnahme stellen hier die rund 25% der Kurzartikel dar: Faktenmeldungen fallen nicht unter das Urheberrecht und sind daher frei zugänglich.
Als völlig neues Feature bietet das Webinterface auch die Möglichkeit alle Artikel durch eine Metadaten-, Volltext- und Bildsuche abzufragen.Weiters können die Artikel vorgemerkt und als Papierkopie bestellt werden.

Vorgestellt wird das neue Service heute, Dienstag, ab 18.00 Uhr im ICT-Technologiepark.