Methodik BDA Dokumentation
Die Dokumentation wurde mit dem unten dargestellten Arbeitsablauf verarbeitet, um offene Forschungsdaten gemäß den FAIR-Prinzipien (Findable-Accesible-Interoperable-Reusable, https://www.go-fair.org) zu erstellen. Um zu veranschaulichen, wie diese Forschungsdaten erzeugt wurden, sind die Prozesse, die von einer Datenrepräsentation zur anderen führen, mit dünnen Pfeilen gekennzeichnet und mit einer Notation wie z.B. A. -> B. für den Prozess gekennzeichnet, der Repräsentation A. (ursprüngliches Dateisystem) in Repräsentation B. (Dateisystem mit langlebigen Dateiformaten) umwandelt. Dicke Pfeile nach unten kennzeichnen Ergebnisdatensätze wie z.B. B.1. ZIP File on Zenodo / DOI.
Der erste Prozess (A. -> B. Konvertierung) bestand darin, die digitalen Ressourcen der BDA-Originaldokumentation in langzeitarchivierbare Formate zu überführen. Sie wurden zunächst auf ihre Dateiformate hin überprüft und dann, falls erforderlich, konvertiert. Die Richtlinien des Archäologischen Datendienstes und von IANUS wurden herangezogen, um die bevorzugten Dateiformate für die Langzeitarchivierung zu ermitteln. PDF/A wird für unstrukturierte Daten wie Berichte, Präsentationen, Grafiken oder Zeichnungen verwendet. Wenn es andere Formate für grafische Darstellungen gibt, werden sie in Tiff konvertiert. Listen im MS Excel-Format wurden in das CSV-Format und MS Word in PDF/A konvertiert. Autodesk .dwg- oder .dxf-Dateien wurden in entsprechende Formate wie .dxf im Falle von .dwg und in beiden Fällen in SVG (Scalable Vector Graphics) und zusätzlich auch in PDF/A-Dateien konvertiert. Für diesen Prozess wurde ein Python-Programm geschrieben, das die Dateiformate konvertiert und zusätzlich eine Metadaten-Datei mit einer Kennung für jede generierte Datei erstellt.
Die Dateien wurden in der gleichen Dateistruktur wie die Originaldokumentation erzeugt und eine ZIP-Datei erstellt (B.1. ZIP File on Zenodo / DOI) und auf Zenodo hochgeladen, wo sie einen DOI erhalten, unter dem sie zugänglich sind. Darüber hinaus wurden die Dateien auf einem Google Drive unter derselben Dateistruktur gespeichert. Ein Skript wurde geschrieben, um die Links zu den einzelnen Dokumenten abzurufen, und diese Links wurden mit den im Python-Programm generierten Datei-IDs verknüpft. Diese Speicherung auf dem Google Drive ermöglicht den Zugriff auf einzelne Dateien aus der Dokumentation.
Der nächste Prozess war die Extraktion von Informationen nach CIDOC CRM Concepts (A. -> C.). In einer Excel-Tabelle wurden fünf Tabellen erstellt, um Strukturen (S20), Objekte (E19), Forschungsaktivitäten (S4), stratigraphische Einheiten (A8) und Dokumente (E31) darzustellen, die explizit oder implizit in der Dokumentation dokumentiert wurden. Die manuelle Zuweisung und Verwaltung von Identifikatoren war von entscheidender Bedeutung, um die verschiedenen dargestellten Einheiten in den unterschiedlichen Quelldokumenten miteinander in Beziehung zu setzen.
Die Erstellung eines Thesaurus (D. Thesaurus) und der Abgleich der Zuordnungen zu bestimmten in der Dokumentation verwendeten Kategorien (A. -> D.) war ein weiterer notwendiger Schritt, um die Dokumentation zu formalisieren und für die weitere Bearbeitung vorzubereiten. Um den Thesaurus mit anderen Vokabularen abzugleichen, wurden seine Begriffe mit Getty AAT für Themen und PeriodO für chronologische Informationen abgeglichen.
Der nächste Schritt im Arbeitsablauf "C., D. -> E. RDF Conversation with SQL and Karma" war die Aufnahme der "C. Tables for Structures (S20), Objects (E19), Research (S4), Stratigraphy (A8) and Documents (E31)" und des "D. Thesaurus for concepts under BBT and match to AAT and PeriodO" in eine Postgres-Datenbank, um die URIs für die RDF-Darstellung zu erstellen und Ressourcen miteinander in Beziehung zu setzen, die nicht explizit in den Tabellen in Beziehung gesetzt wurden. Die durch SQL-Befehle generierten Tabellen in Postgres wurden als Input für das KARMA-Tool verwendet, wo die Zuordnung zu CIDOC CRM und Erweiterungen erfolgte. Das Ergebnis ist eine integrierte RDF-Darstellung der Dokumentation des Bundesdenkmalamtes, die als Ergebnis des ORD-Pilotprojekts in verschiedene Datenprodukte transformiert wurde.
E.1 RDFs für Dokumentation und Thesaurus auf Zenodo / DOI
E.2 Text, shp-Dateien Zenodo / DOI
E.3 SPARQL Endpunkt
Aus dieser CIDOC CRM RDF-Darstellung wurde durch den Prozess "E. -> F. Erstellen von Instanzen für den ARIADNE-Katalog" eine weitere RDF-Datei erzeugt, die Instanzen für den in der AO-cat Ontologie dargestellten ARIADNE-Katalog enthielt. Die resultierende RDF-Datei wurde an das ARIADNEplus-Konsortium zur Integration in das ARIADNE-Portal (F.1 ARIADNE-Portal) weitergeleitet und wird nach der Bearbeitung durch das Konsortium auf dem Portal verfügbar sein.