8.6 Datenarchivierung
Neben der Datenspeicherung steht die Datenarchivierung als weiterer notwendiger Schritt im Forschungsdatenlebenszyklus. Während die Datenspeicherung vor allem die Speicherung der Daten während des laufenden Arbeitsprozesses in der Projektlaufzeit umfasst, wie sie in den bisherigen Abschnitten dieses Kapitels behandelt wurden, beschäftigt sich die Datenarchivierung damit, wie die Daten nach Abschluss des Projekts so nachnutzbar wie möglich zur Verfügung gestellt werden können. Oft wird begrifflich nochmals zwischen der Datenaufbewahrung in einem Repositorium und der Datenarchivierung im Sinne einer Langzeitarchivierung (kurz „LZA“) unterschieden. An vielen Stellen, so auch in den „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ der DFG aus dem Jahr 2019 („Leitlinie 17: Archivierung“) werden beide Begriffe jedoch äquivalent gebraucht. Wenn im Folgenden von Aufbewahrung oder Datenaufbewahrung die Rede ist, ist die Aufbewahrung von Daten in einem Forschungsdatenrepositorium gemeint. Wird jedoch von Datenarchivierung gesprochen, ist damit eine Langzeitarchivierung intendiert. Die Unterschiede beider Varianten sind Thema dieses Abschnitts.
Mit der Datenaufbewahrung in einem Forschungsdatenrepositorium geht im Grunde meist eine Veröffentlichung der produzierten Daten einher. Eine solche Veröffentlichung kann und muss im Fall von sensiblen Daten, wie etwa personenbezogenen Daten, auch zugangsbeschränkt geschehen. Gemäß der guten wissenschaftlichen Praxis müssen Repositorien sicherstellen, dass die publizierten Forschungsdaten für mindestens zehn Jahre aufbewahrt und zur Verfügung gestellt werden, anschließend ist die Verfügbarkeit jedoch nicht mehr notwendigerweise gegeben, wird aber dennoch meistens weiter gewährleistet. Sollten Daten nach dieser Mindestaufbewahrungsfrist auf Entscheidung des Betreibers aus dem Repositorium entfernt werden, muss der Verweis auf die Metadaten weiter vorhanden bleiben. Repositorien werden meistens in drei unterschiedliche Arten unterteilt: Institutionelle Repositorien, Fachrepositorien und fachübergreifende bzw. generische Repositorien. Eine vierte eher spezifische Variante sind sogenannte Software-Repositorien, in denen Software bzw. reiner Softwarecode veröffentlicht werden kann. Diese sind üblicherweise auf jeweils eine Programmiersprache ausgelegt (z. B. PyPI für die Programmiersprache „Python“).
Institutionelle Repositorien umfassen all jene Repositorien, die durch meist staatlich anerkannte Institutionen bereitgestellt werden. Dazu können Universitäten, Museen, Forschungseinrichtungen oder andere Einrichtungen gehören, die ein Interesse daran haben, Forschungsergebnisse oder andere Dokumente von wissenschaftlicher Bedeutung der Öffentlichkeit zur Verfügung zu stellen. Im Rahmen der „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ der DFG (2019) wird offiziell gefordert, dass die Forschungsdaten, die einem wissenschaftlichen Werk zugrunde liegen, mindestens „in der Einrichtung, wo sie entstanden sind, oder in standortübergreifenden Repositorien aufbewahrt“ werden müssen. (DFG 2019, S. 22) Beachten Sie außerdem vor der Veröffentlichung Ihrer Daten die Hinweise in der Forschungsdaten-Leitlinie der Frankfurt UAS und suchen Sie frühzeitig Kontakt zum Forschungsdatenreferenten, um zu besprechen wie und wo Sie die Daten veröffentlichen können, um gemäß der guten wissenschaftlichen Praxis zu handeln. Auch wenn Sie ihre Daten bereits in einem Journal veröffentlicht haben, ist es häufig möglich, diese auch an Ihrer Einrichtung zu veröffentlichen. Fragen Sie dazu beim Verlag an oder schauen Sie in Ihren Vertrag.
Neben der Veröffentlichung im institutionellen Repositorium können Sie Ihre Daten auch zusätzlich in einem fachspezifischen Repositorium publizieren. Gerade die Veröffentlichung in einem renommierten fachspezifischen Repositorium kann stark zur Steigerung Ihrer wissenschaftlichen Reputation beitragen. Um zu erfahren, ob für Ihren Forschungsbereich ein passendes fachspezifisches Repositorium vorhanden ist, lohnt sich die Suche über den Repositorien-Index „re3data“.
Sollte kein passendes Repositorium dabei sein, ist die letzte Möglichkeit die Veröffentlichung in einem großen, fachübergreifenden generischen Repositorium. Eine kostenlose Variante bietet der von der Europäischen Kommission finanzierte Dienst Zenodo. Gebührenpflichtige Dienste zur Veröffentlichung von Daten bieten für den deutschen Raum RADAR und international figshare. Die am häufigsten verwendete Variante stellt im europäischen Raum vermutlich Zenodo dar. Achten Sie bei einer eventuellen Veröffentlichung auf Zenodo darauf, ihre Forschungsdaten auch einer oder mehrerer Communities zuzuordnen, die in gewisser Weise eine Fachspezifik innerhalb dieses generischen Angebots widerspiegeln.
Unabhängig davon, wo Sie ihre Daten letztendlich veröffentlichen, achten Sie immer darauf zusätzlich zu den Daten auch eine beschreibende "Metadatendatei" mit zu veröffentlichen, in welcher die Daten beschrieben werden und der Kontext der Datenerhebung dargelegt ist (siehe Kapitel 4). Schauen Sie bei der Auswahl Ihres bevorzugten Repositoriums auch darauf, ob dieses in irgendeiner Weise zertifiziert ist (z. B. CoreTrustSeal). Ob ein Repositorium zertifiziert ist, ist bei „re3data“ direkt ersichtlich.
Je älter Daten werden, desto wahrscheinlicher ist es bei den heutigen sich rasant weiter entwickelnden digitalen Möglichkeiten, dass diese Daten zukünftig womöglich nicht mehr geöffnet, gelesen oder verstanden werden können. Gründe dafür gibt es einige: Es fehlt die benötigte Hardware und/oder Software oder wissenschaftliche Methoden haben sich so stark verändert, dass Daten jetzt auf andere Arten und Weisen mit anderen Parametern erhoben werden. Moderne Rechner und Notebooks verzichten beispielsweise mittlerweile fast immer auf ein CD- oder DVD-Laufwerk, wodurch diese Speichermedien nicht mehr flächendeckend genutzt werden können. Die Langzeitarchivierung zielt daher darauf ab, die langfristige Nutzung von Daten über einen nicht näher bestimmten Zeitraum hinweg über die Grenzen von Medienverschleiß und technischen Neuerungen sicherzustellen. Das umfasst sowohl die Bereitstellung der technischen Infrastruktur als auch organisatorische Maßnahmen. LZA verfolgt dabei den Erhalt der Authentizität, Integrität, Zugänglichkeit und Verständlichkeit der Daten.
Um eine langfristige Archivierung von Daten zu ermöglichen, ist es wichtig, dass die Daten mit für die LZA relevanten Metainformationen versehen werden wie beispielsweise der verwendeten Erhebungsmethode, Hardware des Systems, mit dem die Daten erhoben wurden, Software, Codierung, Metadatenstandards samt Version, möglicherweise einer Migrationshistorie usw. (siehe Kapitel 4). Darüber hinaus sollten die Datensätze soweit möglich den FAIR-Prinzipien entsprechen (siehe Kapitel 5). Dazu zählt auch, die Daten vorzugsweise in nicht-proprietären, offen dokumentierten Datenformaten abzuspeichern und auf proprietäre Datenformate zu verzichten. Offene Formate müssen seltener migriert werden und zeichnen sich durch eine längere Lebensdauer und höhere Verbreitung aus. Achten Sie außerdem darauf, dass die zu archivierenden Dateien unverschlüsselt, patentfrei und nicht komprimiert sind. Dateiformate können prinzipiell verlustfrei, verlustbehaftet oder sinnhaft konvertiert werden. Eine verlustfreie Konvertierung ist in der Regel vorzuziehen, da so alle Informationen bestehen bleiben. Werden allerdings geringere Dateigrößen bevorzugt, müssen oft Informationsverluste in Kauf genommen werden. Wenn Sie z. B. Audiodateien wie WAV in MP3 konvertieren, gehen durch die Komprimierung Informationen verloren und die Tonqualität verschlechtert sich. Allerdings ergibt sich durch die Umwandlung eine geringere Dateigröße. Die folgende Tabelle gibt einen ersten grundlegenden Überblick darüber, welche Formate für einen bestimmten Datentyp geeignet und welche eher ungeeignet sind:
Datentyp
|
Empfohlene Formate
|
weniger geeignete bzw. ungeeignete Formate
|
Audio
|
.wav / .flac
|
.mp3
|
Computer-aided Design (CAD)
|
.dwg / .dxf / .x3d / .x3db / .x3dv
|
-
|
Datenbanken
|
.sql / .xml
|
.accdb / .mdb
|
Rastergrafiken & Bilder
|
.tif (unkomprimiert) / .jp2 / .jpg2 / .png
|
.gif / .jpeg / .jpg / .psd
|
Statistische Daten
|
.por / .csv
|
.sav (SPSS)
|
Tabellen
|
.csv / .tsv / .tab
|
.xls / .xlsx / .xlx
|
Texte
|
.odf / .rtf / .txt / PDF/A
|
.docx / .doc / PDF
|
Vektorgrafiken
|
.svg / .svgz
|
.cdr
|
Video
|
.mp4 / .mkv / .mj2 / .avi (unkomprimiert)
|
.mov / .wmv
|
Tab. 8.3: Empfohlene und nicht empfohlene Datenformate nach Dateityp
Dabei bedeutet die Auflistung in der Spalte "weniger bzw. ungeeignete Formate" nicht, dass Sie diese Formate auf keinen Fall verwenden können, wenn Sie Ihre Daten langfristig aufbewahren wollen. Es geht vielmehr darum, für Fragen der langfristigen Verfügbarkeit in einem ersten Einstieg sensibilisiert zu werden. Machen Sie sich klar, welches Format welche Vor- und welche Nachteile bietet. Einen erweiterten Überblick finden Sie auf forschungsdaten.info. Wenn Sie sich weiter vertiefen wollen, werden Sie auf der Webseite von NESTOR - dem deutschen Kompetenznetzwerk für die Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen fündig. Unter NESTOR - Thema finden Sie aktuelle Kurzartikel aus der Praxis, so z. B. zu den Formaten .tiff oder .pdf. Wenn Sie diese und weitere Übersichten nebeneinanderlegen, werden Sie feststellen, dass die Empfehlungen zu Dateiformaten voneinander abweichen. Wir verfügen noch nicht über ausreichend Erfahrungen auf diesem Gebiet. Ein weiterer guter Weg ist es, bei Unsicherheiten zu Formaten bei einem - soweit vorhanden - Fachdatenzentrum oder einem Forschungsdatenverbund anzufragen. Wollen Sie Ihre Daten dort ablegen, empfiehlt sich diese Vorgehensweise umso mehr. Sie werden dann möglicherweise feststellen, dass Ihre Daten auch dann genommen werden, wenn das gewählte Datenformat unter dem Aspekt der LZA nicht die erste Wahl ist. Repositorien oder Forschungsdatenzentren arbeiten wissenschaftsnah und versuchen immer auch einen Umgang mit Formaten zu finden, die in den jeweiligen Fachdisziplinen weit verbreitet sind, z. B. mit Exceldateien. Als Beispiel dafür, können Sie sich die Vorgaben des Verbunds Forschungsdaten Bildung anschauen.
Um ggf. selbst eine Entscheidung treffen zu können, welche Formate für Ihr Vorhaben in Frage kommen, gibt es eine Reihe von Kriterien, die Sie bei der Auswahl beachten sollten (nach Harvey/Weatherburn 2018: 131):
-
Ausmaß der Verbreitung des Datenformats
- Abhängigkeit von anderen Technologien
- Öffentliche Zugänglichkeit der Dateiformat-Spezifikationen
- Transparenz des Dateiformats
- Metadatenunterstützung
- Wiederverwendbarkeit/Interoperabilität
- Robustheit/Komplexität/Rentabilität
- Stabilität
-
Rechte, die die Datenbewahrung erschweren können
LZA nutzt zum momentanen Zeitpunkt zwei Strategien zur langfristigen Datenerhaltung: Emulation und Migration. Unter Emulation versteht man, dass auf einem aktuellen, modernen System ein häufig älteres System nachgebildet wird, was in möglichst allen Aspekten das alte System imitiert. Programme, die dies leisten, bezeichnet man als Emulatoren. Ein prominentes Beispiel hierfür ist etwa DOSBox, welches es ermöglicht, auf aktuellen Rechnern ein altes MS DOS-System samt nahezu aller Funktionalitäten abzubilden und somit Software für dieses System zu verwenden, was mit einem aktuelleren System höchstwahrscheinlich nicht mehr möglich ist.
Als Migration oder Datenmigration bezeichnet man das Überführen von Daten auf ein anderes System oder einen anderen Datenträger. Im Bereich der LZA soll so erreicht werden, dass die Daten auf dem zu übertragenden System weiter ausgelesen und angeschaut werden können. Hierfür ist es notwendig, dass die Daten mit dem Datenträger auf dem sie ursprünglich erhoben wurden, nicht untrennbar verknüpft sind. Denken Sie daran, dass auch Metadaten migriert werden müssen!
Bei der Wahl eines geeigneten Speicherortes für die Langzeitarchivierung sollten Sie folgende Punkte beachten:
-
Technische Anforderungen – Der Dienstleister sollte eine Strategie zur Daten-konvertierung, Migration und/oder Emulation verfolgen. Darüber hinaus sollte in regelmäßigen Abständen eine Kontrolle der Lesbarkeit der Dateien sowie eine Virenprüfung durchgeführt werden. Alle Schritte sollten dokumentiert werden.
-
Siegel für vertrauenswürdige Langzeitarchive – Für die Beurteilung, ob ein Langzeitarchiv vertrauenswürdig ist, wurden verschiedene Siegel entwickelt z. B. das nestor-Siegel, welches auf Grundlage der DIN 31644 „Kriterien für vertrauenswürdige digitale Langzeitarchive“ entwickelt wurde, ISO 16363 oder das CoreTrustSeal.
-
Kosten – Der Betrieb von Servern ebenso wie die Umsetzung der technischen Standards sind mit Kosten verbunden, daher ist das Angebot mancher Dienstleister kostenpflichtig. Der Preis hängt vor allem von der Datenmenge ab.
-
Zugänglichmachung der Daten – Vor der Wahl des Speicherortes sollte man sich die Frage stellen, ob die Daten zugänglich sein oder nur abgelegt werden sollen.
-
Langlebigkeit des Dienstleisters – Wirtschaftliche und politische Faktoren haben Einfluss auf die Langlebigkeit der Dienstleister
Zusammenfassend lässt sich folgendes sagen: Die hier aufgelisteten Informationen zur LZA haben für Sie vor allem einen theoretischen Wert und nur einen bedingten Handlungswert. Wenn Sie in einem zertifizierten Repositorium veröffentlichen, sind Sie gut beraten. Achten Sie vor allem darauf, dass bei einer vertrauenswürdigen Einrichtung zu tun und informieren Sie sich bei dieser Einrichtung bereits im Voraus zu Möglichkeiten oder Planungen hinsichtlich einer LZA. Die hier aufgelisteten Aspekte für eine gute LZA können Sie zur Formulierung möglicher Fragen an die Einrichtungen nutzen. Dadurch sollten ausreichende Voraussetzungen für die LZA gegeben sein.