Bölüm anahatları

  • Bearbeitungsdauer: 18 Minuten, 3 Sekunden

    • 8.1 Einführung und Lernziele

      Das folgende Kapitel gibt einen näheren Einblick in den vierten Abschnitt des Forschungsdatenlebenszyklus: der Archivierung und Speicherung von Daten.

      Nach Abschluss dieses Kapitels können Sie…

      • …die Risiken des leichtfertigen Umgangs mit Daten einschätzen.
      • …Strategien für ein sicheres Backup anwenden.
      • …die Anforderungen für die (Langzeit-)Archivierung benennen.
      • …die Vor- und Nachteile relevanter Dateiformate erkennen.
      • …den Vorteil besonderer Vorkehrungen, die zur Archivierung und Langzeitverfügbarmachung von Daten getroffen werden müssen, nachvollziehen.
    • 8.2 Speichermedien und -orte: Vor- und Nachteile

      Wie bereits in Kapitel 7 angemerkt, sollten Forschungsdaten regelmäßig gespeichert sowie die Fortschritte und Änderungen möglichst über Versionen gekennzeichnet und gut dokumentiert werden.

      Das Speichern sollte auf unterschiedlichen Medien erfolgen. Bei Ihrer Entscheidung für ein Medium sollten Sie nach Ludwig/Enke (2013, S. 33) die folgenden Faktoren beachten:

      • Größe der Datensätze
      • Anzahl der Datensätze
      • Häufigkeit des Datenzugriffs


      Speichermedien haben verschiedene Eigenschaften, wodurch es je nach Medium teils erhebliche Unterschiede beim Schutz vor Datenverlust und vor unbefugtem Zugriff gibt. Im Folgenden bekommen Sie einen kompakten Überblick über die Eigenschaften, Vorteile und Risiken der häufigsten Speichermedien und -orte:

      Eigener PC

      Vorteile

      Nachteile

      • Eigenverantwortlichkeit für Sicherheit und Backup

      • eigene Kontrolle

      • alles, was mit dem PC geschieht, geschieht mit dem Backup

      • evtl. fehlende Ressourcen und Know-how zum Konfigurieren und Überprüfen der Qualität der Sicherungskopien

      • Einzellösungen aufwendig, kostspielig und ineffizient bezogen auf  eine Arbeitsgruppe

      Mobiles Speichermedium (z. B. CD, DVD, USB-Stick, externe Festplatte)

      Vorteile

      Nachteile

      • leicht zu transportieren

      • können im verschließbaren Schrank oder Safe aufbewahrt werden

      • besonders leicht zu verlieren und können einfach entwendet werden, daher äußerst unsicher

      • Inhalte sind bei Verlust ungeschützt, wenn sie nicht zuvor verschlüsselt wurden

      • anfällig hinsichtlich Temperatur, Luftqualität und Feuchtigkeit

      • externe Festplatten besonders stoß- und verschleißanfällig

      Institutionelle Speicherorte (z. B. Server Ihrer Universität)

      Vorteile

      Nachteile

      • Backup der Daten ist sichergestellt

      • Professionelle Durchführung und Wartung

      • Speicherung entsprechend den Datenschutzrichtlinien der Institution

      • Datenschutz über Zugriffsrechte geregelt

      • Für mobiles Arbeiten weltweit nutzbar

      • Geschwindigkeit vom Netzwerk abhängig

      • Zugriff auf Backups evtl. verzögert durch Dienstweg

      • ggf. unklar, welche Sicherheitskriterien angewendet und Sicherheitsstrategien eingesetzt werden

      • ggf. mit höheren Kosten verbunden

      Externe Speicherorte (z. B. Cloud-Dienste externer Unternehmen)

      Vorteile

      Nachteile

      • einfach zu nutzen und zu verwalten

      • werden professionell gewartet

      • für mobiles Arbeiten weltweit nutzbar

      • je nach Anbieter kann die Verbindung auch unsicher sein

      • abhängig vom Zugang zum Internet

      • Upload und Download kann lange dauern

      • Zugriff auf Backups evtl. verzögert

      • unklar, welche Sicherheitskriterien angewendet und Sicherheitsstrategien eingesetzt werden und ob diese den Vorgaben für sensible Daten entsprechen

      • viele Institutionen haben für die Nutzung solcher Dienste spezielle Regelungen erlassen

      Tab. 8.1: Vor- und Nachteile verschiedener Speichermedien und -orte

      Die Verwendung von kostenlosen Cloud-Speicherdiensten, wie beispielsweise Dropbox, OneDrive oder Google Drive, ist zu vermeiden. Da der Serverstandort für diese Anbieter in Amerika liegt, gilt für die Daten und Ihre Privatsphäre das dortige Recht, was vor allem mit Blick auf den USA PATRIOT Act von 2001 kritisch gesehen werden muss, da die Daten nicht vor allen ungewünschten Zugriffen durch Dritte geschützt sind und nicht kontrolliert werden kann, was mit den Daten geschieht.

      Die Frankfurt UAS bietet als sichere Alternative allen Hochschulmitgliedern und -angehörigen (mit Ausnahme der Studierenden) mit einem gültigen CIT-Account die Nutzung von Nextcloud an.

      Nextcloud

      Nextcloud ist eine Open-Source-Lösung für das Speichern von Dateien (Filehosting). Funktional ähnelt es Dropbox, Google Drive oder anderen Filehosting-Diensten. Jegliche Dateien bleiben jedoch auf den Servern der Hochschule gespeichert. Allen Nutzerinnen und Nutzern stehen fünf Gigabyte für die Dateiablage zur Verfügung. Die Dateien können über einen Client mit dem lokalen Speicher synchronisiert oder unter nextcloud.frankfurt-university.de abgerufen werden. Weitere Informationen erhalten Sie in der Nextcloud Knowledge Base auf Confluence.

      Auch nicht-digitale Medien dürfen nicht vergessen werden. Viele Daten befinden sich auf handschriftlichen Notizen oder gedruckten, papier-basierten Materialien (z. B. Fotos). Hier tragen insbesondere Sonneneinstrahlung, Säure oder Fingerabdrücke zum schnellen Verschleiß bei. Wenn Daten auf Papier gelagert werden, sollten Sie nach Corti et al. (2014, S. 87)…

      • …säurefreies Papier nutzen.
      • …Ordner und Boxen nutzen.
      • …rostfreie Büroklammern verwenden.

      Außerdem sollten Sie die Daten zusätzlich einscannen, sodass sie auch in einem digitalen Format vorliegen. Im Bedarfsfall können diese digitalen Daten dann beispielsweise wieder über einen Druck in ein materielles Format gebracht werden. Zur Übertragung in ein digitales Format bietet sich insbesondere das PDF/A-Format an. Allerdings können nicht alle Dokumente problemlos in das PDF/A-Format überführt werden. Es gibt jedoch kostenlose Tools, die die PDF/A-Konformität überprüfen können. Sollte das Format für ihre Daten nicht in Frage kommen, scannen Sie es einfach im PDF-Format.

      Weiterhin zu beachten ist, dass mindestens zwei Personen Zugang zu den Daten haben sollten, um auch im Krankheitsfall oder bei Abwesenheit die Verfügbarkeit der Daten zu gewährleisten.

    • 8.3 Datensicherheit und -verschlüsselung

      Wie sich aus der vorigen Auflistung der Vor- und Nachteile verschiedener Speicherorte und -medien schon erkennen lässt, stellt sich nicht nur die Frage, wo Sie Daten speichern sollten, sondern auch, wie Sie sie speichern. Sie können zur Sicherung und Sicherheit ihrer (sensiblen) Daten beitragen, indem sie z. B. ihre Speichermedien in einem separaten, abschließbaren Raum oder Schrank aufbewahren sowie Notebooks durch ein Schloss vor Diebstahl sichern. Müssen Sie sich zur Einsicht der Daten erst in einen Account einloggen, kann es zusätzlich sinnvoll sein, eine Zwei-Schritt-Verifizierung am besten über einen physischen Authentification Key (z. B. YubiKey) zu nutzen. Informieren Sie sich aber vorher darüber, ob der Server bei dem Sie sich einloggen auch eines der vom Authentification Key angebotenen Protokolle unterstützt.

      Mit physischem Schutz ist es jedoch nicht getan; auch digital müssen Ihre Daten geschützt werden. Ein wichtiger Faktor dabei ist die Datensicherheit, welche durch Datenverschlüsselung gewährleistet werden kann. Verschlüsselungssoftware kann Ihnen zusätzliche Hilfe bieten, um sowohl einzelne Dateien als auch Speicherorte abzusichern. Beachten Sie auch, dass insbesondere im Umgang mit sensiblen Daten besondere Vorkehrungen getroffen werden müssen.

      Die Datenverschlüsselung setzt nach Corti et al. (2014, S. 88) auf drei Ebenen an, um unautorisierten Zugriff und ungewollte Änderungen sowie Zerstörung und Offenlegung von Daten zu verhindern:

      Physische Sicherheit

      • Zugang/Zutritt zu Gebäuden beschränken
      • Hardcopy-Material einschließen
      • Sensible Daten nur in Ausnahmefällen transportieren/bewegen

      Netzwerksicherheit

      • Sensible Daten nicht auf externen Servern speichern
      • Firewall auf dem neuesten Stand halten und regelmäßig aktualisieren

      Informations- und Computersicherheit

      • Computer durch Passwörter und Firewalls schützen
      • Überspannungsschutz durch Nutzung von USV (unterbrechungsfreie Stromversorgung) Geräten
      • Dateien durch Passwörter schützen
      • Rechte an Dateien festlegen
      • Zugangsbeschränkte Daten verschlüsseln
      • Vertraulichkeitserklärungen der Datennutzer einholen
      • Keine unverschlüsselte Datenübertragung per Email
      • GoogleDocs/Dropbox etc. sind nicht immer angebracht
      • Falls Daten zerstört werden sollen: richtig zerstören (siehe nächster Abschnitt)
      Tab. 8.2: Drei Ebenen der Datenverschlüsselung
    • 8.4 Datenvernichtung

      Eng mit der Datensicherheit ist auch die Datenvernichtung verknüpft. Wer bereits eine Datenrettung in Anspruch nehmen musste oder selbst durchgeführt hat, weiß, dass simples Löschen der Daten diese nicht endgültig vernichtet. Somit können die Daten von Unbefugten wiederhergestellt werden. Wie zerstört man daher Daten richtig? Zunächst hängt die Beantwortung dieser Frage von der Art des gewählten Speichermediums ab.

      Selbst die Neuformatierung von Festplatten löscht Daten nicht restlos; stattdessen wird die Referenz auf die Datei gelöscht, was sie ohne Nutzung bestimmter Wiederherstellungssoftware lediglich unauffindbar macht. Um Daten daher endgültig zu löschen, müssen diese vor der Formatierung überschrieben und der Datenträger tiefenformatiert werden. Dabei können Ihnen beispielsweise die Programme Eraser, WipeFile oder Permanent Eraser behilflich sein. Soll die Festplatte danach nicht weiter benutzt werden, sollten Sie die Festplatte bei sehr sensiblen Daten über eine Firma vernichten lassen, die sich auf die Vernichtung von Datenträgern spezialisiert hat.

      Der einfachste Weg, USB Sticks zu löschen, ist, diese physisch zu zerstören. Dies gilt auch für externe Festplatten, CDs/DVDs und nicht-digitale Daten. Das Deutsche Institut für Normung (DIN) hat mit der 2012 veröffentlichten DIN 66399 insgesamt drei Schutzklassen und sieben verschiedene Sicherheitsstufen für die Aktenvernichtung abhängig vom jeweiligen Datenträger entwickelt. Die Vorgabe der DIN 66399 sieht vor, dass je höher die Schutzklasse und die Sicherheitsstufe für die Daten ist, die Restpartikelgröße (d. h. die Zerkleinerungsstufe) in Abhängigkeit zur Gesamtgröße des ursprünglichen Datenträgers nach der Aktenvernichtung kleiner werden muss, um sicherzustellen, dass der physische Datenträger nicht mehr zusammengesetzt werden kann. Auch hierfür müssen Maschinen verwendet werden, die in den meisten Fällen nur Firmen besitzen, die sich auf die Vernichtung von Daten spezialisiert haben.

    • 8.5 Backup

      Gegenteilig zu diesen Maßnahmen, mit denen Sie Daten endgültig und sicher löschen, können Daten auch unbeabsichtigt verloren gehen. Um Daten nicht aus Versehen zu löschen oder durch Unfälle zu zerstören, müssen Sie regelmäßig Backups machen.

      Das Erstellen einer Sicherungskopie von Daten sollte immer auf einem Speichermedium erfolgen, welches von der üblicherweise genutzten Infrastruktur getrennt ist. Ein Backup sollte planvoll und strukturiert vorgenommen werden. Somit sollten die Daten möglichst regelmäßig gesichert werden, um im Bedarfsfall eine Datenrekonstruktion möglichst einfach durchführen zu können. Bevor Sie jedoch ein Backup machen, sollten Sie organisatorische Fragen klären:

      • Gibt es bereits laufende Backup-Pläne? Wie sehen diese aus?
      • Wovon soll wie oft ein Backup gemacht werden?
      • Wo sollen die Backups gespeichert werden?
      • Wie sollen die Backups gespeichert werden? (z. B. Beschriftung, Sortierung, Dateiformat)
      • Welche Backup-Tools können helfen?
      • Wie ist der Umgang mit sensiblen Daten?

      Es empfiehlt sich, eine automatisierte Routine zu verwenden. Partielle Daten, an denen derzeit gearbeitet wird, sollten möglichst täglich gesichert werden. Zudem ist es ratsam, diese nicht täglich zu überschreiben, da man so gegebenenfalls Fehler rekonstruieren kann oder auch Änderungen, die fälschlicherweise durchgeführt wurden, rückgängig machen kann. Zusätzlich sollte ein wöchentliches Gesamtbackup erstellt werden. Der Grundsatz des 3-2-1 Backups ist hierbei nützlich (siehe Abbildung 8.1).

      3-2-1 Backup Regel
      Abb. 8.1: Die 3-2-1 Backup-Regel (CC-BY SA, Andre Pietsch)

      Unter einem dezentralen Aufbewahrungsort versteht man die in Tabelle 8.1 genannten institutionellen sowie externen Speicherorte. Einen institutionellen, dezentralen Aufbewahrungsort sollten Sie hierbei immer bevorzugen.

      Das Backup bzw. die daraus entstehende Datenwiederherstellung sollten zu Beginn sowie in regelmäßigen Abständen überprüft werden. Die meisten Institutionen bieten eine automatische Lösung an, bei der alle Daten ausschließlich auf von den Hochschulrechenzentren der Universitäten bereitgestellten gesicherten Laufwerken abgelegt werden. Durch diese Professionalisierung wird erreicht, dass die Sicherungen nicht vergessen werden können und die Konfiguration des Backup-Systems nicht einzeln zu erfolgen braucht.

      Zusätzlich können Sie Ihre Backups nach der Erstellung über Prüfsummen kontrollieren. Dafür müssen Sie allerdings nach Erstellung der Backupdateien für diese Dateien MD5- oder SHA1-Prüfsummen erstellen lassen. Dabei hilft Ihnen das von Microsoft zur Verfügung gestellte Dienstprogramm „File Checksum Integrity Verifier“, kurz FCIV. Eine Anleitung, wie Sie dieses verwenden, finden Sie hier. Wenn die Prüfsummen sowohl Ihrer Originaldaten als auch des Backups identisch sind, sind es auch die Daten. So können Sie die Integrität Ihrer Daten prüfen und stellen fest, ob eventuell Fehler beim Kopieren der Daten aufgetreten sind. Sollten Sie übrigens auch Softwarecode veröffentlichen, ist es im Programmierbereich üblich, die Checksumme der Installationsdatei („*.exe“) beim Download mit anzugeben, damit interessierte Nutzer vorher überprüfen können, ob es sich um eine originale Installationsdatei handelt und nicht womöglich um eine mit Viren infizierte Datei.

    • 8.6 Datenarchivierung

      Neben der Datenspeicherung steht die Datenarchivierung als weiterer notwendiger Schritt im Forschungsdatenlebenszyklus. Während die Datenspeicherung vor allem die Speicherung der Daten während des laufenden Arbeitsprozesses in der Projektlaufzeit umfasst, wie sie in den bisherigen Abschnitten dieses Kapitels behandelt wurden, beschäftigt sich die Datenarchivierung damit, wie die Daten nach Abschluss des Projekts so nachnutzbar wie möglich zur Verfügung gestellt werden können. Oft wird begrifflich nochmals zwischen der Datenaufbewahrung in einem Repositorium und der Datenarchivierung im Sinne einer Langzeitarchivierung (kurz „LZA“) unterschieden. An vielen Stellen, so auch in den „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ der DFG aus dem Jahr 2019 („Leitlinie 17: Archivierung“) werden beide Begriffe jedoch äquivalent gebraucht. Wenn im Folgenden von Aufbewahrung oder Datenaufbewahrung die Rede ist, ist die Aufbewahrung von Daten in einem Forschungsdatenrepositorium gemeint. Wird jedoch von Datenarchivierung gesprochen, ist damit eine Langzeitarchivierung intendiert. Die Unterschiede beider Varianten sind Thema dieses Abschnitts.

      Mit der Datenaufbewahrung in einem Forschungsdatenrepositorium geht im Grunde meist eine Veröffentlichung der produzierten Daten einher. Eine solche Veröffentlichung kann und muss im Fall von sensiblen Daten, wie etwa personenbezogenen Daten, auch zugangsbeschränkt geschehen. Gemäß der guten wissenschaftlichen Praxis müssen Repositorien sicherstellen, dass die publizierten Forschungsdaten für mindestens zehn Jahre aufbewahrt und zur Verfügung gestellt werden, anschließend ist die Verfügbarkeit jedoch nicht mehr notwendigerweise gegeben, wird aber dennoch meistens weiter gewährleistet. Sollten Daten nach dieser Mindestaufbewahrungsfrist auf Entscheidung des Betreibers aus dem Repositorium entfernt werden, muss der Verweis auf die Metadaten weiter vorhanden bleiben. Repositorien werden meistens in drei unterschiedliche Arten unterteilt: Institutionelle Repositorien, Fachrepositorien und fachübergreifende bzw. generische Repositorien. Eine vierte eher spezifische Variante sind sogenannte Software-Repositorien, in denen Software bzw. reiner Softwarecode veröffentlicht werden kann. Diese sind üblicherweise auf jeweils eine Programmiersprache ausgelegt (z. B. PyPI für die Programmiersprache „Python“).

      Institutionelle Repositorien umfassen all jene Repositorien, die durch meist staatlich anerkannte Institutionen bereitgestellt werden. Dazu können Universitäten, Museen, Forschungseinrichtungen oder andere Einrichtungen gehören, die ein Interesse daran haben, Forschungsergebnisse oder andere Dokumente von wissenschaftlicher Bedeutung der Öffentlichkeit zur Verfügung zu stellen. Im Rahmen der „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ der DFG (2019) wird offiziell gefordert, dass die Forschungsdaten, die einem wissenschaftlichen Werk zugrunde liegen, mindestens „in der Einrichtung, wo sie entstanden sind, oder in standortübergreifenden Repositorien aufbewahrt“ werden müssen. (DFG 2019, S. 22) Beachten Sie außerdem vor der Veröffentlichung Ihrer Daten die Hinweise in der Forschungsdaten-Leitlinie der Frankfurt UAS und suchen Sie frühzeitig Kontakt zum Forschungsdatenreferenten, um zu besprechen wie und wo Sie die Daten veröffentlichen können, um gemäß der guten wissenschaftlichen Praxis zu handeln. Auch wenn Sie ihre Daten bereits in einem Journal veröffentlicht haben, ist es häufig möglich, diese auch an Ihrer Einrichtung zu veröffentlichen. Fragen Sie dazu beim Verlag an oder schauen Sie in Ihren Vertrag.

      Neben der Veröffentlichung im institutionellen Repositorium können Sie Ihre Daten auch zusätzlich in einem fachspezifischen Repositorium publizieren. Gerade die Veröffentlichung in einem renommierten fachspezifischen Repositorium kann stark zur Steigerung Ihrer wissenschaftlichen Reputation beitragen. Um zu erfahren, ob für Ihren Forschungsbereich ein passendes fachspezifisches Repositorium vorhanden ist, lohnt sich die Suche über den Repositorien-Index „re3data“. 

      Sollte kein passendes Repositorium dabei sein, ist die letzte Möglichkeit die Veröffentlichung in einem großen, fachübergreifenden generischen Repositorium. Eine kostenlose Variante bietet der von der Europäischen Kommission finanzierte Dienst Zenodo. Gebührenpflichtige Dienste zur Veröffentlichung von Daten bieten für den deutschen Raum RADAR und international figshare. Die am häufigsten verwendete Variante stellt im europäischen Raum vermutlich Zenodo dar. Achten Sie bei einer eventuellen Veröffentlichung auf Zenodo darauf, ihre Forschungsdaten auch einer oder mehrerer Communities zuzuordnen, die in gewisser Weise eine Fachspezifik innerhalb dieses generischen Angebots widerspiegeln.

      Unabhängig davon, wo Sie ihre Daten letztendlich veröffentlichen, achten Sie immer darauf zusätzlich zu den Daten auch eine beschreibende "Metadatendatei" mit zu veröffentlichen, in welcher die Daten beschrieben werden und der Kontext der Datenerhebung dargelegt ist (siehe Kapitel 4). Schauen Sie bei der Auswahl Ihres bevorzugten Repositoriums auch darauf, ob dieses in irgendeiner Weise zertifiziert ist (z. B. CoreTrustSeal). Ob ein Repositorium zertifiziert ist, ist bei „re3data“ direkt ersichtlich.

      Je älter Daten werden, desto wahrscheinlicher ist es bei den heutigen sich rasant weiter entwickelnden digitalen Möglichkeiten, dass diese Daten zukünftig womöglich nicht mehr geöffnet, gelesen oder verstanden werden können. Gründe dafür gibt es einige: Es fehlt die benötigte Hardware und/oder Software oder wissenschaftliche Methoden haben sich so stark verändert, dass Daten jetzt auf andere Arten und Weisen mit anderen Parametern erhoben werden. Moderne Rechner und Notebooks verzichten beispielsweise mittlerweile fast immer auf ein CD- oder DVD-Laufwerk, wodurch diese Speichermedien nicht mehr flächendeckend genutzt werden können. Die Langzeitarchivierung zielt daher darauf ab, die langfristige Nutzung von Daten über einen nicht näher bestimmten Zeitraum hinweg über die Grenzen von Medienverschleiß und technischen Neuerungen sicherzustellen. Das umfasst sowohl die Bereitstellung der technischen Infrastruktur als auch organisatorische Maßnahmen. LZA verfolgt dabei den Erhalt der Authentizität, Integrität, Zugänglichkeit und Verständlichkeit der Daten.

      Um eine langfristige Archivierung von Daten zu ermöglichen, ist es wichtig, dass die Daten mit für die LZA relevanten Metainformationen versehen werden wie beispielsweise der verwendeten Erhebungsmethode, Hardware des Systems, mit dem die Daten erhoben wurden, Software, Codierung, Metadatenstandards samt Version, möglicherweise einer Migrationshistorie usw. (siehe Kapitel 4). Darüber hinaus sollten die Datensätze soweit möglich den FAIR-Prinzipien entsprechen (siehe Kapitel 5). Dazu zählt auch, die Daten vorzugsweise in nicht-proprietären, offen dokumentierten Datenformaten abzuspeichern und auf proprietäre Datenformate zu verzichten. Offene Formate müssen seltener migriert werden und zeichnen sich durch eine längere Lebensdauer und höhere Verbreitung aus. Achten Sie außerdem darauf, dass die zu archivierenden Dateien unverschlüsselt, patentfrei und nicht komprimiert sind. Dateiformate können prinzipiell verlustfrei, verlustbehaftet oder sinnhaft konvertiert werden. Eine verlustfreie Konvertierung ist in der Regel vorzuziehen, da so alle Informationen bestehen bleiben. Werden allerdings geringere Dateigrößen bevorzugt, müssen oft Informationsverluste in Kauf genommen werden. Wenn Sie z. B. Audiodateien wie WAV in MP3 konvertieren, gehen durch die Komprimierung Informationen verloren und die Tonqualität verschlechtert sich. Allerdings ergibt sich durch die Umwandlung eine geringere Dateigröße. Die folgende Tabelle gibt einen ersten grundlegenden Überblick darüber, welche Formate für einen bestimmten Datentyp geeignet und welche eher ungeeignet sind:

      Datentyp

      Empfohlene Formate

      weniger geeignete bzw.
      ungeeignete Formate

      Audio

      .wav / .flac

      .mp3

      Computer-aided Design (CAD)

      .dwg / .dxf / .x3d / .x3db / .x3dv

      -

      Datenbanken

      .sql / .xml

      .accdb / .mdb

      Rastergrafiken & Bilder

      .tif (unkomprimiert) / .jp2 / .jpg2 / .png

      .gif / .jpeg / .jpg / .psd

      Statistische Daten

      .por / .csv

      .sav (SPSS)

      Tabellen

      .csv / .tsv / .tab

      .xls / .xlsx / .xlx

      Texte

      .odf / .rtf / .txt / PDF/A

      .docx / .doc / PDF

      Vektorgrafiken

      .svg / .svgz

      .cdr

      Video

      .mp4 / .mkv / .mj2 /
      .avi (unkomprimiert)

      .mov / .wmv

      Tab. 8.3: Empfohlene und nicht empfohlene Datenformate nach Dateityp

      Dabei bedeutet die Auflistung in der Spalte "weniger bzw. ungeeignete Formate" nicht, dass Sie diese Formate auf keinen Fall verwenden können, wenn Sie Ihre Daten langfristig aufbewahren wollen. Es geht vielmehr darum, für Fragen der langfristigen Verfügbarkeit in einem ersten Einstieg sensibilisiert zu werden. Machen Sie sich klar, welches Format welche Vor- und welche Nachteile bietet. Einen erweiterten Überblick finden Sie auf forschungsdaten.info. Wenn Sie sich weiter vertiefen wollen, werden Sie auf der Webseite von NESTOR - dem deutschen Kompetenznetzwerk für die Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen fündig. Unter NESTOR - Thema finden Sie aktuelle Kurzartikel aus der Praxis, so z. B. zu den Formaten .tiff oder .pdf. Wenn Sie diese und weitere Übersichten nebeneinanderlegen, werden Sie feststellen, dass die Empfehlungen zu Dateiformaten voneinander abweichen. Wir verfügen noch nicht über ausreichend Erfahrungen auf diesem Gebiet. Ein weiterer guter Weg ist es, bei Unsicherheiten zu Formaten bei einem - soweit vorhanden - Fachdatenzentrum oder einem Forschungsdatenverbund anzufragen. Wollen Sie Ihre Daten dort ablegen, empfiehlt sich diese Vorgehensweise umso mehr. Sie werden dann möglicherweise feststellen, dass Ihre Daten auch dann genommen werden, wenn das gewählte Datenformat unter dem Aspekt der LZA nicht die erste Wahl ist. Repositorien oder Forschungsdatenzentren arbeiten wissenschaftsnah und versuchen immer auch einen Umgang mit Formaten zu finden, die in den jeweiligen Fachdisziplinen weit verbreitet sind, z. B. mit Exceldateien. Als Beispiel dafür, können Sie sich die Vorgaben des Verbunds Forschungsdaten Bildung anschauen.

      Um ggf. selbst eine Entscheidung treffen zu können, welche Formate für Ihr Vorhaben in Frage kommen, gibt es eine Reihe von Kriterien, die Sie bei der Auswahl beachten sollten (nach Harvey/Weatherburn 2018: 131):

      • Ausmaß der Verbreitung des Datenformats
      • Abhängigkeit von anderen Technologien
      • Öffentliche Zugänglichkeit der Dateiformat-Spezifikationen
      • Transparenz des Dateiformats
      • Metadatenunterstützung
      • Wiederverwendbarkeit/Interoperabilität
      • Robustheit/Komplexität/Rentabilität
      • Stabilität
      • Rechte, die die Datenbewahrung erschweren können

      LZA nutzt zum momentanen Zeitpunkt zwei Strategien zur langfristigen Datenerhaltung: Emulation und Migration. Unter Emulation versteht man, dass auf einem aktuellen, modernen System ein häufig älteres System nachgebildet wird, was in möglichst allen Aspekten das alte System imitiert. Programme, die dies leisten, bezeichnet man als Emulatoren. Ein prominentes Beispiel hierfür ist etwa DOSBox, welches es ermöglicht, auf aktuellen Rechnern ein altes MS DOS-System samt nahezu aller Funktionalitäten abzubilden und somit Software für dieses System zu verwenden, was mit einem aktuelleren System höchstwahrscheinlich nicht mehr möglich ist.

      Als Migration oder Datenmigration bezeichnet man das Überführen von Daten auf ein anderes System oder einen anderen Datenträger. Im Bereich der LZA soll so erreicht werden, dass die Daten auf dem zu übertragenden System weiter ausgelesen und angeschaut werden können. Hierfür ist es notwendig, dass die Daten mit dem Datenträger auf dem sie ursprünglich erhoben wurden, nicht untrennbar verknüpft sind. Denken Sie daran, dass auch Metadaten migriert werden müssen!

      Bei der Wahl eines geeigneten Speicherortes für die Langzeitarchivierung sollten Sie folgende Punkte beachten:

      • Technische Anforderungen – Der Dienstleister sollte eine Strategie zur Daten-konvertierung, Migration und/oder Emulation verfolgen. Darüber hinaus sollte in regelmäßigen Abständen eine Kontrolle der Lesbarkeit der Dateien sowie eine Virenprüfung durchgeführt werden. Alle Schritte sollten dokumentiert werden.

      • Siegel für vertrauenswürdige Langzeitarchive – Für die Beurteilung, ob ein Langzeitarchiv vertrauenswürdig ist, wurden verschiedene Siegel entwickelt z. B. das nestor-Siegel, welches auf Grundlage der DIN 31644 „Kriterien für vertrauenswürdige digitale Langzeitarchive“ entwickelt wurde, ISO 16363 oder das CoreTrustSeal.

      • Kosten – Der Betrieb von Servern ebenso wie die Umsetzung der technischen Standards sind mit Kosten verbunden, daher ist das Angebot mancher Dienstleister kostenpflichtig. Der Preis hängt vor allem von der Datenmenge ab.

      • Zugänglichmachung der Daten – Vor der Wahl des Speicherortes sollte man sich die Frage stellen, ob die Daten zugänglich sein oder nur abgelegt werden sollen.

      • Langlebigkeit des Dienstleisters – Wirtschaftliche und politische Faktoren haben Einfluss auf die Langlebigkeit der Dienstleister

      Zusammenfassend lässt sich folgendes sagen: Die hier aufgelisteten Informationen zur LZA haben für Sie vor allem einen theoretischen Wert und nur einen bedingten Handlungswert. Wenn Sie in einem zertifizierten Repositorium veröffentlichen, sind Sie gut beraten. Achten Sie vor allem darauf, dass bei einer vertrauenswürdigen Einrichtung zu tun und informieren Sie sich bei dieser Einrichtung bereits im Voraus zu Möglichkeiten oder Planungen hinsichtlich einer LZA. Die hier aufgelisteten Aspekte für eine gute LZA können Sie zur Formulierung möglicher Fragen an die Einrichtungen nutzen. Dadurch sollten ausreichende Voraussetzungen für die LZA gegeben sein.

    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.