Résumé de section

  • Herausgeber: HeFDI - Hessische Forschungsdateninfrastrukturen
    Bearbeitungsdauer gesamt (ohne Videos): ca. 2,5 Stunden
    Zuletzt geändert: März 2022

    Kontakt: forschungsdaten@fit.fra-uas.de
  • Herausgeber: HeFDI - Hessische Forschungsdateninfrastrukturen

    Autor*innen (in alphabetischer Reihenfolge): Esther Krähwinkel (Philipps-Universität Marburg), Patrick Langner (Hochschule Fulda), Robert Lipp (Frankfurt University of Applied Sciences), Andre Pietsch (Justus-Liebig-Universität Gießen)

    Review: Wir danken Stefanie Blum und Marion Elzner, Hochschule Geisenheim, für Ihren Input sowie den Kolleginnen und Kollegen des Thüringer Kompetenznetzwerks Forschungsdatenmanagement, der AG Prof. Goesmann, Bioinformatik und Systembiologie, Universität Gießen und Dr. Reinhard Gerhold, Universität Kassel, für ihr wertvolles Feedback.

    Voraussetzungen: Für dieses Lernmodul sind keine Vorkenntnisse erforderlich. Die Kapitel sind thematisch aufeinander aufbauend, können aber auch einzeln bearbeitet werden.

    Zielgruppe: Studierende, Promovierende und Forschende, die einen ersten Einstieg in das Forschungsdatenmanagement suchen.

    Bearbeitungsdauer (mit Videos): 3 Stunden, 15 Minuten
    Bearbeitungsdauer (ohne Videos): 2 Stunden, 10 Minuten

    Lernziel: Nach Abschluss dieser Selbstlerneinheit können Sie die Inhalte und den Sinn von Forschungsdatenmanagement verstehen und umsetzen. Die Lernziele im Einzelnen sind den jeweiligen Kapiteln vorangestellt.

    Lizensierung: Dieses Modul ist lizensiert unter Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) und öffentlich verfügbar unter https://doi.org/10.5281/zenodo.6373595.

    Datenschutz - eingebettete Videos: In diesem Lernmodul sind auf den Folgeseiten Videos von YouTube eingebettet. Beim Aufruf werden durch Google/YouTube Cookies und andere Daten verwendet, verarbeitet und ggf. weitergegeben. Informationen zu Datenschutz und Nutzungsbedingungen des Dienstes finden Sie hier. Die Nutzung des Lernmoduls setzt ein entsprechendes Einverständnis voraus.


  • Quelle: Becker, Henrike, Einwächter, Sophie, Klein, Benedikt, Krähwinkel, Esther, Mehl, Sebastian, Müller, Janine, Werthmüller, Julia. (2019). Lernmodul Forschungsdatenmanagement auf einen Blick – eine Online-Einführung. Zenodo. https://doi.org/10.5281/zenodo.3381956



  • Bearbeitungsdauer: 15 Minuten, 36 Sekunden

    • 1.1 Einführung & Lernziele

      Diese Selbstlerneinheit soll Ihnen einen Eindruck davon vermitteln, wie der Umgang mit Forschungsdaten von Ihnen als Forscher*in am besten gehandhabt wird und welche Vorteile ein gut strukturiertes und organisiertes Forschungsdatenmanagement (FDM) für Sie haben kann.

      Nach Abschluss dieses Kapitels können Sie…

      • …die Begriffe "Forschungsdaten" und "Forschungsdatenmanagement" einordnen und definieren.
      • …die Vorteile eines gut strukturierten FDMs wertschätzen.
      • …die weiteren Inhalte der Selbstlerneinheit überblicken und haben eine Vorstellung davon, welche Aspekte für Sie am relevantesten sind.

    • 1.2 Was sind Forschungsdaten und was ist Forschungsdatenmanagement?

      Gemäß der „Leitlinien zum Umgang mit Forschungsdaten“, die 2015 von der DFG veröffentlicht wurden, zählen zu Forschungsdaten „u. a. Messdaten, Laborwerte, audiovisuelle Informationen, Texte, Surveydaten, Objekte aus Sammlungen oder Proben, die in der wissenschaftlichen Arbeit entstehen, entwickelt oder ausgewertet werden. Methodische Testverfahren, wie Fragebögen, Software und Simulationen können ebenfalls zentrale Ergebnisse wissenschaftlicher Forschung darstellen und sollten daher ebenfalls unter den Begriff Forschungsdaten gefasst werden.“

      Der Umfang an Forschungsdaten erstreckt sich also von den typischen mit Daten agierenden Wissenschaftsdisziplinen wie den Naturwissenschaften und Sozial- sowie Wirtschaftswissenschaften über beispielsweise linguistische Sprachdaten bis hin zu Bildbeschreibungen aus den Kunstwissenschaften usw. (s. Abb. 1.1 & Abb. 1.2)

      Forschungsdaten aus der Chemie
      Abb. 1.1: Forschungsdaten aus der Chemie

      Forschungsdaten aus den Wirtschaftswissenschaften
      Abb. 1.2: Forschungsdaten aus den Wirtschaftswissenschaften

      Der Kosmos an Forschungsdaten in der Wissenschaft ist auch aufgrund sich neu entwickelnder Forschungsmethoden noch nicht vollständig zu überblicken und der Umgang mit diesen birgt oft schon von Disziplin zu Disziplin unterschiedliche Herausforderungen (z. B. Umgang mit personenbezogenen Daten in sozialwissenschaftlichen Umfragen), die von den Forschenden ein strukturiertes, der guten wissenschaftlichen Praxis entsprechendes Forschungsdatenmanagement abverlangen. Der Schwerpunkt liegt dabei vor allem auf dem Umgang mit digitalen Forschungsdaten. Die besondere Herausforderung besteht dabei darin, dass aufgrund der Digitalisierung und Automatisierung von Arbeitsprozessen immer größere und heterogene Datenmengen entstehen, deren sinnvolle und koordinierte Handhabung sehr aufwändig ist. Diese Heterogenität zeichnet sich einerseits durch vielfach unterschiedlich genutzte Dateiformate (.txt, .docx, .pdf, .ods usw.) und andererseits durch unterschiedliche Darstellungsformen mit verschiedenen Abstraktionsebenen (Grafiken, 3D-Modelle, Simulationen, Umfragedaten usw.) aus.

      Konventionelle wissenschaftliche Verfahren gewährleisten oft noch keine ausreichende Nutzung der großen Datenmengen. Weiterhin gibt es für den Umgang mit (digitalen) Forschungsdaten bisher nur wenige übergeordnete Standards. Die Handhabung ist vor allem durch individuelle oder fachspezifische Praktiken geprägt. Datenverlust oder die Nichtnachvollziehbarkeit von Daten sind gerade nach Projektbeendigung keine Seltenheit. Forschungsdaten können dann bspw. aufgrund fehlender Dokumentation der Arbeitsschritte oder veralteter Formate für weitere Forschungszwecke nur eingeschränkt nachgenutzt oder reproduziert werden (vgl. Büttner, Hobohm und Müller 2011: 13 ff.).

      Genau an dieser Problematik setzt Forschungsdatenmanagement an und soll dem Umgang mit Forschungsdaten zukunftsfähige Chancen bieten. Forschungsdatenmanagement, kurz FDM, umfasst den gesamten Umgang mit Forschungsdaten von der Planung, der Erhebung über Verarbeitung und Qualitätssicherung bis hin zur Aufbewahrung und Zugänglichmachung bzw. Publikation. Alle Schritte des FDM sollten dokumentiert werden und sich dabei an den aktuellen fachspezifischen Standards und Gepflogenheiten der einzelnen Wissenschaftsdisziplinen orientieren. Viele wissenschaftliche Einrichtungen haben mittlerweile eine Forschungsdaten-Leitlinie veröffentlicht, die den Umgang mit Forschungsdaten in einem ersten Schritt regeln soll. Auch die Frankfurt UAS hat eine solche Forschungsdaten-Policy verabschiedet.

    • 1.3 Vorteile eines guten Forschungsdatenmanagements

      Doch welche Vorteile ergeben sich für Sie eigentlich durch ein gutes Forschungsdatenmanagement? Abbildung 1.3 schlüsselt in einem ersten Schritt die verschiedenen Ziele, die durch FDM verfolgt werden können, für verschiedene Dimensionen auf.

      Ziele des Forschungsdatenmanagements
      Abb. 1.3: Ziele des FDM für verschiedene Dimensionen

      Die Ziele werden durch unterschiedliche Dimensionen (interner/externer Kontext; aktive/seltene Nutzung der Daten) beeinflusst. Forschungsdatenmanagement soll die Forschenden in Umgang und Nachvollziehbarkeit ihrer Daten selbst unterstützen (die zwei linken Quadranten) sowie den Ansprüchen der Öffentlichkeit genügen (die zwei rechten Quadranten). Weiterhin soll es dafür sorgen, dass generierte Daten aktiv zur weiteren Forschung genutzt werden können (obere Quadranten), sowie zur langfristigen Qualitätssicherung in Form einer Dokumentation des Forschungsprozesses (untere Quadranten) (vgl. Broschard und Wellenkamp 2019: Abschnitt Vorteile von Forschungsdatenmanagement). 

      Forschungsdatenmanagement soll durch geeignete Dokumentation des Forschungsprozesses zur langfristigen Nachvollziehbarkeit und Reproduzierbarkeit der Daten führen und Datenverlust minimieren. Die Transparenz der Datenerhebung und -verarbeitung wird so gefördert und eine Validierung der Forschungsergebnisse z. B. im Falle von Anschuldigungen wird des Weiteren erleichtert. Auf lange Sicht gesehen, werden bei erfolgreichem Forschungsdatenmanagement Zeit und Ressourcen gespart. Gründe dafür sind beispielsweise eine bessere Zusammenarbeit (z. B. durch gemeinsame Standards, Nutzung gemeinsamer Plattformen usw.), die Vermeidung von Fehlern und eine Absicherung gegen Datenverlust.

      Neben diesen praktischen Vorteilen während der Forschung bringt eine Publikation gut dokumentierte und nachnutzbarer Datensätze eine Steigerung der Sichtbarkeit und Reputation für Sie als Forscher mit sich, da zunehmend nicht nur wissenschaftliche Fachartikel, sondern auch Datenpublikationen mit immer weiter steigender Tendenz gewürdigt werden.

    • 1.4 Forschungsdaten und die gute wissenschaftliche Praxis

      Die „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ der DFG (häufig als DFG-Kodex bezeichnet) bilden für die Wissenschaft eine gemeinsame Basis, indem sie Anforderungen an Wissenschaftlichkeit und das gemeinsame wissenschaftliche Arbeiten stellen. Dazu gehören auch Anforderungen an die Arbeit mit Forschungsdaten. Der DFG-Kodex besteht aus insgesamt neunzehn Leitlinien, wobei sich die ersten sechs Leitlinien mit wissenschaftlichen Prinzipien, die Leitlinien 7 bis 17 mit dem eigentlichen Forschungsprozess und die letzten beiden Leitlinien mit der Nichtbeachtung der guten wissenschaftlichen Praxis beschäftigen.

      Teil der Ausführungen an dieser Stelle sind vor allem die Leitlinien, die einen direkten Bezug zu Forschungsdaten haben. In Leitlinie 7, „Phasenübergreifende Qualitätssicherung“, heißt es in Bezug auf Forschungsdaten:

      „Die Herkunft von im Forschungsprozess verwendeten Daten, Organismen, Materialien und Software wird kenntlich gemacht und die Nachnutzung belegt; die Originalquellen werden zitiert. Art und Umfang von im Forschungsprozess entstehenden Forschungsdaten werden beschrieben. Der Umgang mit ihnen wird, entsprechend den Vorgaben im betroffenen Fach, ausgestaltet. Der Quellcode von öffentlich zugänglicher Software muss persistent, zitierbar und dokumentiert sein. Dass Ergebnisse beziehungsweise Erkenntnisse durch andere Wissenschaftlerinnen und Wissenschaftler repliziert beziehungsweise bestätigt werden können (beispielsweise mittels einer ausführlichen Beschreibung von Materialien und Methoden), ist – abhängig von dem betroffenen Fachgebiet – essenzieller Bestandteil der Qualitätssicherung.“ (DFG 2019, 14f, Hervorhebungen durch den Autor)

      Forschungsdaten und darin eingeschlossen auch der dazugehörigen Forschungssoftware wird im Rahmen der guten wissenschaftlichen Praxis ein hoher Wert im Hinblick auf die Qualitätssicherung von Forschung zugeschrieben. Achten Sie daher darauf, dass Sie alle Arbeitsschritte so dokumentieren, dass andere Wissenschaftler eine Möglichkeit haben, Ihre Ergebnisse zu überprüfen. Dazu gehört es auch, fremde (Daten)quellen anzugeben, mit denen Sie Ihre eigenen Daten vielleicht erweitert haben.

      Leitlinie 10, „Rechtliche und ethische Rahmenbedingungen, Nutzungsrechte“, weist neben dem verantwortungsvollen Umgang mit Forschungsdaten u. a. daraufhin, dass zu den rechtlichen Rahmenbedingungen eines Forschungsvorhabens auch „dokumentierte Vereinbarungen über die Nutzungsrechte an aus ihm hervorgehenden Forschungsdaten und

      Forschungsergebnissen“ zählen. (DFG 2019, 16) Für Sie als Forschende heißt das, diese Vereinbarungen einzuholen und die Nutzungsrechte in den Metadatenbeschreibungen der Daten für Nachnutzende offenzulegen.

      In Leitlinie 12, „Dokumentation“, fordert die DFG, dass „alle für das Zustandekommen eines Forschungsergebnisses relevanten Informationen so nachvollziehbar [dokumentiert werden], wie dies im betroffenen Fachgebiet erforderlich und angemessen ist, um das Ergebnis überprüfen und bewerten zu können.“ (DFG 2019, 17f) Um diese Nachvollziehbarkeit zu gewährleisten, ist es u. a. notwendig, dass Informationen über verwendete und über im Projektzeitraum entstehende Forschungsdaten gegeben werden, die für Dritte in einer verständlichen Form offen dargelegt sind.

      Leitlinie 13, „Herstellung von öffentlichem Zugang zu Forschungsergebnissen“, fordert den Weg der Forschung hin zu Open Access, auch in Bezug auf die verwendeten Forschungsdaten. „Aus Gründen der Nachvollziehbarkeit, Anschlussfähigkeit der Forschung und Nachnutzbarkeit hinterlegen Wissenschaftlerinnen und Wissenschaftler, wann immer möglich, die der Publikation zugrundeliegenden Forschungsdaten und zentralen Materialien – den FAIR-Prinzipien („Findable, Accessible, Interoperable, Re-Usable“) folgend – zugänglich in anerkannten Archiven und Repositorien.“ (DFG 2019, 19) Die DFG weist allerdings auch ausdrücklich darauf hin, dass es in manchen Fällen auch sein kann, dass eine Open Access-Publikation der Daten nicht möglich ist (z. B. im Falle von Patentrechten Dritter). Es sollte mit Blick auf Open Access daher immer folgender Grundsatz gelten: So offen wie möglich, so geschlossen wie nötig.

      Die letzte Leitlinie, die einen Bezug zu Forschungsdaten aufweist, ist Leitlinie 17, „Archivierung“. Diese fordert, dass bei der Veröffentlichung der Forschungsergebnisse, die der Publikation zugrundeliegenden Forschungsdaten „in der Regel für einen Zeitraum von zehn Jahren zugänglich und nachvollziehbar in der Einrichtung, wo sie entstanden sind, oder in standortübergreifenden Repositorien aufbewahrt“ werden. (DFG 2019, 22) Informieren Sie sich bereits vor Beginn eines Forschungsprojekts beim Forschungsdatenreferat der [Name der Hochschule] nach Möglichkeiten zur Archivierung. Vor allem, wenn es sich um ein Projekt mit sehr hohem Datenaufkommen handelt, können ggf. Gelder mitbeantragt werden, um die nötige Speicherinfrastruktur für die Archivierung sicherzustellen.

      Falls Sie weitere Informationen zur guten wissenschaftlichen Praxis benötigen, lohnt sich der Besuch der Webseite Ombudsman für die Wissenschaft, einem „von der DFG eingesetzten Gremium, das allen Wissenschaftlerinnen und Wissenschaftlern in Deutschland bei Fragen und Konflikten im Bereich guter wissenschaftlicher Praxis (GWP) bzw. wissenschaftlicher Integrität zur Seite steht.“ Hier finden Sie weitere Literatur, die sich speziell mit dem Umgang mit Forschungsdaten nach guter wissenschaftlicher Praxis beschäftigt. Unter dieser Adresse finden Sie Verweise auf internationale Literatur zu sogenannten Codes of Conduct in der Wissenschaft. Dieser Artikel beschäftigt sich mit der Frage nach Kooperationen und der Gewährung eines Datenzugangs nach Abschluss eines Drittmittelprojekts, wenn sich die Forschenden womöglich nicht mehr an der Institution befinden, an der sie diese Daten erhoben haben.

      Die Leitlinien der Frankfurt UAS zur Sicherung guter wissenschaftlicher Praxis decken sich im Wesentlichen mit den von der DFG verfassten Leitlinien.

    • 1.5 Aufbau dieser Selbstlerneinheit zum FDM

      Ziel eines guten Forschungsdatenmanagements ist es, die Forschungsdaten für eine möglichst lange Zeit, also weit über die Projektdauer hinaus, verfügbar und für andere nachnutzbar zu halten. Daher wird im Kontext von Forschungsdatenmanagement auch häufig von der Lebensdauer der Daten und damit verbunden von einem Forschungsdatenlebenszyklus gesprochen. Was es damit auf sich hat und welche Aufgaben im FDM anfallen können wird anhand des Forschungsdatenlebenszyklus verdeutlicht, der in Kapitel 2 behandelt wird.

      Ist es dann endlich soweit und Sie möchten ein eigenes Projekt in Angriff nehmen, ist es aufgrund der Anforderungen der großen Forschungsförderer (insb. DFG, BMBF und EU) mittlerweile häufig notwendig, dass Sie als Forschende einen Datenmanagementplan erstellen, der den Umgang der Forschungsdaten während der gesamten Projektlaufzeit umfassend beschreibt. Kapitel 3 wird Ihnen aufzeigen, wie so ein Datenmanagementplan aussehen kann und was Sie beachten sollten.

      Geht es dann tatsächlich an die Erhebung und Verarbeitung der Daten und wollen Sie die Daten für nachträgliche Forschung nutzbar machen, sollten Sie die Forschungsdaten mit Metadaten versehen, die auch Nicht-Beteiligten des Projekts ein umfassendes Verständnis der Daten liefern. Wollen Sie die Daten für eine große fachspezifische Community verfügbar machen, sollte auch die Nutzung von sogenannten Metadatenstandards einbezogen werden. Kapitel 4 wird Ihnen einen Überblick über den Nutzen von Metadaten und Metadatenstandards gewähren.

      Kapitel 5 behandelt die FAIR-Prinzipien, die einen Qualitätsstandard formulieren, um Daten auffindbar, zugänglich, interoperabel und wiederverwendbar zu machen. Auch wenn diese Entwicklung noch vergleichsweise jung ist, müssen Forschungsdaten sich mehr und mehr an diesen Kriterien messen lassen. Neben den eher technisch geprägten FAIR-Prinzipien werden auch die CARE-Prinzipien vorgestellt, welche wiederum die ethischen Anforderungen eines professionellen Umgangs mit Forschungsdaten beinhalten.

      Damit Ihre Daten für andere Forschende eine nützliche Ressource darstellen, müssen sie einen gewissen qualitativen Standard erreichen. Welche Möglichkeiten Sie haben, die Qualität Ihrer Daten zu erhöhen und auf was Sie dabei achten sollten, wird Ihnen in Kapitel 6 vorgestellt.

      Kapitel 7 gibt Ihnen Hilfestellungen dazu, wie Sie Ihre Daten während des Forschungsprojekts besser organisieren können. Dazu zählt einerseits die Nutzung eines Versionierungskonzepts, um sowohl alte als auch neue Daten direkt erkennen und miteinander vergleichen zu können, andererseits aber auch das Erstellen von bestimmten Ordnerstrukturen oder die Verwendung einer einheitlichen Benennung von Dateien und Forschungsdaten.

      Nach der Erhebung von Daten folgt in der Regel die Speicherung dieser Daten auf einem Datenträger, damit Sie diese später wieder abrufen und nutzen können. Außerdem sollten die Daten gemäß guter wissenschaftlicher Praxis nach Abschluss der Forschung irgendwo so aufbewahrt werden, dass andere Forschende Zugriff haben und die Daten nachnutzen können. Auf was Sie dabei achten sollten und welche Unterstützung Ihnen die Frankfurt UAS bietet, ist Thema von Kapitel 8.

      Oft hängen mit der Verarbeitung von Forschungsdaten und der nachträglichen Veröffentlichung auch rechtliche Fragen zusammen. Kapitel 9 gibt einen Überblick darüber, welche rechtlichen Besonderheiten Sie beim Umgang mit Forschungsdaten beachten müssen und wie sie damit umgehen können. Die Ausführungen dieses Kapitels sind allerdings rein informativer Natur und haben keine Rechtsverbindlichkeit. Bei akuten rechtlichen Fragen hinsichtlich der Erhebung oder Veröffentlichung von Daten sollten Sie daher zusätzlich immer noch die Rechtsberatung und/oder den Datenschutzbeauftragten der Frankfurt UAS (dsb@fra-uas.de) miteinbeziehen.

    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.

  • Bearbeitungsdauer: 9 Minuten, 45 Sekunden

    • 2.1 Einführung & Lernziele

      Erfolgreiches Forschungsdatenmanagement betrifft den gesamten Lebenszyklus von Forschungsdaten. Das folgende Kapitel gibt Ihnen einen Überblick über die einzelnen Phasen in diesem Zyklus und hilft Ihnen zu verstehen, welche Maßnahmen des Forschungsdatenmanagements in welcher Phase sinnvoll sind.

      Nach Abschluss dieses Kapitels können Sie...

      • ...den Forschungsdatenlebenszyklus beschreiben
      • ...die einzelnen Schritte innerhalb des Forschungsdatenlebenszyklus benennen und skizzieren
      • ...den Datenverarbeitungsprozess während des gesamten Zeitraums Ihres Projekts besser verstehen

    • 2.2 Der Forschungsdatenlebenszyklus

      Der Forschungsdatenlebenszyklus

      Abb. 2.1: Der Forschungsdaten Lebenszyklus (angelehnt an das DCC Curation Lifecycle Model)

      Der Forschungsdatenlebenszyklus ist eine Visualisierung des Forschungsprozesses, bei der speziell die Rolle der Daten in den Blick genommen wird. Er zeigt, dass ein professioneller Umgang mit Forschungsdaten mehr beinhaltet als nur Erhebung und Analyse. Als Forscher*in lohnt es sich, in Entscheidungen immer alle Phasen mitzudenken und sich schon frühzeitig zu informieren, welche Tools und Möglichkeiten es gibt, um Ihre Praxis im Umgang mit Forschungsdaten zu optimieren.

    • 2.3 Einzelne Schritte im Forschungsdatenlebenszyklus

      Im Folgenden werden die einzelnen Phasen näher betrachtet und es wird beschrieben, was Sie mit Blick auf das Forschungsdatenmanagement im Einzelnen tun können.

      1. Planung

      Planung

      “Wer scheitert zu planen, der plant zu scheitern.” - Benjamin Franklin

      Nur mit guter Planung können auch gute Ergebnisse erzielt werden. Dies erfordert reifliche Überlegung, Absprachen und Recherchen. In Bezug auf das Forschungsdatenmanagement verlangen viele Forschungsförderer bereits bei der Antragsstellung einen sogenannten Datenmanagementplan (siehe Kapitel 3). Doch auch ohne explizite Vorgaben lohnt es sich, bereits im Vorfeld genau schriftlich festzuhalten, wie mit den Daten umgegangen werden soll. Das schafft Verbindlichkeit und Einheitlichkeit (insb. bei Projekten mit mehreren Beteiligten) und kann als Nachschlagewerk, Checkliste und Dokumentation dienen.

      Insgesamt können für die Planung folgende Aspekte relevant sein:

      • Untersuchungsdesign festlegen
      • Projektteam zusammenstellen und Rollen klären
      • Zeitplan aufstellen
      • Datenmanagement planen (Formate, Speicherorte, Dateibenennung, kollaborative Plattformen, etc.)
      • bereits existierende Literatur und Daten sichten
      • ggf. Nachnutzung vorhandener Daten
      • Urheberschaft und Datenbesitz klären
      • Zugriffsmöglichkeiten und -bedingungen abstimmen

      2. Erhebung

      Erhebung

      Die Datenerhebung kann mitunter einen erheblichen Teil der Forschungsarbeiten ausmachen. Zudem ziehen sich Fehler in dieser Phase durch den gesamten weiteren Forschungsprozess und führen im schlimmsten Fall unbemerkt zu falschen Ergebnissen. Umso wichtiger ist es, bei der Erhebung besondere Sorgfalt walten zu lassen. Neben den eigentlichen Daten betrifft dies vor allem die Dokumentation der durchgeführten Forschungsarbeiten sowie eine (möglichst standardisierte) Erfassung von Metadaten. Letzteres sind strukturierte, weiterführende Informationen über Ihre Daten, welche in Kapitel 4 näher beschrieben werden.

      Insgesamt sollte die Datenerhebung folgende Aspekte umfassen:

      • Durchführung der Experimente, Beobachtungen, Messungen, Simulationen etc.
      • Erzeugung von digitalen Rohdaten (z. B. durch Digitalisieren oder Transkribieren) 
      • Speicherung der Daten in einem einheitlichen Format
      • Sicherung (Backup) und Verwaltung der Daten
      • Erfassung und Erstellung von Metadaten
      • Dokumentation der Datenerhebung

      3. Verarbeitung / Analyse

      Verarbeitung und Analyse

      Bei der Analyse Ihrer Daten kennen Sie sich am besten aus. Hierbei ist es wichtig, dass Sie die in Ihrem Bereich üblichen Standards und Methoden anwenden und diese auch dokumentieren.

      Für Sie selbst und vor allem in der Zusammenarbeit mit anderen ist es wichtig, dass Sie ein System der Dateibenennung, Versionierung und Datenorganisation haben. Als Unterstützungsleistung können Kollaborationsplattformen dienen. Weitere Informationen hierzu erhalten Sie in den Kapiteln 6 und 7.

      Insgesamt können Sie bei der Datenverarbeitung und -analyse folgende Aspekte berücksichtigen:

      • Daten prüfen, validieren, bereinigen (Qualitätssicherung)
      • Daten ableiten, aggregieren, harmonisieren
      • Fachspezifische Standards nutzen (z. B. hinsichtlich Methoden und Dateiformaten)
      • Nutzung der Daten in wissenschaftlichen Publikationen vorbereiten
      • Datenverarbeitung dokumentieren (zum späteren Verständnis)
      • Kooperationsplattformen zum Datenaustausch mit (Fach-)Kolleg*innen nutzen
      • Analysen durchführen
      • Daten interpretieren

      4. Archivierung

      Archivierung

      Im Kodex zur "Sicherung guter wissenschaftlicher Praxis" (2019) der Deutschen Forschungsgemeinschaft beschreibt Leitlinie 17, dass "[Rohdaten] in der Regel für einen Zeitraum von zehn Jahren zugänglich und nachvollziehbar in der Einrichtung, wo sie entstanden sind, oder in standortübergreifenden Repositorien aufbewahrt" werden sollen. Dies dient der wissenschaftlichen Qualitätssicherung und ermöglicht die langfristige Überprüfbarkeit wissenschaftlicher Erkenntnisse. Zudem können die Daten ggf. von anderen Wissenschaftler*innen nachgenutzt werden.

      Um eine tatsächliche Nachnutzung zu ermöglichen, müssen jedoch einige Voraussetzungen erfüllt sein:

      • Verständlichkeit
      • langlebige, am besten nicht-proprietäre (d. h. kostenlos und Open Source) Dateiformate 
      • langlebige Speichermedien 
      • Auffindbarkeit

      Es bietet sich daher an, auf professionelle Archivierungsdienste zurückzugreifen. Was Sie in Bezug auf die Archivierung Ihrer Forschungsdaten noch beachten sollten, lernen Sie in Kapitel 8.


      5. Zugang / Veröffentlichung

      Zugang und Veröffentlichung

      Neben der (Text-)Publikation in wissenschaftlichen Zeitschriften werden auch die Daten, auf denen sie basieren, immer gefragter. Viele Forschungsförderer und Journals verlangen mittlerweile sogar eine explizite Datenpublikation. Dadurch kann zusätzlich eine Qualitätssicherung stattfinden und, wenn andere Forschende mit Ihren Daten arbeiten, erhalten Sie durch Zitationen einen Reputationsgewinn.

      Grundsätzlich gibt es drei Arten der Veröffentlichung von Forschungsdaten (Biernacka et al., 2018):

      1. Als Beigabe zu einem wissenschaftlichen Fachartikel (= data supplement)
      2. Als eigenständige Veröffentlichung in einem Repositorium (= langfristiger Speicherort für Daten)
      3. Als Artikel in einem Data Journal:

        Dies sind (in der Regel) peer-reviewte Paper, die Datensätze mit hohem Wiederverwendungswert vorstellen und näher beschreiben. Die Daten selbst sind meist in einem Forschungsdatenrepositorium veröffentlicht.

      Für die Suche nach einem geeigneten Repositorium eignet sich das Portal https://www.re3data.org/. Wichtig ist, dass das gewählte Repositorium die FAIR-Prinzipien für Forschungsdaten erfüllt (forschungsdaten.org 2018). Weitere Informationen hierzu finden Sie in Kapitel 5.


      6. Nachnutzung

      Nachnutzung

      Bei der Weitergabe und Veröffentlichung von Forschungsdaten sollten Sie darauf achten, dass diese auch tatsächlich nachgenutzt werden können. Dies eröffnet vielfältige Möglichkeiten:

      • weitere Untersuchungen mit vorhandenen Daten (Sekundärdatenanalyse)
      • Überprüfung von Ergebnissen (Replikation, Qualitätssicherung)
      • Verknüpfung mit anderen Daten (Record Linkage)
      • Nutzung in der praxisbezogenen Lehre

      Voraussetzung für die Nachnutzung ist die Vergabe einer entsprechenden Nutzungslizenz. Häufig werden dabei Creative Commons Lizenzen verwendet. Im Geiste von Open Science sollten diese möglichst offen gewählt werden.

      Überblick über CC-Lizenzen

      Abb. 2.2: Überblick über Creative Commons Lizenzen, Quelle: Apel et al. 2017, S. 57

      Des Weiteren ist es wichtig, dass die Daten eine gute Qualität (vollständig, fehlerfrei, bereinigt, lückenlos) aufweisen und hinreichend dokumentiert sind. Zudem spielen Dateiformate eine wichtige Rolle. Diese sollten möglichst weit verbreitet und nicht-proprietär sein. Ggf. kann auch eine doppelte Ablage der Daten (einmal im Original- und einmal in einem offenen Format) sinnvoll sein. Eine Übersicht über geeignete Dateiformate finden Sie beispielsweise bei forschungsdaten.info.

      Damit Daten langfristig gefunden und korrekt zitiert werden können, bietet sich die Verwendung von Persistenten Identifikatoren (PID) an. Sie verweisen dauerhaft auf einen bestimmten Inhalt (z. B. Datensatz) und eignen sich somit hervorragend für Zitationen. Ein Weblink kann sich ändern, ein PID bleibt immer gleich. Zwei Arten von PIDs können unterschieden werden:

      1. Identifier für digitale Objekte, z. B.
        DOI = Digital Object Identifier
        URN = Uniform Resource Name
      2. Identifier für Personen (eindeutige wissenschaftliche Identität), z. B.
        ORCID = Open Researcher Contributor Identification
        ResearcherID
      Repositorien und Journals vergeben automatisch entsprechende Identifikatoren für die dort eingereichten Daten/Beiträge. Besitzen Sie zudem einen Personenidentifier (wie bspw. ORCID), können Ihre Werke automatisch mit Ihrem Profil verknüpft werden und Sie bekommen bei jeder Nachnutzung die Zitation zugeschrieben.
    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.

  • Bearbeitungsdauer: 11 Minuten, 12 Sekunde
    Bearbeitungsdauer (ohne Video): 5 Minuten, 53 Sekunden

    • 3.1 Einführung & Lernziele

      Bevor Sie mit Ihrem Forschungsvorhaben starten, sollten Sie sich einmal grundlegend damit auseinandersetzen, welche Art von Daten Ihr Projekt hervorbringt und wie Sie mit diesen umgehen wollen. Dabei sollten Sie unbedingt auch über den Abschluss Ihrer Forschung hinaus denken (siehe Kapitel 8). Die Ergebnisse Ihrer Überlegungen halten Sie in einem Datenmanagementplan (kurz DMP) fest. Ein DMP hilft Ihnen dabei, langfristig das Beste aus Ihren Daten herauszuholen. Das wissen auch die Drittmittelgeber und verlangen häufig einen DMP.

      Nach Abschluss dieses Kapitels können Sie...

      • ...erklären, was ein DMP ist
      • ...benennen, welche Informationen ein DMP enthält
      • ...den Nutzen erkennen, den Sie aus einem DMP ziehen
      • ...Tools finden, die Ihnen beim Erstellen eines DMP helfen

      Einen guten ersten Überblick über Datenmanagementpläne bietet dieses Video der RWTH Aachen.
    • 3.2 Nutzen eines Datenmanagementplans

      Insgesamt sparen Sie durch den DMP Zeit und vermeiden Datenverluste. Denn dadurch, dass Sie sich im Vorfeld Gedanken machen, wie die Daten verarbeitet, gespeichert und abgelegt werden sollen, kommt es seltener vor, dass Daten neu organisiert werden müssen. Ist beispielsweise schon während der Datenerhebung klar, wie die Daten später archiviert werden sollen, können sie gleich so formatiert und gespeichert werden, dass die Übertragung in das spätere Archiv möglichst einfach ist (siehe Kapitel 7 und Kapitel 8).

      Auch die Suche wird mit gut gepflegten und annotierten (= mit Metadaten angereicherten) Daten einfacher (siehe Kapitel 4). Das gilt sowohl für Datengeber*innen, als auch für spätere Nachnutzer*innen. Die Verfügbarmachung von Forschungsdaten über ein Forschungsprojekt hinaus erlaubt es zukünftigen Forschenden und Forschungsgruppen, diese Daten abzurufen, wenn sie für die Forschung wieder an Relevanz gewonnen haben.

      Hinzu kommt, dass bereits heute viele Drittmittelgeber einen DMP als Teil des Forschungsantrags fordern. Beispiele für Richtlinien von Forschungsförderern:

    • 3.3 Was ist ein Datenmanagementplan?

      Ein Datenmanagementplan (DMP) bezeichnet ein Dokument das für alle Phasen im Lebenszyklus der Daten beschreibt, welche Tätigkeiten durchzuführen sind und wie diese umgesetzt werden sollen, damit die Daten verfügbar, nutzbar und nachvollziehbar (verständlich) bleiben. Natürlich gehören hierzu auch grundlegende Informationen wie Projektname, Drittmittelgeber, Projektpartner, etc.

      Der DMP hält also fest, wie während und nach einem Forschungsprojekt mit den entstehenden Forschungsdaten umgegangen wird. Um einen aussagekräftigen DMP zu erstellen, müssen Sie sich strukturiert mit Fragen des Datenmanagements, der Metadaten, des Datenerhalts und der Datenanalyse auseinandersetzen.

      Sinnvollerweise erstellt man den DMP bevor man mit dem Sammeln der Daten beginnt, denn er bildet die Grundlage für Entscheidungen, die z. B. die Datenspeicherung, -sicherung und -verarbeitung betreffen. Dennoch handelt es sich bei einem DMP nicht um ein statisches sondern ein lebendes Dokument, das während der Projektlaufzeit immer wieder angepasst werden kann.

    • 3.4 Was gehört zu einem Datenmanagementplan?

      Der DMP enthält Informationen über die Daten, das Datenformat, wie mit den Daten umgegangen wird und wie die Daten zu interpretieren sind. Um zu entscheiden, welche Aspekte mit aufgeführt werden sollen, können beispielsweise folgende Fragen hilfreich sein:

      • Welche Daten entstehen?
      • Wie und wann werden die Daten erhoben?
      • Wie werden die Daten weiterverarbeitet?
      • In welchem Format werden die Daten abgelegt und warum wurde dieses Format gewählt?
      • Werden Standards zur Dateibenennung benutzt?
      • Wie wird die Qualität der Daten sichergestellt? Das bezieht sich sowohl auf die Erhebung als auch auf die Analyse und die Verarbeitung
      • Sollen bereits existierende Daten genutzt werden? Wenn ja, wo kommen diese her? Wie werden existierende und neu erhobene Daten kombiniert und in welcher Beziehung stehen sie?
      • Wie werden die Daten während des Projekts gemanagt? Dies betrifft bspw. Versionierungen, Backups, den Datenschutz und die Datensicherheit
      • Wer ist für das Datenmanagement verantwortlich?
      • Gibt es eine Verpflichtungen, z. B. durch Drittmittelgeber oder andere Institutionen, bezüglich des Teilens der erstellten Daten? (Hier spielen auch rechtliche Anforderungen eine Rolle.)
      • Wie sollen die Forschungsdaten geteilt werden und ab wann und wie lang werden sie verfügbar sein?
      • Welche Kosten entstehen durch FDM (dazu zählen z. B. Personalkosten, Hard- und Softwarekosten, evtl. Kosten für ein Repositorium) und wie werden diese Kosten gedeckt? (Weitere Informationen zu den Kosten des FDM finden Sie unter https://www.forschungsdaten.info/themen/informieren-und-planen/fdm-budgetplanung)
      • Welche ethischen und datenschutzrechtlichen Fragen müssen bedacht werden?
      • Gibt es aus politischen, kommerziellen oder aus Patent-Gründen ein Embargo?
      • Wie sollen die Daten in der Zukunft genutzt werden?
      • Auf welche Art sollen die Daten zitiert werden? Können die Daten durch einen persistenten Identifier eindeutig und dauerhaft auffindbar gemacht werden? (siehe Kapitel 4.3)

      Die folgenden Checklisten, Muster, Templates und Wizards geben weitere Hilfestellungen bei der Erstellung von Datenmanagementplänen:

    • 3.5 DMP Tools

      Mittlerweile gibt es eine ganze Reihe von Tools und Checklisten zur schnelleren und einfacheren Erstellung von Datenmanagementplänen. So kann man einen DMP mit Textbausteinen zusammenstellen oder man wird durch einen Fragenkatalog geleitet. Meist gibt es verschiedene Templates für verschiedene Förderer. Die Frankfurt UAS stellt Ihnen eine allgemeine Vorlage zur Verfügung, die sie auf Anfrage bei Ihrer FDM-Servicestelle erhalten. Diese unterstützt Sie überdies gerne bei der Bearbeitung.

      Bei den Kolleg*innen von Forschungsdaten.info finden Sie eine ausführliche Liste mit weiteren, kostenfreien DMP-Tools: https://www.forschungsdaten.info/themen/informieren-und-planen/datenmanagementplan/

    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.

  • Bearbeitungsdauer: 24 Minuten, 12 Sekunden

    • 4.1 Einführung & Lernziele

      Wichtig für die Strukturierung und Ordnung Ihrer Daten sind Metadaten und Metadatenstandards. Metadaten sind Daten, die Informationen über andere Daten enthalten. Daten müssen nicht unbedingt digitale Daten sein, es kann sich auch um reale Objekte handeln, die mit beschreibenden Metadaten versehen werden und so eine bessere Auskunft über dieses Objekt geben. Folgende Praxisbeispiele zeigen, wie relevant eine ausführliche Dokumentation mittels Metadaten sein kann:

      Szenario 1:

      Sie haben verschiedenen Messungen in Ihrem Forschungsprojekt durchgeführt. Die Forschungsdaten und Ergebnisse passen exakt zu Ihrer Hypothese. Sie sind sehr stolz! Sie erinnern sich sehr genau an alle Einstellungen und Parameter. Einige haben Sie auch notiert. Durch unglückliche Umstände können Sie die kommenden Wochen nicht daran weiter arbeiten… 

      Sie kommen zurück und erkennen mit Schrecken, dass Sie vieles von dem, was Sie im Kopf hatten, nicht mehr richtig zuordnen können. Das hätten Sie nie gedacht! Sie versuchen alles richtig zuzuordnen. Gelingt es Ihnen?

      Sie besprechen die Messreihen in Ihrer Arbeitsgruppe. Ein Kollege ist nicht überzeugt; er hat andere Ergebnisse. Sie fangen an zu zweifeln. Eigentlich sind Sie sich sicher; aber nur eigentlich.

      An den kommenden Tagen verbringen Sie viel Zeit damit, einige Messungen zu wiederholen. Nun sind Sie sich ganz sicher, dass Ihre Ergebnisse stimmen. Sie dokumentieren alles ausführlich, um es bei der nächsten Arbeitsgruppensitzung überzeugend vorstellen zu können.

      Wäre es nicht weniger zeitaufwändig und nervenaufreibend gewesen, wenn Sie direkt eine ausführliche Dokumentation angelegt hätten?

      Szenario 2: 

      Sie erkennen erst kurz vor Ihrer ersten großen Publikation, dass dafür Forschungsdaten aus einem früheren Teilprojekt relevant sein könnten. Das Projekt haben Sie eigentlich vor drei Jahren zur Seite gelegt. Sind die Forschungsdaten so gut dokumentiert, dass Sie sie für die Publikation verwenden können?

      Szenario 3:

      Sie haben erfolgreich publiziert und wurden weitreichend zitiert. Nun zweifelt jemand Ihre Ergebnisse und Herangehensweise öffentlich an. Sind Sie in der Lage, Ihre Ergebnisse zu belegen?

      In allen genannten Szenarien ist eine Dokumentation mit Hilfe von Metadaten hilfreich und nutzt Ihnen spätestens bei der Zusammenstellung Ihrer Ergebnisse und Forschungsdaten für Ihre Promotion, Habilitation, die nächste Publikation oder in Projekten für Ihre Nachfolge und für neue Kolleginnen und Kollegen. Vollständige und korrekte Metadaten sind ein wichtiger Beitrag zur guten wissenschaftlichen Praxis! Metadaten sind zentral, um Forschungsdaten finden, suchen, lesen und interpretieren zu können und stellen im übertragenen Sinne eine Art „Beipackzettel“ für die eigentlichen Daten dar.

      Nach Abschluss dieses Kapitels können Sie… 

      • …Metadaten und den Nutzen von Metadaten erkennen.
      • …wichtige Kategorien von Metadaten wiedergeben.
      • …ausgewählte Metadatenstandards benennen.
      • …eigene Metadaten erstellen.
      • …Ihre Forschungsdaten über Metadaten beschreiben, damit Ihre Forschungsdaten auch in Zukunft nutzbar sind.

    • 4.2 Wann und warum erstelle ich Metadaten?

      Metadaten sorgen dafür, dass Forschungsdaten heute und in Zukunft weiterhin verwendbar sind, auch wenn die damaligen Beteiligten an den Experimenten vielleicht verstorben oder mittlerweile mit anderen Forschungsschwerpunkten beschäftigt sind und deshalb keine nähere Auskunft mehr über die früheren Versuche geben können. Ohne Metadaten sind solche Forschungsdaten oft wertlos, da sie zusammenhangslos und nicht verständlich sind.

      Um Metadaten korrekt zuzuweisen und Ihre Daten korrekt und geordnet weiternutzen zu können, ist es am besten, Sie dokumentieren Metadaten direkt von Beginn des Forschungsprojektes an. Metadaten müssen aber spätestens dann erstellt werden, wenn Ihre Forschungsdaten in einem Repositorium abgelegt, veröffentlicht oder langzeitarchiviert werden sollen.

      Oft ist eine nachträgliche Erstellung bestimmter Metadaten aber gar nicht mehr möglich. Dies kann beispielsweise bei einem langen Projekt dann der Fall sein, wenn es darum geht, die Provenienz (= Herkunft; Ursprung) der Daten für andere genau zu erläutern.

    • 4.3 Wie sehen Metadaten aus?

      Metadaten liegen immer in einer bestimmten inneren Struktur vor, wenn auch die tatsächliche Umsetzung in verschiedenen Formen (z. B. von einem einfachen Textdokument über eine Tabellenform bis hin zu einer sehr stark formalisierten Form als XML-Datei, die einem bestimmten Metadatenstandard folgt) geschehen kann. Die Struktur selbst ist abhängig von den zu beschreibenden Daten (beispielsweise Nutzung von Kopfzeilen und Legenden in Excel-Tabellen im Vergleich zur formalisierten Beschreibung eines literarischen Werkes in einem OPAC), der intendierten Nutzung und den verwendeten Standards. Ganz allgemein gesagt, beschreiben Metadaten (digitale) Objekte formalisiert und strukturiert. Zu solchen digitalen Objekten gehören auch Forschungsdaten. Speziell auf unseren Anwendungsfall bezogen, kann man sagen, dass Metadaten das eigene Forschungsvorhaben und damit zusammenhängende Forschungsdaten formalisiert und strukturiert beschreiben.

      Es ist sinnvoll, aber nicht zwingend notwendig, dass Metadaten nicht nur vom Menschen, sondern auch von Maschinen lesbar sind, damit Forschungsdaten maschinell und automatisiert verarbeitet werden können. Unter Maschinen sind hier vor allem Computer zu verstehen, weshalb man genauer auch von einer Lesbarkeit durch einen Computer sprechen kann. Um diese zu erreichen, müssen die Metadaten in einer maschinenlesbaren Auszeichnungssprache vorliegen. Häufig werden dafür forschungsspezifische Standards in der Auszeichnungssprache XML (Extensible Markup Language) verwendet, es gibt aber auch andere wie beispielsweise JSON (JavaScript Object Notation). Bei der Einreichung von (Forschungsdaten-)Publikationen gibt es in den meisten Fällen die Möglichkeit, die Metadaten direkt in ein vorgefertigtes Online-Formular einzutragen. Eine genaue Kenntnis von XML, JSON oder anderen Auszeichnungssprachen ist bei der Erstellung von Metadaten zum eigenen Projekt also nicht zwangsläufig erforderlich, kann aber zum Verständnis, wie die Forschungsdaten verarbeitet werden, beitragen.

      Die Lesbarkeit durch Computer ist ein wesentlicher Punkt und wird beispielsweise dann wichtig, wenn verwandte Forschungsdaten durch Schlagwortsuche gefunden oder miteinander verglichen werden sollen. Eine maschinenlesbare Datei kann mithilfe von speziellen Programmen erstellt werden. Im Abschnitt "Wie erstelle ich meine Metadaten" bekommen Sie entsprechende Programme vorgestellt. 

      Besteht keine Kenntnis in der Erstellung von maschinenlesbaren Metadaten-Dateien, sollten Sie die Metadaten zu Ihren Forschungsdaten in einer für Sie möglichen Form abspeichern. Hierfür kann beispielsweise auch eine einfache Text-Datei über den integrierten Editor ihres Betriebssystems erstellt werden, in der jede Zeile eine Information enthält. Überlegen Sie dabei, welche Informationen für die Nachvollziehbarkeit wichtig sind (z. B. Ersteller*in der Daten, Datum der Erstellung/des Versuchs, Aufbau einzelner Versuchsanordnungen usw.). Welche Kategorien beschrieben werden müssen, hängt meist stark von Art, Umfang und Struktur der Forschungsdaten ab. Eine Übertragung in eine maschinenlesbare Form ist bei ordentlicher und nachvollziehbarer Dokumentation am Ende eines Projekts bzw. eines Teilabschnitts des Projekts immer noch möglich.

      Beispiele für Metadaten

      Im Folgenden soll anhand einiger Beispiele gezeigt werden, wie Metadaten aussehen können. 

      Beispiel für Bibliothekseintrag
      Abb. 4.1: Eintrag eines Werks in einem Online-Bibliothekskatalog, Quelle: https://hds.hebis.de/ubgi/Record/HEB060886269

      Abbildung 4.1 zeigt einen Buchtitel als Eintrag in einem Online-Bibliothekskatalog in einer Form, wie Sie als Angehörige einer Hochschule dies vermutlich schon des Öfteren gesehen haben. An dieser Stelle sei angemerkt, dass Metadaten keine neuartige Entwicklung darstellen und nicht erst im digitalen Zeitalter eine tragende Rolle spielen, sondern schon vorher beispielsweise beim Anlegen von Zettelkatalogen in Bibliotheken verwendet wurden, um Bücher wiederzufinden. Die in Abbildung 4.1 untereinander aufgelisteten Informationen stellen ebenfalls nichts Anderes als Metadaten dar, die aufbereitet von einem Verarbeitungssystem auch von Nutzern gelesen werden können, um Informationen über ein bestimmtes Werk zu bekommen. Sie erfahren etwas über den Titel, den*die Verfasser*in*nen, den Umfang, Angaben zum Veröffentlichungsjahr, der Sprache usw.

      Auch wenn sich die Daten aus dem obigen Beispiel wahrscheinlich in hohem Maße von Ihren Forschungsdaten unterscheiden, lässt sich die Art, wie Metadaten erfasst werden, daran gut erläutern. Würde man Metadaten für Forschungsdaten in dieser Art und Weise verfassen, wie sie hier für den Nutzer erscheint, nämlich in einer Art zweispaltigen Tabelle, wobei eine Spalte die Kategorie (z. B. Titel) und eine andere Spalte die tatsächliche Information (hier „König Oidipus“) enthält, wären diese Informationen für einen späteren Forschenden für das Verständnis der Daten in jedem Falle hilfreich. Es würde aber noch nicht dazu führen, dass Computersysteme diese Daten auch automatisiert verarbeiten können. 

      Sollten Sie also mit der Aufbereitung von computerlesbaren Metadaten überhaupt keine Erfahrung haben, lohnt es sich, wie zuvor schon erwähnt, eine derartige tabellarische Auflistung aller relevanten Daten in einer Datei (z. B. .docx, .xlsx, .txt, o. ä.) schon zu Beginn eines Forschungsvorhabens zu nutzen und durchgehend aktuell zu halten, um bei einer möglichen späteren Einreichung diese Daten schon zur Hand zu haben. Halten Sie sich dabei auch an ein sinnvolles Versionierungskonzept, um Änderungen in den Daten im Laufe der Projektlaufzeit nachvollziehbar zu machen (siehe Kapitel 8).

      Beispiel für Metadaten nach Dublin Core Standard
      Abb. 4.2: Maschinenlesbare Beispiel-Metadaten gemäß dem Dublin Core Metadata Element Set, Quelle: Henrike Becker, Projekt „FOKUS“

      Abbildung 4.2 zeigt einen Teil eines maschinenlesbaren Metadatensatzes, der gemäß den Konventionen des Dublin Core Metadata Element Set, welches 1995 von der Dublin Core Metadata Initiative erstmals veröffentlicht wurde, in der Auszeichnungssprache XML verfasst ist (mehr dazu in Abschnitt 4.4 – „Was sind Metadatenstandards?“). Woran das erkennbar ist, wird im Folgenden erläutert.

      Alles, was in Abbildung 4.2 in blauer Schrift verfasst ist, bezeichnet man als Elemente, alles in schwarzer Schrift ist der Inhalt dieser Elemente. Ein einfacheres Verständnis dieses Verhältnisses ergibt sich, wenn man noch einmal Abbildung 4.1 betrachtet: Die linke Spalte ist dort die Art der Information bzw. Kategorie (also bspw. „Titel“, „Verfasser“ usw.), die rechte Spalte dann die tatsächliche Information innerhalb dieser Kategorie (also beispielsweise „König Oidipus“, „Sophocles“ usw.). Das Verhältnis von Element und Inhalt des Elements verhält sich analog, wobei die Art der Information/Kategorie die Elemente (blaue Schrift in Abbildung 4.2) und die tatsächliche Information den Inhalt der Elemente (schwarze Schrift in Abbildung 4.2) darstellen.

      Ein grundlegender Unterschied ist jedoch der Aufbau: Elementnamen stehen immer in einer Klammerung durch Kleiner-als- und Größer-als-Zeichen (z. B. „<…>“). Außerdem gibt es für jede Kategorie jeweils ein öffnendes und ein schließendes Element. Das öffnende Element ist erkennbar an dem Kleiner-als-Zeichen „<“ und steht immer vor der tatsächlichen Information. Das schließende Element ist erkennbar an dem Schrägstrich „/“ nach dem Kleiner-als-Zeichen „<“ und steht immer hinter der tatsächlichen Information der jeweiligen Kategorie. Diese öffnenden und schließenden Elemente umschließen also praktisch immer den dazwischenliegenden Informationsgehalt, was in Abbildung 4.2 leicht erkennbar ist. Innerhalb der Kleiner-als- und Größer-als-Zeichen steht die Angabe über die Kategorie (z. B. „title“, „creator“) usw. Die schwarz geschriebene Information zwischen <dc:creator> und </dc:creator> gibt Ihnen also beispielsweise Auskunft über den Urheber des jeweiligen Dokuments bzw. der jeweiligen Daten. Im Falle von Abbildung 4.2 wäre dies „Henrike Becker“.

      An dieser Stelle sollen noch kurz die anderen in Abbildung 4.2 gezeigten Elemente erklärt werden. Das <dc:title>-Element beinhaltet den Titel unter dem das Dokument oder der Forschungsdatensatz veröffentlicht wurde. Systeme, die Titel aus einer Datenbank auslesen und anzeigen, nutzen oftmals den Inhalt dieses Elements als Information. <dc:subject> kann mehrfach vorkommen und beinhaltet immer ein Thema des Inhalts in Keywords, die als Suchgrundlage dienen. Das zweite <dc:subject>-Element in Abbildung 4.2 beinhaltet eine sehr lange Angabe eines Themas (also nicht nur Keywords), die eher vermieden werden sollte, damit bessere Suchergebnisse erzielt werden können. Das Element <dc:description> gibt eine Kurzzusammenfassung des Inhalts. Handelt es sich um Textpublikationen kann dort auch das Inhaltsverzeichnis untergebracht werden. Auch bei diesem Element sind Mehrfachnennungen möglich. <dc:date> beinhaltet ein Datum, meistens das der Veröffentlichung. Das Datum sollte, wenn es möglich ist, zur besseren Durchsuchbarkeit in Notation nach DIN ISO 8601 als JJJJ-MM-TT vorliegen. Innerhalb dieses Elements können Unter-Elemente (sogenannte Kind-Elemente) untergebracht werden, die schließlich genauere Informationen zum Datum geben, etwa, ob es sich um das Erstellungsdatum, das Datum der letzten Änderung oder das Veröffentlichungsdatum handelt. Das Element <dc:identifier> ist nur einmalig und obligatorisch in einem Metadatensatz vorhanden. Der darin enthaltene persistente Identifier ist weltweit nur einmal vergeben und weist das Dokument oder den Forschungsdatensatz eindeutig aus. Nähere Informationen zu persistenten Identifiern gibt es im folgenden Abschnitt „Welche Kategorien sind wichtig?“ sowie im Abschnitt „Findable“ von Kapitel 5.

      Die zwei Buchstaben mit dem Doppelpunkt „dc:“, die in den Elementen vor dem eigentlichen Elementnamen „creator“ usw. stehen, zeigen, dass es sich bei den Elementen um Elemente aus dem anfangs erwähnten Dublin Core Metadata Element Set handelt. Genauere Informationen, warum diese beiden Buchstaben davor geschrieben werden sollten bzw. oft sogar müssen, werden im Abschnitt 4.4 – „Was sind Metadatenstandards?“ genauer erläutert.

      Und nun sind Sie an der Reihe. Was sind bei der dargestellten Tabelle Daten und was sind Metadaten? Zur Auflösung klicken Sie auf das Bild.

      Abb. 4.3: Daten und Metadaten einer Excel-Tabelle

      Welche Kategorien sind wichtig?

      Es gibt sehr viele verschiedene Kategorien, die durch Metadaten beschrieben werden können und oft auch müssen. Je nach Disziplin und Forschungsdaten können sich diese Kategorien stark unterscheiden, manche gelten aber als Standardkategorien für alle Disziplinen.

      Eine Kategorie, die spätestens im Falle einer zitierfähigen Veröffentlichung in den Metadaten vorhanden sein sollte, ist der im vorigen Abschnitt erwähnte „Persistent Identifier“. Ein Identifier dient der dauerhaften und unverwechselbaren Identifizierung. Bekannt und häufig verwendet ist der DOI (Digital Object Identifier). Ein DOI wird durch offizielle Registrierungsstellen, wie beispielsweise DataCite, vergeben. Metadaten sind über einen DOI mit dem Dokument und den Forschungsdaten verknüpft. Über einen DOI werden Forschungsdaten zitierbar. Die Zitationsvorgaben müssen in den Metadaten ebenfalls eindeutig festgelegt werden, um der guten wissenschaftlichen Praxis gerecht zu werden.

      Weiterhin sollte aus den Metadaten hervorgehen, wer der*die Verfasser*in der Daten ist. Bei Gruppen von Forschenden sollten alle Beteiligten genannt werden, die an der Arbeit beteiligt waren oder eventuelle Rechte an den Forschungsdaten haben. Zu Letzteren können natürlich auch Firmen gehören, die vielleicht zur Förderung der Forschung beigetragen haben. Dabei sollte auf eine vollständige und eindeutige Namensnennung geachtet werden. Falls eine ForscherID (bspw. ORCID) vorliegt, sollte diese genannt werden.

      Der Forschungsgegenstand sollte so ausführlich wie nötig beschrieben werden. Hierbei kann es mit Blick auf die Auffindbarkeit der Forschungsdaten auch sinnvoll sein, bereits Schlagwörter zu nennen, die dann bei einer digitalen Datenbank-Suche hinzugezogen werden können, um bessere Treffer zu erzielen.

      Außerdem werden für die Nachvollziehbarkeit der Forschungsdaten eindeutige Informationen für Parameter wie Ort, Zeit, Temperatur, soziales Setting,... und alle anderen für die Daten sinnvollen Bedingungen benötigt. Dazu gehören auch benutzte Instrumente und Geräte mit deren genauen Konfigurationen.

      Wurde zur Erstellung der Forschungsdaten bestimmte Software verwendet, muss auch der Name der Software in den Metadaten genannt werden. Dazu zählt natürlich auch die Nennung der verwendeten Softwareversion, da so spätere Forschende bei sehr alten Daten eher nachvollziehen können, warum diese Daten unter Umständen nicht mehr geöffnet werden können.

      Manche Anforderungen an Metadaten sind immer gleich. Dies gilt auch für die gerade aufgelisteten Kategorien, die sehr generisch sind. Für solche Fälle existieren fachunabhängige Metadatenstandards, zu denen auch das bereits eingeführte Dublin Core Element Set gehört. Weitere Anforderungen können sich zwischen verschiedenen Disziplinen sehr stark unterscheiden. Daher existieren fachspezifische Standards, die diese Anforderungen abdecken. Mehr dazu erfahren Sie im nächsten Abschnitt 4.4 – „Was sind Metadatenstandards?“.

      Abbildung 4.4 stellt verschiedene Kategorien von Metadaten dar, die sich im Hinblick auf Forschungsdaten als sinnvoll erweisen können.

      Kategorien von Metadaten

      Abb. 4.4: Auflistung von Beispielkategorien, Quelle: Henrike Becker, Projekt „FOKUS“

    • 4.4 Was sind Metadatenstandards und warum sind sie wichtig?

      Ein schon eingangs erwähnter und sehr wichtiger Aspekt von Metadaten ist die Lesbarkeit durch Mensch und Maschine. Die Vielzahl an verschiedenen Metadaten, die zur Beschreibung von Forschungsdaten benötigt werden, kann dabei mit Blick auf die zusätzlich große Menge an verschiedenen wissenschaftlichen Communities mit jeweils eigenen Bedürfnissen zu einem Problem werden. So gibt es einerseits Metadaten, die fachübergreifend notwendig sind (z. B. Name des Urhebers, Titel, Erstellungsdatum usw.), andererseits aber auch fachspezifische Metadaten, die abhängig vom Forschungsbereich oder sogar dem Forschungsgegenstand sind.

      Stellen Sie sich vor, Forschungsgruppe 1 hat über mehrere Experimente der gleichen Art mit unterschiedlicher Raumtemperatur eine Vielzahl an Forschungsdaten erstellt. Forschungsgruppe 2 hat das gleiche Experiment mit den gleichen Stoffen bei gleichbleibender Raumtemperatur und verschieden hohen Sauerstoffgehalt in der Luft durchgeführt und ebenfalls Forschungsdaten erstellt. Forschungsgruppe 1 bezeichnet in ihren Metadaten den Parameter „Raumtemperatur“ als „rtemp“, Forschungsgruppe 2 jedoch lediglich als „temp“. Woher wissen die Forschenden der Forschungsgruppe 1 und woher weiß ein Computersystem, dass es sich bei dem Wert „temp“ der Forschungsgruppe 2 um den Wert „rtemp“ der Forschungsgruppe 1 handelt? Dies ist nicht ohne weiteres möglich und reduziert damit den Nutzen der Daten.

      Wie kann also sichergestellt werden, dass beide Forschungsgruppen das gleiche Vokabular bei der Beschreibung ihrer Metadaten verwenden, damit diese am Ende nicht nur lesbar, sondern auch interpretierbar sind? Für solche Fälle wurden und werden von den verschiedenen Forschungs-Communities Metadatenstandards entwickelt, die sicherstellen, dass alle Forschenden einer Wissenschaftsdisziplin das gleiche Beschreibungsvokabular verwenden. So wird eine Interoperabilität zwischen den Forschungsdaten sichergestellt, die für die Erkenntniserweiterung bei der Arbeit mit den Daten eine ausschlaggebende Rolle spielt (für mehr Informationen zu „Interoperabilität“ siehe Kapitel 5). 

      Metadatenstandards ermöglichen also eine gleichförmige Ausgestaltung von Metadaten. Sie sind eine formale auf Konventionen einer Forschungs-Community beruhende Festlegung, wie Metadaten erhoben und erfasst werden sollen. Trotz dieses Anspruchs repräsentieren Metadatenstandards kein statisches Regelsammelsurium zur Erhebung von Metadaten. Sie sind dynamisch und an einzelne Bedürfnisse anpassbar. Das ist vor allem deswegen notwendig, weil Forschungsdaten bei Projekten mit neuartigen Forschungsmethoden sehr stark projektspezifisch sein können und deshalb an ihre Metadaten ebenso stark projektspezifische Ansprüche gestellt werden.

      In der folgenden Tabelle sind beispielhaft einige Metadatenstandards verschiedener Disziplinen aufgeführt. Ist Ihre Wissenschaftsdisziplin nicht aufgeführt, kann meist die Auflistung des Digital Curation Centres (DCC) Aufschluss darüber geben, welche Standards für Ihren Wissenschaftsbereich in Frage kommen.

      Wissenschaftsdisziplin

      Name des/der Standards

      fachübergreifend

      DataCite Schema, Dublin Core, MARC21, RADAR

      Geisteswissenschaften

      EAD, TEI P5, TEI Lex0

      Geowissenschaften

      AgMES, CSDGM, ISO 19115

      Klimawissenschaften

      CF Conventions

      Kunst- & Kulturwissenschaften

      CDWA, MIDAS-Heritage

      Naturwissenschaften

      CIF, CSMD, Darwin Core, EML, ICAT Schema

      Röntgenstrahlen-, Neutronen- und Myonenforschung

      NeXus

      Sozial- und Wirtschaftswissenschaften

      DDI

      Tab. 4.1: Metadatenstandards sortiert nach Wissenschaftsdisziplin

      Fachübergreifende Standards sind Metadatenstandards, die Objekte auf eine allgemeine Art und Weise beschreiben. Der weiter oben teilweise beschriebene Dublin Core-Standard zählt zu dieser Art von Standards. Der Standard „EAD“ wird zur Beschreibung von archivischen Findmitteln wie beispielsweise Findbüchern verwendet. „TEI P5“ bietet Standards zur Annotation von Texten und Handschriften. „TEI Lex0“ ist ein neu entwickelter Standard auf Basis von „TEI P5“ zur Beschreibung lexikographischer Daten. „AgMES“ dient zur Beschreibung von Informationen aus dem landwirtschaftlichen Bereich. „CSDGM“ ist ein Standard zur Beschreibung von digitalen raumbezogenen Daten, der zwar immer noch verwendet wird, aber auf lange Zeit durch den „ISO 19115“-Standard ersetzt werden soll. Das Federal Geographic Data Committee (FGDC), die Entwickler des „CSDGM“-Standards, ermutigen daher alle Interessierten den „ISO 19115“-Standard für die Beschreibung digitaler raumbezogener Daten zu nutzen. Die „CF Conventions“ bieten Metadaten zur Beschreibung von Klima- und Wetterinformationen. Der „CDWA“-Standard bietet Möglichkeiten zur Beschreibung von Kunst, Architektur und anderen kulturellen Werken. „MIDAS-Heritage“ ist ein Standard zur Beschreibung von Kulturerben. Dazu zählen Gebäude, Denkmäler, Ausgrabungsstätten, Schiffswracks, Schlachtfelder, Artefakte usw. „CIF“ bietet Standards für die Forschung in der Kristallographie. „CSMD“ bietet Beschreibungsmöglichkeiten für wissenschaftliche Studien in Wissenschaftsdisziplinen, die systematische experimentelle Analysen an Stoffen durchführen (z. B. Materialwissenschaften, Chemie, Biochemie). Das „ICAT Schema“ basiert auf „CSMD“ und dient demselben Zweck, bietet aber noch genauere Beschreibungsmöglichkeiten. „Darwin Core“ dient zur Beschreibung biologischer Diversität bzw. der biologischen Vielfalt wie beispielsweise Lebewesen. „EML“ ist ein Standard, der ausschließlich im Bereich der Ökologie verwendet wird. Der „DDI“-Standard dient zur Beschreibung von Daten, die durch Umfragen oder andere beobachtende Forschungsmethoden in den Sozial- und Wirtschaftswissenschaften sowie der Verhaltensforschung erhoben werden.

      Einige Verlage haben eigene Metadatenstandards, die bei Publikationen dort berücksichtigt werden müssen. Prüfen Sie spezifische Vorgaben am besten zu Beginn Ihres Projektes, wenn Sie schon ein Journal für die Veröffentlichung im Kopf haben. Auch einige Forschungsdatenarchive haben eigene Metadatenstandards, z. B. GenBank.

    • 4.5 Was sind kontrollierte Vokabulare und Normdateien? Wofür werden sie verwendet?

      Wie Sie bisher sehen konnten, legen Metadatenstandards die Kategorien fest, mit denen Daten näher beschrieben werden können. Dazu zählen einerseits fachübergreifende Kategorien wie Titel, Urheber, Veröffentlichungsdatum, Art der Untersuchung usw., andererseits aber auch fachspezifische Kategorien wie etwa die Stofftemperatur in der Chemie oder den Materialwissenschaften. Keine Festlegung und Kontrolle gibt es jedoch dabei, wie Sie die jeweiligen Kategorien mit Informationen befüllen. 

      Welches Datumsformat verwenden Sie? Wird die Temperatur in Celsius oder Fahrenheit und mit „°“ oder „Grad“ angegeben? Handelt es sich um eine „Umfrage“ oder einen „Survey“? Diese Fragen scheinen auf den ersten Blick oberflächlich zu sein, doch hängen vordefinierte und einheitliche Begriffe und Formate eng mit der maschinellen Verarbeitung und den daraus resultierenden Suchergebnissen und der Verknüpfung mit anderen Forschungsdaten zusammen. Entspricht das Datumsformat beispielsweise nicht dem Format, mit dem ein Suchsystem arbeitet, werden die Forschungsdaten mit dem inkompatiblen Format nicht gefunden und ausgegeben. Wird nach Umfragen gesucht, in den Metadaten wird aber der Begriff „Survey“ verwendet, ist nicht sicher, dass die zugehörigen Forschungsdaten auch gefunden werden.

      Zum Zweck der sprachlichen Vereinheitlichung bei der Beschreibung von Metadaten wurden so genannte kontrollierte Vokabulare entwickelt. Das können in einfachster Form reine Wortlisten sein, die den Sprachgebrauch bei der Metadatenbeschreibung regulieren, aber auch komplexe, strukturierte Thesauri. Thesauri sind Wortnetze, die Wörter und ihre semantischen Relationen zu anderen Wörtern beinhalten. Dadurch können u. a. auch polyseme (= mehrdeutige) Begriffe eindeutig aufgelöst werden.

      Wie kann man als Forschender oder Forschungsgruppe die Verwendung von einheitlichen Begriffen und Formaten sicherstellen? Als Einzelperson einer Wissenschaftsdisziplin lohnt es sich, sich zu Beginn eines Forschungsprojekts nach kontrollierten Vokabularen innerhalb dieser Disziplin zu erkundigen. Dazu reicht meist schon eine einfache Suche im Internet. Auch in einer Forschungsgruppe mit einem mehrjährigen Forschungsprojekt sollte vor Projektbeginn und vor den ersten Untersuchungen nach einem kontrollierten Vokabular gesucht werden. Findet sich keines, lohnt es sich je nach Menge der im Projekt involvierten Forschenden und der Menge an involvierten Standorten ein projektinternes Dokument zur einheitlichen Abstimmung der verwendeten Begriffe und Fachtermini anzulegen, welche in den jeweiligen Metadaten-Kategorien verwendet werden sollen.

      Neben kontrollierten Vokabularen gibt es auch noch eine Vielzahl an Normdateien, die neben einer einheitlichen Benennung eine Vielzahl an Entitäten eindeutig referenzierbar machen. Weiter oben wurde bereits ORCID, kurz für Open Researcher and Contributor ID, genannt, welche über einen eindeutigen Code akademische und wissenschaftliche Autoren identifiziert. Die Angabe einer solchen ID löst ggf. vorliegende, häufig vorkommende und daher mehrdeutige Namen eindeutig auf und sollte daher bevorzugt verwendet werden. 

      Die im deutschen Raum wahrscheinlich bekannteste Normdatei ist die Gemeinsame Normdatei (GND), die u. a. von der Deutschen Nationalbibliothek (DNB) geführt wird. Sie beschreibt nicht nur Personen, sondern auch „Körperschaften, Konferenzen, Geografika, Sachbegriffe und Werke, die in Bezug zu kulturellen und wissenschaftlichen Sammlungen stehen“, identifiziert und beschreibt. (Gemeinsame Normdatei (GND), 2019, Über die GND) Jede Entität in der GND erhält eine eigene GND-ID, die eindeutig auf diese Entität referenziert. Der Dichter „Sophocles“ besitzt in der GND beispielsweise die ID 118615688. Über diese ID kann in Metadaten unter Verweis auf die GND eindeutig auf Sophocles referenziert werden.

      GeoNames ist ein Online-Ortslexikon, auch Gazetteer genannt. Es beinhaltet alle Länder und über 11 Millionen Ortsbezeichnungen, die mit einer eindeutigen ID versehen sind. So ist es beispielsweise möglich, gleichnamige Orte direkt auseinanderzuhalten ohne die amtlich zugeordnete Gemeindekennzahl (in Deutschland die PLZ) zu kennen. So kann etwa zwischen dem Manchester in UK (2643123), dem Manchester im Bundesstaat New Hampshire der USA (5089178) und dem Manchester im Bundesstaat Connecticut der USA (4838174) eindeutig unterschieden werden.

      Allgemein gilt: Informieren Sie sich über spezifische Anforderungen, sobald Sie wissen, wo Sie Ihre Forschungsdaten ablegen oder publizieren möchten. Wenn Sie diese Anforderungen kennen, können Sie Ihre eigenen Metadaten erstellen. Versuchen Sie bei dem Verweis auf bestimmte allgemein bekannte Entitäten unter Angabe des verwendeten Thesaurus immer eine eindeutige ID zu verwenden.

      Wenn Sie wissen wollen, ob es für Ihre Wissenschaftsdisziplin oder einen bestimmten Themenbereich bereits ein kontrolliertes Vokabular oder eine Ontologie gibt, können Sie in einem ersten Schritt eine Suche bei BARTOC, dem „Basic Register of Thesauri, Ontologies & Classifications“ durchführen.

    • 4.6 Wie erstelle ich meine Metadaten?

      Metadaten können händisch oder mithilfe von Programmen erstellt werden. Programme, auch für fachspezifische Metadaten, gibt es im Internet. Viele sind frei verfügbar. Informieren Sie sich trotzdem zuerst bei Ihrer Institution, ob bereits Erfahrungen gesammelt wurden und eventuell Lizenzen für in Ihrem Forschungsbereich gängige, proprietäre Software vorhanden sind. Die folgende Liste von Programmen zur Erstellung von Metadaten stellt nur eine Auswahl dar und erhebt keinen Anspruch auf Vollständigkeit.

      Sollten Sie mit Metadatenstandards überhaupt keine Erfahrung haben, kann zur Erstellung von Metadaten vorerst der in Windows integrierte Editor verwendet werden. Das ist sinnvoll, um später überhaupt Eckdaten zu den jeweiligen Untersuchungen zu haben und diese auch abrufen zu können. Speichern Sie die einzelnen Textdateien am besten in einzelnen Ordnern pro Untersuchung ab.

      Nicht für alle Metadatenstandards gibt es Programme mit einfachen grafischen Benutzeroberflächen. Wollen oder müssen Sie daher direkt mit einem vorhandenen XML-Metadatenstandard arbeiten, sollten Sie entweder auf die freien Editoren Notepad++ oder Atom oder auf die kostenpflichtige Software oXygen zurückgreifen, falls Lizenzen an Ihrer Institution vorhanden sind. Alle drei Editoren bieten bessere Nutzungs- und Darstellungsmöglichkeiten, um Inhalt und Elementbezeichnungen getrennt voneinander sichtbar zu machen. So werden Elemente beispielsweise wie in Abbildung 4.2 blau dargestellt, der eigentliche Inhalt schwarz.

      Das Open Source-Online-Tool CEDAR Workbench erlaubt es, Online-Templates auf Basis von Metadatenstandards über eine grafische Benutzeroberfläche zu erstellen, diese auszufüllen und auch mit anderen Nutzern zu teilen. Zeitgleich können auch Templates, die von anderen Nutzern erstellt wurden, für die eigene Forschung genutzt werden. Zur Benutzung ist lediglich eine kostenlose Registrierung nötig.

      Zur Annotation biomedizinischer Untersuchung und den sich daraus ergebenden Resultaten eignet sich das Tool „Annotare“. Es arbeitet nach dem Qualitätsstandard MIAME (Minimum Information About a Microarray Experiment) für Microarrays und erzeugt Daten im MAGE-TAB-Format (MicroArray Gene Expression Tabular). Die Metadaten werden in einfache Eingabefelder im Programm eingegeben. Eine genaue Kenntnis des Metadatenstandards ist demnach nicht zwangsläufig notwendig.

      Ebenfalls für die Beschreibung biomedizinischer Untersuchungen, aber auch für Experimente in den Lebenswissenschaften und der Umweltforschung eignet sich das ISA Framework. Dieses ist Open Source und besteht aus mehreren Programmen, die bei der Verwaltung von Experimenten von der Planung, der Durchführung bis hin zur abschließenden Beschreibung helfen können. Begonnen werden kann mit dem ISA Creator, welches zur Erstellung von Dateien im ISA-TAB-Format verwendet wird. Dieses Format wird beispielsweise vom Scientific Data Journal des Nature-Verlags explizit verlangt.

      Zur Erstellung von Metadaten im Metadatenstandard EML sollte das Programm „Morpho“ verwendet werden. Es erlaubt die Speicherung von Daten und Metadaten in einer einzigen Datei, was die Archivierung erleichtert. Es steht außerdem in direkter Verbindung mit dem Knowledge Network for Biocomplexity (KNB), einem internationalen fachspezifischen Repositorium für ökologische Forschung und Umweltforschung. Daten können so direkt in das Repositorium hochgeladen und für andere nutzbar gemacht werden.

      Für die Metadatenerfassung in den Geowissenschaften gemäß ISO 19115 eignet sich das Programm „CatMDEdit“. Die erstellten Metadaten sind auch konform mit dem Dublin Core-Standard. Informationen zur Benutzung finden sie hier.

      Welche Programme für Ihre Metadaten in Frage kommen, hängt stark von dem Typ der Forschungsdaten und Ihren Nutzungswünschen ab. Es lohnt sich daher, sich im Vorhinein mit anderen Forschenden auszutauschen, um den für sich besten Weg zur Erstellung von Metadaten zu finden. Die händische Erstellung von Metadaten im Editor ohne einen Metadatenstandard als Basis ist zwar für Anfänger die einfachste und schnellste Methode, ein Einlesen in den für sich relevanten Metadatenstandard und die Suche nach Programmen, die diesen Standard bedienen, kann aber mit Blick auf die automatische Verarbeitung der Daten und einer späteren Veröffentlichung einen Vorteil mit sich bringen. Zumindest die Nutzung eines einfachen, fachunabhängigen Metadatenstandards wie Dublin Core sollte berücksichtigt werden.

    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.

  • Bearbeitungsdauer: 14 Minuten, 4 Sekunden

    • 5.1 Einführung & Lernziele

      Wenn Sie beginnen, sich über technische Anforderungen des Datenaustauschs im Forschungsdatenmanagement zu informieren, werden Sie sehr schnell auf den Begriff „FAIR Data Principles“ bzw. „FAIR-Prinzipien“ (selten auch: „FAIR-Kritierien“) stoßen. Außerdem werden in anthropologischen, sozialwissenschaftlichen und ähnlichen Disziplinen ethische Anforderungen an die Daten gestellt, wenn es z. B. um die Untersuchung von indigenen Bevölkerungsgruppen geht, weshalb analog zu den eher technisch orientierten FAIR-Prinzipien die so genannten CARE-Prinzipien entwickelt wurden.

      Nach Abschluss dieses Kapitels können Sie…
      • …die FAIR-Prinzipien benennen.
      • …Forschungsdaten gemäß den FAIR-Prinzipien aufbereiten.
      • …die CARE-Prinzipien benennen.
      • …wiedergeben, was es bei den CARE-Prinzipien zu beachten gilt.
    • 5.2 Was sind die FAIR-Prinzipien?

      Um Forschungsdaten zu erheben und auszuwerten, sind viele Arbeitsschritte notwendig. Es benötigt zudem Zeit und Energie und erfordert die Denkleistung von Wissenschaftler*innen. Zudem entsteht häufig ein sehr hoher Verbrauch von Material, Strom und Energie für Mobilität, Geräte, Computer oder aufwendige Settings. Insbesondere wenn Menschen Forschungsgegenstand sind oder Tierversuche notwendig werden, wird schnell deutlich, dass – wenn möglich – eine möglichst vielfältige und breite Nutzung der erhobenen Forschungsdaten erfolgen sollte und Wiederholungen derselben Forschung dringend zu vermeiden sind.

      Forschungsdaten sollen daher möglichst lange ohne Einschränkungen nutzbar und verwendbar sein. Dies gilt für die eigene Nutzung selbst erhobener Forschungsdaten, aber auch für Forschungsdaten, die sich Forschende gegenseitig zur Verfügung stellen. Um dies zu ermöglichen, müssen Forschungsdaten bestimmte Eigenschaften aufweisen. Diese werden in den FAIR-Prinzipien genauer beschrieben. Die Abkürzung FAIR setzt sich aus den ersten Buchstaben der beschreibenden Worte zusammen:

      • Findable (Auffindbar)
      • Acessible (Zugänglich)
      • Interoperable (Interoperabel)
      • Reusable (Nachnutzbar/Wiederverwendbar)
      Sie wurden 2014 in einem Workshop des Lorentz Centers in den Niederlanden entwickelt und im März 2016 in der Zeitschrift Scientific Data erstmals veröffentlicht (vgl. Wilkinson et. al. 2016).

      Die Vision, die mit der Einhaltung der FAIR-Prinzipien erreicht werden soll, ist die Möglichkeit, dass alle Wissenschaftler weltweit von den so veröffentlichten Forschungsdaten profitieren und selbst wieder den FAIR-Prinzipien entsprechende Forschungsdaten produzieren können. Auf europäischer Ebene setzt beispielsweise das Projekt „European Open Science Cloud“ (kurz EOSC) der Europäischen Kommission auf eine strikte Einhaltung der FAIR-Prinzipien beim Erstellen und Publizieren von Forschungsdaten, damit diese Daten europäischen Wissenschaftlern in einer europäischen Wissenschafts-Cloud zur Verfügung gestellt werden können.

    • 5.3 Wie bereite ich Forschungsdaten gemäß den FAIR-Prinzipien auf?

      Im Folgenden sollen anhand der oben genannten Eigenschaften und auf Basis des Originaldokuments mit Bezug auf die verschiedenen Schritte im Forschungsdatenzyklus (Planung, Erhebung, Archivierung usw.) Aspekte aufgezeigt werden, um Forschungsdaten gemäß den FAIR-Prinzipien aufzubereiten. Die vier Eigenschaften werden hier zwar getrennt voneinander betrachtet, bedürfen sich aber gegenseitig. 

      Die folgenden Erklärungen dienen nur als kurze Zusammenfassung zu den einzelnen Anforderungen der FAIR-Prinzipien. Einen deutlich ausführlicheren Überblick, wie Sie diese als Wissenschaftler umsetzen können, erhalten Sie beispielsweise auf den Seiten des Weblogs der TIB.

      Findability

      Die Sicherstellung der Auffindbarkeit von Forschungsdaten stellt einen zentralen Punkt in der Nachnutzbarkeit dieser Daten dar. Ein wichtiger Schritt für die Möglichkeit der Wiederauffindbarkeit von Daten ist die Vergabe von sogenannten Persistent Identifiers, die global eine eindeutige und dauerhafte Identifizierung einer digitalen Ressource sicherstellen. Eine häufig verwendete Form solcher Persistent Identifiers stellen DOI (Digital Object Identifier) dar. Dieser Identifier muss auch in den Metadaten (siehe Kapitel 4) vorhanden sein und auf die eigentlichen Forschungsdaten verweisen, um mit diesen verknüpft zu sein. Außerdem ist es wichtig, möglichst vollständige Metadaten und auch alle Parameter der eigentlichen Forschungsdaten zu erheben und zu dokumentieren, um die Wiederauffindbarkeit zu verbessern. Um die Daten letztendlich auffindbar zu machen, müssen die Daten am Ende noch in ein vom Menschen nutzbares durchsuchbares System eingespeist werden.

      Accessibility

      Hat ein Nutzer interessante Forschungsdaten über ein Suchsystem gefunden, stellt sich ihm im Anschluss daran die Frage nach dem Zugang zu diesen Daten. Um überhaupt eine sichere Zugänglichkeit zu gewährleisten, sehen es die FAIR-Prinzipien vor, dass standardisierte Kommunikationsprotokolle (vorwiegend http[s] und ftp) verwendet werden, die jeder Browser umsetzen kann. 

      Zur Veröffentlichung der Forschungsdaten gibt es die Möglichkeit, diese direkt in Forschungsdaten-Journalen oder Forschungsdatenzentren zu publizieren. Forschungsdatenpublikationen ermöglichen die Veröffentlichung aller Forschungs- und Metadaten, nicht nur einer Auswahl an Forschungsergebnissen wie es für Peer-Review-Artikel in Fachzeitschriften bekannt und gängig ist.

      Bei der Veröffentlichung von Forschungsdaten sind persistente Metadaten sehr wichtig. Um mit den FAIR-Prinzipien konform zu sein, müssen Metadaten von einmal veröffentlichten Forschungsdaten auch dann weiterhin verfügbar sein, wenn die Forschungsdaten später möglicherweise zurückgenommen werden müssen. Diese Bedingung sollten alle Repositorien erfüllen, überprüfen Sie dies trotzdem vor der Veröffentlichung.

      Es ist jedoch zu beachten, dass sich nicht alle Forschungsdaten zur freien Veröffentlichung eignen. Große Vorsicht ist geboten bei sensiblen und personenbezogenen Daten, sowie bei Rechten weiterer Personen oder einer Institution an den Forschungsdaten. Auch wenn noch eine weitere Verwendung, beispielsweise für die Anmeldung eines Patents aussteht, müssen vor der Veröffentlichung alle Unklarheiten beseitigt werden. Falls es sich bei den Daten um sensible Daten handelt und diese deshalb nicht frei zur Verfügung gestellt werden können, reicht es, um den FAIR-Prinzipien zu genügen, aus, an irgendeiner Stelle in den Metadaten einen Hinweis darauf zu geben, an wen man sich wenden muss, falls man Interesse an diesen Daten hat (z. B. E-Mail-Adresse, Telefonnummer usw.). FAIR ist also nicht zwangsläufig gleichzusetzen mit Open Access, auch wenn dies erwünscht ist.

      Interoperability

      Der Begriff „Interoperabilität“ kommt ursprünglich aus der IT-Systementwicklung und bezeichnet die Fähigkeit von Systemen, mit anderen bereits existierenden oder auch zukünftig geplanten Systemen möglichst ohne Einschränkungen zusammenzuarbeiten. Übertragen auf Forschungsdaten bedeutet dies einerseits, dass Daten ohne einen größeren Aufwand in andere ähnliche Daten integrierbar sein sollten und andererseits, dass die Forschungsdaten mit verschiedenen Systemen zur Analyse, Verarbeitung und Archivierung kompatibel sind.

      Um dies zu gewährleisten, wird in den FAIR-Prinzipien die Nutzung von weit verbreiteten, formalen Sprachen und Datenmodellen vorgeschlagen, die sowohl von Maschine als auch Menschen lesbar sind. Beispiele für solche Sprachen sind u. a. RDF, OWL, aber auch fachspezifische kontrollierte Vokabulare (siehe Kapitel 4.5) und Thesauri.

      Reusability

      Um eine hohe Nachnutzbarkeit bzw. Wiederverwendbarkeit von Daten durch Mensch und Maschinen zu ermöglichen, müssen Forschungsdaten und die darauf bezogenen Metadaten so gut beschrieben sein, dass sie replizierbar bzw. reproduzierbar sind und im Bestfall – wenn möglich – auch auf verschiedene Settings angewendet werden können. Dabei hilft es, soweit möglich, von Anfang an reproduzierbare Settings zu wählen und die Daten mit einer Vielzahl von eindeutigen und relevanten Attributen zu versehen, die u. a. folgende Fragen für andere Nutzer beantworten sollten, um Rückschlüsse auf die Generierung der Daten ziehen zu können:

      • Für welchen Zweck bzw. Anwendungsbereich wurden die Daten gesammelt oder generiert?
      • Wann wurden die Daten erhoben?
      • Basieren die Daten auf anderen eigenen oder fremden Daten?
      • Wer hat die Daten unter welchen Bedingungen (z. B. Laborgeräte) erhoben?
      • Welche Software und Softwareversion wurde verwendet?
      • Welche Version der Daten liegt vor, falls mehrere vorliegen?
      • Was waren feste Ausgangsparameter bei der Erhebung?
      • Handelt es sich um Rohdaten oder bereits bearbeitete Daten?
      • Sind alle verwendeten Variablen entweder irgendwo erklärt oder selbsterklärend?

      Weiterhin müssen in den Daten Angaben zum Lizenzstatus gemacht, d. h. es müssen Informationen darüber vorliegen, unter welcher Datennutzungslizenz die entsprechenden Daten fallen (siehe Kapitel 9). Im Zeitalter von Open Science sind Open-Access-Lizenzen für die eigenen Daten erwünscht und bei vielen Förderern auch gefordert. Zu den bekanntesten Open-Access-Lizenzen gehören Creative Commons und MIT, die beide auch den FAIR-Prinzipien entsprechen. Damit die Daten auch von anderen weiterverwendet werden können und ein Rückschluss auf die Herkunft genau möglich ist, sollten in den Metadaten außerdem einheitliche Informationen zur Zitation vorhanden sein.

    • 5.4 Möglichkeiten der Umsetzung

      Die FAIR-Prinzipien in jeder Hinsicht umzusetzen, ist ein anspruchsvolles Unterfangen. Um einen ersten Indikator dafür zu haben, wie FAIR Ihre Daten sind, können Sie das „FAIR self assessment tool“ der Australian Research Data Commons nutzen, welches Sie hier finden können.

      Außerdem können Sie auf jeden Fall in der Auswahl eines Datenrepositoriums zur Ablage und Veröffentlichung ihrer Daten darauf achten, dass dieses eine „FAIR Compliance“-Auszeichnung besitzt. Dafür muss es die hier aufgeführten Anforderungen erfüllen:

      • Die Datensätze (oder idealerweise die einzelnen Dateien eines Datensatzes) sind mit eindeutigen und dauerhaften Persistent Identifiers (z. B. DOIs) versehen
      • Die Datenbank erlaubt das Hochladen intrinsischer Metadaten (z. B. Name der Autor*innen, Inhalt des Datensatzes, dazugehörige Publikationen) sowie von Metadaten, welche die*der Registrierende selbst definiert (z. B. Bezeichnungen von Variablen)
      • Die Lizenzen (z. B. CC0, CC-BY, MIT), unter denen die Daten in dem Repositorium verfügbar gemacht werden können, müssen klar erkennbar sein oder vom Benutzer selbst ausgewählt werden können.
      • Die Quelleninformationen inkl. Metadaten sind, selbst bei eingeschränkt zugänglichen Datensätzen, immer öffentlich verfügbar.
      • Das Datenarchiv liefert eine Eingabemaske, die ein bestimmtes Format für die intrinsischen Metadaten vorschreibt (um die maschinelle Lesbarkeit/Kompatibilität zu gewährleisten)
      • Die Datenbank verfügt über einen Plan für die langfristige Erhaltung der archivierten Daten

      Quelle: Schweizerischer Nationalfonds. Data Management Plan (DMP) - Leitlinien für Forschende

      Bei der Suche nach einem geeigneten Repositorium, das den FAIR-Datenprinzipien entspricht, können Sie auch auf den Repository Finder zurückgreifen. Wenn Sie die Option „See the repositories in re3data that meet the criteria of the FAIRsFAIR Project“ aktivieren, erhalten Sie eine Übersicht über zertifizierte Repositorien, die Open Access und persistente Identifikatoren für die abzulegenden Daten anbieten. Für die Suche greift der Repository Finder auf das Registry of Research Data Repositories (re3data) zurück. Es bietet einen guten Überblick  über internationale Forschungsdatenrepositorien in einer Vielzahl von  wissenschaftlichen Disziplinen.

      FAIR Schaubild

      Abb. 5.1: Die Inhalte der FAIR-Prinzipien. Quelle: Henrike Becker, grafisch angepasst durch Andre Pietsch

    • 5.5 Was sind die CARE-Prinzipien?

      Die FAIR-Prinzipien konzentrieren sich auf Merkmale von Daten, um einen verstärkten Datenaustausch zu erleichtern. Ethische Fragestellungen spielen dabei keine Rolle. Um diese mit aufzugreifen, veröffentlichte die Global Indigenous Data Alliance (kurz GIDA) 2019 die sogenannten CARE-Prinzipien für die Steuerung von Daten über indigene Bevölkerungsgruppen als ergänzenden Leitfaden zu den FAIR Prinzipien. Diese wurden während der International Data Week und dem parallel stattfindenden Research Data Alliance Plenary am 8. November 2018, Gaborone Botswana) entworfen und legen einen Schwerpunkt auf die individuellen und kollektiven Rechte zur Selbstbestimmung und Kontrollbefugnis von indigenen Bevölkerungsgruppen bei erhobenen Daten, die mit ihnen zusammenhängen. Zu diesen Daten indigener Bevölkerungsgruppen gehören beispielsweise Erhebungen über die Sprache, das Wissen, die Bräuche, die Technologien, die natürlichen Ressourcen und die Territorien dieser Bevölkerungsgruppen. In Deutschland ist die Anwendung der CARE-Prinzipien bisher noch wenig verbreitet.

      Die Abkürzung CARE setzt sich aus den Anfangsbuchstaben der folgenden Anforderungen an Daten zusammen, die dazu beitragen sollen, dieses Ziel zu erreichen:

      • Collective Benefit (kollektiver Nutzen)
      • Authority to Control (Kontrollbefugnis)
      • Responsibility (Verantwortung)
      • Ethics (Ethik)
    • 5.6 Was gilt es bei den CARE-Prinzipien zu beachten?

      Collective Benefit

      Der erste Grundsatz der CARE-Prinzipien besagt, dass Datensysteme so gestaltet sein müssen, dass indigene Bevölkerungsgruppen von den Daten profitieren können. Für eine integrative Entwicklung müssen Regierungen und Institutionen die Nutzung als auch die Wiederverwendung von Daten durch indigene Nationen oder Gemeinschaften aktiv unterstützen, indem sie die Schaffung der Grundlagen für Innovation, Wertschöpfung und die Förderung lokaler, selbstbestimmter Entwicklungsprozesse erleichtern.

      Daten können Planungs-, Implementierungs- und Evaluierungsprozesse bereichern und indigene Gemeinschaften hinsichtlich ihrer Bedürfnisse unterstützen. Auch Entscheidungsprozesse können durch erhobene Daten auf allen Ebenen verbessert werden, indem sowohl Bürger*innen, als auch Institutionen und Regierungen in die Erhebung einbezogen werden, da ihnen so ein besseres Verständnis ihrer Völker, Gebiete und Ressourcen vermittelt wird. Zeitgleich gewährt der offene Austausch solcher Daten auch für Forschende bessere Einblicke in Forschungs- und politische Programme, die die jeweiligen indigenen Bevölkerungsgruppen betreffen.

      Daten indigener Bevölkerungsgruppen basieren auf Gemeinschaftswerten, die wiederum Teil einer Gesamtgesellschaft sind. Jeder Wert, der als Ergebnis aus der Forschung mit solchen Daten geschaffen wird, sollte deshalb den indigenen Gemeinschaften auch auf gerechte Weise zugutekommen, sodass diese daraus einen eigenen Nutzen ziehen und ihr zukünftiges Handeln auf Basis dieser Daten ggf. verändern können.

      Authority to Control

      Wenn Daten bei der Forschung indigener Bevölkerungsgruppen erhoben werden, muss bereits bei der Erhebung eingeplant werden, wie es den Beforschten möglich gemacht werden kann, diese Daten selbst zu kontrollieren, um ihre eigenen Rechte und Interessen auch bei einer Veröffentlichung der Daten zu wahren. Eine selbstverwaltete Steuerung dieser Daten in Form einer Selbstverwaltung soll sowohl indigene Bevölkerungsgruppen als auch die steuernden Institutionen befähigen, zu bestimmen wie die Bevölkerung, Länder und Territorien, Ressourcen, Herkunftsbezeichnungen und ihr Wissen in solchen Daten repräsentiert und identifiziert werden. 

      Zudem haben die indigenen Bevölkerungsgruppen ein Recht auf freie, vorherige und informierte Zustimmung zur Erhebung und Verwendung solcher Daten, einschließlich der Entwicklung von Datenrichtlinien und Protokollen für die Erhebung. Dazu gehört auch die Bereitstellung und Zugänglichmachung der erhobenen Daten. Ihnen muss also eine aktive Führungsrolle in der eigentlichen Verwaltung und dem anschließenden Zugriff zu diesen Daten zukommen.

      Responsibility

      Mit der Erhebung von Daten indigener Bevölkerungsgruppen gehen in besonderem Maße bestimmte Verantwortlichkeiten der Forschenden im Umgang mit diesen Daten einher. So muss beispielsweise eine Erhebung immer vor dem Hintergrund geschehen, dass die Forschungsergebnisse und ausgewerteten Daten zum kollektiven Nutzen der indigenen Bevölkerungsgruppe beitragen und diese den Beforschten in verständlicher Art und Weise bereitgestellt werden. 

      Um eine positive Beziehung zwischen Forschenden und indigenen Bevölkerungsgruppen zu gewährleisten, ist die Verwendung der Daten nur dann möglich, wenn die Beziehung zwischen Forschenden und Beforschten auf Respekt, gegenseitigem Vertrauen und beidseitigem Verständnis beruhen. Wichtig ist: Wie Respekt, Vertrauen und Verständnis in dem jeweiligen kulturellen Umfeld aussehen, bestimmen die indigenen Bevölkerungsgruppen und nicht die Forschenden. Bei der Arbeit mit den Daten muss jederzeit sichergestellt sein, dass die Herstellung, Interpretation und jede weitere Verwendung der Daten die Würde der indigenen Gemeinschaft erhält und respektiert.

      Um Fähigkeiten und Kapazitäten indigener Bevölkerungsgruppen im Umgang mit den über sie erhobenen Daten zu verbessern, ist die Datenverwendung mit der gegenseitigen Verantwortung verbunden, die Datenkompetenz in diesen Gemeinschaften zu verbessern. Auch soll die Entwicklung einer digitalen Infrastruktur soweit wie möglich unterstützen werden, um die Erfassung, Verwaltung, Sicherheit und Nachnutzung von Daten zu ermöglichen. Dies soll u. a. dadurch erreicht werden, dass Ressourcen bereitgestellt werden, um Daten zu generieren, die auf den Sprachen, Weltanschauungen und gelebten Erfahrungen (einschließlich Werten und Prinzipien) der jeweiligen indigenen Bevölkerungsgruppe beruhen.

      Ethics

      Die Rechte und das Wohlergehen indigener Bevölkerungsgruppen sollen in allen Phasen des Datenlebenszyklus das Hauptanliegen sein. Um den Schaden für indigene Bevölkerungsgruppen möglichst gering zu halten und den Nutzen möglichst zu maximieren, müssen die Daten auf eine Art und Weise gesammelt und verwendet werden, die mit den ethischen Rahmenbedingungen der indigenen Bevölkerung und den in der „United Nations Declaration on the Rights of Indigenous Peoples“ (UNDRIP) bestätigten Rechten in Einklang stehen. Die Bewertung des Nutzens und Schadens sollte aus der Sicht der indigenen Bevölkerungsgruppen, Nationen oder Gemeinschaften erfolgen, auf die sich die Daten beziehen, nicht auf der Bewertungsgrundlage der Forschenden.

      Ethische Entscheidungsprozesse befassen sich mit Ungleichgewichten in Bezug auf Macht und Ressourcen sowie deren Auswirkungen auf die Rechte der indigenen Bevölkerung und der Menschenrechte. Zur Steigerung der Gerechtigkeit muss in solchen Prozessen auch immer eine stimmenmäßig relevante Gruppe der jeweils beforschten indigenen Gemeinschaft mit dabei sein.

      Außerdem sollte die Data Governance die potenzielle zukünftige Verwendung und den möglichen zukünftigen Schaden berücksichtigen, weshalb die Metadaten die Herkunft (Provenienz) und den Zweck sowie alle Einschränkungen oder Verpflichtungen bei der sekundären Verwendung einschließlich etwaiger Zustimmungen enthalten sollten.
    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.

  • Bearbeitungsdauer: 13 Minuten, 47 Sekunden
    Bearbeitungsdauer (ohne Video): 10 Minuten, 35 Sekunden

    • 6.1 Einführung & Lernziele

      Um Daten zu teilen und geteilte Daten wissenschaftlich nutzen zu können, muss die Datenqualität gewährleistet sein. Dies verlangt bspw. auch die DFG in ihren Leitlinien zur Sicherung guter wissenschaftlicher Praxis (Leitlinie 7). Dabei geht es nicht nur um die Daten selbst. Vielmehr spielen auch die Qualität der beschreibenden Daten (siehe Kapitel 4) und die Qualität der Infrastrukturen (z. B. Orientierung an den FAIR-Prinzipien, siehe Kapitel 5), über welche die Daten zur Verfügung gestellt werden können, eine Rolle. Inwieweit diese Ebenen zusammenhängen, erfahren Sie im Verlauf der vorliegenden Einheit. 

      Nach Abschluss dieses Kapitels können Sie...

      • …die verschiedenen Dimensionen von Datenqualität benennen und einordnen, 
      • …Mängel bei der Datenqualität auf allen Dimensionen erkennen, 
      • …Schritte zur Verbesserung der Datenqualität einleiten.
    • 6.2 Daten und Qualität – Welche Kriterien sind relevant?


      Datenqualitätskriterien

      Vielleicht möchten Sie eine auf Wohnort, also Postleitzahlen, basierte Untersuchung zum Diebstahlrisiko eines Autos vornehmen. Oder Sie wollen mittels eines Fragebogens herausbekommen, ob es einen Zusammenhang zwischen Studienerfolg und Abiturnoten gibt. In jedem Fall erheben Sie Daten, die Sie auswerten. Dazu müssen folgende Dimensionen der Datenqualität erfüllt ein, wobei je nach Ziel und Zweck einer Datenerhebung nicht alle Dimensionen gleichzeitig eine Rolle spielen.

      Dimensionen der Datenqualität

      Abb. 6.1: Übersicht über Dimensionen der Datenqualität, Quelle: FOKUS

      Diese Kriterien gehen zurück auf Richard Wang und Diane Strong (1996) und beschreiben Daten dann als qualitätsvoll, wenn sie von den Datennutzer*innen (dazu gehören auch Sie selbst) sowohl gegenwärtig als auch zukünftig als passend angesehen werden. Damit Forschungsdaten auch Jahre später interessant sind und nachgenutzt werden können, müssen die Daten so gründlich wie möglich beschrieben werden. Daher ist es wichtig, die Daten gut zu dokumentieren und Metadaten (siehe Kapitel 4) sowie ggf. erstellte und notwendige Forschungssoftware zum Öffnen und Betrachten der Dateien mitzuliefern.


      Ein Beispiel – Datenqualitätskriterien und ihre Umsetzung

      Am Beispiel der Erstellung einer Tabelle mit Unternehmensadressdaten werden die Kriterien der Datenqualität im Folgenden exemplarisch dargestellt. Mit Hilfe der Übersicht soll es möglich sein, schnelle Erkenntnisse über die Verteilung von Kunden nach Bundesländern zu gewinnen und Rechnungen gezielt an die richtigen Ansprechpersonen verschicken zu können. 

      Die Tabelle enthält die folgenden Merkmale:

      • Interne Kundennummer 
      • Name des Unternehmens
      • Straße
      • Hausnummer
      • Postleitzahl
      • Ort
      • Bundesland
      • Nachname Ansprechpartner
      • Vorname Ansprechpartner 
      • Telefonnummer

      Das Ziel jeder wissenschaftlichen Unternehmung ist die Generierung von Wissen. In einem Prozess wird dieses aus Informationen gewonnen, die wiederum aus Daten abgeleitet werden. Damit dies geschehen kann, ist im vorliegenden Beispiel zunächst eine klare Benennung der Spalten wichtig. Erst daraus ergibt sich, dass eine bestimmte Folge von Zahlen und Symbolen (Daten) für einen bestimmten Sachverhalt (Information) steht. Selbst wenn die Zuordnung den Forschenden zum Zeitpunkt der Datenerhebung bekannt ist, sind diese Metadaten trotzdem notwendig, um die Datenerhebung auch in Zukunft verstehen zu können. Ebenso müssen natürlich auch die Daten selbst Qualitätskriterien erfüllen.

      Die Kriterien im Einzelnen


      Intrinsische Datenqualität:

      • Glaubwürdigkeit: Hierfür müssen die Daten vertrauenswürdig und zuverlässig sein. Für unser Beispielvorhaben können Sie die Glaubhaftigkeit Ihrer Daten erhöhen, indem Sie erläutern, woher die Daten stammen.
      • Fehlerfreiheit: Zur Fehlerfreiheit gehört die richtige Aufnahme der Daten. In unserem Beispiel wäre die Bezeichnung "Westfalen" falsch, denn die korrekte Bezeichnung lautet Nordrhein-Westfalen. Stammt der*die Kund*in tatsächlich aus dem Saarland, wäre auch die Bezeichnung Nordrhein-Westfalen fehlerhaft.
      • Objektivität: Objektiv sind ihre Daten dann, wenn sie keine Wertungen enthalten. Im vorliegenden Beispiel würde z. B. ein Zusatz wie „schwieriger Mensch“ bei dem Vor- oder Nachnamen der Ansprechpartner das Kriterium der Objektivität verletzen.
      • Hohes Ansehen: Hierbei geht es um die Reputation Ihrer Datenquelle. So können beispielsweise Daten, die Sie aus anderen Forschungsprojekten oder fachlichen Informationsportalen stammen als zuverlässiger angesehen werden als Daten von einem Datenbroker oder solche, die durch eine allgemeine Internetrecherche gesammelt wurden. 

      Kontextuelle Datenqualität:

      • Mehrwert: Die Informationen bieten dann einen Mehrwert, wenn mit ihrer Hilfe die angestrebten Aufgaben erfüllt werden können. Im vorliegenden Beispielfall könnte das u. a. eine Abfrage zu allen Unternehmen in einem bestimmten Bundesland sein.
      • Relevanz: Daten sind dann relevant, wenn sie dem Nutzer notwendige Informationen liefern. So hätten bspw. Kundendaten aus der Schweiz zwar einen Mehrwert an Informationen, jedoch keine Relevanz für die Verteilung der Unternehmen auf die deutschen Bundesländer.
      • Aktualität: Ihre Daten sind dann aktuell, wenn sie einen entsprechenden Stand zeitnah abbilden. Im vorliegenden Beispiel würde eine vierstellige Postleitzahl nicht aktuell sein, da in Deutschland 1993 auf ein fünfstelliges System umgestellt wurde. Auskünfte über die Aktualität erhält man z. B. durch mitgelieferte Metadaten, Dokumentationsmaterialien oder Datumsangaben im Dokument selbst (Stand: __.__.____).
      • Vollständigkeit: Ihre Daten sind dann vollständig, wenn keine Informationen fehlen. Wären in der Kundendatentabelle bspw. nur 10 der 16 Bundesländer enthalten oder gäbe es zu einigen der Kunden keine Adressdaten, bedeutete dies Einbußen in der Vollständigkeit. 
      • Angemessener Umfang: Die Daten liegen dann in einem angemessenen Umfang vor, wenn die gestellten Anforderungen mit der Menge an vorliegenden Daten umgesetzt werden können. In unserem Beispiel heißt das, dass für das Ziel, Rechnungen zu verschicken, Adressdaten und die Angabe, wer die zuständige Ansprechperson ist, ausreichend sind, und die Telefonnummern für diesen Fall nicht notwendig sind.

      Repräsentationelle Datenqualität: 

      • Eindeutige Auslegbarkeit: Daten sind dann eindeutig auslegbar, wenn sie von allen, die damit arbeiten, in gleicher Art und Weise begriffen werden.
      • Verständlichkeit: Ihre Daten sind dann verständlich, wenn sie von den Datennutzer*innen verstanden und für ihre Zwecke eingesetzt werden können. Für unser Ziel, eine Kundendatenbank anzulegen, bedeutet das, dass die aufgeführten Ansprechpersonen mit Vor- und Nachnamen aufgeführt werden und nicht mit Beschreibungen wie „die Frau im dritten Stock mit den braunen Haaren“. 
      • Einheitliche Darstellung: Wenn die Daten durchgehend auf die gleiche Art und Weise dargestellt werden, sind sie einheitlich. In unserem Fall bedeutet das, für die Angabe der Postleitzahl z. B. zu entscheiden, ob der Ziffernfolge ein „D-“ vorangestellt wird.
      • Übersichtlichkeit: Die Übersichtlichkeit von Daten ist dann gewährleistet, wenn sie in einer gut erfassbaren Art und Weise dargestellt werden. In unserem Beispiel heißt das, für die verschiedenen Angaben verschiedene Spalten einzurichten, sodass die Angaben in einer inhaltlich getrennten und nicht verdichteten Form ausgegeben werden können. Gewünscht ist beispielsweise eine Adressangabe nach dem Muster:
        Frau
        Iris Müller
        Blaue Straße 20
        D-34567 Grünstadt
        und nicht: FrauIrisMüllerBlaueStraße20D-34567Grünstadt

      Zugriffsqualität:

      • Bearbeitbarkeit: Dieses Kriterium ist erfüllt, wenn sich Ihre Daten leicht für die jeweiligen Nutzungszwecke abändern lassen. Für unsere Beispieldatenbank ist dies bspw. gegeben, wenn die Namen der zuständigen Ansprechpartner bearbeitet werden können. So können mögliche Änderungen zeitnah umgesetzt werden. Läge die Tabelle bspw. im PDF-Format vor, wäre eine Bearbeitbarkeit nicht gegeben.
      • Zugänglichkeit:  In unserem Beispielsfall können die betreffenden Personen direkt auf die Daten zugreifen und eine Adresse generieren, und sie müssen nicht irgendwo anrufen, um die Adressdaten genannt zu bekommen.
    • Ein Beispiel – Das Ergebnis

      Und so sieht schließlich das Ergebnis aus. Bei genauerem Hinsehen erkennen Sie allerdings, dass im Ergebnis die Datenqualitätsdimensionen nicht fehlerfrei umgesetzt wurden. Finden Sie die Fehler?

      Beispieltabelle
      Abb. 6.2: Beispieltabelle zu Datenqualität, Quelle: FOKUS

      Zur genauen Fehleranalyse betrachten Sie bitte das folgende Video:
        
    • 6.3 Fehlervermeidung

      Die häufigsten Quellen für Fehler bilden falsche oder ungenaue Daten bzw. Dubletten. Wichtig ist es daher, sich Methoden und Strategien zu überlegen, wie diese verhindert werden können. So ist es bspw. sinnvoll, Prüfroutinen einzubauen. Dieses Prinzip wird auch First-Time-Right-Prinzip genannt. Sie können es u. a. dadurch unterstützen, dass Sie ein einheitliches System der Datenerstellung oder Dateneingabe nutzen wie in unserem Beispielfall die Eingabe des Namens nach dem Schema "Nachname, Vorname" oder auch, indem Sie Angaben standardisieren und beispielsweise die Datumsangaben in der Form "JJJJ-MM-TT" festlegen. Wenn Sie Datenbanksysteme nutzen, können Sie entsprechende Integritätsbedingungen formulieren und so die Einhaltung bestimmter Formate (z. B. bei Datumsangaben) oder die Eingabe bestimmter Werte erzwingen sowie die Konsistenz von Datensätzen sicherstellen (z. B. Postleitzahl und Ort).

      Weiterhin können Sie verschiedene Verfahren anwenden, um Ihre Daten einer Qualitätskontrolle zu unterziehen. Messwerte können beispielsweise auf Plausibilität überprüft werden, was je nach Datenerhebung auch unter Einsatz von Software automatisiert werden kann. Ähnliches gilt für die Dublettenprüfung. Ein viel genutztes Tool zur Bereinigung von tabellarischen Daten ist OpenRefine (https://openrefine.org/). Mit Hilfe einer einer grafischen Benutzeroberfläche, die äußerlich einer Tabellenkalkulationssoftware ähnelt, können Sie Inkonsistenzen in großen Datenmengen finden und korrigieren. So ist es beispielsweise möglich, leicht unterschiedliche Schreibweisen eines Namens in verschiedenen Einträgen (z. B. Nordrhein Westfalen und Nordrhein-Westfalen) per Clustering zusammenzufassen und anschließend einheitlich zu bezeichnen. Auch eine Prüfung durch Kolleg*innen bzw. Kommiliton*innen kann (sofern dies datenschutzrechtlich erlaubt ist) zur Vermeidung von Fehlern beitragen. Bei der Digitalisierung von analogen Inhalten (z. B. Eingabe von Papierfragebögen) kann es zudem helfen, dies von zwei Personen unabhängig voneinander durchführen zu lassen und dann die Ergebnisse zu vergleichen.

      Wichtig ist es außerdem, zu dokumentieren, wer, wann, zu welchem Zweck, was und womit gemessen oder modelliert hat. Diese Informationen sind in den sogenannten Metadaten enthalten. Diese sind oft implizit durch den Projektkontext gegeben und werden in wissenschaftlichen Veröffentlichungen mit dokumentiert (z. B. im Methodenteil). Darüber hinaus sollten Metadaten in einem geeigneten Format auch immer die Datensätze begleiten (siehe auch Kapitel 4). Insbesondere bei groß angelegten Projekten bzw. solchen mit einer langen Laufzeit, empfiehlt es sich ein Qualitätssicherungskonzept zu erarbeiten und zu implementieren.
    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.

  • Bearbeitungsdauer: 21 Minuten, 46 Sekunden
    Bearbeitungsdauer (ohne Video): 11 Minuten, 53 Sekunden

    • 7.1 Einführung & Lernziele

      Im Folgenden finden Sie Informationen zum strukturierten Umgang mit Daten, zur Konzeption einer Verzeichnisstruktur, zum Benennen von Dateien und zum Anlegen von Versionen – kurz, zur Datenorganisation. Dies bezeichnet alle Strategien, um Daten zu strukturieren, speichern und lesbar zu halten. Ziel dieses Kapitels ist es, Ihnen die Sinnhaftigkeit des strukturierten Vorgehens zu vermitteln und Ihnen aufzuzeigen, welchen Vorteil ein gut organisiertes Datenmanagement hat, auch wenn es anfänglich einen Mehraufwand bedeutet.

      Nach Abschluss dieses Kapitels können Sie...

      • ...Verzeichnisstrukturen erstellen
      • ...Daten sinnvoll und strukturiert benennen
      • ...Daten versionieren
      • ...Datenhierarchien verstehen

    • 7.2 Motivation – Warum ist strukturiertes Vorgehen notwendig?

      Eine der größten Herausforderungen im Umgang mit Forschungsdaten ist die Menge der digital vorhandenen und in Projekten anfallenden Daten. Mit zunehmender Datenmenge wird auch das Datenmanagement und damit ein organisiertes und strukturiertes Arbeiten immer wichtiger. 

      Man braucht ein strukturiertes Vorgehen,...

      • ...damit auch nach Jahren nachvollziehbar bleibt, was, wie und weshalb getan wurde.
      • ...damit anderen Forschenden, aber auch Ihnen selbst, die Benennungskonventionen bekannt sind und die Zusammenarbeit vereinfacht wird.
      • ...damit auch andere Forschende mit Ihren Daten arbeiten können.
      • ...um einfacher nach Daten suchen und sie schneller finden zu können.
      • ...um doppelte Arbeit zu vermeiden.
      • ...um Datenverlust durch Überschreibung oder versehentliches Löschen vorzubeugen.
      • ...um den aktuellen Forschungsstand ohne Aufwand identifizieren zu können.
      • ...um Maschinenlesbarkeit zu gewährleisten.

      Insgesamt führt dies zu effizienterem Arbeiten. Die strukturierte Arbeitsweise ist auch ein wichtiger Baustein für die Datenqualität und die Sichtbarkeit Ihrer Forschung. Ebenso sollten Sie stets auf gewählte Datenträger und genutzte Datenformate Wert legen (siehe auch Kapitel 6 und Kapitel 8).

      Um für sich selbst und für andere den Überblick über die verwendeten Daten zu bewahren, ist das Anlegen einer eindeutigen Verzeichnisstruktur entscheidend.

    • 7.3 Erste Schritte

      Machen Sie sich auch den Zusammenhang mit dem Forschungsdatenlebenszyklus (siehe Kapitel 2) bewusst, der Ihnen nicht nur hilft, Ihr Projekt, sondern auch Ihre Daten zu ordnen. Auch die FAIR-Kriterien (siehe Kapitel 5) können Ihnen eine Anleitung zum Strukturieren Ihrer Daten geben. 

      Wenn Sie ihre Daten organisieren, stellt sich zunächst die Frage, wo sie diese speichern (siehe auch Kapitel 8). Im Falle Ihres eigenen PCs, müssen Sie sich sowohl für einen Speicherort als auch eine Speicherstruktur entscheiden. Beispielsweise können Sie Festplatten partitionieren, um einen separaten Speicherort für Ihr Forschungsprojekt zu haben und Ihre Daten besser verwalten zu können.

      Wichtig:

      1. Machen Sie als Erstes unbedingt ein Backup Ihrer Daten! 
      2. Belassen Sie Ihre Daten NICHT im Standard-Verzeichnis für Downloads und platzieren Sie sie ebensowenig einfach auf dem Desktop!

      Um Chaos zu vermeiden, müssen Sie sich zunächst für eine Verzeichnisstruktur entscheiden und Ihre Daten dann in den entsprechenden Ordnern und Unterordnern ablegen.
    • 7.4 Verzeichnisstruktur

      Eine Verzeichnisstruktur (auch Verzeichnisbaum genannt) ist die Anordnung, in der Ordner angelegt werden. Hierarchische Strukturen erleichtern dabei das Auffinden von Daten (siehe Abbildung 7.1).

      Beispiel für eine Verzeichnisstruktur

      Abb. 7.1: Verzeichnisstruktur bzw. Verzeichnisbaum, Quelle: Biernacka et al. 2018, S. 51

      Die Verzeichnisstruktur sollte klar ersichtlich und damit auch für andere Forschende verständlich sein. Hierfür einige Tipps:

      1. Verwenden Sie trennscharfe Bezeichnungen für Ihre Ordner
      2. Vermeiden Sie gleiche Bezeichnungen/Namen für Unterordner innerhalb eines Asts im Verzeichnisbaum
      3. Achten Sie auf ein ausgewogenes Verhältnis zwischen Breite und Tiefe der Struktur. Vermeiden Sie es sowohl viele, thematisch unterschiedliche Dateien in einem Ordner abzulegen, als auch unnötig viele Unterordner in einem Verzeichnis zu erstellen 
      4. Die Voranstellung von Unterstrichen (“_”) oder Zahlen (01, 02, 03 usw.) bei der Benennung von Ordnern, kann bei der Strukturierung helfen

      Zur Dokumentation aller Benennungskonventionen und Ablagestrukturen ist es zudem hilfreich, eine Text-Datei anzulegen, welche alle notwendigen Informationen enthält, um den Inhalt des Ordners nachvollziehen zu können. Diese sollte immer auf der obersten Ebene und im Format .txt gespeichert werden, um die Lesbarkeit ohne spezielles Programm zu gewährleisten.


    • 7.5 Dateibenennung

      Nicht nur die Speicherstruktur, sondern auch die Benennung von Daten und Dateien sollte logisch nachvollziehbar sein. Dazu bieten Ihnen die folgenden Hinweise zu Dateinamen und Schreibweisen eine Orientierung.

      Dateiname:

      Der Dateiname sollte objektiv und intuitiv sowie personenunabhängig nachvollziehbar sein. Die Benennung und die Kennzeichnung können nach den folgenden drei Kriterien erfolgen: 

      • System – wichtig für den späteren Zugriff und Abruf der Daten ist die Berücksichtigung des Systems, unter dem die Datei gespeichert wird.
      • Kontext – der Dateiname beinhaltet inhaltsspezifische oder deskriptive Informationen, damit unabhängig vom Speicherort klar bleibt, zu welchem Kontext die Datei gehört, z. B. „Zeitplan.pdf“ oder „ZeitplanProjektname.pdf“.
      • Konsistenz – wählen Sie die Namenskonvention vorab, um sicher zu stellen, dass sie systematisch befolgt werden kann und die gleichen Informationen (wie z. B. Datum und Zeit) in derselben Reihenfolge beinhaltet (z. B. JJJJ-MM-TT). Dateinamen sollten so lang wie nötig und so kurz wie möglich sein, um übersichtlich zu bleiben und unter jedem Betriebssystem lesbar zu sein. Für eine einheitliche Namensgebung kann man auf die folgenden Namensbestandteile zurückgreifen: 
        • Inhalt
        • Ersteller
        • Erstellungsdatum
        • Bearbeitungsdatum
        • Bezeichnung der Arbeitsgruppe
        • Publikationsdatum
        • Projektnummer
        • Versionsnummer

      Schreibweise:
      Für die Benennung von Dateien gibt es unterschiedliche Schreibweisen. Wichtig bei der Namensgebung sind folgende Punkte:
      • Sonderzeichen (wie { } [ ] < > œuf * % # ‘ ; “ , : ? ! & @ $ ~), Leerzeichen und Punkte sollten vermieden werden, da sie unter verschiedenen Systemen unterschiedlich interpretiert werden und dies zu Fehlern führen kann. Verzichten Sie auch auf Umlaute (ä ö ü). Bei den meisten Betriebssystemen kann man Leerzeichen mit Unterstrichen ersetzen oder den Anfangsbuchstaben von Wörtern großschreiben. Die Schreibweise mit Großbuchstaben wird in der Fachsprache auch CamelCase, in Anlehnung an die Höcker eines Kamels, genannt (siehe Abbildung 7.2). Die Schreibweise mit Unterstrichen nennt sich Snake_Case (siehe Abbildung 7.3).
      • Um eine chronologische Sortierung zu ermöglichen, empfiehlt es sich, den Namen mit Datumsangabe zu beginnen, zum Beispiel JJMMTTName oder JJJJ-MM-TT_Name:
        • 181123CamelCase.txt
        • 2018-11-30_snake_case.txt
      • Weitere Beispiele für einheitliche Namensgebung: 
        • 2016-05-12_Klimamessung1_original.jpg
        • 2016-05-22_Klimamessung1_MHU_Ausschnitt.jpg
        • 2016-05-23_Klimamessung1_MHU_Ausschnitt_bearbeitet_Farbe.jpg
      • Automatisch generierte Namen (z. B. von der Digitalkamera) sollten vermieden werden, da sie zu Konflikten durch Wiederholung führen können. Lassen Sie bei der Entscheidung der Namenskonvention die Skalierbarkeit nicht außer Acht: z. B. bei der Wahl einer zweistelligen Dateinummer beschränkt man die Daten auf 00-99 Dateien. 
      • Nicht nur bei größeren Projekten, sondern auch bei kleineren Forschungsvorhaben, ist es lohnenswert, die gewählten Namenskonventionen schriftlich festzuhalten. Erläutern Sie insbesondere gewählte Abkürzungen in einem Datenmanagementplan oder einer Readme-Datei. Eine Rekonstruktion dieser Konventionen ist nach Jahren oft nur schwer möglich. 
      • Falls Sie eine ID (siehe auch Kapitel 4) oder Studiennummer haben, sollten Sie diese beifügen, um die Daten zweifelsfrei zu einer Studie und einem Forschenden zuordnen zu können (insbesondere, wenn mehrere Forschende an einem Projekt arbeiten).
      • Vermerken Sie durch Kürzel, um welchen Datentyp es sich handelt; z. B. Fragebogen, Experiment, Exzerpt, Audiodatei, etc.
      Camel Case
      Snake Case
      Abb. 7.2: Visualisierung camelCase
      (Quelle: Lea Dietz)
      Abb. 7.3: Visualisierung snake_case
      (Quelle: 
      Lea Dietz)
                                     

      Umbenennung:

      Für die Umbenennung bestehender Dateinamen gibt es in Windows mehrere Alternativen. Mittels Rechtsklick und Auswahl des Kontextpunktes ist ein einfaches Umbenennen möglich. Weiterhin kann nach Markieren der jeweiligen Datei die Taste “F2” auf der Tastatur genutzt werden. 

      Möchten Sie mehrere Dateien gleichzeitig nach bestimmten Konventionen umbenennen, benötigen Sie dafür eine geeignete Software. Diese existiert für die meisten Betriebssysteme.


      In diesem Video von Christian Krippes (2018) sind die wichtigsten Grundregeln für eine strukturierte und übersichtliche Dateibenennung noch einmal kurz zusammengefasst.

    • 7.6 Versionskontrolle

      Versionen und deren Historie helfen, einen Überblick über die durchgeführten Schritte zu behalten und diese nachvollziehbar zu machen. Die meistverbreitete Form, Versionen zu kennzeichnen, besteht in der Vergabe ganzer Zahlen für größere Versionsänderungen und mit einem Unterstrich verbundener Zahlen für kleinere Veränderungen (z. B. v1, v2, v1_01, v2_03_2 etc.). Es wird davon abgeraten, Bezeichnungen wie final, final2, revision, definitiv_final zu benutzen! 

      Bei kollaborativen Dokumenten und Speicherorten wie Wiki-Dateien, Google Docs oder in Cloud-Diensten findet in der Regel eine automatische Versionierung und Änderungsverfolgung statt. Trotzdem sollten Sie auch dort weiterhin eine grobe Versionierung anhand der Dateinamen vornehmen.

      Beispiele für die Dateibeschriftung mit Versionskontrolle:

      • [Dokumentname][Versionsnummer]
      • Doe_interview_July2010_V1
      • Lipid_analysis_rate_V2_4_2
      • 2017_01_28_MR_CS3_V6_03

      Beim Anlegen von Versionen können bis zu drei Ebenen verwendet werden. Jede Ebene gibt Aufschluss über einen anderen Aspekt der Veränderung der Ausgangsdaten. Ausgehend von der Version "v1_0_0" werden dabei geändert:

      • die erste Stelle, wenn mehrere Fälle, Variablen, Wellen oder Samples hinzugefügt oder gelöscht wurden
      • die zweite Stelle, wenn Daten korrigiert werden, so dass die Analyse beeinflusst wird
      • die dritte Stelle, wenn einfache Überarbeitungen ohne Bedeutungsrelevanz vorgenommen werden.

      Für eine fortgeschrittene Versionskontrolle, wie sie bspw. in der Informatik häufig verwendet wird, kommt spezielle Software zum Einsatz, z. B. Git oder Subversion. Das Programm TortoiseSVN integriert sich in den Windows Explorer und erlaubt es über das Kontextmenü verschiedene Dokumente zu vergleichen und Unterschiede herauszufinden.
    • 7.7 Datenbanken und Datenbanksysteme

      Geeignete Konventionen zur Benennung und Ablage von Dateien sind bereits ein wichtiger Baustein für eine effiziente Datenorganisation. Arbeiten Sie jedoch mit besonders vielen Dateien oder haben Sie besondere Anforderungen an die Strukturierung Ihrer Daten, insb. hinsichtlich der Durchsuchbarkeit, kann die Verwendung von Datenbanksystemen hilfreich sein. Hierbei werden nicht nur die Dateien selbst sinnvoll strukturiert, sondern in einer Datenbank verzeichnet und mit Metadaten (siehe Kapitel 4) versehen. Die Metadaten ermöglichen dabei gezielte Filter- und Suchfunktionen. So könnten bspw. in einer Bilddatenbank schnell und komfortabel alle Bilder angezeigt werden, die von einer bestimmten Agentur an einem bestimmten Ort zu einer bestimmten Zeit gemacht wurden. In Abbildung 7.4 werden die Grundbegriffe der Datenorganisation und ihre hierarchische Beziehung zueinander noch einmal veranschaulicht.

      Hierarchie der Grundbegriffe bei Datenbanksystemen
      Abb. 7.4: Grundbegriffe der Datenorganisation, Quelle: De Lange 2006, S. 328

      Auf der untersten Ebene der Datenorganisation befinden sich Datenfelder. Diese enthalten Attributwerte, nach denen sie logisch zusammengehörend Datensegmenten (Datengruppen) zugeordnet werden können. Mehrere Datensegmente bauen einen Datensatz auf. Logisch zusammengehörende Datensätze bilden dann eine Datei, während zusammengehörige Dateien Dateisysteme bzw. Datenbanken bilden. 

      Datenbanken reichen für viele Anforderungen der Nutzer allerdings nicht zur Datenorganisation aus; z. B. müssen einige Daten mehrfach an verschiedenen Orten gespeichert werden, um sie für unterschiedliche Anwendungen nutzen zu können. Zudem kann Datenschutz über die Vergabe von Zugriffsrechten nur schwer gewährleistet werden. Daher werden Datenbanksysteme benötigt. 

      „Ein Datenbanksystem (DBS) besteht aus dem Datenbankverwaltungssystem oder Datenbankmanagementsystem (DBMS) und mehreren Datenbanken (DB, auch Datenbasen)“ (De Lange 2006: 332). Doch was sind Datenbanken und Datenbankmanagementsysteme? Eine Datenbank besteht aus „mehreren, untereinander verknüpften Daten“ (Herrmann 2018: 5), womit sie eine Datensammlung ist, deren Daten „in einer logischen Beziehung stehen“ (Herrmann 2018: 5). Die Datenbank wird vom Datenbankmanagementsystem verwaltet; letzteres ist also eine Software. 

      Somit bieten Datenbanksysteme den Nutzern effizienten und gebündelten Zugang auf Daten und sollen die folgenden Anforderungen erfüllen (De Lange, 2006, S. 333):

      • Auswertbarkeit der Daten nach beliebigen Merkmalen 
      • Einfache Abfragemöglichkeiten und Auswertung, schnelle Bereitstellung der Daten
      • Zuweisung verschiedener Nutzungsrechte an die einzelnen Benutzer 
      • Daten und Anwenderprogramme sind unabhängig voneinander, sodass der Anwender nur die logischen Datenstrukturen kennen muss, während das DBS die organisatorische Verwaltung übernimmt
      • Keine Datendopplung und Datenintegrität
      • Datensicherheit bei Hardwareausfällen und Fehlern der Anwenderprogramme
      • Datenschutz gegen unbefugten Zugriff
      • Flexibilität hinsichtlich neuer Anforderungen
      • Zulassung von Mehrbenutzerzugriffen
      • Einhaltung einheitlicher Standards

      Zu den geläufigsten Datenbankmanagementsystem gehören unter anderen Oracle, MySQL, Microsoft Access und SAP HANA.

    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.

  • Bearbeitungsdauer: 18 Minuten, 3 Sekunden

    • 8.1 Einführung und Lernziele

      Das folgende Kapitel gibt einen näheren Einblick in den vierten Abschnitt des Forschungsdatenlebenszyklus: der Archivierung und Speicherung von Daten.

      Nach Abschluss dieses Kapitels können Sie…

      • …die Risiken des leichtfertigen Umgangs mit Daten einschätzen.
      • …Strategien für ein sicheres Backup anwenden.
      • …die Anforderungen für die (Langzeit-)Archivierung benennen.
      • …die Vor- und Nachteile relevanter Dateiformate erkennen.
      • …den Vorteil besonderer Vorkehrungen, die zur Archivierung und Langzeitverfügbarmachung von Daten getroffen werden müssen, nachvollziehen.
    • 8.2 Speichermedien und -orte: Vor- und Nachteile

      Wie bereits in Kapitel 7 angemerkt, sollten Forschungsdaten regelmäßig gespeichert sowie die Fortschritte und Änderungen möglichst über Versionen gekennzeichnet und gut dokumentiert werden.

      Das Speichern sollte auf unterschiedlichen Medien erfolgen. Bei Ihrer Entscheidung für ein Medium sollten Sie nach Ludwig/Enke (2013, S. 33) die folgenden Faktoren beachten:

      • Größe der Datensätze
      • Anzahl der Datensätze
      • Häufigkeit des Datenzugriffs


      Speichermedien haben verschiedene Eigenschaften, wodurch es je nach Medium teils erhebliche Unterschiede beim Schutz vor Datenverlust und vor unbefugtem Zugriff gibt. Im Folgenden bekommen Sie einen kompakten Überblick über die Eigenschaften, Vorteile und Risiken der häufigsten Speichermedien und -orte:

      Eigener PC

      Vorteile

      Nachteile

      • Eigenverantwortlichkeit für Sicherheit und Backup

      • eigene Kontrolle

      • alles, was mit dem PC geschieht, geschieht mit dem Backup

      • evtl. fehlende Ressourcen und Know-how zum Konfigurieren und Überprüfen der Qualität der Sicherungskopien

      • Einzellösungen aufwendig, kostspielig und ineffizient bezogen auf  eine Arbeitsgruppe

      Mobiles Speichermedium (z. B. CD, DVD, USB-Stick, externe Festplatte)

      Vorteile

      Nachteile

      • leicht zu transportieren

      • können im verschließbaren Schrank oder Safe aufbewahrt werden

      • besonders leicht zu verlieren und können einfach entwendet werden, daher äußerst unsicher

      • Inhalte sind bei Verlust ungeschützt, wenn sie nicht zuvor verschlüsselt wurden

      • anfällig hinsichtlich Temperatur, Luftqualität und Feuchtigkeit

      • externe Festplatten besonders stoß- und verschleißanfällig

      Institutionelle Speicherorte (z. B. Server Ihrer Universität)

      Vorteile

      Nachteile

      • Backup der Daten ist sichergestellt

      • Professionelle Durchführung und Wartung

      • Speicherung entsprechend den Datenschutzrichtlinien der Institution

      • Datenschutz über Zugriffsrechte geregelt

      • Für mobiles Arbeiten weltweit nutzbar

      • Geschwindigkeit vom Netzwerk abhängig

      • Zugriff auf Backups evtl. verzögert durch Dienstweg

      • ggf. unklar, welche Sicherheitskriterien angewendet und Sicherheitsstrategien eingesetzt werden

      • ggf. mit höheren Kosten verbunden

      Externe Speicherorte (z. B. Cloud-Dienste externer Unternehmen)

      Vorteile

      Nachteile

      • einfach zu nutzen und zu verwalten

      • werden professionell gewartet

      • für mobiles Arbeiten weltweit nutzbar

      • je nach Anbieter kann die Verbindung auch unsicher sein

      • abhängig vom Zugang zum Internet

      • Upload und Download kann lange dauern

      • Zugriff auf Backups evtl. verzögert

      • unklar, welche Sicherheitskriterien angewendet und Sicherheitsstrategien eingesetzt werden und ob diese den Vorgaben für sensible Daten entsprechen

      • viele Institutionen haben für die Nutzung solcher Dienste spezielle Regelungen erlassen

      Tab. 8.1: Vor- und Nachteile verschiedener Speichermedien und -orte

      Die Verwendung von kostenlosen Cloud-Speicherdiensten, wie beispielsweise Dropbox, OneDrive oder Google Drive, ist zu vermeiden. Da der Serverstandort für diese Anbieter in Amerika liegt, gilt für die Daten und Ihre Privatsphäre das dortige Recht, was vor allem mit Blick auf den USA PATRIOT Act von 2001 kritisch gesehen werden muss, da die Daten nicht vor allen ungewünschten Zugriffen durch Dritte geschützt sind und nicht kontrolliert werden kann, was mit den Daten geschieht.

      Die Frankfurt UAS bietet als sichere Alternative allen Hochschulmitgliedern und -angehörigen (mit Ausnahme der Studierenden) mit einem gültigen CIT-Account die Nutzung von Nextcloud an.

      Nextcloud

      Nextcloud ist eine Open-Source-Lösung für das Speichern von Dateien (Filehosting). Funktional ähnelt es Dropbox, Google Drive oder anderen Filehosting-Diensten. Jegliche Dateien bleiben jedoch auf den Servern der Hochschule gespeichert. Allen Nutzerinnen und Nutzern stehen fünf Gigabyte für die Dateiablage zur Verfügung. Die Dateien können über einen Client mit dem lokalen Speicher synchronisiert oder unter nextcloud.frankfurt-university.de abgerufen werden. Weitere Informationen erhalten Sie in der Nextcloud Knowledge Base auf Confluence.

      Auch nicht-digitale Medien dürfen nicht vergessen werden. Viele Daten befinden sich auf handschriftlichen Notizen oder gedruckten, papier-basierten Materialien (z. B. Fotos). Hier tragen insbesondere Sonneneinstrahlung, Säure oder Fingerabdrücke zum schnellen Verschleiß bei. Wenn Daten auf Papier gelagert werden, sollten Sie nach Corti et al. (2014, S. 87)…

      • …säurefreies Papier nutzen.
      • …Ordner und Boxen nutzen.
      • …rostfreie Büroklammern verwenden.

      Außerdem sollten Sie die Daten zusätzlich einscannen, sodass sie auch in einem digitalen Format vorliegen. Im Bedarfsfall können diese digitalen Daten dann beispielsweise wieder über einen Druck in ein materielles Format gebracht werden. Zur Übertragung in ein digitales Format bietet sich insbesondere das PDF/A-Format an. Allerdings können nicht alle Dokumente problemlos in das PDF/A-Format überführt werden. Es gibt jedoch kostenlose Tools, die die PDF/A-Konformität überprüfen können. Sollte das Format für ihre Daten nicht in Frage kommen, scannen Sie es einfach im PDF-Format.

      Weiterhin zu beachten ist, dass mindestens zwei Personen Zugang zu den Daten haben sollten, um auch im Krankheitsfall oder bei Abwesenheit die Verfügbarkeit der Daten zu gewährleisten.

    • 8.3 Datensicherheit und -verschlüsselung

      Wie sich aus der vorigen Auflistung der Vor- und Nachteile verschiedener Speicherorte und -medien schon erkennen lässt, stellt sich nicht nur die Frage, wo Sie Daten speichern sollten, sondern auch, wie Sie sie speichern. Sie können zur Sicherung und Sicherheit ihrer (sensiblen) Daten beitragen, indem sie z. B. ihre Speichermedien in einem separaten, abschließbaren Raum oder Schrank aufbewahren sowie Notebooks durch ein Schloss vor Diebstahl sichern. Müssen Sie sich zur Einsicht der Daten erst in einen Account einloggen, kann es zusätzlich sinnvoll sein, eine Zwei-Schritt-Verifizierung am besten über einen physischen Authentification Key (z. B. YubiKey) zu nutzen. Informieren Sie sich aber vorher darüber, ob der Server bei dem Sie sich einloggen auch eines der vom Authentification Key angebotenen Protokolle unterstützt.

      Mit physischem Schutz ist es jedoch nicht getan; auch digital müssen Ihre Daten geschützt werden. Ein wichtiger Faktor dabei ist die Datensicherheit, welche durch Datenverschlüsselung gewährleistet werden kann. Verschlüsselungssoftware kann Ihnen zusätzliche Hilfe bieten, um sowohl einzelne Dateien als auch Speicherorte abzusichern. Beachten Sie auch, dass insbesondere im Umgang mit sensiblen Daten besondere Vorkehrungen getroffen werden müssen.

      Die Datenverschlüsselung setzt nach Corti et al. (2014, S. 88) auf drei Ebenen an, um unautorisierten Zugriff und ungewollte Änderungen sowie Zerstörung und Offenlegung von Daten zu verhindern:

      Physische Sicherheit

      • Zugang/Zutritt zu Gebäuden beschränken
      • Hardcopy-Material einschließen
      • Sensible Daten nur in Ausnahmefällen transportieren/bewegen

      Netzwerksicherheit

      • Sensible Daten nicht auf externen Servern speichern
      • Firewall auf dem neuesten Stand halten und regelmäßig aktualisieren

      Informations- und Computersicherheit

      • Computer durch Passwörter und Firewalls schützen
      • Überspannungsschutz durch Nutzung von USV (unterbrechungsfreie Stromversorgung) Geräten
      • Dateien durch Passwörter schützen
      • Rechte an Dateien festlegen
      • Zugangsbeschränkte Daten verschlüsseln
      • Vertraulichkeitserklärungen der Datennutzer einholen
      • Keine unverschlüsselte Datenübertragung per Email
      • GoogleDocs/Dropbox etc. sind nicht immer angebracht
      • Falls Daten zerstört werden sollen: richtig zerstören (siehe nächster Abschnitt)
      Tab. 8.2: Drei Ebenen der Datenverschlüsselung
    • 8.4 Datenvernichtung

      Eng mit der Datensicherheit ist auch die Datenvernichtung verknüpft. Wer bereits eine Datenrettung in Anspruch nehmen musste oder selbst durchgeführt hat, weiß, dass simples Löschen der Daten diese nicht endgültig vernichtet. Somit können die Daten von Unbefugten wiederhergestellt werden. Wie zerstört man daher Daten richtig? Zunächst hängt die Beantwortung dieser Frage von der Art des gewählten Speichermediums ab.

      Selbst die Neuformatierung von Festplatten löscht Daten nicht restlos; stattdessen wird die Referenz auf die Datei gelöscht, was sie ohne Nutzung bestimmter Wiederherstellungssoftware lediglich unauffindbar macht. Um Daten daher endgültig zu löschen, müssen diese vor der Formatierung überschrieben und der Datenträger tiefenformatiert werden. Dabei können Ihnen beispielsweise die Programme Eraser, WipeFile oder Permanent Eraser behilflich sein. Soll die Festplatte danach nicht weiter benutzt werden, sollten Sie die Festplatte bei sehr sensiblen Daten über eine Firma vernichten lassen, die sich auf die Vernichtung von Datenträgern spezialisiert hat.

      Der einfachste Weg, USB Sticks zu löschen, ist, diese physisch zu zerstören. Dies gilt auch für externe Festplatten, CDs/DVDs und nicht-digitale Daten. Das Deutsche Institut für Normung (DIN) hat mit der 2012 veröffentlichten DIN 66399 insgesamt drei Schutzklassen und sieben verschiedene Sicherheitsstufen für die Aktenvernichtung abhängig vom jeweiligen Datenträger entwickelt. Die Vorgabe der DIN 66399 sieht vor, dass je höher die Schutzklasse und die Sicherheitsstufe für die Daten ist, die Restpartikelgröße (d. h. die Zerkleinerungsstufe) in Abhängigkeit zur Gesamtgröße des ursprünglichen Datenträgers nach der Aktenvernichtung kleiner werden muss, um sicherzustellen, dass der physische Datenträger nicht mehr zusammengesetzt werden kann. Auch hierfür müssen Maschinen verwendet werden, die in den meisten Fällen nur Firmen besitzen, die sich auf die Vernichtung von Daten spezialisiert haben.

    • 8.5 Backup

      Gegenteilig zu diesen Maßnahmen, mit denen Sie Daten endgültig und sicher löschen, können Daten auch unbeabsichtigt verloren gehen. Um Daten nicht aus Versehen zu löschen oder durch Unfälle zu zerstören, müssen Sie regelmäßig Backups machen.

      Das Erstellen einer Sicherungskopie von Daten sollte immer auf einem Speichermedium erfolgen, welches von der üblicherweise genutzten Infrastruktur getrennt ist. Ein Backup sollte planvoll und strukturiert vorgenommen werden. Somit sollten die Daten möglichst regelmäßig gesichert werden, um im Bedarfsfall eine Datenrekonstruktion möglichst einfach durchführen zu können. Bevor Sie jedoch ein Backup machen, sollten Sie organisatorische Fragen klären:

      • Gibt es bereits laufende Backup-Pläne? Wie sehen diese aus?
      • Wovon soll wie oft ein Backup gemacht werden?
      • Wo sollen die Backups gespeichert werden?
      • Wie sollen die Backups gespeichert werden? (z. B. Beschriftung, Sortierung, Dateiformat)
      • Welche Backup-Tools können helfen?
      • Wie ist der Umgang mit sensiblen Daten?

      Es empfiehlt sich, eine automatisierte Routine zu verwenden. Partielle Daten, an denen derzeit gearbeitet wird, sollten möglichst täglich gesichert werden. Zudem ist es ratsam, diese nicht täglich zu überschreiben, da man so gegebenenfalls Fehler rekonstruieren kann oder auch Änderungen, die fälschlicherweise durchgeführt wurden, rückgängig machen kann. Zusätzlich sollte ein wöchentliches Gesamtbackup erstellt werden. Der Grundsatz des 3-2-1 Backups ist hierbei nützlich (siehe Abbildung 8.1).

      3-2-1 Backup Regel
      Abb. 8.1: Die 3-2-1 Backup-Regel (CC-BY SA, Andre Pietsch)

      Unter einem dezentralen Aufbewahrungsort versteht man die in Tabelle 8.1 genannten institutionellen sowie externen Speicherorte. Einen institutionellen, dezentralen Aufbewahrungsort sollten Sie hierbei immer bevorzugen.

      Das Backup bzw. die daraus entstehende Datenwiederherstellung sollten zu Beginn sowie in regelmäßigen Abständen überprüft werden. Die meisten Institutionen bieten eine automatische Lösung an, bei der alle Daten ausschließlich auf von den Hochschulrechenzentren der Universitäten bereitgestellten gesicherten Laufwerken abgelegt werden. Durch diese Professionalisierung wird erreicht, dass die Sicherungen nicht vergessen werden können und die Konfiguration des Backup-Systems nicht einzeln zu erfolgen braucht.

      Zusätzlich können Sie Ihre Backups nach der Erstellung über Prüfsummen kontrollieren. Dafür müssen Sie allerdings nach Erstellung der Backupdateien für diese Dateien MD5- oder SHA1-Prüfsummen erstellen lassen. Dabei hilft Ihnen das von Microsoft zur Verfügung gestellte Dienstprogramm „File Checksum Integrity Verifier“, kurz FCIV. Eine Anleitung, wie Sie dieses verwenden, finden Sie hier. Wenn die Prüfsummen sowohl Ihrer Originaldaten als auch des Backups identisch sind, sind es auch die Daten. So können Sie die Integrität Ihrer Daten prüfen und stellen fest, ob eventuell Fehler beim Kopieren der Daten aufgetreten sind. Sollten Sie übrigens auch Softwarecode veröffentlichen, ist es im Programmierbereich üblich, die Checksumme der Installationsdatei („*.exe“) beim Download mit anzugeben, damit interessierte Nutzer vorher überprüfen können, ob es sich um eine originale Installationsdatei handelt und nicht womöglich um eine mit Viren infizierte Datei.

    • 8.6 Datenarchivierung

      Neben der Datenspeicherung steht die Datenarchivierung als weiterer notwendiger Schritt im Forschungsdatenlebenszyklus. Während die Datenspeicherung vor allem die Speicherung der Daten während des laufenden Arbeitsprozesses in der Projektlaufzeit umfasst, wie sie in den bisherigen Abschnitten dieses Kapitels behandelt wurden, beschäftigt sich die Datenarchivierung damit, wie die Daten nach Abschluss des Projekts so nachnutzbar wie möglich zur Verfügung gestellt werden können. Oft wird begrifflich nochmals zwischen der Datenaufbewahrung in einem Repositorium und der Datenarchivierung im Sinne einer Langzeitarchivierung (kurz „LZA“) unterschieden. An vielen Stellen, so auch in den „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ der DFG aus dem Jahr 2019 („Leitlinie 17: Archivierung“) werden beide Begriffe jedoch äquivalent gebraucht. Wenn im Folgenden von Aufbewahrung oder Datenaufbewahrung die Rede ist, ist die Aufbewahrung von Daten in einem Forschungsdatenrepositorium gemeint. Wird jedoch von Datenarchivierung gesprochen, ist damit eine Langzeitarchivierung intendiert. Die Unterschiede beider Varianten sind Thema dieses Abschnitts.

      Mit der Datenaufbewahrung in einem Forschungsdatenrepositorium geht im Grunde meist eine Veröffentlichung der produzierten Daten einher. Eine solche Veröffentlichung kann und muss im Fall von sensiblen Daten, wie etwa personenbezogenen Daten, auch zugangsbeschränkt geschehen. Gemäß der guten wissenschaftlichen Praxis müssen Repositorien sicherstellen, dass die publizierten Forschungsdaten für mindestens zehn Jahre aufbewahrt und zur Verfügung gestellt werden, anschließend ist die Verfügbarkeit jedoch nicht mehr notwendigerweise gegeben, wird aber dennoch meistens weiter gewährleistet. Sollten Daten nach dieser Mindestaufbewahrungsfrist auf Entscheidung des Betreibers aus dem Repositorium entfernt werden, muss der Verweis auf die Metadaten weiter vorhanden bleiben. Repositorien werden meistens in drei unterschiedliche Arten unterteilt: Institutionelle Repositorien, Fachrepositorien und fachübergreifende bzw. generische Repositorien. Eine vierte eher spezifische Variante sind sogenannte Software-Repositorien, in denen Software bzw. reiner Softwarecode veröffentlicht werden kann. Diese sind üblicherweise auf jeweils eine Programmiersprache ausgelegt (z. B. PyPI für die Programmiersprache „Python“).

      Institutionelle Repositorien umfassen all jene Repositorien, die durch meist staatlich anerkannte Institutionen bereitgestellt werden. Dazu können Universitäten, Museen, Forschungseinrichtungen oder andere Einrichtungen gehören, die ein Interesse daran haben, Forschungsergebnisse oder andere Dokumente von wissenschaftlicher Bedeutung der Öffentlichkeit zur Verfügung zu stellen. Im Rahmen der „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ der DFG (2019) wird offiziell gefordert, dass die Forschungsdaten, die einem wissenschaftlichen Werk zugrunde liegen, mindestens „in der Einrichtung, wo sie entstanden sind, oder in standortübergreifenden Repositorien aufbewahrt“ werden müssen. (DFG 2019, S. 22) Beachten Sie außerdem vor der Veröffentlichung Ihrer Daten die Hinweise in der Forschungsdaten-Leitlinie der Frankfurt UAS und suchen Sie frühzeitig Kontakt zum Forschungsdatenreferenten, um zu besprechen wie und wo Sie die Daten veröffentlichen können, um gemäß der guten wissenschaftlichen Praxis zu handeln. Auch wenn Sie ihre Daten bereits in einem Journal veröffentlicht haben, ist es häufig möglich, diese auch an Ihrer Einrichtung zu veröffentlichen. Fragen Sie dazu beim Verlag an oder schauen Sie in Ihren Vertrag.

      Neben der Veröffentlichung im institutionellen Repositorium können Sie Ihre Daten auch zusätzlich in einem fachspezifischen Repositorium publizieren. Gerade die Veröffentlichung in einem renommierten fachspezifischen Repositorium kann stark zur Steigerung Ihrer wissenschaftlichen Reputation beitragen. Um zu erfahren, ob für Ihren Forschungsbereich ein passendes fachspezifisches Repositorium vorhanden ist, lohnt sich die Suche über den Repositorien-Index „re3data“. 

      Sollte kein passendes Repositorium dabei sein, ist die letzte Möglichkeit die Veröffentlichung in einem großen, fachübergreifenden generischen Repositorium. Eine kostenlose Variante bietet der von der Europäischen Kommission finanzierte Dienst Zenodo. Gebührenpflichtige Dienste zur Veröffentlichung von Daten bieten für den deutschen Raum RADAR und international figshare. Die am häufigsten verwendete Variante stellt im europäischen Raum vermutlich Zenodo dar. Achten Sie bei einer eventuellen Veröffentlichung auf Zenodo darauf, ihre Forschungsdaten auch einer oder mehrerer Communities zuzuordnen, die in gewisser Weise eine Fachspezifik innerhalb dieses generischen Angebots widerspiegeln.

      Unabhängig davon, wo Sie ihre Daten letztendlich veröffentlichen, achten Sie immer darauf zusätzlich zu den Daten auch eine beschreibende "Metadatendatei" mit zu veröffentlichen, in welcher die Daten beschrieben werden und der Kontext der Datenerhebung dargelegt ist (siehe Kapitel 4). Schauen Sie bei der Auswahl Ihres bevorzugten Repositoriums auch darauf, ob dieses in irgendeiner Weise zertifiziert ist (z. B. CoreTrustSeal). Ob ein Repositorium zertifiziert ist, ist bei „re3data“ direkt ersichtlich.

      Je älter Daten werden, desto wahrscheinlicher ist es bei den heutigen sich rasant weiter entwickelnden digitalen Möglichkeiten, dass diese Daten zukünftig womöglich nicht mehr geöffnet, gelesen oder verstanden werden können. Gründe dafür gibt es einige: Es fehlt die benötigte Hardware und/oder Software oder wissenschaftliche Methoden haben sich so stark verändert, dass Daten jetzt auf andere Arten und Weisen mit anderen Parametern erhoben werden. Moderne Rechner und Notebooks verzichten beispielsweise mittlerweile fast immer auf ein CD- oder DVD-Laufwerk, wodurch diese Speichermedien nicht mehr flächendeckend genutzt werden können. Die Langzeitarchivierung zielt daher darauf ab, die langfristige Nutzung von Daten über einen nicht näher bestimmten Zeitraum hinweg über die Grenzen von Medienverschleiß und technischen Neuerungen sicherzustellen. Das umfasst sowohl die Bereitstellung der technischen Infrastruktur als auch organisatorische Maßnahmen. LZA verfolgt dabei den Erhalt der Authentizität, Integrität, Zugänglichkeit und Verständlichkeit der Daten.

      Um eine langfristige Archivierung von Daten zu ermöglichen, ist es wichtig, dass die Daten mit für die LZA relevanten Metainformationen versehen werden wie beispielsweise der verwendeten Erhebungsmethode, Hardware des Systems, mit dem die Daten erhoben wurden, Software, Codierung, Metadatenstandards samt Version, möglicherweise einer Migrationshistorie usw. (siehe Kapitel 4). Darüber hinaus sollten die Datensätze soweit möglich den FAIR-Prinzipien entsprechen (siehe Kapitel 5). Dazu zählt auch, die Daten vorzugsweise in nicht-proprietären, offen dokumentierten Datenformaten abzuspeichern und auf proprietäre Datenformate zu verzichten. Offene Formate müssen seltener migriert werden und zeichnen sich durch eine längere Lebensdauer und höhere Verbreitung aus. Achten Sie außerdem darauf, dass die zu archivierenden Dateien unverschlüsselt, patentfrei und nicht komprimiert sind. Dateiformate können prinzipiell verlustfrei, verlustbehaftet oder sinnhaft konvertiert werden. Eine verlustfreie Konvertierung ist in der Regel vorzuziehen, da so alle Informationen bestehen bleiben. Werden allerdings geringere Dateigrößen bevorzugt, müssen oft Informationsverluste in Kauf genommen werden. Wenn Sie z. B. Audiodateien wie WAV in MP3 konvertieren, gehen durch die Komprimierung Informationen verloren und die Tonqualität verschlechtert sich. Allerdings ergibt sich durch die Umwandlung eine geringere Dateigröße. Die folgende Tabelle gibt einen ersten grundlegenden Überblick darüber, welche Formate für einen bestimmten Datentyp geeignet und welche eher ungeeignet sind:

      Datentyp

      Empfohlene Formate

      weniger geeignete bzw.
      ungeeignete Formate

      Audio

      .wav / .flac

      .mp3

      Computer-aided Design (CAD)

      .dwg / .dxf / .x3d / .x3db / .x3dv

      -

      Datenbanken

      .sql / .xml

      .accdb / .mdb

      Rastergrafiken & Bilder

      .tif (unkomprimiert) / .jp2 / .jpg2 / .png

      .gif / .jpeg / .jpg / .psd

      Statistische Daten

      .por / .csv

      .sav (SPSS)

      Tabellen

      .csv / .tsv / .tab

      .xls / .xlsx / .xlx

      Texte

      .odf / .rtf / .txt / PDF/A

      .docx / .doc / PDF

      Vektorgrafiken

      .svg / .svgz

      .cdr

      Video

      .mp4 / .mkv / .mj2 /
      .avi (unkomprimiert)

      .mov / .wmv

      Tab. 8.3: Empfohlene und nicht empfohlene Datenformate nach Dateityp

      Dabei bedeutet die Auflistung in der Spalte "weniger bzw. ungeeignete Formate" nicht, dass Sie diese Formate auf keinen Fall verwenden können, wenn Sie Ihre Daten langfristig aufbewahren wollen. Es geht vielmehr darum, für Fragen der langfristigen Verfügbarkeit in einem ersten Einstieg sensibilisiert zu werden. Machen Sie sich klar, welches Format welche Vor- und welche Nachteile bietet. Einen erweiterten Überblick finden Sie auf forschungsdaten.info. Wenn Sie sich weiter vertiefen wollen, werden Sie auf der Webseite von NESTOR - dem deutschen Kompetenznetzwerk für die Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen fündig. Unter NESTOR - Thema finden Sie aktuelle Kurzartikel aus der Praxis, so z. B. zu den Formaten .tiff oder .pdf. Wenn Sie diese und weitere Übersichten nebeneinanderlegen, werden Sie feststellen, dass die Empfehlungen zu Dateiformaten voneinander abweichen. Wir verfügen noch nicht über ausreichend Erfahrungen auf diesem Gebiet. Ein weiterer guter Weg ist es, bei Unsicherheiten zu Formaten bei einem - soweit vorhanden - Fachdatenzentrum oder einem Forschungsdatenverbund anzufragen. Wollen Sie Ihre Daten dort ablegen, empfiehlt sich diese Vorgehensweise umso mehr. Sie werden dann möglicherweise feststellen, dass Ihre Daten auch dann genommen werden, wenn das gewählte Datenformat unter dem Aspekt der LZA nicht die erste Wahl ist. Repositorien oder Forschungsdatenzentren arbeiten wissenschaftsnah und versuchen immer auch einen Umgang mit Formaten zu finden, die in den jeweiligen Fachdisziplinen weit verbreitet sind, z. B. mit Exceldateien. Als Beispiel dafür, können Sie sich die Vorgaben des Verbunds Forschungsdaten Bildung anschauen.

      Um ggf. selbst eine Entscheidung treffen zu können, welche Formate für Ihr Vorhaben in Frage kommen, gibt es eine Reihe von Kriterien, die Sie bei der Auswahl beachten sollten (nach Harvey/Weatherburn 2018: 131):

      • Ausmaß der Verbreitung des Datenformats
      • Abhängigkeit von anderen Technologien
      • Öffentliche Zugänglichkeit der Dateiformat-Spezifikationen
      • Transparenz des Dateiformats
      • Metadatenunterstützung
      • Wiederverwendbarkeit/Interoperabilität
      • Robustheit/Komplexität/Rentabilität
      • Stabilität
      • Rechte, die die Datenbewahrung erschweren können

      LZA nutzt zum momentanen Zeitpunkt zwei Strategien zur langfristigen Datenerhaltung: Emulation und Migration. Unter Emulation versteht man, dass auf einem aktuellen, modernen System ein häufig älteres System nachgebildet wird, was in möglichst allen Aspekten das alte System imitiert. Programme, die dies leisten, bezeichnet man als Emulatoren. Ein prominentes Beispiel hierfür ist etwa DOSBox, welches es ermöglicht, auf aktuellen Rechnern ein altes MS DOS-System samt nahezu aller Funktionalitäten abzubilden und somit Software für dieses System zu verwenden, was mit einem aktuelleren System höchstwahrscheinlich nicht mehr möglich ist.

      Als Migration oder Datenmigration bezeichnet man das Überführen von Daten auf ein anderes System oder einen anderen Datenträger. Im Bereich der LZA soll so erreicht werden, dass die Daten auf dem zu übertragenden System weiter ausgelesen und angeschaut werden können. Hierfür ist es notwendig, dass die Daten mit dem Datenträger auf dem sie ursprünglich erhoben wurden, nicht untrennbar verknüpft sind. Denken Sie daran, dass auch Metadaten migriert werden müssen!

      Bei der Wahl eines geeigneten Speicherortes für die Langzeitarchivierung sollten Sie folgende Punkte beachten:

      • Technische Anforderungen – Der Dienstleister sollte eine Strategie zur Daten-konvertierung, Migration und/oder Emulation verfolgen. Darüber hinaus sollte in regelmäßigen Abständen eine Kontrolle der Lesbarkeit der Dateien sowie eine Virenprüfung durchgeführt werden. Alle Schritte sollten dokumentiert werden.

      • Siegel für vertrauenswürdige Langzeitarchive – Für die Beurteilung, ob ein Langzeitarchiv vertrauenswürdig ist, wurden verschiedene Siegel entwickelt z. B. das nestor-Siegel, welches auf Grundlage der DIN 31644 „Kriterien für vertrauenswürdige digitale Langzeitarchive“ entwickelt wurde, ISO 16363 oder das CoreTrustSeal.

      • Kosten – Der Betrieb von Servern ebenso wie die Umsetzung der technischen Standards sind mit Kosten verbunden, daher ist das Angebot mancher Dienstleister kostenpflichtig. Der Preis hängt vor allem von der Datenmenge ab.

      • Zugänglichmachung der Daten – Vor der Wahl des Speicherortes sollte man sich die Frage stellen, ob die Daten zugänglich sein oder nur abgelegt werden sollen.

      • Langlebigkeit des Dienstleisters – Wirtschaftliche und politische Faktoren haben Einfluss auf die Langlebigkeit der Dienstleister

      Zusammenfassend lässt sich folgendes sagen: Die hier aufgelisteten Informationen zur LZA haben für Sie vor allem einen theoretischen Wert und nur einen bedingten Handlungswert. Wenn Sie in einem zertifizierten Repositorium veröffentlichen, sind Sie gut beraten. Achten Sie vor allem darauf, dass bei einer vertrauenswürdigen Einrichtung zu tun und informieren Sie sich bei dieser Einrichtung bereits im Voraus zu Möglichkeiten oder Planungen hinsichtlich einer LZA. Die hier aufgelisteten Aspekte für eine gute LZA können Sie zur Formulierung möglicher Fragen an die Einrichtungen nutzen. Dadurch sollten ausreichende Voraussetzungen für die LZA gegeben sein.

    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.

  • Disclaimer: Keine rechtverbindlichen Informationen! Für eine dezidierte Rechtsberatung zu Ihrer Forschung, wenden Sie sich bitte an das Justiziariat oder den Datenschutzbeauftragten der Frankfurt UAS.

    Bearbeitungsdauer: 67 Minuten, 10 Sekunden
    Bearbeitungsdauer (ohne Video): 20 Minuten, 36 Sekunden

    • 9.1 Einführung & Lernziele

      Rechtliche Fragen im Umgang mit Forschungsdaten stellen sich in jeder Phase des Forschungsdatenlebenszyklus. Einen ersten Überblick, welche rechtlichen Aspekte im Umgang mit Daten in welcher Phase jeweils zu beachten sind, gibt Abbildung 9.1. 


      Recht im Forschungsdatenlebenszyklus

      Bearbeitung angelehnt an: Paul Baumann/Philipp Krahn, Rechtliche Rahmenbedingungen des FDM - Grundlagen und Praxisbeispiele, Dresden 2020, Folie 4

      Abb. 9.1: Rechtliche Aspekte des Forschungsdatenmanagements im Forschungsdatenlebenszyklus 

      Nicht für alle rechtlichen Details im Umgang mit Ihren Forschungsdaten müssen Sie selbst Lösungen finden. Über einige rechtliche Konstellationen sollten Sie aber zumindest in Grundzügen selbst Bescheid wissen, wenn Sie im Sinne guter wissenschaftlicher Praxis und Forschungsethik arbeiten wollen.

      Nach Abschluss dieses Kapitels können Sie...

      • ...die wichtigsten Rechtsgebiete im Umgang mit Forschungsdaten benennen
      • ...konkrete Schritte zur rechtskonformen Umsetzung Ihres Forschungsvorhaben unternehmen
      • ...entscheiden ob und wie Sie Ihre Daten veröffentlichen können
      • ...sich bei Fragen an die richtige Stelle wenden

      Bei komplizierten rechtlichen Fragen können Sie sich bspw. an das Justiziariat und/oder den Datenschutzbeauftragten der Frankfurt UAS wenden. Darüber hinaus hilft Ihnen auch Ihr Referent für Forschungsdatenmanagement gerne weiter.
    • 9.2 Welche Rechtsgebiete sind relevant?

      Maßgeblich für einen verantwortlichen Umgang mit Daten sind zunächst insbesondere die folgenden Rechtsgebiete:

      • Datenschutzrecht
      • Urheberrecht und Leistungsschutzrechte
      • Vertragsrecht

      Je nach Forschungsprojekt können auch weitere Rechtsgebiete betroffen sein. Wenn mit Ihrer Forschung bspw. Erfindungen verbunden sind, müssen Sie z. B. auch das Patentrecht beachten. Ebenso können insbesondere bei Kooperationen mit Unternehmen oder Auftragsforschung vertragliche Vereinbarungen bestehen, die es zu beachten gilt (z. B. Geheimhaltungsvereinbarung).

      Vor allem in der epidemiologischen Forschung mit personenbezogenen Daten und bei Forschung mit therapeutischer Zielsetzung sollten im Vorfeld auch ethische Überlegungen beachtet werden. Diese sind oft bereits in disziplinspezifischen Richtlinien zusammengefasst.
      Beispiele:


      Für einige Vorhaben kann zur Absicherung auch ein Gutachten einer Ethikkommission verpflichtend sein. In der Regel unterhalten Hochschulen solche Kommissionen zur Beurteilung ethischer Grundsatzfragen des Wissenschaftsbetriebs sowie ethischer Fragen von wissenschaftlichen Untersuchungen. Darüber hinaus haben auch manche Fachgesellschaften eigene Ethikkommissionen. Ggf. fallen für die Begutachtung Kosten an.
    • 9.3 Datenschutz

      Bei der Erhebung, Speicherung, Verarbeitung und Weitergabe von Forschungsdaten mit Personenbezug sind Datenschutzrechte beachten. Wenn Sie als Wissenschaftler*in an einer hessischen Hochschule mit entsprechenden Daten arbeiten, empfiehlt es sich die Grundzüge insbesondere der folgenden Gesetzestexte zu kennen:

      • Datenschutz-Grundverordnung der Europäischen Union (DS-GVO)
      • Bundesdatenschutzgesetz (BDSG)
      • Hessisches Datenschutz- und Informationsfreiheitsgesetz (HDSIG)

      Im folgenden Video werden die für die wissenschaftliche Forschung besonders relevanten Gesetze zum Datenschutz kurz vorgestellt und ihre Beziehung zueinander erläutert:

          
      Quelle: "Datenschutz in der Forschung", Prof. Dr. Iris Kirchner-Freis, MLS Legal

      Daten ohne Personenbezug bzw. anonymisierte Informationen fallen dagegen nicht unter das Datenschutzrecht und können grundsätzlich unter Berücksichtigung sonstiger Rechte (z. B. Urheberrechte) frei verarbeitet werden.

      Worin genau sich Daten mit Personenbezug von anderen (anonymen) Forschungsdaten unterscheiden, wird im folgenden Abschnitt noch genau erklärt. Im Zweifelsfall sollten Sie zur Vermeidung von Haftungsrisiken von einem Personenbezug ausgehen.


      9.3.1 Personenbezogene Daten und besondere Kategorien personenbezogener Daten

      Personenbezogene Daten sind gemäß Art. 4 Abs. 1 DSGVO alle Informationen, die sich auf eine identifizierte oder identifizierbare lebende Person beziehen. Beispiele für personenbezogene Forschungsdaten sind z. B. Umfragedaten in den Sozialwissenschaften oder Gesundheitsdaten in der medizinischen Forschung.

      Als identifizierbar wird eine Person angesehen, die direkt oder indirekt mittels Zuordnung identifiziert werden kann:

      • insbesondere zu einer Kennung wie einem Namen, zu einer Kennnummer, zu Standortdaten, zu einer Online‐Kennung oder
      • zu einem oder mehreren besonderen Merkmalen, die Ausdruck der physischen, physiologischen, genetischen, psychischen, wirtschaftlichen, kulturellen oder sozialen Identität dieser natürlichen Person sind.

      In der Rechtsprechung sind zuletzt insbesondere folgende Fälle entschieden worden:


      Beispiele

      • Bildnisse, Film- und Tonaufnahmen, wenn ein Personenbezug besteht
      • IP‐Adressen
      • schriftliche Antworten eines Prüflings in einer berufsbezogenen Prüfung
      • Anmerkungen der Prüfenden zur Bewertung dieser Antworten

      Bei der Prüfung, ob eine Person identifizierbar ist, sind nach der DSGVO alle Mittel zu berücksichtigen, die von dem Verantwortlichen oder einer anderen Person unter normalen Umständen (hinsichtlich Kosten‐ und Zeitaufwand) wahrscheinlich genutzt werden, um die Person zu identifizieren (Erwägungsgrund 26 DSGVO).

        
      Quelle: "Datenschutz in der Forschung", Prof. Dr. Iris Kirchner-Freis, MLS Legal

      Darüber hinaus gibt es in der Rechtsprechung Datenkategorien, die als besonders sensibel angesehen werden. Hierzu zählen bspw. Daten über den Gesundheitszustand einer Person, deren sexuelle Orientierung sowie politische oder religiöse Ansichten. Eine Auflistung dieser besondere Kategorien personenbezogener Daten findet sich in Art. 9 DSGVO.

      Diese Daten unterliegen einem besonderen Schutz und besonderen Sorgfaltspflichten bei der Verarbeitung. Dies bedeutet bspw., dass Teilnehmer*innen wissenschaftlicher Studien der Verarbeitung dieser besonderen Kategorien personenbezogener Daten vor der Datenerhebung ausdrücklich zustimmen müssen. Weitere Aspekte werden im folgenden Video erläutert:

        
      Quelle: "Datenschutz in der Forschung", Prof. Dr. Iris Kirchner-Freis, MLS Legal

      Bei der Verarbeitung personenbezogener Daten sind die sog. allgemeinen Datenverarbeitungsgrundsätze (Art. 5 DSGVO) zu beachten:

      • Personenbezogene Forschungsdaten dürfen nur erhoben werden, wenn sie zum Erreichen des Forschungszweckes erforderlich sind.
      • Die Erhebung und Verarbeitung muss gegenüber den betroffenen Personen transparent und mit der gebotenen Redlichkeit geschehen.
      • Die Betroffenen müssen jederzeit die Möglichkeit haben, die Verarbeitung ihrer persönlichen Daten nachvollziehen zu können, und dürfen nicht durch falsche und unterbliebene Informationen in die Irre geführt werden.
      • Der Schutz der Privatsphäre durch Schutz der personenbezogenen Daten sollte bei allen Überlegungen zur Erhebung und Verarbeitung im Mittelpunkt stehen. 
      • Die Daten müssen zudem die Lebensumstände der betreffenden Person korrekt wiedergeben, dürfen sie also nicht verfälschen.
      • Sie sind im Rahmen des Zumutbaren vor Missbrauch (z. B. Entnahme, Veränderung, Beschädigung) technisch und organisatorisch zu schützen.

      9.3.2 Informierte Einwilligung und gesetzliche Erlaubnisnormen

      Grundsätzlich dürfen personenbezogene Forschungsdaten nur mit einer informierten Einwilligung der Betroffenen oder einer gesetzlichen Erlaubnisnorm erhoben und verarbeitet werden (sog. Grundsatz des Verbots mit Erlaubnisvorbehalt).

      Für die informierte Einwilligung lassen sich gemäß Erwägungsgrund 32 S.2 DSGVO folgende Vorgaben festhalten:

      1. Die Einwilligung muss aus freien Stücken (d. h. ohne physische oder psychische Beeinflussung) erfolgen
      2. Insbesondere bei der Verarbeitung sensibler personenbezogener Daten (gemäß Art. 9 oder 10 DSGVO) empfiehlt sich eine schriftliche Fixierung der Einwilligung
      3. Die Einwilligenden müssen durch entsprechende Vorabinformationen genau nachvollziehen können, welche ihrer persönlichen Daten wie, für was, von wem und wie lange verwendet werden sollen. D. h. die Personen sollen in die Lage versetzt werden, die Konsequenzen der eigenen Einwilligung genau einschätzen zu können.

      Demgegenüber greifen gesetzliche Erlaubnistatbestände ohne Zutun des Betroffenen. Besondere Bedeutung kommt den in § 27 BDSG, aber auch in vielen Landesdatenschutzgesetzen (z. B. § 13 LDSG-BW, § 17 DSG-NRW, § 13 NDSG) enthaltenen Ausnahmen für wissenschaftliche Forschungszwecke zu.

      Danach ist die Verarbeitung von personenbezogenen Daten erlaubt, wenn die mit dem Forschungsvorhaben verfolgten Interessen diejenigen der betroffenen Personen überwiegen (vgl. forschungsdaten.info). Da dies jedoch nur selten zutrifft, sollten Sie im Zweifelsfall immer eine Einwilligung einzuholen.

      Die Einwilligung bedarf keiner besonderen Form. Jedoch muss sie – z. B. bei einer Überprüfung durch die Datenschutzaufsichtsbehörde – nachweisbar sein, so dass eine schriftliche oder elektronische Dokumentation dringend zu empfehlen ist. Die Einwilligungserklärung sollte mindestens folgende Informationen enthalten:

      • Verantwortliche*r für die Datenerhebung (Rechtspersönlichkeit), der*die gleichzeitig Adressat*in der Einwilligungserklärung ist;
      • Projekttitel;
      • Konkrete Informationen über die Art der erhobenen Daten;
      • Datenverarbeitungsprozesse, Verantwortliche*r im Sinne des Datenschutzes;
      • Hinweis auf Freiwilligkeit, auf Widerrufsrecht, Hinweis auf die Folgen oder die Folgenlosigkeit bei Verweigerung oder Widerruf;
      • besonders wichtig: Verwendungszweck(e).

      Insbesondere muss der Betroffene muss darauf hingewiesen werden, dass seine Einwilligung völlig freiwillig ist, er sie deshalb auch verweigern und – wenn er sie erteilt – die Einwilligung mit Wirkung für die Zukunft jederzeit widerrufen kann, bisherige Nutzungen aber nicht rückgängig gemacht werden können (Vgl. https://www.forschungsdaten-bildung.de/einwilligung).

      Ergänzt werden muss die Einwilligungserklärung um Informationen über die Verarbeitung der Daten. Darunter fallen die Rechtsgrundlagen und Zwecke der Verarbeitung (soweit diese über die Verarbeitung hinausgehen), eine eventuelle Datenübermittlung in Länder außerhalb der EU, die Speicher- bzw. Löschfristen der personenbezogenen Daten und das Beschwerderecht bei einer Datenschutzaufsichtsbehörde (vgl. Watteler/Ebel 2019: 60).

      Die Einwilligung kann für den Wissenschaftsbereich auch abstrakt für wissenschaftliche Zwecke gegeben werden, die zum Zeitpunkt der Erhebung nicht bekannt sind (sog. broad consent). Je konkreter die Beschreibung jedoch erfolgt, desto eher wird sich die Reichweite der betreffenden Einwilligung auf Nutzungen erstrecken können, die über die Verwendung des Primärzwecks hinausgehen. Wenn die Veröffentlichung der Daten im Rahmen des FDM beabsichtigt ist, sollte die Einwilligung explizit auch die Speicherung und Veröffentlichung der Daten umfassen. Ein praktikabler Kompromiss zwischen abstraktem und konkretem Broad Consent kann bspw. in einer abgestuften Einwilligung bestehen.

      Beispiel einer informierten Einwilligung

      Abb. 9.2: Beispiel einer informierten Einwilligung im “Broad-Consent-Format”, Quelle: Baumann/Krahn 2020

      Das folgende Video fasst alle Aspekte zur informierten Einwilligung und zu den gesetzlichen Erlaubnistatbeständen noch einmal zusammen:

        
      Quelle: "Datenschutz in der Forschung", Prof. Dr. Iris Kirchner-Freis, MLS Legal

      Weiterführende Informationen

      Einige Fachdisziplinen bieten Hilfestellungen und Formulierungsbeispiele für schriftlich verfasste informierte Einwilligungen (vgl. z. B. VerbundFDB, RatSWD).


      9.3.3 Mittel zur Entfernung identifizierender Merkmale

      Allgemein gilt, dass personenbezogene Forschungsdaten nach der Erhebung, sobald es der Forschungszweck zulässt (spätestens mit Abschluss des Forschungsvorhabens), anonymisiert werden müssen.

      Anonymisierung

      Eine derartige Veränderung der Daten, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr (sog. absolute Anonymisierung) oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft (sog. faktische Anonymisierung) einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.


      Der erste Schritt ist dabei die Entfernung direkter Identifikationsmerkmale (Name, Adresse, Telefonnummer usw.). Oftmals reicht dies jedoch nicht aus um einen Personenbezug auszuschließen. In diesem Fall kann die Reduzierung der Informationsgenauigkeit (Aggregierung) ein wirksames Mittel sein, das zudem erlaubt gewisse Informationsteile trotzdem zu behalten.

      Aggregierung

      Zusammenfassung mehrerer gleichartiger Einzelwerte zur Verringerung der Granularität von Informationen. Aus der zusammengefassten Information ist ein Rückschluss auf die Einzelinformationen nicht mehr möglich.


      Hierbei werden also detaillierte Einzelinformationen (z. B. Gehalt im letzten Monat) in Klassen gruppiert (z. B. Unter-, Mittel-, Oberschicht). Der Grad der Aggregierung, der nötig ist um einen Personenbezug auszuschließen kann dabei variieren. Er hängt im Wesentlichen davon ab, welche weiteren potenziellen Identifikationsmerkmale in den Daten vorhanden sind oder aus externen Quellen zugespielt werden können.

      Beispiel für eine graduelle Aggregierung:

      Adresse → Ort → Bundesland → Ost/West → Land → Kontinent


      Es ist in jedem Fall sorgfältig zu prüfen, welche der zur Verfügung stehenden Mittel am geeignetsten und verhältnismäßigsten erscheinen, die identifizierenden Merkmale so zu entfernen, dass auch mit etwaigem Zusatzwissen sowie umfangreichen Kapazitäten zur Datenrecherche und ‐aggregation keine oder nur eine sehr eingeschränkte De‐Anonymisierung möglich ist.

      Ein Aufschub der Anonymisierung ist nur dann möglich, wenn jene Merkmale, mit deren Hilfe ein Personenbezug hergestellt werden kann, zum Erreichen des Forschungszweckes oder einzelner Forschungsschritte benötigt werden. Dies ist beispielsweise während eines noch laufenden Forschungsprojektes, welches auf biometrische Daten zurückgreift, der Fall.

      In diesem Fall müssen die personenbezogenen Merkmale jedoch unmittelbar nach der Erhebung getrennt und sicher gespeichert werden. Dies kann bspw. durch eine Pseudonymisierung der personenbezogenen Forschungsdaten erfolgen.

      Pseudonymisierung

      Die Trennung der personenbezogenen Merkmale unmittelbar nach der Erhebung von den restlichen Daten, so dass die Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen Person zugeordnet werden können.


      Ein Beispiel ist die Verwendung einer Schlüsseltabelle, die den Klarnamen von Personen entsprechende ID-Codes zuweist. So kann der Personenbezug nur hergestellt werden, wenn man im Besitz der Schlüsseltabelle ist. Diese kann ggf. auch von einem unabhängigen Treuhänder verwahrt werden.

      Die auf diese Weise verarbeiteten Daten weisen aber bis zur Löschung der separat zu speichernden personenbezogenen Merkmale weiterhin einen Personenbezug auf und unterliegen damit den datenschutzrechtlichen Vorgaben.

        
      Quelle: "Datenschutz in der Forschung", Prof. Dr. Iris Kirchner-Freis, MLS Legal
    • 9.4 Entscheidungsbefugnis

      Neben dem Datenschutz ist eine weitere wichtige Frage, wer über den Umgang mit den Forschungsdaten, insbesondere ihre Veröffentlichung, entscheiden kann. In der Regel kann diejenige Person, der die Forschungsdaten “zugeordnet” sind, auch über deren Umgang wie z. B. deren Veröffentlichung entscheiden. Eine solche “Zuordnung” kann sich etwa aus dem Urheberrecht, dem Dienstvertragsrecht oder dem Patentrecht ergeben.

      9.4.1 Urheberrechte und Leistungsschutzrechte

      In der Regel kann die urheberrechtliche Schutzfähigkeit einzelner Forschungsdaten nur im Einzelfall und selbst dann nicht mit hinreichender Rechtssicherheit beurteilt werden. Gleichwohl lassen sich verschiedenen Fallgruppen von Forschungsdaten nach der konkrete Art der verkörperten Informationen und vor allem deren Gewinnung unterscheiden:

      • Qualitative Forschungsdaten sind z. B. Sprachwerke wie qualitative Interviews oder längere Texte. Sie können grundsätzlich urheberrechtlich geschützte Formulierungen, Strukturen und Gedankenführungen enthalten. Ein urheberrechtlicher Schutz ist ausgeschlossen, wenn Formulierungen, Struktur und Gedankenführung im Wesentlichen durch fachliche Gepflogenheiten vorgegeben sind. 

      • Wissenschaftliche Darstellungen, wie Zeichnungen, Pläne, Karten, Skizzen und Tabellen, können einem urheberrechtlichen Schutz unterliegen, wenn die Darstellung nicht durch Sachzwänge oder fachwissenschaftliche Gepflogenheiten vorgegeben ist, sondern ein Gestaltungsspielraum der Wissenschaftler*innen besteht.

      • Unter den gleichen Voraussetzungen sind auch Fotografien und andere Lichtbilder urheberrechtlich geschützt. Hierunter fallen neben Fotografien auch Aufnahmen aus bildgebenden Verfahren, wie z. B. Röntgen-, Kernspin und Computertomografiebilder sowie Fotografien und Einzelbilder aus Filmen. 

      • Quantitative Daten sind z. B. Messergebnisse oder statistische Daten. Im Rahmen standardisierter Erhebungen wird in den meisten Fällen kein urheberrechtlicher Schutz bestehen.

      • Bei (quantitativen) Forschungsdaten, deren Anordnung und Zusammenstellung individualitätsbegründend wirkt, handelt es sich um ein sog. Datenbankwerk (§ 4 UrhG). Nur dessen Struktur und nicht die Informationen als solche unterliegen einem urheberrechtlichen Schutz.

      • Metadaten sind meist relativ kurze, rein beschreibende Darstellungen. Sie sind meist nicht urheberrechtlich geschützt. Eine Schutzfähigkeit kommt grundsätzlich nur in den seltenen Fällen in Betracht, in denen Sie z. B. längere Textabschnitte oder Lichtbilder enthalten.

      Fotografien und andere Lichtbilder können zudem durch ein Leistungsschutzrecht nach § 72 UrhG geschützt sein. Die folgende Abbildung von Brettschneider (2020) unternimmt den Versuch einer Pauschalisierung der Schutzfähigkeit von Forschungsdaten als urheberrechtliche Werke:

      Welche Daten sind urheberrechtlich geschützt?
      Abb. 9.3: Werkqualität von Forschungsdaten, Quelle: Wem "gehören" Forschungsdaten, Folie 5.

      Zusammenstellungen von Forschungsdaten im Rahmen einer Datenbank können - außer, dass sie als Datenbankwerk urheberrechtlich geschützt sein können - zudem durch das Datenbankherstellerrecht (§87a UrhG) geschützt werden. Dieses Leistungsschutzrecht erfordert einen wesentlichen Investitionsaufwand hinsichtlich der Sammlung, Ordnung und Zugänglichmachung der Forschungsdaten.

      Inhaber*in der Datenbankherstellerrechte ist regelmäßig die Person, die die wesentlichen Investitionen erbringt, z. B. die Vergütung der Forschenden zahlt und das wirtschaftliche Risiko trägt. Gemeinhin ist dies ebenfalls die anstellende Hochschule oder Forschungseinrichtung. Im Einzelfall kommt auch eine Inhaberschaft der Drittmittel- oder Auftraggebenden in Frage. 

      Bei nicht geschützten Forschungsdaten (z. B. Messergebnissen) ist rechtlich weitgehend ungeklärt, wem im konkreten Einzelfall die Entscheidungsbefugnis über die Daten obliegt. Ob ein mögliches Persönlichkeitsrecht der Wissenschaftler*innen auch in diesen Fällen eine Zuordnung der Forschungsdaten zu einer Person erlaubt, ist umstritten.


      9.4.2 Nutzungsrechtseinräumungen im Rahmen von Dienst- und Arbeitsverträgen


      Gehört die Schaffung urheberrechtlich geschützter Werke zu den arbeitsvertraglichen Pflichten oder zentralen Aufgaben, werden der*dem Arbeitgeber*in aufgrund des Arbeitsvertrages oder Dienstverhältnisses an diesen sog. „Pflichtwerken“ Nutzungsrechte eingeräumt (§ 43 UrhG). Die folgenden “Zuordnungen” von Forschungsdaten ergibt sich aus dem Interessenausgleich mit der Freiheit der Forschung (Art. 5 Abs. 3 GG):

      • Hochschullehrer*innen stehen im Regelfall alle Verwertungs-, Nutzungs- und Veröffentlichungsrechte an denen von ihnen geschaffenen Werken zu, sofern keine ausdrücklichen vertraglichen Abreden bestehen (z. B. Drittmittelförderung, Geheimhaltungsabreden). § 43 UrhG (sog. "Pflichtwerke") findet hier keine Anwendung.

      • Wissenschaftliche Assistent*innen und Mitarbeiter*innen sind gemäß Art. 5 Abs. 3 GG privilegiert, wenn und soweit die wissenschaftliche Arbeit weisungsfrei erfolgt, erfolgt die Forschung weisungsabhängig ist eine stillschweigende Nutzungsrechtseinräumung an den erzeugten Forschungsdaten anzunehmen 

      • Bei Studierenden und externen Promovierenden findet grundsätzlich keine Nutzungsrechteeinräumung an die Hochschule statt, da diese keine Arbeitnehmer*innen sind. Jedoch können abweichende vertragliche Vereinbarungen getroffen werden, z. B. bei Drittmittelprojekten, durch die z. B. der Hochschule Nutzungsrechte eingeräumt werden

      Die folgende Abbildung veranschaulicht die Fragen nach dem Übergang von Verwertungsrechten auf den Arbeitgeber (“Pflichtwerk” nach § 43 UrhG) und den Interessenausgleich mit der Freiheit der Forschung (Art. 5 Abs. 3 GG) nach Rollen, wie sie im wissenschaftlichen Bereich im Einzelfall abzuwägen sind:

      Übergang von Rechten auf den Arbeitgeber
      Abb. 9.4: Rechtsinhaberschaft bei Forschungsdaten, Quelle: Wem "gehören" Forschungsdaten, Folie 7

      Zu beachten ist, dass eine Nutzungsrechtseinräumungen im Rahmen von Dienst- und Arbeitsverträgen ggf. auch stillschweigend erfolgen kann, soweit die Nutzungsrechtseinräumung nicht ausdrücklich im Vertrag geregelt ist. Im Rahmen der (stillschweigenden) Einräumung überlässt die*der Wissenschaftler*in der*dem Arbeitgeber*in auch das Recht zu bestimmen, ob und wie das Werk veröffentlicht wird. Dagegen behält jede*r Wissenschaftler*in ihr*sein Recht auf Namensnennung.

      9.4.3 Zusammenfassung

      Das folgende Video erläutert zusammenfassen das komplexe Zusammenspiel aller bisher erarbeiteten Rechtspositionen für die “Zuordnung” von Forschungsdaten und geht dabei in einigen wenigen ergänzenden Aspekten auch über das bisher ausgeführte hinaus (z. B. Software, Datenträger): 

      Quelle: „Open Science: Von Daten zu Publikationen“, Peter Brettschneider, Universität Konstanz

    • 9.5 Veröffentlichung und Lizenzierung von Forschungsdaten

      Bevor Daten öffentlich zugänglich gemacht werden können, gilt es, eine Vielzahl rechtlicher Aspekte zu beachten – denn nicht alle Daten können oder sollten veröffentlicht werden. Die wichtigsten rechtlichen Aspekte berücksichtigt die folgende Entscheidungshilfe in Form eines Flussdiagramms. Die Beantwortung der gestellten Fragen führt Sie durch den Entscheidungsprozess bis zu einer Empfehlung:

      Entscheidungsbaum zur Datenveröffentlichung
      Abb. 9.5: Entscheidungsprozess Datenveröffentlichung, Quelle: forschungsdaten.info, https://zenodo.org/record/3368293

      Im Wesentlichen, jedoch nicht ausschließlich, sind vor der Veröffentlichung Fragen des Datenschutzes und des Urheberrechts zu klären. Die entscheidenden Weichenstellungen für die Möglichkeit zur Veröffentlichung von Forschungsdaten in einem Repositorium erfolgen deshalb häufig bereits bei der Erhebung der Daten und der Einholung entsprechender Einwilligungserklärungen.

      9.5.1 Was sind geeignete Lizenzierungsmodelle?

      Damit Andere Ihre urheberrechtlich geschützten Daten auch wirklich nutzen dürfen, müssen die Bedingungen der Nutzung geregelt sein. Dies geschieht durch die Vergabe einer Lizenz. Existiert keine Lizenz, dürfen urheberrechtlich geschützten Daten nur mit ausdrücklicher Zustimmung der Urheber*innen verwendet werden.

      Hingegen sollten nicht urheberrechtlich geschützte Forschungsdaten, deren Nutzung bereits ohne vertragliche Erlaubnis (z. B. Lizenz) zulässig ist, weder eingeschränkt noch mit Bedingungen belegt werden. Aus diesem Grund besteht z. B. unter der CC-BY 4.0-Lizenz auch keine durchsetzbare Verpflichtung zur Attribution (siehe Klausel 8a des Lizenzvertrags).


      Häufig werden für das Bereitstellen von Forschungsdaten die Creative Commons Lizenzen verwendet. Neben der Europäischen Kommission im Rahmen von Horizon 2020 empfiehlt auch die DFG die Verwendung dieser Lizenztypen. Bei der Entscheidung für eine konkrete Lizenz gilt die Maßgabe “So offen wie möglich, so restriktiv wie nötig”:

      Überblick über CC-Lizenzen
      Abb. 9.6: Nutzungsmöglichkeiten von Daten unter verschiedenen Creative Commons-Lizenzen, Quelle: Apel et al. 2017

      Die “Kurzfassung des Gutachtens zu den rechtlichen Rahmenbedingungen des Forschungsdatenmanagements” des BMBF geförderte DataJus Projekts an der Technischen Universität, das die rechtlichen Rahmenbedingungen des Forschungsdatenmanagements untersucht hat, spricht sich für die beiden folgenden Lizenzen aus:

      Lizenz

      Beschreibung

      CC0 (Plus)

      Die CC0-Lizenz ermöglicht die maximale Freigabe der Daten und erleichtert die Nachnutzung. Ein Recht auf Namensnennung besteht nicht. Insbesondere für Metadaten ist diese Lizenzierung zu empfehlen.

      CC‐BY 4.0

      Die CC‐BY 4.0-Lizenz ist sinnvoll, wenn eine Namensnennung gewünscht ist. Zugleich wird dem Gebot der Quellenangabe genügt (Sicherung guter wissenschaftlicher Praxis). Die CC-BY 4.0-Lizenz wird daher für die Veröffentlichung von Forschungsdaten empfohlen.

      Tab. 9.1: Empfehlenswerte Lizenzen für Forschungsdaten

      Die Verwendung weiterer Lizenzbausteine sei nicht zu empfehlen. So schlössen z. B. die Creative Commons (CC) Lizenzen mit dem Attribut „ND“ (z. B. CC-BY-ND) die Weitergabe „abgewandelten“ Materials aus. Somit bliebe die öffentliche Zugänglichmachung einer neuen Datenbank, die aus Teilen anderer Datenbanken geschaffen wurde, ausgeschlossen.

      Software benötigt, im Gegensatz zu vielen anderen Forschungsdaten, eine gesonderte Lizenz. Die Verwendung von Creative Commons Lizenzen ist hierfür nicht zu empfehlen. Es stehen aber ebenfalls unterschiedliche Lizenzen zur Verfügung: MIT-Lizenz, GNU General Public License (GPL), GNU Lesser General Public License (LGPL), Apache-Lizenz.


      9.5.2 Was kann einer Veröffentlichung entgegenstehen?

      Nicht alle Forschungsdaten dürfen oder sollten auch tatsächlich veröffentlicht werden. Bevor Sie ggf. gänzlich auf eine Veröffentlichung verzichten, sollten Sie in jedem Fall prüfen, ob Sie Maßnahmen ergreifen können um eine rechtlich und ethisch unbedenkliche Veröffentlichung doch noch zu ermöglichen. Einen Überblick über mögliche rechtliche Hürden und entsprechende Lösungen gibt folgende Abbildung:

      Hinderungsgründe bei Datenveröffentlichung

      Abb. 9.7: Entscheidungsbaum zur Datenveröffentlichung, Quelle: Böker/Brettschneider (2020)

      Darüber hinaus sollten Sie auch forschungsethische Aspekte in Ihre Entscheidung über eine Veröffentlichung Ihrer Forschungsdaten einfließen lassen Die folgenden Punkte sollten Ihnen einige Anhaltspunkte ohne Anspruch auf Vollständigkeit an die Hand geben:

      • Können die Daten in einer Weise genutzt werden, die der Gesellschaft schadet?
      • Bestehen durch die Veröffentlichung z. B. Risiken für die beforschten Personen (auch wenn diese der Verwendung ihrer Daten zugestimmt haben)?
      • Haben beteiligte Arbeitsgruppenmitglieder berechtigte Interessen die Datenveröffentlichung zu unterbinden oder hinauszuzögern (z. B. für die Fertigstellung von Qualifikationsarbeiten)?

      9.5.3 Schutz vertraulicher Informationen in Forschungsdatenzentren

      Durch die Nutzung von Datenzentren oder auch Archiven ist es möglich, den Zugriff auf vertrauliche und sensible Daten zu beschränken und zugleich eine Datenfreigabe für Forschungs- und Bildungszwecke zu ermöglichen. Die in Datenzentren und Archiven gehaltenen Daten sind im Allgemeinen nicht öffentlich zugänglich. Ihre Verwendung nach der Benutzerregistrierung ist auf bestimmte Zwecke beschränkt. Nutzende unterzeichnen eine Endbenutzer-Lizenz, in der sie sich mit bestimmten Bedingungen einverstanden erklären, z. B. Daten nicht zu kommerziellen Zwecken zu nutzen oder potenziell identifizierbare Personen nicht zu identifizieren. Welche Art von Datenzugriff erlaubt ist, wird vorher mit dem Urheber festgelegt. Darüber hinaus können Datenzentren zusätzliche Zugangsregelungen für vertrauliche Daten verhängen. Quelle: forschungsdaten.info

    • 9.6 Zusammenfassung

      Das Video “Von Daten zu Publikationen” erläutert abschließend für dieses Kapitel das komplexe Zusammenspiel aller bisher erarbeiteten Rechtspositionen an Forschungsdaten noch einmal im Zusammenhang und geht dabei in einigen wenigen Aspekten auch über das bisher Erlernte hinaus (z. B. Software, Datenträger).


    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.