Section outline

  • Bearbeitungsdauer: 14 Minuten, 4 Sekunden

    • 5.1 Einführung & Lernziele

      Wenn Sie beginnen, sich über technische Anforderungen des Datenaustauschs im Forschungsdatenmanagement zu informieren, werden Sie sehr schnell auf den Begriff „FAIR Data Principles“ bzw. „FAIR-Prinzipien“ (selten auch: „FAIR-Kritierien“) stoßen. Außerdem werden in anthropologischen, sozialwissenschaftlichen und ähnlichen Disziplinen ethische Anforderungen an die Daten gestellt, wenn es z. B. um die Untersuchung von indigenen Bevölkerungsgruppen geht, weshalb analog zu den eher technisch orientierten FAIR-Prinzipien die so genannten CARE-Prinzipien entwickelt wurden.

      Nach Abschluss dieses Kapitels können Sie…
      • …die FAIR-Prinzipien benennen.
      • …Forschungsdaten gemäß den FAIR-Prinzipien aufbereiten.
      • …die CARE-Prinzipien benennen.
      • …wiedergeben, was es bei den CARE-Prinzipien zu beachten gilt.
    • 5.2 Was sind die FAIR-Prinzipien?

      Um Forschungsdaten zu erheben und auszuwerten, sind viele Arbeitsschritte notwendig. Es benötigt zudem Zeit und Energie und erfordert die Denkleistung von Wissenschaftler*innen. Zudem entsteht häufig ein sehr hoher Verbrauch von Material, Strom und Energie für Mobilität, Geräte, Computer oder aufwendige Settings. Insbesondere wenn Menschen Forschungsgegenstand sind oder Tierversuche notwendig werden, wird schnell deutlich, dass – wenn möglich – eine möglichst vielfältige und breite Nutzung der erhobenen Forschungsdaten erfolgen sollte und Wiederholungen derselben Forschung dringend zu vermeiden sind.

      Forschungsdaten sollen daher möglichst lange ohne Einschränkungen nutzbar und verwendbar sein. Dies gilt für die eigene Nutzung selbst erhobener Forschungsdaten, aber auch für Forschungsdaten, die sich Forschende gegenseitig zur Verfügung stellen. Um dies zu ermöglichen, müssen Forschungsdaten bestimmte Eigenschaften aufweisen. Diese werden in den FAIR-Prinzipien genauer beschrieben. Die Abkürzung FAIR setzt sich aus den ersten Buchstaben der beschreibenden Worte zusammen:

      • Findable (Auffindbar)
      • Acessible (Zugänglich)
      • Interoperable (Interoperabel)
      • Reusable (Nachnutzbar/Wiederverwendbar)
      Sie wurden 2014 in einem Workshop des Lorentz Centers in den Niederlanden entwickelt und im März 2016 in der Zeitschrift Scientific Data erstmals veröffentlicht (vgl. Wilkinson et. al. 2016).

      Die Vision, die mit der Einhaltung der FAIR-Prinzipien erreicht werden soll, ist die Möglichkeit, dass alle Wissenschaftler weltweit von den so veröffentlichten Forschungsdaten profitieren und selbst wieder den FAIR-Prinzipien entsprechende Forschungsdaten produzieren können. Auf europäischer Ebene setzt beispielsweise das Projekt „European Open Science Cloud“ (kurz EOSC) der Europäischen Kommission auf eine strikte Einhaltung der FAIR-Prinzipien beim Erstellen und Publizieren von Forschungsdaten, damit diese Daten europäischen Wissenschaftlern in einer europäischen Wissenschafts-Cloud zur Verfügung gestellt werden können.

    • 5.3 Wie bereite ich Forschungsdaten gemäß den FAIR-Prinzipien auf?

      Im Folgenden sollen anhand der oben genannten Eigenschaften und auf Basis des Originaldokuments mit Bezug auf die verschiedenen Schritte im Forschungsdatenzyklus (Planung, Erhebung, Archivierung usw.) Aspekte aufgezeigt werden, um Forschungsdaten gemäß den FAIR-Prinzipien aufzubereiten. Die vier Eigenschaften werden hier zwar getrennt voneinander betrachtet, bedürfen sich aber gegenseitig. 

      Die folgenden Erklärungen dienen nur als kurze Zusammenfassung zu den einzelnen Anforderungen der FAIR-Prinzipien. Einen deutlich ausführlicheren Überblick, wie Sie diese als Wissenschaftler umsetzen können, erhalten Sie beispielsweise auf den Seiten des Weblogs der TIB.

      Findability

      Die Sicherstellung der Auffindbarkeit von Forschungsdaten stellt einen zentralen Punkt in der Nachnutzbarkeit dieser Daten dar. Ein wichtiger Schritt für die Möglichkeit der Wiederauffindbarkeit von Daten ist die Vergabe von sogenannten Persistent Identifiers, die global eine eindeutige und dauerhafte Identifizierung einer digitalen Ressource sicherstellen. Eine häufig verwendete Form solcher Persistent Identifiers stellen DOI (Digital Object Identifier) dar. Dieser Identifier muss auch in den Metadaten (siehe Kapitel 4) vorhanden sein und auf die eigentlichen Forschungsdaten verweisen, um mit diesen verknüpft zu sein. Außerdem ist es wichtig, möglichst vollständige Metadaten und auch alle Parameter der eigentlichen Forschungsdaten zu erheben und zu dokumentieren, um die Wiederauffindbarkeit zu verbessern. Um die Daten letztendlich auffindbar zu machen, müssen die Daten am Ende noch in ein vom Menschen nutzbares durchsuchbares System eingespeist werden.

      Accessibility

      Hat ein Nutzer interessante Forschungsdaten über ein Suchsystem gefunden, stellt sich ihm im Anschluss daran die Frage nach dem Zugang zu diesen Daten. Um überhaupt eine sichere Zugänglichkeit zu gewährleisten, sehen es die FAIR-Prinzipien vor, dass standardisierte Kommunikationsprotokolle (vorwiegend http[s] und ftp) verwendet werden, die jeder Browser umsetzen kann. 

      Zur Veröffentlichung der Forschungsdaten gibt es die Möglichkeit, diese direkt in Forschungsdaten-Journalen oder Forschungsdatenzentren zu publizieren. Forschungsdatenpublikationen ermöglichen die Veröffentlichung aller Forschungs- und Metadaten, nicht nur einer Auswahl an Forschungsergebnissen wie es für Peer-Review-Artikel in Fachzeitschriften bekannt und gängig ist.

      Bei der Veröffentlichung von Forschungsdaten sind persistente Metadaten sehr wichtig. Um mit den FAIR-Prinzipien konform zu sein, müssen Metadaten von einmal veröffentlichten Forschungsdaten auch dann weiterhin verfügbar sein, wenn die Forschungsdaten später möglicherweise zurückgenommen werden müssen. Diese Bedingung sollten alle Repositorien erfüllen, überprüfen Sie dies trotzdem vor der Veröffentlichung.

      Es ist jedoch zu beachten, dass sich nicht alle Forschungsdaten zur freien Veröffentlichung eignen. Große Vorsicht ist geboten bei sensiblen und personenbezogenen Daten, sowie bei Rechten weiterer Personen oder einer Institution an den Forschungsdaten. Auch wenn noch eine weitere Verwendung, beispielsweise für die Anmeldung eines Patents aussteht, müssen vor der Veröffentlichung alle Unklarheiten beseitigt werden. Falls es sich bei den Daten um sensible Daten handelt und diese deshalb nicht frei zur Verfügung gestellt werden können, reicht es, um den FAIR-Prinzipien zu genügen, aus, an irgendeiner Stelle in den Metadaten einen Hinweis darauf zu geben, an wen man sich wenden muss, falls man Interesse an diesen Daten hat (z. B. E-Mail-Adresse, Telefonnummer usw.). FAIR ist also nicht zwangsläufig gleichzusetzen mit Open Access, auch wenn dies erwünscht ist.

      Interoperability

      Der Begriff „Interoperabilität“ kommt ursprünglich aus der IT-Systementwicklung und bezeichnet die Fähigkeit von Systemen, mit anderen bereits existierenden oder auch zukünftig geplanten Systemen möglichst ohne Einschränkungen zusammenzuarbeiten. Übertragen auf Forschungsdaten bedeutet dies einerseits, dass Daten ohne einen größeren Aufwand in andere ähnliche Daten integrierbar sein sollten und andererseits, dass die Forschungsdaten mit verschiedenen Systemen zur Analyse, Verarbeitung und Archivierung kompatibel sind.

      Um dies zu gewährleisten, wird in den FAIR-Prinzipien die Nutzung von weit verbreiteten, formalen Sprachen und Datenmodellen vorgeschlagen, die sowohl von Maschine als auch Menschen lesbar sind. Beispiele für solche Sprachen sind u. a. RDF, OWL, aber auch fachspezifische kontrollierte Vokabulare (siehe Kapitel 4.5) und Thesauri.

      Reusability

      Um eine hohe Nachnutzbarkeit bzw. Wiederverwendbarkeit von Daten durch Mensch und Maschinen zu ermöglichen, müssen Forschungsdaten und die darauf bezogenen Metadaten so gut beschrieben sein, dass sie replizierbar bzw. reproduzierbar sind und im Bestfall – wenn möglich – auch auf verschiedene Settings angewendet werden können. Dabei hilft es, soweit möglich, von Anfang an reproduzierbare Settings zu wählen und die Daten mit einer Vielzahl von eindeutigen und relevanten Attributen zu versehen, die u. a. folgende Fragen für andere Nutzer beantworten sollten, um Rückschlüsse auf die Generierung der Daten ziehen zu können:

      • Für welchen Zweck bzw. Anwendungsbereich wurden die Daten gesammelt oder generiert?
      • Wann wurden die Daten erhoben?
      • Basieren die Daten auf anderen eigenen oder fremden Daten?
      • Wer hat die Daten unter welchen Bedingungen (z. B. Laborgeräte) erhoben?
      • Welche Software und Softwareversion wurde verwendet?
      • Welche Version der Daten liegt vor, falls mehrere vorliegen?
      • Was waren feste Ausgangsparameter bei der Erhebung?
      • Handelt es sich um Rohdaten oder bereits bearbeitete Daten?
      • Sind alle verwendeten Variablen entweder irgendwo erklärt oder selbsterklärend?

      Weiterhin müssen in den Daten Angaben zum Lizenzstatus gemacht, d. h. es müssen Informationen darüber vorliegen, unter welcher Datennutzungslizenz die entsprechenden Daten fallen (siehe Kapitel 9). Im Zeitalter von Open Science sind Open-Access-Lizenzen für die eigenen Daten erwünscht und bei vielen Förderern auch gefordert. Zu den bekanntesten Open-Access-Lizenzen gehören Creative Commons und MIT, die beide auch den FAIR-Prinzipien entsprechen. Damit die Daten auch von anderen weiterverwendet werden können und ein Rückschluss auf die Herkunft genau möglich ist, sollten in den Metadaten außerdem einheitliche Informationen zur Zitation vorhanden sein.

    • 5.4 Möglichkeiten der Umsetzung

      Die FAIR-Prinzipien in jeder Hinsicht umzusetzen, ist ein anspruchsvolles Unterfangen. Um einen ersten Indikator dafür zu haben, wie FAIR Ihre Daten sind, können Sie das „FAIR self assessment tool“ der Australian Research Data Commons nutzen, welches Sie hier finden können.

      Außerdem können Sie auf jeden Fall in der Auswahl eines Datenrepositoriums zur Ablage und Veröffentlichung ihrer Daten darauf achten, dass dieses eine „FAIR Compliance“-Auszeichnung besitzt. Dafür muss es die hier aufgeführten Anforderungen erfüllen:

      • Die Datensätze (oder idealerweise die einzelnen Dateien eines Datensatzes) sind mit eindeutigen und dauerhaften Persistent Identifiers (z. B. DOIs) versehen
      • Die Datenbank erlaubt das Hochladen intrinsischer Metadaten (z. B. Name der Autor*innen, Inhalt des Datensatzes, dazugehörige Publikationen) sowie von Metadaten, welche die*der Registrierende selbst definiert (z. B. Bezeichnungen von Variablen)
      • Die Lizenzen (z. B. CC0, CC-BY, MIT), unter denen die Daten in dem Repositorium verfügbar gemacht werden können, müssen klar erkennbar sein oder vom Benutzer selbst ausgewählt werden können.
      • Die Quelleninformationen inkl. Metadaten sind, selbst bei eingeschränkt zugänglichen Datensätzen, immer öffentlich verfügbar.
      • Das Datenarchiv liefert eine Eingabemaske, die ein bestimmtes Format für die intrinsischen Metadaten vorschreibt (um die maschinelle Lesbarkeit/Kompatibilität zu gewährleisten)
      • Die Datenbank verfügt über einen Plan für die langfristige Erhaltung der archivierten Daten

      Quelle: Schweizerischer Nationalfonds. Data Management Plan (DMP) - Leitlinien für Forschende

      Bei der Suche nach einem geeigneten Repositorium, das den FAIR-Datenprinzipien entspricht, können Sie auch auf den Repository Finder zurückgreifen. Wenn Sie die Option „See the repositories in re3data that meet the criteria of the FAIRsFAIR Project“ aktivieren, erhalten Sie eine Übersicht über zertifizierte Repositorien, die Open Access und persistente Identifikatoren für die abzulegenden Daten anbieten. Für die Suche greift der Repository Finder auf das Registry of Research Data Repositories (re3data) zurück. Es bietet einen guten Überblick  über internationale Forschungsdatenrepositorien in einer Vielzahl von  wissenschaftlichen Disziplinen.

      FAIR Schaubild

      Abb. 5.1: Die Inhalte der FAIR-Prinzipien. Quelle: Henrike Becker, grafisch angepasst durch Andre Pietsch

    • 5.5 Was sind die CARE-Prinzipien?

      Die FAIR-Prinzipien konzentrieren sich auf Merkmale von Daten, um einen verstärkten Datenaustausch zu erleichtern. Ethische Fragestellungen spielen dabei keine Rolle. Um diese mit aufzugreifen, veröffentlichte die Global Indigenous Data Alliance (kurz GIDA) 2019 die sogenannten CARE-Prinzipien für die Steuerung von Daten über indigene Bevölkerungsgruppen als ergänzenden Leitfaden zu den FAIR Prinzipien. Diese wurden während der International Data Week und dem parallel stattfindenden Research Data Alliance Plenary am 8. November 2018, Gaborone Botswana) entworfen und legen einen Schwerpunkt auf die individuellen und kollektiven Rechte zur Selbstbestimmung und Kontrollbefugnis von indigenen Bevölkerungsgruppen bei erhobenen Daten, die mit ihnen zusammenhängen. Zu diesen Daten indigener Bevölkerungsgruppen gehören beispielsweise Erhebungen über die Sprache, das Wissen, die Bräuche, die Technologien, die natürlichen Ressourcen und die Territorien dieser Bevölkerungsgruppen. In Deutschland ist die Anwendung der CARE-Prinzipien bisher noch wenig verbreitet.

      Die Abkürzung CARE setzt sich aus den Anfangsbuchstaben der folgenden Anforderungen an Daten zusammen, die dazu beitragen sollen, dieses Ziel zu erreichen:

      • Collective Benefit (kollektiver Nutzen)
      • Authority to Control (Kontrollbefugnis)
      • Responsibility (Verantwortung)
      • Ethics (Ethik)
    • 5.6 Was gilt es bei den CARE-Prinzipien zu beachten?

      Collective Benefit

      Der erste Grundsatz der CARE-Prinzipien besagt, dass Datensysteme so gestaltet sein müssen, dass indigene Bevölkerungsgruppen von den Daten profitieren können. Für eine integrative Entwicklung müssen Regierungen und Institutionen die Nutzung als auch die Wiederverwendung von Daten durch indigene Nationen oder Gemeinschaften aktiv unterstützen, indem sie die Schaffung der Grundlagen für Innovation, Wertschöpfung und die Förderung lokaler, selbstbestimmter Entwicklungsprozesse erleichtern.

      Daten können Planungs-, Implementierungs- und Evaluierungsprozesse bereichern und indigene Gemeinschaften hinsichtlich ihrer Bedürfnisse unterstützen. Auch Entscheidungsprozesse können durch erhobene Daten auf allen Ebenen verbessert werden, indem sowohl Bürger*innen, als auch Institutionen und Regierungen in die Erhebung einbezogen werden, da ihnen so ein besseres Verständnis ihrer Völker, Gebiete und Ressourcen vermittelt wird. Zeitgleich gewährt der offene Austausch solcher Daten auch für Forschende bessere Einblicke in Forschungs- und politische Programme, die die jeweiligen indigenen Bevölkerungsgruppen betreffen.

      Daten indigener Bevölkerungsgruppen basieren auf Gemeinschaftswerten, die wiederum Teil einer Gesamtgesellschaft sind. Jeder Wert, der als Ergebnis aus der Forschung mit solchen Daten geschaffen wird, sollte deshalb den indigenen Gemeinschaften auch auf gerechte Weise zugutekommen, sodass diese daraus einen eigenen Nutzen ziehen und ihr zukünftiges Handeln auf Basis dieser Daten ggf. verändern können.

      Authority to Control

      Wenn Daten bei der Forschung indigener Bevölkerungsgruppen erhoben werden, muss bereits bei der Erhebung eingeplant werden, wie es den Beforschten möglich gemacht werden kann, diese Daten selbst zu kontrollieren, um ihre eigenen Rechte und Interessen auch bei einer Veröffentlichung der Daten zu wahren. Eine selbstverwaltete Steuerung dieser Daten in Form einer Selbstverwaltung soll sowohl indigene Bevölkerungsgruppen als auch die steuernden Institutionen befähigen, zu bestimmen wie die Bevölkerung, Länder und Territorien, Ressourcen, Herkunftsbezeichnungen und ihr Wissen in solchen Daten repräsentiert und identifiziert werden. 

      Zudem haben die indigenen Bevölkerungsgruppen ein Recht auf freie, vorherige und informierte Zustimmung zur Erhebung und Verwendung solcher Daten, einschließlich der Entwicklung von Datenrichtlinien und Protokollen für die Erhebung. Dazu gehört auch die Bereitstellung und Zugänglichmachung der erhobenen Daten. Ihnen muss also eine aktive Führungsrolle in der eigentlichen Verwaltung und dem anschließenden Zugriff zu diesen Daten zukommen.

      Responsibility

      Mit der Erhebung von Daten indigener Bevölkerungsgruppen gehen in besonderem Maße bestimmte Verantwortlichkeiten der Forschenden im Umgang mit diesen Daten einher. So muss beispielsweise eine Erhebung immer vor dem Hintergrund geschehen, dass die Forschungsergebnisse und ausgewerteten Daten zum kollektiven Nutzen der indigenen Bevölkerungsgruppe beitragen und diese den Beforschten in verständlicher Art und Weise bereitgestellt werden. 

      Um eine positive Beziehung zwischen Forschenden und indigenen Bevölkerungsgruppen zu gewährleisten, ist die Verwendung der Daten nur dann möglich, wenn die Beziehung zwischen Forschenden und Beforschten auf Respekt, gegenseitigem Vertrauen und beidseitigem Verständnis beruhen. Wichtig ist: Wie Respekt, Vertrauen und Verständnis in dem jeweiligen kulturellen Umfeld aussehen, bestimmen die indigenen Bevölkerungsgruppen und nicht die Forschenden. Bei der Arbeit mit den Daten muss jederzeit sichergestellt sein, dass die Herstellung, Interpretation und jede weitere Verwendung der Daten die Würde der indigenen Gemeinschaft erhält und respektiert.

      Um Fähigkeiten und Kapazitäten indigener Bevölkerungsgruppen im Umgang mit den über sie erhobenen Daten zu verbessern, ist die Datenverwendung mit der gegenseitigen Verantwortung verbunden, die Datenkompetenz in diesen Gemeinschaften zu verbessern. Auch soll die Entwicklung einer digitalen Infrastruktur soweit wie möglich unterstützen werden, um die Erfassung, Verwaltung, Sicherheit und Nachnutzung von Daten zu ermöglichen. Dies soll u. a. dadurch erreicht werden, dass Ressourcen bereitgestellt werden, um Daten zu generieren, die auf den Sprachen, Weltanschauungen und gelebten Erfahrungen (einschließlich Werten und Prinzipien) der jeweiligen indigenen Bevölkerungsgruppe beruhen.

      Ethics

      Die Rechte und das Wohlergehen indigener Bevölkerungsgruppen sollen in allen Phasen des Datenlebenszyklus das Hauptanliegen sein. Um den Schaden für indigene Bevölkerungsgruppen möglichst gering zu halten und den Nutzen möglichst zu maximieren, müssen die Daten auf eine Art und Weise gesammelt und verwendet werden, die mit den ethischen Rahmenbedingungen der indigenen Bevölkerung und den in der „United Nations Declaration on the Rights of Indigenous Peoples“ (UNDRIP) bestätigten Rechten in Einklang stehen. Die Bewertung des Nutzens und Schadens sollte aus der Sicht der indigenen Bevölkerungsgruppen, Nationen oder Gemeinschaften erfolgen, auf die sich die Daten beziehen, nicht auf der Bewertungsgrundlage der Forschenden.

      Ethische Entscheidungsprozesse befassen sich mit Ungleichgewichten in Bezug auf Macht und Ressourcen sowie deren Auswirkungen auf die Rechte der indigenen Bevölkerung und der Menschenrechte. Zur Steigerung der Gerechtigkeit muss in solchen Prozessen auch immer eine stimmenmäßig relevante Gruppe der jeweils beforschten indigenen Gemeinschaft mit dabei sein.

      Außerdem sollte die Data Governance die potenzielle zukünftige Verwendung und den möglichen zukünftigen Schaden berücksichtigen, weshalb die Metadaten die Herkunft (Provenienz) und den Zweck sowie alle Einschränkungen oder Verpflichtungen bei der sekundären Verwendung einschließlich etwaiger Zustimmungen enthalten sollten.
    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.