Bölüm: 4 Metadaten und Metadatenstandards | Forschungsdatenmanagement - Eine Online-Einführung

4.1 Einführung & Lernziele

Wichtig für die Strukturierung und Ordnung Ihrer Daten sind Metadaten und Metadatenstandards. Metadaten sind Daten, die Informationen über andere Daten enthalten. Daten müssen nicht unbedingt digitale Daten sein, es kann sich auch um reale Objekte handeln, die mit beschreibenden Metadaten versehen werden und so eine bessere Auskunft über dieses Objekt geben. Folgende Praxisbeispiele zeigen, wie relevant eine ausführliche Dokumentation mittels Metadaten sein kann:

Szenario 1:

Sie haben verschiedenen Messungen in Ihrem Forschungsprojekt durchgeführt. Die Forschungsdaten und Ergebnisse passen exakt zu Ihrer Hypothese. Sie sind sehr stolz! Sie erinnern sich sehr genau an alle Einstellungen und Parameter. Einige haben Sie auch notiert. Durch unglückliche Umstände können Sie die kommenden Wochen nicht daran weiter arbeiten…

Sie kommen zurück und erkennen mit Schrecken, dass Sie vieles von dem, was Sie im Kopf hatten, nicht mehr richtig zuordnen können. Das hätten Sie nie gedacht! Sie versuchen alles richtig zuzuordnen. Gelingt es Ihnen?

Sie besprechen die Messreihen in Ihrer Arbeitsgruppe. Ein Kollege ist nicht überzeugt; er hat andere Ergebnisse. Sie fangen an zu zweifeln. Eigentlich sind Sie sich sicher; aber nur eigentlich.

An den kommenden Tagen verbringen Sie viel Zeit damit, einige Messungen zu wiederholen. Nun sind Sie sich ganz sicher, dass Ihre Ergebnisse stimmen. Sie dokumentieren alles ausführlich, um es bei der nächsten Arbeitsgruppensitzung überzeugend vorstellen zu können.

Wäre es nicht weniger zeitaufwändig und nervenaufreibend gewesen, wenn Sie direkt eine ausführliche Dokumentation angelegt hätten?

Szenario 2:

Sie erkennen erst kurz vor Ihrer ersten großen Publikation, dass dafür Forschungsdaten aus einem früheren Teilprojekt relevant sein könnten. Das Projekt haben Sie eigentlich vor drei Jahren zur Seite gelegt. Sind die Forschungsdaten so gut dokumentiert, dass Sie sie für die Publikation verwenden können?

Szenario 3:

Sie haben erfolgreich publiziert und wurden weitreichend zitiert. Nun zweifelt jemand Ihre Ergebnisse und Herangehensweise öffentlich an. Sind Sie in der Lage, Ihre Ergebnisse zu belegen?

In allen genannten Szenarien ist eine Dokumentation mit Hilfe von Metadaten hilfreich und nutzt Ihnen spätestens bei der Zusammenstellung Ihrer Ergebnisse und Forschungsdaten für Ihre Promotion, Habilitation, die nächste Publikation oder in Projekten für Ihre Nachfolge und für neue Kolleginnen und Kollegen. Vollständige und korrekte Metadaten sind ein wichtiger Beitrag zur guten wissenschaftlichen Praxis! Metadaten sind zentral, um Forschungsdaten finden, suchen, lesen und interpretieren zu können und stellen im übertragenen Sinne eine Art „Beipackzettel“ für die eigentlichen Daten dar.

Nach Abschluss dieses Kapitels können Sie…

…Metadaten und den Nutzen von Metadaten erkennen.
…wichtige Kategorien von Metadaten wiedergeben.
…ausgewählte Metadatenstandards benennen.
…eigene Metadaten erstellen.
…Ihre Forschungsdaten über Metadaten beschreiben, damit Ihre Forschungsdaten auch in Zukunft nutzbar sind.

4.2 Wann und warum erstelle ich Metadaten?

Metadaten sorgen dafür, dass Forschungsdaten heute und in Zukunft weiterhin verwendbar sind, auch wenn die damaligen Beteiligten an den Experimenten vielleicht verstorben oder mittlerweile mit anderen Forschungsschwerpunkten beschäftigt sind und deshalb keine nähere Auskunft mehr über die früheren Versuche geben können. Ohne Metadaten sind solche Forschungsdaten oft wertlos, da sie zusammenhangslos und nicht verständlich sind.

Um Metadaten korrekt zuzuweisen und Ihre Daten korrekt und geordnet weiternutzen zu können, ist es am besten, Sie dokumentieren Metadaten direkt von Beginn des Forschungsprojektes an. Metadaten müssen aber spätestens dann erstellt werden, wenn Ihre Forschungsdaten in einem Repositorium abgelegt, veröffentlicht oder langzeitarchiviert werden sollen.

Oft ist eine nachträgliche Erstellung bestimmter Metadaten aber gar nicht mehr möglich. Dies kann beispielsweise bei einem langen Projekt dann der Fall sein, wenn es darum geht, die Provenienz (= Herkunft; Ursprung) der Daten für andere genau zu erläutern.

4.3 Wie sehen Metadaten aus?

Metadaten liegen immer in einer bestimmten inneren Struktur vor, wenn auch die tatsächliche Umsetzung in verschiedenen Formen (z. B. von einem einfachen Textdokument über eine Tabellenform bis hin zu einer sehr stark formalisierten Form als XML-Datei, die einem bestimmten Metadatenstandard folgt) geschehen kann. Die Struktur selbst ist abhängig von den zu beschreibenden Daten (beispielsweise Nutzung von Kopfzeilen und Legenden in Excel-Tabellen im Vergleich zur formalisierten Beschreibung eines literarischen Werkes in einem OPAC), der intendierten Nutzung und den verwendeten Standards. Ganz allgemein gesagt, beschreiben Metadaten (digitale) Objekte formalisiert und strukturiert. Zu solchen digitalen Objekten gehören auch Forschungsdaten. Speziell auf unseren Anwendungsfall bezogen, kann man sagen, dass Metadaten das eigene Forschungsvorhaben und damit zusammenhängende Forschungsdaten formalisiert und strukturiert beschreiben.

Es ist sinnvoll, aber nicht zwingend notwendig, dass Metadaten nicht nur vom Menschen, sondern auch von Maschinen lesbar sind, damit Forschungsdaten maschinell und automatisiert verarbeitet werden können. Unter Maschinen sind hier vor allem Computer zu verstehen, weshalb man genauer auch von einer Lesbarkeit durch einen Computer sprechen kann. Um diese zu erreichen, müssen die Metadaten in einer maschinenlesbaren Auszeichnungssprache vorliegen. Häufig werden dafür forschungsspezifische Standards in der Auszeichnungssprache XML (Extensible Markup Language) verwendet, es gibt aber auch andere wie beispielsweise JSON (JavaScript Object Notation). Bei der Einreichung von (Forschungsdaten-)Publikationen gibt es in den meisten Fällen die Möglichkeit, die Metadaten direkt in ein vorgefertigtes Online-Formular einzutragen. Eine genaue Kenntnis von XML, JSON oder anderen Auszeichnungssprachen ist bei der Erstellung von Metadaten zum eigenen Projekt also nicht zwangsläufig erforderlich, kann aber zum Verständnis, wie die Forschungsdaten verarbeitet werden, beitragen.

Die Lesbarkeit durch Computer ist ein wesentlicher Punkt und wird beispielsweise dann wichtig, wenn verwandte Forschungsdaten durch Schlagwortsuche gefunden oder miteinander verglichen werden sollen. Eine maschinenlesbare Datei kann mithilfe von speziellen Programmen erstellt werden. Im Abschnitt "Wie erstelle ich meine Metadaten" bekommen Sie entsprechende Programme vorgestellt.

Besteht keine Kenntnis in der Erstellung von maschinenlesbaren Metadaten-Dateien, sollten Sie die Metadaten zu Ihren Forschungsdaten in einer für Sie möglichen Form abspeichern. Hierfür kann beispielsweise auch eine einfache Text-Datei über den integrierten Editor ihres Betriebssystems erstellt werden, in der jede Zeile eine Information enthält. Überlegen Sie dabei, welche Informationen für die Nachvollziehbarkeit wichtig sind (z. B. Ersteller*in der Daten, Datum der Erstellung/des Versuchs, Aufbau einzelner Versuchsanordnungen usw.). Welche Kategorien beschrieben werden müssen, hängt meist stark von Art, Umfang und Struktur der Forschungsdaten ab. Eine Übertragung in eine maschinenlesbare Form ist bei ordentlicher und nachvollziehbarer Dokumentation am Ende eines Projekts bzw. eines Teilabschnitts des Projekts immer noch möglich.

Beispiele für Metadaten

Im Folgenden soll anhand einiger Beispiele gezeigt werden, wie Metadaten aussehen können.

Abb. 4.1: Eintrag eines Werks in einem Online-Bibliothekskatalog, Quelle: https://hds.hebis.de/ubgi/Record/HEB060886269

Abbildung 4.1 zeigt einen Buchtitel als Eintrag in einem Online-Bibliothekskatalog in einer Form, wie Sie als Angehörige einer Hochschule dies vermutlich schon des Öfteren gesehen haben. An dieser Stelle sei angemerkt, dass Metadaten keine neuartige Entwicklung darstellen und nicht erst im digitalen Zeitalter eine tragende Rolle spielen, sondern schon vorher beispielsweise beim Anlegen von Zettelkatalogen in Bibliotheken verwendet wurden, um Bücher wiederzufinden. Die in Abbildung 4.1 untereinander aufgelisteten Informationen stellen ebenfalls nichts Anderes als Metadaten dar, die aufbereitet von einem Verarbeitungssystem auch von Nutzern gelesen werden können, um Informationen über ein bestimmtes Werk zu bekommen. Sie erfahren etwas über den Titel, den*die Verfasser*in*nen, den Umfang, Angaben zum Veröffentlichungsjahr, der Sprache usw.

Auch wenn sich die Daten aus dem obigen Beispiel wahrscheinlich in hohem Maße von Ihren Forschungsdaten unterscheiden, lässt sich die Art, wie Metadaten erfasst werden, daran gut erläutern. Würde man Metadaten für Forschungsdaten in dieser Art und Weise verfassen, wie sie hier für den Nutzer erscheint, nämlich in einer Art zweispaltigen Tabelle, wobei eine Spalte die Kategorie (z. B. Titel) und eine andere Spalte die tatsächliche Information (hier „König Oidipus“) enthält, wären diese Informationen für einen späteren Forschenden für das Verständnis der Daten in jedem Falle hilfreich. Es würde aber noch nicht dazu führen, dass Computersysteme diese Daten auch automatisiert verarbeiten können.

Sollten Sie also mit der Aufbereitung von computerlesbaren Metadaten überhaupt keine Erfahrung haben, lohnt es sich, wie zuvor schon erwähnt, eine derartige tabellarische Auflistung aller relevanten Daten in einer Datei (z. B. .docx, .xlsx, .txt, o. ä.) schon zu Beginn eines Forschungsvorhabens zu nutzen und durchgehend aktuell zu halten, um bei einer möglichen späteren Einreichung diese Daten schon zur Hand zu haben. Halten Sie sich dabei auch an ein sinnvolles Versionierungskonzept, um Änderungen in den Daten im Laufe der Projektlaufzeit nachvollziehbar zu machen (siehe Kapitel 8).

Beispiel für Metadaten nach Dublin Core Standard

Abb. 4.2: Maschinenlesbare Beispiel-Metadaten gemäß dem Dublin Core Metadata Element Set, Quelle: Henrike Becker, Projekt „FOKUS“

Abbildung 4.2 zeigt einen Teil eines maschinenlesbaren Metadatensatzes, der gemäß den Konventionen des Dublin Core Metadata Element Set, welches 1995 von der Dublin Core Metadata Initiative erstmals veröffentlicht wurde, in der Auszeichnungssprache XML verfasst ist (mehr dazu in Abschnitt 4.4 – „Was sind Metadatenstandards?“). Woran das erkennbar ist, wird im Folgenden erläutert.

Alles, was in Abbildung 4.2 in blauer Schrift verfasst ist, bezeichnet man als Elemente, alles in schwarzer Schrift ist der Inhalt dieser Elemente. Ein einfacheres Verständnis dieses Verhältnisses ergibt sich, wenn man noch einmal Abbildung 4.1 betrachtet: Die linke Spalte ist dort die Art der Information bzw. Kategorie (also bspw. „Titel“, „Verfasser“ usw.), die rechte Spalte dann die tatsächliche Information innerhalb dieser Kategorie (also beispielsweise „König Oidipus“, „Sophocles“ usw.). Das Verhältnis von Element und Inhalt des Elements verhält sich analog, wobei die Art der Information/Kategorie die Elemente (blaue Schrift in Abbildung 4.2) und die tatsächliche Information den Inhalt der Elemente (schwarze Schrift in Abbildung 4.2) darstellen.

Ein grundlegender Unterschied ist jedoch der Aufbau: Elementnamen stehen immer in einer Klammerung durch Kleiner-als- und Größer-als-Zeichen (z. B. „<…>“). Außerdem gibt es für jede Kategorie jeweils ein öffnendes und ein schließendes Element. Das öffnende Element ist erkennbar an dem Kleiner-als-Zeichen „<“ und steht immer vor der tatsächlichen Information. Das schließende Element ist erkennbar an dem Schrägstrich „/“ nach dem Kleiner-als-Zeichen „<“ und steht immer hinter der tatsächlichen Information der jeweiligen Kategorie. Diese öffnenden und schließenden Elemente umschließen also praktisch immer den dazwischenliegenden Informationsgehalt, was in Abbildung 4.2 leicht erkennbar ist. Innerhalb der Kleiner-als- und Größer-als-Zeichen steht die Angabe über die Kategorie (z. B. „title“, „creator“) usw. Die schwarz geschriebene Information zwischen <dc:creator> und </dc:creator> gibt Ihnen also beispielsweise Auskunft über den Urheber des jeweiligen Dokuments bzw. der jeweiligen Daten. Im Falle von Abbildung 4.2 wäre dies „Henrike Becker“.

An dieser Stelle sollen noch kurz die anderen in Abbildung 4.2 gezeigten Elemente erklärt werden. Das <dc:title>-Element beinhaltet den Titel unter dem das Dokument oder der Forschungsdatensatz veröffentlicht wurde. Systeme, die Titel aus einer Datenbank auslesen und anzeigen, nutzen oftmals den Inhalt dieses Elements als Information. <dc:subject> kann mehrfach vorkommen und beinhaltet immer ein Thema des Inhalts in Keywords, die als Suchgrundlage dienen. Das zweite <dc:subject>-Element in Abbildung 4.2 beinhaltet eine sehr lange Angabe eines Themas (also nicht nur Keywords), die eher vermieden werden sollte, damit bessere Suchergebnisse erzielt werden können. Das Element <dc:description> gibt eine Kurzzusammenfassung des Inhalts. Handelt es sich um Textpublikationen kann dort auch das Inhaltsverzeichnis untergebracht werden. Auch bei diesem Element sind Mehrfachnennungen möglich. <dc:date> beinhaltet ein Datum, meistens das der Veröffentlichung. Das Datum sollte, wenn es möglich ist, zur besseren Durchsuchbarkeit in Notation nach DIN ISO 8601 als JJJJ-MM-TT vorliegen. Innerhalb dieses Elements können Unter-Elemente (sogenannte Kind-Elemente) untergebracht werden, die schließlich genauere Informationen zum Datum geben, etwa, ob es sich um das Erstellungsdatum, das Datum der letzten Änderung oder das Veröffentlichungsdatum handelt. Das Element <dc:identifier> ist nur einmalig und obligatorisch in einem Metadatensatz vorhanden. Der darin enthaltene persistente Identifier ist weltweit nur einmal vergeben und weist das Dokument oder den Forschungsdatensatz eindeutig aus. Nähere Informationen zu persistenten Identifiern gibt es im folgenden Abschnitt „Welche Kategorien sind wichtig?“ sowie im Abschnitt „Findable“ von Kapitel 5.

Die zwei Buchstaben mit dem Doppelpunkt „dc:“, die in den Elementen vor dem eigentlichen Elementnamen „creator“ usw. stehen, zeigen, dass es sich bei den Elementen um Elemente aus dem anfangs erwähnten Dublin Core Metadata Element Set handelt. Genauere Informationen, warum diese beiden Buchstaben davor geschrieben werden sollten bzw. oft sogar müssen, werden im Abschnitt 4.4 – „Was sind Metadatenstandards?“ genauer erläutert.

Und nun sind Sie an der Reihe. Was sind bei der dargestellten Tabelle Daten und was sind Metadaten? Zur Auflösung klicken Sie auf das Bild.

Abb. 4.3: Daten und Metadaten einer Excel-Tabelle

Welche Kategorien sind wichtig?

Es gibt sehr viele verschiedene Kategorien, die durch Metadaten beschrieben werden können und oft auch müssen. Je nach Disziplin und Forschungsdaten können sich diese Kategorien stark unterscheiden, manche gelten aber als Standardkategorien für alle Disziplinen.

Eine Kategorie, die spätestens im Falle einer zitierfähigen Veröffentlichung in den Metadaten vorhanden sein sollte, ist der im vorigen Abschnitt erwähnte „Persistent Identifier“. Ein Identifier dient der dauerhaften und unverwechselbaren Identifizierung. Bekannt und häufig verwendet ist der DOI (Digital Object Identifier). Ein DOI wird durch offizielle Registrierungsstellen, wie beispielsweise DataCite, vergeben. Metadaten sind über einen DOI mit dem Dokument und den Forschungsdaten verknüpft. Über einen DOI werden Forschungsdaten zitierbar. Die Zitationsvorgaben müssen in den Metadaten ebenfalls eindeutig festgelegt werden, um der guten wissenschaftlichen Praxis gerecht zu werden.

Weiterhin sollte aus den Metadaten hervorgehen, wer der*die Verfasser*in der Daten ist. Bei Gruppen von Forschenden sollten alle Beteiligten genannt werden, die an der Arbeit beteiligt waren oder eventuelle Rechte an den Forschungsdaten haben. Zu Letzteren können natürlich auch Firmen gehören, die vielleicht zur Förderung der Forschung beigetragen haben. Dabei sollte auf eine vollständige und eindeutige Namensnennung geachtet werden. Falls eine ForscherID (bspw. ORCID) vorliegt, sollte diese genannt werden.

Der Forschungsgegenstand sollte so ausführlich wie nötig beschrieben werden. Hierbei kann es mit Blick auf die Auffindbarkeit der Forschungsdaten auch sinnvoll sein, bereits Schlagwörter zu nennen, die dann bei einer digitalen Datenbank-Suche hinzugezogen werden können, um bessere Treffer zu erzielen.

Außerdem werden für die Nachvollziehbarkeit der Forschungsdaten eindeutige Informationen für Parameter wie Ort, Zeit, Temperatur, soziales Setting,... und alle anderen für die Daten sinnvollen Bedingungen benötigt. Dazu gehören auch benutzte Instrumente und Geräte mit deren genauen Konfigurationen.

Wurde zur Erstellung der Forschungsdaten bestimmte Software verwendet, muss auch der Name der Software in den Metadaten genannt werden. Dazu zählt natürlich auch die Nennung der verwendeten Softwareversion, da so spätere Forschende bei sehr alten Daten eher nachvollziehen können, warum diese Daten unter Umständen nicht mehr geöffnet werden können.

Manche Anforderungen an Metadaten sind immer gleich. Dies gilt auch für die gerade aufgelisteten Kategorien, die sehr generisch sind. Für solche Fälle existieren fachunabhängige Metadatenstandards, zu denen auch das bereits eingeführte Dublin Core Element Set gehört. Weitere Anforderungen können sich zwischen verschiedenen Disziplinen sehr stark unterscheiden. Daher existieren fachspezifische Standards, die diese Anforderungen abdecken. Mehr dazu erfahren Sie im nächsten Abschnitt 4.4 – „Was sind Metadatenstandards?“.

Abbildung 4.4 stellt verschiedene Kategorien von Metadaten dar, die sich im Hinblick auf Forschungsdaten als sinnvoll erweisen können.

Abb. 4.4: Auflistung von Beispielkategorien, Quelle: Henrike Becker, Projekt „FOKUS“

4.4 Was sind Metadatenstandards und warum sind sie wichtig?

Ein schon eingangs erwähnter und sehr wichtiger Aspekt von Metadaten ist die Lesbarkeit durch Mensch und Maschine. Die Vielzahl an verschiedenen Metadaten, die zur Beschreibung von Forschungsdaten benötigt werden, kann dabei mit Blick auf die zusätzlich große Menge an verschiedenen wissenschaftlichen Communities mit jeweils eigenen Bedürfnissen zu einem Problem werden. So gibt es einerseits Metadaten, die fachübergreifend notwendig sind (z. B. Name des Urhebers, Titel, Erstellungsdatum usw.), andererseits aber auch fachspezifische Metadaten, die abhängig vom Forschungsbereich oder sogar dem Forschungsgegenstand sind.

Stellen Sie sich vor, Forschungsgruppe 1 hat über mehrere Experimente der gleichen Art mit unterschiedlicher Raumtemperatur eine Vielzahl an Forschungsdaten erstellt. Forschungsgruppe 2 hat das gleiche Experiment mit den gleichen Stoffen bei gleichbleibender Raumtemperatur und verschieden hohen Sauerstoffgehalt in der Luft durchgeführt und ebenfalls Forschungsdaten erstellt. Forschungsgruppe 1 bezeichnet in ihren Metadaten den Parameter „Raumtemperatur“ als „rtemp“, Forschungsgruppe 2 jedoch lediglich als „temp“. Woher wissen die Forschenden der Forschungsgruppe 1 und woher weiß ein Computersystem, dass es sich bei dem Wert „temp“ der Forschungsgruppe 2 um den Wert „rtemp“ der Forschungsgruppe 1 handelt? Dies ist nicht ohne weiteres möglich und reduziert damit den Nutzen der Daten.

Wie kann also sichergestellt werden, dass beide Forschungsgruppen das gleiche Vokabular bei der Beschreibung ihrer Metadaten verwenden, damit diese am Ende nicht nur lesbar, sondern auch interpretierbar sind? Für solche Fälle wurden und werden von den verschiedenen Forschungs-Communities Metadatenstandards entwickelt, die sicherstellen, dass alle Forschenden einer Wissenschaftsdisziplin das gleiche Beschreibungsvokabular verwenden. So wird eine Interoperabilität zwischen den Forschungsdaten sichergestellt, die für die Erkenntniserweiterung bei der Arbeit mit den Daten eine ausschlaggebende Rolle spielt (für mehr Informationen zu „Interoperabilität“ siehe Kapitel 5).

Metadatenstandards ermöglichen also eine gleichförmige Ausgestaltung von Metadaten. Sie sind eine formale auf Konventionen einer Forschungs-Community beruhende Festlegung, wie Metadaten erhoben und erfasst werden sollen. Trotz dieses Anspruchs repräsentieren Metadatenstandards kein statisches Regelsammelsurium zur Erhebung von Metadaten. Sie sind dynamisch und an einzelne Bedürfnisse anpassbar. Das ist vor allem deswegen notwendig, weil Forschungsdaten bei Projekten mit neuartigen Forschungsmethoden sehr stark projektspezifisch sein können und deshalb an ihre Metadaten ebenso stark projektspezifische Ansprüche gestellt werden.

In der folgenden Tabelle sind beispielhaft einige Metadatenstandards verschiedener Disziplinen aufgeführt. Ist Ihre Wissenschaftsdisziplin nicht aufgeführt, kann meist die Auflistung des Digital Curation Centres (DCC) Aufschluss darüber geben, welche Standards für Ihren Wissenschaftsbereich in Frage kommen.

Wissenschaftsdisziplin	Name des/der Standards
fachübergreifend	DataCite Schema, Dublin Core, MARC21, RADAR
Geisteswissenschaften	EAD, TEI P5, TEI Lex0
Geowissenschaften	AgMES, CSDGM, ISO 19115
Klimawissenschaften	CF Conventions
Kunst- & Kulturwissenschaften	CDWA, MIDAS-Heritage
Naturwissenschaften	CIF, CSMD, Darwin Core, EML, ICAT Schema
Röntgenstrahlen-, Neutronen- und Myonenforschung	NeXus
Sozial- und Wirtschaftswissenschaften	DDI

Tab. 4.1: Metadatenstandards sortiert nach Wissenschaftsdisziplin

Fachübergreifende Standards sind Metadatenstandards, die Objekte auf eine allgemeine Art und Weise beschreiben. Der weiter oben teilweise beschriebene Dublin Core-Standard zählt zu dieser Art von Standards. Der Standard „EAD“ wird zur Beschreibung von archivischen Findmitteln wie beispielsweise Findbüchern verwendet. „TEI P5“ bietet Standards zur Annotation von Texten und Handschriften. „TEI Lex0“ ist ein neu entwickelter Standard auf Basis von „TEI P5“ zur Beschreibung lexikographischer Daten. „AgMES“ dient zur Beschreibung von Informationen aus dem landwirtschaftlichen Bereich. „CSDGM“ ist ein Standard zur Beschreibung von digitalen raumbezogenen Daten, der zwar immer noch verwendet wird, aber auf lange Zeit durch den „ISO 19115“-Standard ersetzt werden soll. Das Federal Geographic Data Committee (FGDC), die Entwickler des „CSDGM“-Standards, ermutigen daher alle Interessierten den „ISO 19115“-Standard für die Beschreibung digitaler raumbezogener Daten zu nutzen. Die „CF Conventions“ bieten Metadaten zur Beschreibung von Klima- und Wetterinformationen. Der „CDWA“-Standard bietet Möglichkeiten zur Beschreibung von Kunst, Architektur und anderen kulturellen Werken. „MIDAS-Heritage“ ist ein Standard zur Beschreibung von Kulturerben. Dazu zählen Gebäude, Denkmäler, Ausgrabungsstätten, Schiffswracks, Schlachtfelder, Artefakte usw. „CIF“ bietet Standards für die Forschung in der Kristallographie. „CSMD“ bietet Beschreibungsmöglichkeiten für wissenschaftliche Studien in Wissenschaftsdisziplinen, die systematische experimentelle Analysen an Stoffen durchführen (z. B. Materialwissenschaften, Chemie, Biochemie). Das „ICAT Schema“ basiert auf „CSMD“ und dient demselben Zweck, bietet aber noch genauere Beschreibungsmöglichkeiten. „Darwin Core“ dient zur Beschreibung biologischer Diversität bzw. der biologischen Vielfalt wie beispielsweise Lebewesen. „EML“ ist ein Standard, der ausschließlich im Bereich der Ökologie verwendet wird. Der „DDI“-Standard dient zur Beschreibung von Daten, die durch Umfragen oder andere beobachtende Forschungsmethoden in den Sozial- und Wirtschaftswissenschaften sowie der Verhaltensforschung erhoben werden.

Einige Verlage haben eigene Metadatenstandards, die bei Publikationen dort berücksichtigt werden müssen. Prüfen Sie spezifische Vorgaben am besten zu Beginn Ihres Projektes, wenn Sie schon ein Journal für die Veröffentlichung im Kopf haben. Auch einige Forschungsdatenarchive haben eigene Metadatenstandards, z. B. GenBank.

4.5 Was sind kontrollierte Vokabulare und Normdateien? Wofür werden sie verwendet?

Wie Sie bisher sehen konnten, legen Metadatenstandards die Kategorien fest, mit denen Daten näher beschrieben werden können. Dazu zählen einerseits fachübergreifende Kategorien wie Titel, Urheber, Veröffentlichungsdatum, Art der Untersuchung usw., andererseits aber auch fachspezifische Kategorien wie etwa die Stofftemperatur in der Chemie oder den Materialwissenschaften. Keine Festlegung und Kontrolle gibt es jedoch dabei, wie Sie die jeweiligen Kategorien mit Informationen befüllen.

Welches Datumsformat verwenden Sie? Wird die Temperatur in Celsius oder Fahrenheit und mit „°“ oder „Grad“ angegeben? Handelt es sich um eine „Umfrage“ oder einen „Survey“? Diese Fragen scheinen auf den ersten Blick oberflächlich zu sein, doch hängen vordefinierte und einheitliche Begriffe und Formate eng mit der maschinellen Verarbeitung und den daraus resultierenden Suchergebnissen und der Verknüpfung mit anderen Forschungsdaten zusammen. Entspricht das Datumsformat beispielsweise nicht dem Format, mit dem ein Suchsystem arbeitet, werden die Forschungsdaten mit dem inkompatiblen Format nicht gefunden und ausgegeben. Wird nach Umfragen gesucht, in den Metadaten wird aber der Begriff „Survey“ verwendet, ist nicht sicher, dass die zugehörigen Forschungsdaten auch gefunden werden.

Zum Zweck der sprachlichen Vereinheitlichung bei der Beschreibung von Metadaten wurden so genannte kontrollierte Vokabulare entwickelt. Das können in einfachster Form reine Wortlisten sein, die den Sprachgebrauch bei der Metadatenbeschreibung regulieren, aber auch komplexe, strukturierte Thesauri. Thesauri sind Wortnetze, die Wörter und ihre semantischen Relationen zu anderen Wörtern beinhalten. Dadurch können u. a. auch polyseme (= mehrdeutige) Begriffe eindeutig aufgelöst werden.

Wie kann man als Forschender oder Forschungsgruppe die Verwendung von einheitlichen Begriffen und Formaten sicherstellen? Als Einzelperson einer Wissenschaftsdisziplin lohnt es sich, sich zu Beginn eines Forschungsprojekts nach kontrollierten Vokabularen innerhalb dieser Disziplin zu erkundigen. Dazu reicht meist schon eine einfache Suche im Internet. Auch in einer Forschungsgruppe mit einem mehrjährigen Forschungsprojekt sollte vor Projektbeginn und vor den ersten Untersuchungen nach einem kontrollierten Vokabular gesucht werden. Findet sich keines, lohnt es sich je nach Menge der im Projekt involvierten Forschenden und der Menge an involvierten Standorten ein projektinternes Dokument zur einheitlichen Abstimmung der verwendeten Begriffe und Fachtermini anzulegen, welche in den jeweiligen Metadaten-Kategorien verwendet werden sollen.

Neben kontrollierten Vokabularen gibt es auch noch eine Vielzahl an Normdateien, die neben einer einheitlichen Benennung eine Vielzahl an Entitäten eindeutig referenzierbar machen. Weiter oben wurde bereits ORCID, kurz für Open Researcher and Contributor ID, genannt, welche über einen eindeutigen Code akademische und wissenschaftliche Autoren identifiziert. Die Angabe einer solchen ID löst ggf. vorliegende, häufig vorkommende und daher mehrdeutige Namen eindeutig auf und sollte daher bevorzugt verwendet werden.

Die im deutschen Raum wahrscheinlich bekannteste Normdatei ist die Gemeinsame Normdatei (GND), die u. a. von der Deutschen Nationalbibliothek (DNB) geführt wird. Sie beschreibt nicht nur Personen, sondern auch „Körperschaften, Konferenzen, Geografika, Sachbegriffe und Werke, die in Bezug zu kulturellen und wissenschaftlichen Sammlungen stehen“, identifiziert und beschreibt. (Gemeinsame Normdatei (GND), 2019, Über die GND) Jede Entität in der GND erhält eine eigene GND-ID, die eindeutig auf diese Entität referenziert. Der Dichter „Sophocles“ besitzt in der GND beispielsweise die ID 118615688. Über diese ID kann in Metadaten unter Verweis auf die GND eindeutig auf Sophocles referenziert werden.

GeoNames ist ein Online-Ortslexikon, auch Gazetteer genannt. Es beinhaltet alle Länder und über 11 Millionen Ortsbezeichnungen, die mit einer eindeutigen ID versehen sind. So ist es beispielsweise möglich, gleichnamige Orte direkt auseinanderzuhalten ohne die amtlich zugeordnete Gemeindekennzahl (in Deutschland die PLZ) zu kennen. So kann etwa zwischen dem Manchester in UK (2643123), dem Manchester im Bundesstaat New Hampshire der USA (5089178) und dem Manchester im Bundesstaat Connecticut der USA (4838174) eindeutig unterschieden werden.

Allgemein gilt: Informieren Sie sich über spezifische Anforderungen, sobald Sie wissen, wo Sie Ihre Forschungsdaten ablegen oder publizieren möchten. Wenn Sie diese Anforderungen kennen, können Sie Ihre eigenen Metadaten erstellen. Versuchen Sie bei dem Verweis auf bestimmte allgemein bekannte Entitäten unter Angabe des verwendeten Thesaurus immer eine eindeutige ID zu verwenden.

Wenn Sie wissen wollen, ob es für Ihre Wissenschaftsdisziplin oder einen bestimmten Themenbereich bereits ein kontrolliertes Vokabular oder eine Ontologie gibt, können Sie in einem ersten Schritt eine Suche bei BARTOC, dem „Basic Register of Thesauri, Ontologies & Classifications“ durchführen.

4.6 Wie erstelle ich meine Metadaten?

Metadaten können händisch oder mithilfe von Programmen erstellt werden. Programme, auch für fachspezifische Metadaten, gibt es im Internet. Viele sind frei verfügbar. Informieren Sie sich trotzdem zuerst bei Ihrer Institution, ob bereits Erfahrungen gesammelt wurden und eventuell Lizenzen für in Ihrem Forschungsbereich gängige, proprietäre Software vorhanden sind. Die folgende Liste von Programmen zur Erstellung von Metadaten stellt nur eine Auswahl dar und erhebt keinen Anspruch auf Vollständigkeit.

Sollten Sie mit Metadatenstandards überhaupt keine Erfahrung haben, kann zur Erstellung von Metadaten vorerst der in Windows integrierte Editor verwendet werden. Das ist sinnvoll, um später überhaupt Eckdaten zu den jeweiligen Untersuchungen zu haben und diese auch abrufen zu können. Speichern Sie die einzelnen Textdateien am besten in einzelnen Ordnern pro Untersuchung ab.

Nicht für alle Metadatenstandards gibt es Programme mit einfachen grafischen Benutzeroberflächen. Wollen oder müssen Sie daher direkt mit einem vorhandenen XML-Metadatenstandard arbeiten, sollten Sie entweder auf die freien Editoren Notepad++ oder Atom oder auf die kostenpflichtige Software oXygen zurückgreifen, falls Lizenzen an Ihrer Institution vorhanden sind. Alle drei Editoren bieten bessere Nutzungs- und Darstellungsmöglichkeiten, um Inhalt und Elementbezeichnungen getrennt voneinander sichtbar zu machen. So werden Elemente beispielsweise wie in Abbildung 4.2 blau dargestellt, der eigentliche Inhalt schwarz.

Das Open Source-Online-Tool CEDAR Workbench erlaubt es, Online-Templates auf Basis von Metadatenstandards über eine grafische Benutzeroberfläche zu erstellen, diese auszufüllen und auch mit anderen Nutzern zu teilen. Zeitgleich können auch Templates, die von anderen Nutzern erstellt wurden, für die eigene Forschung genutzt werden. Zur Benutzung ist lediglich eine kostenlose Registrierung nötig.

Zur Annotation biomedizinischer Untersuchung und den sich daraus ergebenden Resultaten eignet sich das Tool „Annotare“. Es arbeitet nach dem Qualitätsstandard MIAME (Minimum Information About a Microarray Experiment) für Microarrays und erzeugt Daten im MAGE-TAB-Format (MicroArray Gene Expression Tabular). Die Metadaten werden in einfache Eingabefelder im Programm eingegeben. Eine genaue Kenntnis des Metadatenstandards ist demnach nicht zwangsläufig notwendig.

Ebenfalls für die Beschreibung biomedizinischer Untersuchungen, aber auch für Experimente in den Lebenswissenschaften und der Umweltforschung eignet sich das ISA Framework. Dieses ist Open Source und besteht aus mehreren Programmen, die bei der Verwaltung von Experimenten von der Planung, der Durchführung bis hin zur abschließenden Beschreibung helfen können. Begonnen werden kann mit dem ISA Creator, welches zur Erstellung von Dateien im ISA-TAB-Format verwendet wird. Dieses Format wird beispielsweise vom Scientific Data Journal des Nature-Verlags explizit verlangt.

Zur Erstellung von Metadaten im Metadatenstandard EML sollte das Programm „Morpho“ verwendet werden. Es erlaubt die Speicherung von Daten und Metadaten in einer einzigen Datei, was die Archivierung erleichtert. Es steht außerdem in direkter Verbindung mit dem Knowledge Network for Biocomplexity (KNB), einem internationalen fachspezifischen Repositorium für ökologische Forschung und Umweltforschung. Daten können so direkt in das Repositorium hochgeladen und für andere nutzbar gemacht werden.

Für die Metadatenerfassung in den Geowissenschaften gemäß ISO 19115 eignet sich das Programm „CatMDEdit“. Die erstellten Metadaten sind auch konform mit dem Dublin Core-Standard. Informationen zur Benutzung finden sie hier.

Welche Programme für Ihre Metadaten in Frage kommen, hängt stark von dem Typ der Forschungsdaten und Ihren Nutzungswünschen ab. Es lohnt sich daher, sich im Vorhinein mit anderen Forschenden auszutauschen, um den für sich besten Weg zur Erstellung von Metadaten zu finden. Die händische Erstellung von Metadaten im Editor ohne einen Metadatenstandard als Basis ist zwar für Anfänger die einfachste und schnellste Methode, ein Einlesen in den für sich relevanten Metadatenstandard und die Suche nach Programmen, die diesen Standard bedienen, kann aber mit Blick auf die automatische Verarbeitung der Daten und einer späteren Veröffentlichung einen Vorteil mit sich bringen. Zumindest die Nutzung eines einfachen, fachunabhängigen Metadatenstandards wie Dublin Core sollte berücksichtigt werden.