Perfilado de sección

  • Bearbeitungsdauer: 13 Minuten, 47 Sekunden
    Bearbeitungsdauer (ohne Video): 10 Minuten, 35 Sekunden

    • 6.1 Einführung & Lernziele

      Um Daten zu teilen und geteilte Daten wissenschaftlich nutzen zu können, muss die Datenqualität gewährleistet sein. Dies verlangt bspw. auch die DFG in ihren Leitlinien zur Sicherung guter wissenschaftlicher Praxis (Leitlinie 7). Dabei geht es nicht nur um die Daten selbst. Vielmehr spielen auch die Qualität der beschreibenden Daten (siehe Kapitel 4) und die Qualität der Infrastrukturen (z. B. Orientierung an den FAIR-Prinzipien, siehe Kapitel 5), über welche die Daten zur Verfügung gestellt werden können, eine Rolle. Inwieweit diese Ebenen zusammenhängen, erfahren Sie im Verlauf der vorliegenden Einheit. 

      Nach Abschluss dieses Kapitels können Sie...

      • …die verschiedenen Dimensionen von Datenqualität benennen und einordnen, 
      • …Mängel bei der Datenqualität auf allen Dimensionen erkennen, 
      • …Schritte zur Verbesserung der Datenqualität einleiten.
    • 6.2 Daten und Qualität – Welche Kriterien sind relevant?


      Datenqualitätskriterien

      Vielleicht möchten Sie eine auf Wohnort, also Postleitzahlen, basierte Untersuchung zum Diebstahlrisiko eines Autos vornehmen. Oder Sie wollen mittels eines Fragebogens herausbekommen, ob es einen Zusammenhang zwischen Studienerfolg und Abiturnoten gibt. In jedem Fall erheben Sie Daten, die Sie auswerten. Dazu müssen folgende Dimensionen der Datenqualität erfüllt ein, wobei je nach Ziel und Zweck einer Datenerhebung nicht alle Dimensionen gleichzeitig eine Rolle spielen.

      Dimensionen der Datenqualität

      Abb. 6.1: Übersicht über Dimensionen der Datenqualität, Quelle: FOKUS

      Diese Kriterien gehen zurück auf Richard Wang und Diane Strong (1996) und beschreiben Daten dann als qualitätsvoll, wenn sie von den Datennutzer*innen (dazu gehören auch Sie selbst) sowohl gegenwärtig als auch zukünftig als passend angesehen werden. Damit Forschungsdaten auch Jahre später interessant sind und nachgenutzt werden können, müssen die Daten so gründlich wie möglich beschrieben werden. Daher ist es wichtig, die Daten gut zu dokumentieren und Metadaten (siehe Kapitel 4) sowie ggf. erstellte und notwendige Forschungssoftware zum Öffnen und Betrachten der Dateien mitzuliefern.


      Ein Beispiel – Datenqualitätskriterien und ihre Umsetzung

      Am Beispiel der Erstellung einer Tabelle mit Unternehmensadressdaten werden die Kriterien der Datenqualität im Folgenden exemplarisch dargestellt. Mit Hilfe der Übersicht soll es möglich sein, schnelle Erkenntnisse über die Verteilung von Kunden nach Bundesländern zu gewinnen und Rechnungen gezielt an die richtigen Ansprechpersonen verschicken zu können. 

      Die Tabelle enthält die folgenden Merkmale:

      • Interne Kundennummer 
      • Name des Unternehmens
      • Straße
      • Hausnummer
      • Postleitzahl
      • Ort
      • Bundesland
      • Nachname Ansprechpartner
      • Vorname Ansprechpartner 
      • Telefonnummer

      Das Ziel jeder wissenschaftlichen Unternehmung ist die Generierung von Wissen. In einem Prozess wird dieses aus Informationen gewonnen, die wiederum aus Daten abgeleitet werden. Damit dies geschehen kann, ist im vorliegenden Beispiel zunächst eine klare Benennung der Spalten wichtig. Erst daraus ergibt sich, dass eine bestimmte Folge von Zahlen und Symbolen (Daten) für einen bestimmten Sachverhalt (Information) steht. Selbst wenn die Zuordnung den Forschenden zum Zeitpunkt der Datenerhebung bekannt ist, sind diese Metadaten trotzdem notwendig, um die Datenerhebung auch in Zukunft verstehen zu können. Ebenso müssen natürlich auch die Daten selbst Qualitätskriterien erfüllen.

      Die Kriterien im Einzelnen


      Intrinsische Datenqualität:

      • Glaubwürdigkeit: Hierfür müssen die Daten vertrauenswürdig und zuverlässig sein. Für unser Beispielvorhaben können Sie die Glaubhaftigkeit Ihrer Daten erhöhen, indem Sie erläutern, woher die Daten stammen.
      • Fehlerfreiheit: Zur Fehlerfreiheit gehört die richtige Aufnahme der Daten. In unserem Beispiel wäre die Bezeichnung "Westfalen" falsch, denn die korrekte Bezeichnung lautet Nordrhein-Westfalen. Stammt der*die Kund*in tatsächlich aus dem Saarland, wäre auch die Bezeichnung Nordrhein-Westfalen fehlerhaft.
      • Objektivität: Objektiv sind ihre Daten dann, wenn sie keine Wertungen enthalten. Im vorliegenden Beispiel würde z. B. ein Zusatz wie „schwieriger Mensch“ bei dem Vor- oder Nachnamen der Ansprechpartner das Kriterium der Objektivität verletzen.
      • Hohes Ansehen: Hierbei geht es um die Reputation Ihrer Datenquelle. So können beispielsweise Daten, die Sie aus anderen Forschungsprojekten oder fachlichen Informationsportalen stammen als zuverlässiger angesehen werden als Daten von einem Datenbroker oder solche, die durch eine allgemeine Internetrecherche gesammelt wurden. 

      Kontextuelle Datenqualität:

      • Mehrwert: Die Informationen bieten dann einen Mehrwert, wenn mit ihrer Hilfe die angestrebten Aufgaben erfüllt werden können. Im vorliegenden Beispielfall könnte das u. a. eine Abfrage zu allen Unternehmen in einem bestimmten Bundesland sein.
      • Relevanz: Daten sind dann relevant, wenn sie dem Nutzer notwendige Informationen liefern. So hätten bspw. Kundendaten aus der Schweiz zwar einen Mehrwert an Informationen, jedoch keine Relevanz für die Verteilung der Unternehmen auf die deutschen Bundesländer.
      • Aktualität: Ihre Daten sind dann aktuell, wenn sie einen entsprechenden Stand zeitnah abbilden. Im vorliegenden Beispiel würde eine vierstellige Postleitzahl nicht aktuell sein, da in Deutschland 1993 auf ein fünfstelliges System umgestellt wurde. Auskünfte über die Aktualität erhält man z. B. durch mitgelieferte Metadaten, Dokumentationsmaterialien oder Datumsangaben im Dokument selbst (Stand: __.__.____).
      • Vollständigkeit: Ihre Daten sind dann vollständig, wenn keine Informationen fehlen. Wären in der Kundendatentabelle bspw. nur 10 der 16 Bundesländer enthalten oder gäbe es zu einigen der Kunden keine Adressdaten, bedeutete dies Einbußen in der Vollständigkeit. 
      • Angemessener Umfang: Die Daten liegen dann in einem angemessenen Umfang vor, wenn die gestellten Anforderungen mit der Menge an vorliegenden Daten umgesetzt werden können. In unserem Beispiel heißt das, dass für das Ziel, Rechnungen zu verschicken, Adressdaten und die Angabe, wer die zuständige Ansprechperson ist, ausreichend sind, und die Telefonnummern für diesen Fall nicht notwendig sind.

      Repräsentationelle Datenqualität: 

      • Eindeutige Auslegbarkeit: Daten sind dann eindeutig auslegbar, wenn sie von allen, die damit arbeiten, in gleicher Art und Weise begriffen werden.
      • Verständlichkeit: Ihre Daten sind dann verständlich, wenn sie von den Datennutzer*innen verstanden und für ihre Zwecke eingesetzt werden können. Für unser Ziel, eine Kundendatenbank anzulegen, bedeutet das, dass die aufgeführten Ansprechpersonen mit Vor- und Nachnamen aufgeführt werden und nicht mit Beschreibungen wie „die Frau im dritten Stock mit den braunen Haaren“. 
      • Einheitliche Darstellung: Wenn die Daten durchgehend auf die gleiche Art und Weise dargestellt werden, sind sie einheitlich. In unserem Fall bedeutet das, für die Angabe der Postleitzahl z. B. zu entscheiden, ob der Ziffernfolge ein „D-“ vorangestellt wird.
      • Übersichtlichkeit: Die Übersichtlichkeit von Daten ist dann gewährleistet, wenn sie in einer gut erfassbaren Art und Weise dargestellt werden. In unserem Beispiel heißt das, für die verschiedenen Angaben verschiedene Spalten einzurichten, sodass die Angaben in einer inhaltlich getrennten und nicht verdichteten Form ausgegeben werden können. Gewünscht ist beispielsweise eine Adressangabe nach dem Muster:
        Frau
        Iris Müller
        Blaue Straße 20
        D-34567 Grünstadt
        und nicht: FrauIrisMüllerBlaueStraße20D-34567Grünstadt

      Zugriffsqualität:

      • Bearbeitbarkeit: Dieses Kriterium ist erfüllt, wenn sich Ihre Daten leicht für die jeweiligen Nutzungszwecke abändern lassen. Für unsere Beispieldatenbank ist dies bspw. gegeben, wenn die Namen der zuständigen Ansprechpartner bearbeitet werden können. So können mögliche Änderungen zeitnah umgesetzt werden. Läge die Tabelle bspw. im PDF-Format vor, wäre eine Bearbeitbarkeit nicht gegeben.
      • Zugänglichkeit:  In unserem Beispielsfall können die betreffenden Personen direkt auf die Daten zugreifen und eine Adresse generieren, und sie müssen nicht irgendwo anrufen, um die Adressdaten genannt zu bekommen.
    • Ein Beispiel – Das Ergebnis

      Und so sieht schließlich das Ergebnis aus. Bei genauerem Hinsehen erkennen Sie allerdings, dass im Ergebnis die Datenqualitätsdimensionen nicht fehlerfrei umgesetzt wurden. Finden Sie die Fehler?

      Beispieltabelle
      Abb. 6.2: Beispieltabelle zu Datenqualität, Quelle: FOKUS

      Zur genauen Fehleranalyse betrachten Sie bitte das folgende Video:
        
    • 6.3 Fehlervermeidung

      Die häufigsten Quellen für Fehler bilden falsche oder ungenaue Daten bzw. Dubletten. Wichtig ist es daher, sich Methoden und Strategien zu überlegen, wie diese verhindert werden können. So ist es bspw. sinnvoll, Prüfroutinen einzubauen. Dieses Prinzip wird auch First-Time-Right-Prinzip genannt. Sie können es u. a. dadurch unterstützen, dass Sie ein einheitliches System der Datenerstellung oder Dateneingabe nutzen wie in unserem Beispielfall die Eingabe des Namens nach dem Schema "Nachname, Vorname" oder auch, indem Sie Angaben standardisieren und beispielsweise die Datumsangaben in der Form "JJJJ-MM-TT" festlegen. Wenn Sie Datenbanksysteme nutzen, können Sie entsprechende Integritätsbedingungen formulieren und so die Einhaltung bestimmter Formate (z. B. bei Datumsangaben) oder die Eingabe bestimmter Werte erzwingen sowie die Konsistenz von Datensätzen sicherstellen (z. B. Postleitzahl und Ort).

      Weiterhin können Sie verschiedene Verfahren anwenden, um Ihre Daten einer Qualitätskontrolle zu unterziehen. Messwerte können beispielsweise auf Plausibilität überprüft werden, was je nach Datenerhebung auch unter Einsatz von Software automatisiert werden kann. Ähnliches gilt für die Dublettenprüfung. Ein viel genutztes Tool zur Bereinigung von tabellarischen Daten ist OpenRefine (https://openrefine.org/). Mit Hilfe einer einer grafischen Benutzeroberfläche, die äußerlich einer Tabellenkalkulationssoftware ähnelt, können Sie Inkonsistenzen in großen Datenmengen finden und korrigieren. So ist es beispielsweise möglich, leicht unterschiedliche Schreibweisen eines Namens in verschiedenen Einträgen (z. B. Nordrhein Westfalen und Nordrhein-Westfalen) per Clustering zusammenzufassen und anschließend einheitlich zu bezeichnen. Auch eine Prüfung durch Kolleg*innen bzw. Kommiliton*innen kann (sofern dies datenschutzrechtlich erlaubt ist) zur Vermeidung von Fehlern beitragen. Bei der Digitalisierung von analogen Inhalten (z. B. Eingabe von Papierfragebögen) kann es zudem helfen, dies von zwei Personen unabhängig voneinander durchführen zu lassen und dann die Ergebnisse zu vergleichen.

      Wichtig ist es außerdem, zu dokumentieren, wer, wann, zu welchem Zweck, was und womit gemessen oder modelliert hat. Diese Informationen sind in den sogenannten Metadaten enthalten. Diese sind oft implizit durch den Projektkontext gegeben und werden in wissenschaftlichen Veröffentlichungen mit dokumentiert (z. B. im Methodenteil). Darüber hinaus sollten Metadaten in einem geeigneten Format auch immer die Datensätze begleiten (siehe auch Kapitel 4). Insbesondere bei groß angelegten Projekten bzw. solchen mit einer langen Laufzeit, empfiehlt es sich ein Qualitätssicherungskonzept zu erarbeiten und zu implementieren.
    • Testen Sie Ihr Wissen über die Inhalte dieses Kapitels!

    • Hier sind noch einmal die wichtigsten Fakten zum Kapitel zusammengefasst.