Metadaten

Datendokumentation

Damit Forschungsdaten besser auffindbar und nachvollziehbar sind, ist eine Dokumentation der Daten unverzichtbar. Dies erleichtert die weitere Nutzung der Daten erheblich und ermöglicht die Reproduzierbarkeit. Gut dokumentierte Daten werden häufiger genutzt und zitiert, was das Renommee des Erstellers/der Erstellerin erhöht. Auch für die eigene Nachnutzbarkeit/Nachvollziehbarkeit ist eine Dokumentation hilfreich. Mit der Zeit können Details in Vergessenheit geraten, daher ist es empfehlenswert, die Dokumentation der Daten arbeitsbegleitend zu betreiben. read more

  

Dauer:  7:00 Min

Inhalt: „Forschungsdaten und ihre Metadaten“ ist ein Lehrvideo zum Forschungsdatenmanagement. Das Video erklärt kurz, was Metadaten sind und wo diese im Forschungsdatenlebenszyklus auftreten. 

Schmitz, D., Hausen, D., Trautwein-Bruns, U. (2018). „Forschungsdaten und ihre Metadaten“ RWTH Aachen University, DOI: 10.18154/RWTH-2018-231101

Lizenz: CC BY 4.0

In diesem Beitrag aus unserer Reihe zum Forschungsdatenmanagement geht es um Forschungsdaten und ihre Metadaten. Dieses Video erklärt, was Metadaten sind und wo Metadaten im Forschungsdatenlebenszyklus auftreten.

Wir gehen noch mal zurück auf das fiktive Beispiel zur Eichhörnchenforschung. Luise Leader hatte ein erfolgreiches Projekt zur Populationsdynamik von Eichhörnchen. Sie hat ihre theoretischen Modelle mit konkreten Datenerhebungen in Deutschland durch Frank Forscher und Großbritannien durch Rachel Research abgeglichen. Wenn sie an das Projekt zurückdenkt, fallen ihr allerdings auch ein paar Dinge ein, die nicht optimal gelaufen sind. Insbesondere hat sie keine Vorgaben zu den Datenerhebungen von Frank Forscher und Rachel Research gemacht.

Sie hat es den beiden überlassen, wie sie die Daten sammeln und dokumentieren. Frank Forscher und Rachel Research haben deswegen unterschiedliche Ansätze gewählt. Sie haben die Daten unterschiedlich strukturiert, sie haben unterschiedliche Sprachen verwendet und sie haben unterschiedliche Kennzeichnungen, zum Beispiel für die Farbe, gewählt: "b" einmal für "black" und einmal für "braun". Das hat dazu geführt, dass Luise Leader sehr oft nachfragen musste, bis sie die Daten richtig verstanden hat und miteinander in Beziehung setzen konnte. Erst danach war die Integration in ihre theoretischen Modelle möglich.

Sie überlegt, wie sie das besser machen könnte. Sinnvoll ist es zum Beispiel, jede Messreihe mit einer eindeutigen ID zu versehen, die dann von überall referenziert werden kann. Wichtig ist es auch, das Erfassungsdatum genau zu dokumentieren, denn so können die Daten später mit anderen Informationen, zum Beispiel Wetterinformationen, in Beziehung gesetzt werden.

Auch ist es leicht möglich, diese Daten über bestimmte Zeiträume zu aggregieren und zusammenzuzählen, um zum Beispiel zu einer monatlichen Zahl von Eichhörnchen zu kommen. Für die Dokumentation der Farben ist es wichtig, Vorgaben zum Vokabular zu machen, damit "b" für "black" steht und nicht missverstanden werden kann als "braun". Statt die Daten direkt nach bestimmten Regionen zu erheben, ist es sinnvoller, den genauen Ort der Beobachtungsstelle zu notieren, zum Beispiel durch die ID der entsprechenden Beobachtungsstelle. In einer zusätzlichen Tabelle können dann viel mehr Metadaten zu den einzelnen Beobachtungsstellen hinterlegt werden: der genaue Breiten- und Längengrad, die GPS-Koordinaten oder eben auch die Zuordnung zu Ländern und Regionen. Daraus lassen sich nachher ganz leicht die entsprechenden aggregierten Daten für Regionen oder Bereiche bilden.

Aber Luise stellt fest, dass es nicht reicht, nur allein die Vorgaben zu diesen Daten zu machen. Frank Forscher und Rachel Research müssen auch das gleiche Verständnis haben. Trivialerweise sind die Spaltenüberschriften geeignete Metadaten, die schon mal einen ersten Hinweis darauf geben, welche Information wie in welcher Zelle einzutragen ist. Aber auch das ist noch nicht ausreichend. Was genau ist unter der ID zu verstehen? Solche Informationen können in einem Metadatenschema hinterlegt werden, und dort steht dann zum Beispiel, dass die ID eine laufende Nummer ist oder dass das Datum nach ISO 8601 erfasst werden muss, das heißt Jahr, Monat, Tag ergänzt um die Uhrzeit mit Stunden, Minuten und Sekunden. Erst dann werden die Eintragungen von verschiedenen Personen unmittelbar miteinander vergleichbar. Luise überlegt auch, ob sie wirklich alle relevanten Metadaten bereits erfasst hat.

Sie fragt bei ihren Kollegen in der Community nach und sie stellt fest, dass die von ihr verwendeten Beobachtungsstellen zugleich zum Beispiel auch die Größe der Eichhörnchen messen können. Und auch hier ist es wichtig, Angaben zu machen, zum Beispiel, dass die Messung der Größe in Zentimetern erfolgt.

Luise Leader wurde von Remy Reuse kontaktiert, der die Daten aus ihrer Erhebung in seinem neuen EU-Projekt nachnutzen soll. Er hatte viele Fragen zu den Kontexten, welche Informationen wann, wo, wie erfasst wurden, welche Beobachtungsstellen verwendet wurden. Nicht alle Informationen hatte Luise direkt greifbar. Dies hat ihr noch einmal deutlich gemacht, dass es wichtig ist, sich Gedanken darüber zu machen, welche Metadaten zu welchem Zeitpunkt relevant sind. Bei der Planung waren für sie vor allem ihre Schlüsselattribute interessant: die Farbe der Eichhörnchen und die in einer bestimmten Region über einen bestimmten Zeitraum auftreten.

Trotzdem lohnt es sich, im Rahmen der Erfassung allgemeine Datenschema zu verwenden, die vielleicht noch mehr Informationen, wie zum Beispiel die Größe der Eichhörnchen, umfassen und die vereinbarte Vokabulare verwenden, zum Beispiel für die Kategorisierung der Eichhörnchen in verschiedene Farben. Auch die Kontextinformationen, zum Beispiel zu den Beobachtungsstellen, sind hier sinnvolle Metadaten. Bei der Analyse entstehen neue Metadaten. Wie können die Daten ausgewählt werden, welche Datenqualität wurde berücksichtigt, wie wurden zum Beispiel Sensorfehler erkannt und schließlich auch wie können die Daten aggregiert werden?

Auch über das aktive Arbeiten mit den Daten hinaus entstehen Metadaten im Forschungsdatenlebenszyklus, zum Beispiel bei der Archivierung. Hier wird relevant, mit welchen Dateiformaten gearbeitet wird. Auch Archivierungsort und -datum sind von Interesse, sowie die notwendigen Tools, mit denen gearbeitet werden muss, um die Daten nachzunutzen.

Im Rahmen der Veröffentlichung ist natürlich die DOI ein wichtiges Metadatum. Darüber hinaus ist von Interesse, in welchem Repositorium die Daten veröffentlicht werden und dass sie die Provenienz, die Herkunftsinformationen, beinhalten. Für andere Forschende ist es auch sehr interessant zu wissen, welche Daten in welche Publikationen eingegangen sind. Das ist durch das Zitieren der DOI leicht möglich. Und schließlich sind Lizenzinformationen für potenzielle Nachnutzer von Interesse: Wie kann ich die Daten in meinem eigenen Projekt nachnutzen? Der Datenmanagementplan (DMP) ist ein möglicher Ort, wo die gesamte Dokumentation zum Daten- und Metadatenmanagement stattfinden kann.

Hier könnte Remy Reuse die von Luise Leader getroffenen Entscheidungen, zum Beispiel zu den Metadatenstandards oder zu den Absprachen der Vokabulare, einsehen und nachvollziehen, auch ohne direkten Kontakt mit ihr zu haben.

Für Luise ist klar, dass es sich lohnt in die Generierung robuster Metadaten zu investieren; nicht allein für die Nachnutzung durch andere Personen, auch in ihrem eigenen Projekt hätte ihr das viel Arbeit erspart. Wenn Sie Fragen haben zu Metadaten und Unterstützung wünschen, kontaktieren Sie das Team Forschungsdaten über das ServiceDesk.

Quiz

Willkommen bei Ihrem Metadaten Quiz.

Bitte klicken Sie auf Weiter, um das Quiz zu starten.


Weiterführende Informationen

Beschreiben und Dokumentieren:

Eine ausführliche Zusammenstellung von Informationen zum Thema Datendokumentation, Metadaten und Metadatenstandards und bibliographische Metadaten.

https://www.forschungsdaten.info/themen/beschreiben-und-dokumentieren/

Quiz zu Beschreiben und Dokumentieren:

Eine kurze Wissensüberprüfung zum Thema Datendokumentation, Metadaten und Metadatenstandards mit 7 Fragen.

https://www.forschungsdaten.info/praxis-kompakt/forschungsdaten-quizfragen/beschreiben-und-dokumentieren/

Zitationshinweis

FAIR Data Austria (2021). „Metadaten“. In: Offene Bildungsressourcen Forschungsdatenmanagement. (https://fair-office.at/index.php/metadaten/).

Lizenz: CC BY 4.0 soweit nicht anders angegeben.