Skip to main content

Handlungsempfehlungen zum Umgang mit Forschungsdaten

Diese Handlungsempfehlungen konkretisieren und ergänzen die Forschungsdaten-Policy der Universität Potsdam. Sie richten sich an alle wissenschaftlich und forschungsunterstützend tätigen Mitglieder und Angehörigen und wurden am 09.10.2019 durch die Kommission für Forschung und wissenschaftlichen Nachwuchs (FNK) angenommen.

I. Arbeiten mit Forschungsdaten

Die Anforderungen der guten wissenschaftlichen Praxis an redliches, methodisch korrektes, sorgfältiges, sicheres und durch gute Dokumentation nachvollziehbares Arbeiten gelten auch für den Umgang mit Forschungsdaten. Wesentliche überfachliche Elemente des sicheren und gut dokumentierten Arbeitens mit Forschungsdaten sind im Folgenden aufgeführt. Zur Planung und strukturierten Dokumentation dieser Elemente wird empfohlen, Datenmanagementpläne (DMP) als Instrumente des Projekt- und Qualitätsmanagements einzusetzen und diese regelmäßig zu aktualisieren. Je nach Bedarf können DMP auf der Ebene  eines Vorhabens, eines datenintensiven Forschungsgeräts oder einer Arbeitsgruppe erstellt werden. Bei Projekten, die besondere Anforderungen an die zentral betriebene Infrastruktur stellen, können die Zentralen Einrichtungen die Vorlage eines DMP fordern.

1. Bestimmung der Daten. Es wird empfohlen, frühzeitig festzulegen, welche Daten veröffentlicht bzw. archiviert und welche weiterhin bei den Forschenden gespeichert werden. Dabei ist es sinnvoll, Haltefristen zu definieren. Nicht mehr benötigte, weder veröffentlichungs- noch archivierungswürdige Daten sollen regelmäßig gelöscht werden. Insbesondere gilt für Forschungsdaten, die auf eine bestimmte oder bestimmbare Person bezogen werden können, der Grundsatz der Speicherbegrenzung: Die Speicherung ist nur so lange zulässig, wie für den jeweiligen Zweck erforderlich. Die Daten sind zu anonymisieren, sobald dies nach dem Forschungszweck möglich ist.[i]

2. Rechteinhaberschaft. Forschungsdaten fallen oft nicht unter das Urheberrecht oder verwandte Schutzrechte, in bestimmten Fällen können aber auch mehrere Rechte entstehen, die ggf. verschiedenen Personen zukommen. Inhaberschaft und Nutzungsrechte an Forschungsdaten sind deswegen vielfach unklar, was ihre Nachnutzung einschränken kann. Es wird daher empfohlen, zu jedem Vorhaben mit mehreren Beteiligten die Rechteinhaberschaft, die Absicht zur Datenveröffentlichung und das gegenseitige Einräumen der relevanten Nutzungsrechte frühzeitig zu dokumentieren.

3. Sichere Speicherung. Datenverlust ist durch Einsatz geeigneter Speicherdienste bzw. Speichermedien und angemessenes Backup vorzubeugen. Die Nutzung von wissenschaftseigenen Speicherdiensten wird empfohlen, von der Nutzung lokaler Speichermedien und kommerzieller Speicherdienste als Privatkundin oder Privatkunde wird abgeraten. In vielen Fällen ist die Nutzung eines Versionierungsdienstes sinnvoll. Das notwendige Maß an Datensicherheit ist durch geeignete technische und organisatorische Maßnahmen sicherzustellen, z. B. durch wirksame Zugangsbeschränkungen oder die Pseudonymisierung von personenbezogenen Daten, die nicht anonymisiert werden können.

4. Dokumentation und Einsatz von Standards. Für die Bereitstellung und Nachnutzung von Forschungsdaten ist es notwendig, den Entstehungskontext und die benutzten Werkzeuge zu dokumentieren. Im Sinne von Interoperabilität und langfristiger Lesbarkeit wird empfohlen, geeignete Datenformate zu nutzen und dabei freie Standardformate zu bevorzugen. Im Sinne der Nachvollziehbarkeit wird die frühzeitige Festlegung und Dokumentation von Konventionen für Dateinamen und Ordnerhierarchien, die Nutzung geeigneter, wenn möglich fachspezifischer Metadatenstandards, und die Erfassung relevanter Metadaten bereits während des Forschungsprozesses empfohlen.

II. Veröffentlichung und Zitation von Forschungsdaten

Die Regelungen der guten wissenschaftlichen Praxis zum Publizieren gelten sinngemäß auch für Daten- und Softwareveröffentlichungen. Unzulässig sind insbesondere die Beschränkung der Veröffentlichung auf jene Daten, welche die Hypothese der Autorinnen und Autoren stützen, die Fragmentierung von Daten- und Softwareveröffentlichungen mit dem Ziel, die Anzahl der Publikationen zu erhöhen und Mehrfachpublikation ohne Offenlegung der Vorveröffentlichung. Bei der Veröffentlichung und Zitation von Forschungsdaten sollen folgende Punkte beachtet werden.

1. Ort der Veröffentlichung. Zur Veröffentlichung von Forschungsdaten sollen vorrangig etablierte fach- bzw. datentypspezifische Datenbanken, Repositorien und Datenzentren genutzt werden.  Es sollen Infrastrukturen genutzt werden, in denen die Daten eigenständig gehalten werden und referenzierbar sind; Forschungsdaten sollen nicht ausschließlich gemeinsam mit der Textpublikation als ergänzendes Material bereitgestellt werden.

2. Aufbereitung und Verfügbarkeit der Daten. Forschungsdaten sollen in einer Verarbeitungsstufe (Rohdaten oder bereits weiter strukturierte Daten) zugänglich gemacht werden, die eine sinnvolle Nach- und Weiternutzung durch Dritte ermöglicht. Es wird empfohlen, bei der Aufbereitung der Daten und bei der Auswahl des Veröffentlichungsortes die konsequente Einhaltung der FAIR-Daten-Prinzipien zu beachten, gemäß derer die Forschungsdaten auffindbar (findable), verfügbar (accessible), interoperabel (interoperable) und nachnutzbar (reusable) aufbereitet und auf­be­wahrt werden.[ii] Im Kern stellen die vier Prinzipien folgende Anforderungen:

a. Auffindbarkeit: Die Daten sind ausreichend mit relevanten Metadaten beschrieben und werden durch ein eindeutiges persistentes Identifikationsmerkmal (z.B. einen DOI) referenziert.

b. Verfügbarkeit: Die Daten sind für Menschen und Maschinen lesbar und werden in einem vertrauenswürdigen Repositorium vorgehalten.

c. Interoperabilität: Die Metadaten nutzen ein formalisiertes, frei verfügbares, weit verbreitetes und inhaltlich passendes Vokabular zur Wissensrepräsentation.

d. Nachnutzbarkeit: Die Daten stehen unter einer eindeutigen Lizenz zur Verfügung, enthalten korrekte Angaben zur Provenienz und sind gut dokumentiert.[iii]

Selbst programmierte wissenschaftliche Software soll durch Publikation des Quellcodes öffentlich zugänglich gemacht werden. Der Quellcode von öffentlich zugänglicher Software soll persistent, zitierbar und dokumentiert sein.[iv]

3. Autorschaft: Wer einen genuinen, nachvollziehbaren Beitrag zu dem Inhalt einer wissenschaftlichen Daten- oder Softwareveröffentlichungen leistet, ist Autorin bzw. Autor. Ein solcher Beitrag liegt insbesondere bei wissenschaftserheblicher Mitwirkung an der Erarbeitung, Erhebung, Beschaffung oder Bereitstellung der Daten, der Software oder der Quellen vor.[v]

4. Freie Lizenzierung und offener Zugang. Forschungsdaten und wissenschaftliche Software sollen unter etablierten, standardisierten und möglichst freien Lizenzen zur Verfügung gestellt werden. Auch Zugangsbedingungen und ggf. Embargoperioden sollen nach dem Prinzip „so offen wie möglich, so geschlossen wie nötig“ gestaltet werden. Bei der Lizenzierung bieten die folgenden Punkte konkrete Orientierung:

a. Lizenzierung und Attribution: Die Pflicht zur Attribution nachgenutzter wissenschaftlicher Leistungen ergibt sich aus der guten wissenschaftlichen Praxis. Lizenzen und Freigaben für Daten und Software, die eine Nennung der Autorinnen und Autoren nicht vertraglich vorschreiben, entbinden nicht von dieser Pflicht. Die bevorzugte Möglichkeit, Daten- und Softwarezitation zu fördern, ist nicht die Vergabe einer restriktiven Lizenz, sondern die Angabe einer Zitationsempfehlung.

b. Öffentliche Forschungsdaten: Für Forschungsdaten, die öffentlich zugänglich gemacht werden, haben sich Creative-Commons-Werkzeuge etabliert. Daten, die frei von Urheberrechten und verwandten Schutzrechten sind, sollen durch die Freigabe "Creative Commons Zero" (CC0) als rechtefrei gekennzeichnet werden. Für Daten, an denen Urheberrechte oder verwandte Schutzrechte bestehen, wird eine CC0-Freigabe ebenfalls empfohlen, da sie die Nachnutzbarkeit am besten sicherstellt. Die Lizenz "Creative Commons Namensnennung" (CC BY) kommt zwar auch in Betracht, schränkt aber auf Grund der strengen formalen Anforderungen an Urheber- und Rechteangaben die Nachnutzung bereits ein. Creative-Commons-Lizenzen mit Bedingungen, die über das Element „Namensnennung“ hinausgehen, eignen sich nicht („Nicht-kommerziell“, NC; „Keine Bearbeitung“, ND) bzw. nur in bestimmten Fällen und nur eingeschränkt („Weitergabe unter gleichen Bedingungen“, SA) zur Lizenzierung von Forschungsdaten.[vi]

c. Beschränkt zugängliche Forschungsdaten: Die Lizenzierung von Forschungsdaten zu denen nur beschränkter Zugang gewährt werden kann, soll in Absprache mit dem zuständigen Datenzentrum unter Nutzung der dort üblichen Lizenzen erfolgen.

d. Software: Für Software sind Creative-Commons-Lizenzen (wie CC BY) nicht geeignet. Für vollständig selbst geschriebenen Code (an dem die Programmierenden daher alle Rechte haben), kann eine CC0-Freigabe erteilt werden. Dies ist insbesondere für kurze Skripte sinnvoll. Für komplexere Produkte sollen freie Softwarelizenzen verwendet werden. Beispiele für verbreitete freie Softwarelizenzen sind die MIT-Lizenz und GNU GPLv3.[vii]

5. Publikationsnachweis: Qualitätsgesicherte, von der jeweiligen Fachcommunity anerkannte und eigenständig referenzierbare Daten-  und Softwareveröffentlichungen von Mitgliedern und Angehörigen der Universität Potsdam sollen von den Autorinnen und Autoren an die Universitätsbibliothek gemeldet werden, damit sie im Publikationsnachweis der Universität geführt werden können.

6. Zitation von Daten und Software: Wo zur Zitation von Daten und Software noch keine fachspezifischen Standards etabliert und keine Vorgaben des Publikationsorgans vorhanden sind, wird empfohlen, sich an den Data Citation Principles zu orientieren.[viii]

III.  Verträge und Kooperationen

1. Bei der Verhandlung von Förderverträgen, insbesondere mit privaten Förderinnen und Förderern, Kooperationsverträgen und Lizenzverträgen, sollen Mitglieder und Angehörige die Grundsätze der Forschungsdaten-Policy der Universität Potsdam, insbesondere in Bezug auf Offenheit und Nachnutzbarkeit von Forschungsdaten, so weit wie möglich berücksichtigen. Bei der Übertragung von Nachnutzungs-, Veröffentlichungs- und Verwertungsrechten soll darauf geachtet werden, dass die Daten für wissenschaftliche Zwecke frei verfügbar bleiben, insbesondere sollen kommerziellen Akteuren keine ausschließlichen Rechte eingeräumt werden.

2. Einrichtungsübergreifende Forschungskooperationen sollen sich an der Forschungsdaten-Policy der Universität Potsdam orientieren, soweit die anderen Beteiligten keine gleichwertigen oder strengeren Vorgaben treffen. Strukturierte Projektverbünde sollen im Rahmen ihrer Governance frühzeitig klare und verbindliche Regelungen zum gemeinsamen Datenmanagement sowie zur Offenheit und Nachnutzbarkeit ihrer Forschungsdaten treffen.

IV. Institutionelle Verantwortung

1. Den Fakultäten wird empfohlen zu prüfen, ob Qualifikationsarbeiten in Zukunft Aussagen zur Datenverfügbarkeit (data availability statements) enthalten sollen und ggf. eine Regelung mit geeignetem Grad an Verbindlichkeit zu treffen.

2. Den Studienkommissionen wird empfohlen, die Curricula auf angemessene Berücksichtigung  des praktischen Umgangs mit Forschungsdaten als übergreifenden Studieninhalt bereits im grundständigen Studium zu überprüfen und ggf. für eine stärkere Berücksichtigung zu sorgen.

3. Sofern dies notwendig ist, um die institutionelle Archivierung von Forschungsdaten an der Universität Potsdam zu ermöglichen, benennen die Bereiche Forschungsdatenverantwortliche.

_____________________________________

[i] Dazu sind mindestens alle direkt identifizierenden Merkmale zu entfernen bzw. der im Rahmen der Pseudonymisierung erstellte Personenschlüssel zu vernichten. Weitere Maßnahmen können erforderlich sein. Daten sind erst dann anonym, wenn „die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren Person zugeordnet werden können“ (§ 3 BbgDSG).

[ii] Wilkinson, Mark D., Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, u. a. „The FAIR Guiding Principles for scientific data management and stewardship“. Scientific Data 3 (2016). https://doi.org/10.1038/sdata.2016.18.

[iii] Ligue des Bibliothèques Européennes de Recherche. „Implementing FAIR Data Principles”. Factsheet (n.d. [2017]). https://libereurope.eu/wp-content/uploads/2017/12/LIBER-FAIR-Data.pdf.

[iv] In der Softwareentwicklung übliche Versionierungsdienste bzw. Repositorien erfüllen diese Voraussetzungen meist nicht, da sie weder eine Bestandsgarantie noch persistente Identifikatoren (wie DOIs) bieten. Die zu zitierenden Versionen (Releases) der Software sollten daher zusätzlich in einem geeigneten wissenschaftlichen Repositorium abgelegt werden. Bei GitHub ist dies über eine Schnittstelle sehr einfach möglich: https://guides.github.com/activities/citable-code/.

[v] Wann ein Beitrag genuin, nachvollziehbar und wissenschaftserheblich ist, hängt von dem jeweiligen Fachgebiet ab. Im Rahmen der disziplinspezifischen Publikationskultur ist es möglich, dass sich die Autorinnen und Autoren einer Textpublikation von den Autorinnen und Autoren der Publikationen der Daten und Software, die der Textpublikation zu Grunde liegen, unterscheiden.

[vi] Weitere Informationen zu Creative Commons sind unter https://creativecommons.org/ abrufbar.

[vii] Unterstützung bei der Wahl einer geeigneten Softwarelizenz bietet die Website https://choosealicense.com/.

[viii] Data Citation Synthesis Group. „Joint Declaration of Data Citation Principles - FINAL“. FORCE11 (2013). https://doi.org/10.25490/a97f-egyk.

To top