„Unsere Vision ist eine nachhaltige, vollständig reproduzierbare Forschung“

07.05.2024

Forschungsdatenmanagement ist Teil einer Open-Science-Strategie und Voraussetzung für eine gute wissenschaftliche Praxis. Die Daten werden dokumentiert, organisiert und archiviert, damit andere Wissenschaftler*innen oder Akteure aus der Wirtschaft die Daten nachnutzen können. Mit „Open Simulation Science“ will SimTech die datenintegrierte Simulationswissenschaft revolutionieren und weltweite Standards setzen.

true" ? copyright : '' }

Dass Wissenschaftlerinnen und Wissenschaftler zwar Daten dokumentieren, oft aber gar nicht genau wissen, was und wie sie eigentlich dokumentieren müssen, hat Sibylle Hermann, Data und Software Steward bei SimTech, in einer Studie näher untersucht. Im Interview spricht sie darüber, warum Forschungsdatenmanagement deshalb so wichtig ist, welche Fragestellungen eine Rolle spielen und warum noch viele rechtliche Aspekte geklärt werden müssen. Das Interview wurde aus Gründen der Klarheit und Länge redaktionell überarbeitet.

Wissenschaftliche Erkenntnisse kann man in Forschungsartikeln nachlesen. Warum braucht man dann ein Forschungsdatenmanagement?

Wenn man einen Artikel veröffentlicht und die Ergebnisse beschreibt, sind die Daten, die Software oder die Skripte, die man hat, nicht darin vorhanden. Man bekommt sie vielleicht auf Anfrage. Forschungsdatenmanagement heißt, dass auch die zugrunde liegenden Daten mit veröffentlicht werden, damit die Forschung, die ja aus öffentlichen Geldern finanziert wird, nachgenutzt werden kann. Es gab Fälle, bei denen Wissenschaftler*innen nachvollziehen wollten, was Kolleg*innen gemacht haben, und dann feststellten, dass das Ergebnis nicht gestimmt hat. Um aber die gute wissenschaftliche Praxis einzuhalten, ist es wichtig, dass man diese Ergebnisse nachvollziehen kann. Bis vor ein paar Jahren mussten Forschungsdaten nur zehn Jahre archiviert werden, wo und wie auch immer. Diese Vorgabe ist jetzt erweitert worden um Dokumentation und Veröffentlichung von Daten und Software. Denn fast alle Ergebnisse, die man in einem wissenschaftlichen Artikel findet, sind sonst nicht reproduzierbar.

Forschungsergebnisse können nicht immer öffentlich zugänglich gemacht werden. Manchmal sprechen rechtliche Gründe dagegen, zum Beispiel das Urheberrecht oder Gründe der Geheimhaltungspflicht. Wenn die Ergebnisse aber öffentlich zugänglich gemacht werden, dann sollen auch die zugrunde liegenden Forschungsdaten, Materialien und Informationen, die angewandten Methoden sowie die eingesetzte Software verfügbar gemacht und Arbeitsabläufe umfänglich dargelegt werden, selbst programmierte Software unter Angabe des Quellcodes. Das besagt die Leitlinie 13 aus dem Kodex „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ der Deutschen Forschungsgemeinschaft (DFG). Diesen Kodex müssen alle Hochschulen und wissenschaftlichen Forschungseinrichtungen seit 31. Juli 2023 rechtsverbindlich umgesetzt haben, wenn sie weiterhin Fördermittel der DFG erhalten wollen.

Das kling erst mal erschreckend. Warum sind so viele Ergebnisse nicht reproduzierbar?

In einem wissenschaftlichen Artikel werden Methoden und Erkenntnisse beschrieben, aber nicht die Daten selbst veröffentlicht. Aber wenn man jetzt eine Simulation hat, muss man ja nachprogrammieren können, was jemand vorher getan hat. Die Idee von Reproduzierbarkeit ist, dass man sich diese Daten dann herunterladen kann, sie auf Anfrage erhält oder sie auch komplett veröffentlicht vorfindet. Reproduzierbarkeit heißt dann, dass man mit den Daten nachrechnen kann und prüfen kann, ob man zum gleichen Ergebnis kommt.

Die GO FAIR-Initiative setzt sich dafür ein, dass Forschungsdaten so aufbereitet sind, dass sie für Menschen und Maschinen nachnutzbar sind. Dazu müssen sie auffindbar (Findable), zugänglich (Accessible), interoperabel (Interoperable) und wiederverwendbar (Reusable) sein. Einschränkungen gibt es zum Beispiel durch Patentanmeldungen oder Softwarelizenzen.

Bei SimTech gehen wir mit Reusability noch einen Schritt weiter, mit dem Ziel, dass auch Teilerkenntnisse nachgenutzt werden können, um damit mit den eigenen Umgebungen rechnen zu können. Also Reproducibility heißt, ich reproduziere einfach nur das, was ein anderer getan hat, mit Reusability willst du das, was er oder sie getan hat, auf deine eigene Forschung anwenden können.

Und wie kommt man an diese Daten?

Mittlerweile liegen ja auch immer mehr Forschungsdaten digital vor. Da ist es die Idee, diese Forschungsdaten so zu beschreiben, dass sie überhaupt erst mal auffindbar sind. Das ist der erste Ansatz der vier FAIR-Prinzipien und betrifft die Infrastruktur, Archive und Repositorien. Die Frage ist dann aber, wie kann ich die Daten veröffentlichen, dass ich sie finde und auch technisch und legal nachnutzen kann? Das ist ein Aspekt des Forschungsdatenmanagements und der guten wissenschaftlichen Praxis, die das eigentlich verlangt. 

Das heißt, jeder kann die Daten auch frei nutzen?

Wenn sie frei veröffentlicht sind, kann sie erst einmal jeder nutzen. Man muss sie natürlich verstehen, das ist die Grundbedingung (lacht). Gerade bei SimTech gibt es ganz spezielle Anwendungsfälle. Es ist ja nicht so, dass man ein riesenkomplexes Simulations-Modell nehmen kann und als Laie versteht, was da gemacht wurde. Diese Daten sind eher für die Wissenschaft gedacht. Aber manchmal finden sich auch andere Zwecke, die man als Wissenschaftler*in selber erst mal gar nicht sieht.

Die Idee dahinter ist ja auch, dass Forschung aus Steuergeldern bezahlt wird und deshalb die Ergebnisse jedem zur Verfügung stehen müssten, wobei Barrieren wie mögliche Geheimhaltungspflichten berücksichtigt werden müssen. Aber gerade bei öffentlich geförderten Projekten, zum Beispiel mit Mitteln der DFG, ist es von großem Nutzen, dass man nicht jedes Mal die Forschung von Neuem beginnt, sondern dass die neue Forschung auf der alten Forschung basieren kann, dass man die Daten nachnutzen kann.

Creative Commons (CC) ist eine Non-Profit-Organisation, die vorgefertigte Lizenzverträge anbietet. Sie sollen Urheber*innen eine Hilfestellung zur Freigabe rechtlich geschützter Inhalte bieten und zeigen an, unter welchen bestimmten Bedingungen Werke oder Daten weiterverwendet werden dürfen. Das reicht von einfachen Lizenzen, zum Beispiel CC BY, bei der nur der Name genannt werden muss, bis hin zu Lizenzen mit Einschränkungen bei der  Bearbeitung (ND) oder einem Verbot kommerzieller Nutzung (NC).  

Wie greift dann das Urheberrecht, wenn die Daten für kommerzielle Zwecke verwendet werden?

Das kommt auf die Lizenz an, die diesen Daten zugrunde liegt. Es gibt die Creative-Commons-Lizenzen, die das alles einfacher machen und vereinheitlichen sollen. Die DFG verlangt beispielweise die CC BY-Lizenz für Daten.

Und wie ist das bei Software?

Bei Software gibt es nochmal ganz andere Lizenzen. Bei einer CC BY non commercial-Lizenz zum Beispiel darf man die Daten nicht in der Industrie verwenden. Es gibt auch noch restriktivere Lizenzen. Alternativ kann man seine Daten nur auf Anfrage veröffentlichen. In dem Fall kann man dann selbst bestimmen und sagen, ich gebe sie nur an Wissenschaftler*innen weiter und nicht an die Industrie. Manchmal hat man hingegen ja auch Kooperationen mit Industrieunternehmen und möchte aus Gründen des gewerblichen Rechtsschutzes nicht, dass alles öffentlich nachnutzbar ist.

Bei Software ist es ganz häufig so, dass es zum Beispiel Copyleft-Lizenzen gibt. Sie erlauben eine Bearbeitung oder Weiterentwicklung, aber nur unter der ursprünglichen Lizenz. So wird verhindert, dass es durch kommerzielle Nutzung zu Einschränkungen für Nutzer*innen kommt.

Bei Software ist es noch viel komplexer, weil Software meist aus vielen verschiedenen Softwarepaketen zusammengebaut ist. Da muss man zuerst die Kompatibilität dieser Lizenzen checken, bevor man sich eine Lizenz aus diesem ganzen Konstrukt von vorherigen Softwarelizenzen erstellt.

Wem gehören dann die Daten, die mit einer bestimmten Software entstehen?

Im Forschungsdatenmanagement steht eigentlich immer die Schöpfungshöhe im Vordergrund, das heißt, die Daten müssen zuerst ein bestimmtes Maß an Kreativität und Originalität enthalten, um überhaupt urheberrechtlich geschützt zu sein. Wenn man eine Software schreibt und die spuckt irgendwelche Daten aus, dann hat man erst einmal kein Urheberrecht auf diese Daten. Und wenn ich dafür eine Software von einer Firma verwende und berechne irgendwelche Daten damit, dann ist die Frage: Wem gehören diese Daten? Das ist ungeklärt und noch sehr schwer zu beantworten. Es kommt dann auch darauf an, in welcher Rolle man diese Daten erzeugt oder eine Software geschrieben hat. Gehört sie dann dir oder der Uni oder dem Institutsleiter? Das ist auch juristisch sehr komplex und da ist noch sehr viel ungeklärt.

„Es kann passieren, dass Wissenschaftler*innen erst gar nicht daran forschen, weil die Rechtsklärung so aufwendig ist.“

Sibylle Hermann

Man kann sagen, ich probiere es, so lange keiner klagt. Das ist tatsächlich ein Ansatz, den man teilweise fährt. Ich hatte gerade so einen Fall im Bereich der Digital Humanities. Da ging es um urheberrechtlich geschützte Werke, die mit hohem Aufwand von Hand annotiert wurden, das heißt mit Anmerkungen versehen. Diese Annotationen können dann für maschinelles Lernen verwendet werden. Sie sind prädestiniert für eine Nachnutzung, es herrscht aber Rechtsunsicherheit, da das zugrundeliegende Werk urheberrechtlich geschützt ist, und die Annotationen nur in Verbindung mit dem Text Sinn machen. Es kann dann passieren, dass Wissenschaftler*innen erst gar nicht daran forschen, weil die Rechtsklärung so aufwändig ist. Wenn man nachher diese Daten nicht nachnutzen kann, dann lohnt sich auch die Forschung dazu nicht.

Wir haben das in einem Projekt untersucht. Es gab einen Ansatz von uns und einen von der Universität Trier, wie man überhaupt damit umgehen kann, auf solchen urheberrechtlich geschützten Werken Data Mining zu betreiben. Da hat sich dann mitten im Projekt auch noch das Gesetz geändert und es wurde noch komplexer. Im alten Urheberrechtsgesetz konnte man diese Daten als Gedächtnisinstitution archivieren. Inzwischen ist dieser Passus gestrichen und es ist unklar, wer sie archivieren darf. Der Forscher darf es, aber im Endeffekt streiten sich die Juristen gerade noch darum, wo und wie man die Daten archivieren und zugänglich machen kann.  

Was heißt das dann für die Arbeit mit Daten für Simulationen?

Bei SimTech arbeiten wir mit daten-integrierten Simulationen, das heißt, es werden viele experimentelle Daten verarbeitet. Wir benutzen viele Daten als Input für die Simulation und nicht nur für den Output an Daten. Das ist interessant. Zum Beispiel braucht man für maschinelles Lernen ganz viele Daten, mit denen man rechnen kann. Die muss dir aber erst einmal jemand bereitstellen. Für eine Crash-Simulation zum Beispiel haben wir Daten von einer Universität in Washington verwendet. Die Wissenschaftler*innen dort haben ein Auto vermessen und diese ganzen Datenpunkte in jahrelanger Arbeit veröffentlicht. Nur anhand dieser Informationen konnten wir die Crash-Simulationen durchführen. So muss man sich das vorstellen.

Was ist dann das Besondere im Forschungsdatenmanagement bei SimTech?

Das Besondere ist, dass unser Team selbst auch Forschung betreibt, und nicht nur die Infrastruktur bereitstellt. Das andere ist, dass wir die Infrastruktur gezielt an den Bedarfen der Wissenschaftler*innen weiterentwickeln, zum Beispiel in gemeinsamen Forschungsprojekten. Wir haben deshalb auch an der gesamten Universität Stuttgart die Policy ausgegeben, dass das Forschungsdatenmanagement schon in der Forschung beginnt und nicht erst beim Veröffentlichen. Also dass die Daten schon im Entstehen dokumentiert werden. Da haben wir einige Projekte, bei denen wir die Möglichkeit bieten, den Workflow mit zu dokumentieren, zum Beispiel auch bei EnzymeML.

Bei uns bekommen Wissenschaftler*innen, die die Daten hochladen, ein Feedback und können sodann ihre Daten verbessern.

Sybille Hermann

Und die andere Besonderheit ist, dass wir die Daten, die bei uns im Repositorium veröffentlicht werden, in Zusammenarbeit mit der Infrastruktur der Universitätsbibliothek und dem Rechenzentrum, tatsächlich kuratieren. Bei uns bekommen Wissenschaftler*innen, die die Daten hochladen, ein Feedback und können sodann ihre Daten verbessern. Wir reichern die Daten auch an.

Persistente Identifikatoren sind wie Personalausweise für digitale Daten oder andere digitale Objekte sowie für Personen.  Anhand von Ziffern und/oder alphanumerischen Zeichen, die ihnen zugeordnet werden, können sie eindeutig identifiziert und wiedergefunden werden. Für Daten und digitale Objekte ist das beispielweise der DOI (Digital Object Identifier), für Personen die ORCID ID.

Wenn man auf freien Plattformen veröffentlicht, dann muss man nur einen Grundstamm an Metadaten eingeben und ist mit einem persistenten Identifikator versehen. Wir wollen aber mehr in diese Re-Use Geschichte einsteigen und im ersten Schritt einen inhaltlichen Review von den Wissenschaftler*innen. Dafür hat mein Teamkollege Jan Range das Easy Review Tool entwickelt.

Der Workflow ist dann so, dass man die Daten einreicht, ein Admin schaut sie sich an, bevor sie freigegeben werden, und sie werden auch formal noch kuratiert. Das passiert jetzt noch nicht im großen Stil an der gesamten Uni, aber in SimTech machen wir das schon.

Nach unserem Freigabeschritt werden die Daten dann in der Unibibliothek formal kuratiert. In Zukunft soll das noch automatisierter ablaufen. Daran arbeiten wir und entwickeln weitere Tools. Wir haben schon sehr viele Datensätze in SimTech veröffentlicht und unser Ziel ist es, zu jedem Artikel auch die Daten zu veröffentlichen. Im besten Fall mit einer frei zugänglichen Lizenz. 

Was wäre deine Vision im Forschungsdatenmanagement?

Meine Vision wäre, in Richtung "Open Simulation" zu gehen. Dabei geht es darum, dass wir nicht nur Forschungssoftware und -ergebnisse veröffentlichen, sondern auch die zugrunde liegenden Methoden und dadurch unsere Forschung transparenter gestalten können. Das Ziel ist, eine nachhaltige, vollständig reproduzierbare Forschung zu erreichen.

Manuela Mild | SimTech Science Communication

Zum Nachlesen

Hermann, Sibylle; Fehr, Jörg. Documenting research software in engineering science. Scientific Reports, 2022, 12. Jg., Nr. 1, S. 6567. https://doi.org/10.1038/s41598-022-10376-9

Über die Wissenschaftlerin

Sibylle Hermann ist Diplom-Ingenieurin und hat Ingenieurwissenschaften an der Universität Stuttgart studiert. Seit 2015 arbeitet sie als Forschungsdatenmanagerin an der Universitätsbibliothek Stuttgart, seit 2019 kümmert sie sich zusätzlich bei SimTech als Software und Data Steward um die Qualität von Forschungsdaten und ihrer Bereitstellung innerhalb des Exzellenzclusters. In ihrer eigenen Forschung und ihrer Dissertation beschäftigt sie sich mit der Dokumentation von Daten und Software in den Ingenieurwissenschaften, in der Entstehung und den zugrundeliegenden Daten von Bildern in wissenschaftlichen Artikeln und wissenschaftsphilosophischen Fragestellungen, zum Beispiel wie man Wissen aus Simulationen generieren kann. 

Zum Seitenanfang