DINI-nestor-WS5

Ankündigung

5. DINI/nestor-Workshop "Werkzeuge für Forschungsdaten. Bedarf und Integration in Forschungs- und Datenmanagementprozesse"

Ort: Christian-Albrechts-Universität zu Kiel
Hans-Heinrich-Driftmann-Hörsaal
Olshausenstr. 75, Kiel
Bushaltestelle: Leibnizstraße

Termin: 17. Juni 2016, 9.00-15.00 Uhr

Um Forschungsdaten wissenschaftlich sinnvoll nutzen und managen zu können, sind digitale Werkzeuge notwendig. Nicht nur weil digitale Daten ein System von Hard- und Software voraussetzen, sondern weil Forschungsdaten und digitale Werkzeuge in der Kette von wissenschaftlichen und organisatorischen Arbeitsabläufen zwei Seiten derselben Medaille sind. So wie Forschungsdaten etwas erfordern, mit dem sie z.B. erfasst, prozessiert und ausgewertet werden, so benötigen Werkzeuge etwas, das sie erfassen, prozessieren oder auswerten. Der Workshop der DINI/nestor AG Forschungsdaten an der Christian-Albrechts-Universität zu Kiel möchte diese vielleicht zuletzt vernachlässigten Werkzeuge und ihre Integration in Forschungs- und Datenmanagementprozesse in den Blick nehmen.

Der Bedarf an Werkzeugen für DatenmanagerInnen und WissenschaftlerInnen ist sehr breit und reicht von einfachen Cloud-Speicherwerkzeugen bis hin zu spezialisierten Dokumentationswerkzeugen. Aber während beim Angebot von Speicher Infrastruktureinrichtungen große Konkurrenz von kommerziellen Anbietern haben und es immerhin etablierte Angebote und generische Werkzeuge gibt, scheint es in vielen anderen Bereichen wie z.B. für Dokumentation und Vergabe von Metadaten nichts Vergleichbares zu geben. Liegt das daran, dass der konkrete Bedarf nach Werkzeugen – abgesehen davon, dass er groß und breit ist – nicht besonders gut verstanden ist? Es wurden und werden in einer Reihe von Förderprogrammen und unter unterschiedlichen Schlagwörtern wie eScience, Grid und virtuellen Forschungsumgebungen viele, z.T. generische Werkzeuge entwickelt, die das wissenschaftliche Arbeiten unterstützen sollen. Sie rücken aber nur selten Forschungsdaten selbst in den Mittelpunkt und zudem scheint der Erfolg dieser Werkzeuge begrenzt und auf spezielle Arbeitsabläufe oder auf spezielle Kontexte beschränkt zu sein. Wie können Werkzeuge erfolgreich in unterschiedliche Forschungs- und Datenmanagementprozesse integriert werden, ohne die Prozesse und Arbeitsweisen vorzugeben? Und schließlich ist klar, dass es für Infrastruktureinrichtungen sehr aufwändig wäre, für jede Teildisziplin und für individuelle Workflows eigene Werkzeuge zu entwickeln und bereitzustellen. Wo können sich Infrastruktureinrichtungen hier sinnvoll einbringen?

Für den Workshop erbitten wir Vorschläge für Präsentationen und Breakout-Sessions, die sich mit dem Thema Werkzeuge für Forschungsdaten in Forschungs- und Datenmanagementprozessen beschäftigen. Neben den oben genannten Fragen können z.B. behandelt werden:

Welche Erfahrungen gibt es mit Werkzeugen zum Forschungsdatenmanagement? Was hat sich bewährt und was nicht?

Welcher konkreter Bedarf besteht bei DatenmanagerInnen und WissenschaftlerInnen nach Werkzeugen zum Forschungsdatenmanagement? Was sollte in jedem Portfolio/”Werkzeugkasten” einer Infrastruktureinrichtungen enthalten sein?

Wie können generische Werkzeuge entwickelt werden, die nicht nur in sehr speziellen Arbeitsabläufen und Disziplinen nützlich sind, sondern auch in einer Vielzahl individueller Kontexte einsetzbar sind? Gibt es Best Practices oder allgemeine Kriterien?

Wo ist die Grenze für generische Angebote und wo fangen disziplinspezifische Lösungen an? Wie kann bei spezifischen Lösungen die nachhaltige Nutzbarkeit von Daten und der dazugehörigen Werkzeugen garantiert werden?

Ist es möglich und überhaupt sinnvoll, mit den kommerziellen Anbietern generischer Werkzeuge zu konkurrieren, die von WissenschaftlerInnen auch für das kollaborative Arbeiten an Forschungsdaten benutzt werden? Wie ist die Langzeitperspektive beim Einsatz von kommerziellen Werkzeugen?

Anmeldung

Das Anmeldeformular finden Sie auf der DINI-Webseite.

Die Teilnehmerzahl ist auf 80 begrenzt und die Teilnahmegebühr beträgt 15 €. Wir bitten um Ihr Verständnis.

Wenn Sie am Vorabend (16.6.) am gemeinsamen Abendessen ab 19 Uhr in der Forstbaumschule (Selbstzahlerbasis) teilnehmen wollen melden Sie sich bitte bei Thilo Paul-Stüve.

Programm

8:30 bis 9:00 Uhr	Registrierung
9:00 bis 9:15 Uhr	Begrüßung durch die DINI/nestor-AG Forschungsdaten und CAU Kiel Jens Ludwig (Staatsbibliothek zu Berlin) und Holger Marten (Christian-Albrechts-Universität zu Kiel)
9:15 bis 10:30 Uhr	Vortragsblock 1, Moderation: Janna Neumann
	Etablierung einer virtuellen Forschungsumgebung als zentrales Angebot Thilo Paul-Stüve, Sören Lorenz (Christian-Albrechts-Universität zu Kiel)
	Integrierte Datenmanagement-Systeme für marine Forschung in Kiel Carsten Schirnick, Hela Mehrtens, Pina Springer, Lisa Paglialonga, Claas Faber (GEOMAR Helmholtz-Zentrum für Ozeanforschung, Kiel)
	Forschungsdatendienste an einer Universität – im Spagat zwischen Möglichkeiten und Realitäten Ralph Mueller-Pfefferkorn (TU Dresden)
10:30 bis 11:00 Uhr	Kaffeepause
11:00 bis 12:30 Uhr	Vortragsblock 2, Moderation: Jens Ludwig
	LZA Lite - eine Plattform zum Forschungsdatenmanagement im Verbund Marc Ewert (Heinrich-Heine Universität Düsseldorf, Zentrum für Informations- und Medientechnologie), Christian Trapp (Universität Siegen, Zentrum für Informations- und Medientechnologie)
	Erleichterte Metadatengenerierung für wirtschaftswissenschaftliche Fachzeitschriften: Das ZBW Journal Data Archive Sven Vlaeminck (ZBW)
	Projekt DataWiz: Die Notwendigkeit disziplinspezifischer Forschungsdatenmanagement-Werkzeuge am Beispiel der Psychologie Martin Kerwer, Ronny Bölter (ZPID)
	Versionierungswerkzeuge für Forschungsdaten – Datenmanagement im Forschungsprozess Sibylle Hermann (Universität Stuttgart)
12:30 bis 13:15 Uhr	Mittagspause
13:15 bis 14:15 Uhr	Breakout-Sessions
	Session 1: Metadaten in der Praxis (Input-Präsentation) Moderator: Dominik Schmitz, Florian Krämer (RWTH Aachen)
	Session 2: Lücken im Werkzeugkasten Moderator: Jens Ludwig (Staatsbibliothek zu Berlin), Harry Enke (AIP)
	Session 3: Werkzeuge und Partizipation (Input-Präsentation) Moderator: Jens Dierkes (SUB Göttingen)
	Session 4: Einsatz kommerzieller und Open-Source Software für wissenschaftliche Workflows (Input-Präsentation) Moderator: Wilhelm Hasselbring (Universität Kiel)
	Session 5: offene Session
14:15 bis 15:00 Uhr	Abschlussdiskussion

Abstracts und Präsentationsfolien

Etablierung einer virtuellen Forschungsumgebung als zentrales Angebot
Thilo Paul-Stüve, Sören Lorenz (Christian-Albrechts-Universität zu Kiel)
Mit dem DFG-Projekt 'Virtuelle Forschungsumgebung in Kiel' (VFU@Kiel) wurde an der Christian- Albrechts-Universität zu Kiel begonnen, auf Basis der Kiel Data Management Infrastructure (KDMI) eine virtuelle Forschungsumgebung in den Betrieb zu bringen.
Die KDMI ist eine gemeinsame virtuelle Forschungsumgebung der Kieler Meereswissenschaften, betrieben am GEOMAR, die verschiedene Online-Werkzeuge integriert, um die Forschungsarbeit zu unterstützen.
Im Projekt VFU@Kiel wurden Konzepte für Organisationsstrukturen und eine technische Basis für eine transdiziplinäre Nutzung dieser virtuellen Forschungsumgebung (VFU) entwickelt, die eine kontinuierliche Anpassung an unterschiedlichste Forschungsvorhaben ermöglicht. Ein Ziel ist hierbei, den gesamten Zyklus wissenschaftlichen Arbeitens zu unterstützen.
Die technische Konzeption der VFU verfolgt einen offenen, generischen Ansatz. Als Kernkomponenten dienen Kollaborationswerkzeuge sowie Standardbasisdienste des Rechenzentrums, wie z.B. Storage oder Identity Management. Ein rollenbasiertes Rechtemanagement und eine selektive Freigabe von angeschlossenen Werkzeugen erlaubt hierbei eine projektabhängige Zugangsfreigabe zu den Projektressourcen und -werkzeugen. So bleibt die VFU interoperabel und damit offen gegenüber anderen Systemen und Werkzeugen.
Ein Netzwerk von zentralen und fachspezifischen Forschungsdatenmanagern unterstützt Forschungsprojekte bei der Planung des Forschungsdatenmanagements und der zur Realisierung bereitzustellenden Werkzeuge. Durch eine frühe Einbeziehung weiterführender Expertise, z.B. der Universitätsbibliothek oder des Geschäftsbereichs Forschung, können alle Facetten vor der Realisierung einbezogen werden.
Für die zentrale Speicherung des Programmcodes der Werkzeuge und etwaige Entwicklungsarbeiten lässt sich die VFU als Collaborative-Development-Environment (CDE) nutzen; eine flexible Bereitstellung erfolgt mithilfe von Virtualisierungstechniken. Zudem ist ein Ziel, einen Pool von Entwicklern über Projektgrenzen hinweg zu halten.
Der Vortrag gibt eine Übersicht über die Konzepte der Organisationsstruktur und der technischen Basis der VFU und stellt den derzeitigen Stand der Entwicklung vor.

Integrierte Datenmanagement-Systeme für marine Forschung in Kiel
Carsten Schirnick, Hela Mehrtens, Pina Springer, Lisa Paglialonga, Claas Faber (GEOMAR Helmholtz-Zentrum für Ozeanforschung, Kiel)

Das GEOMAR Datenmanagement Team ist entstanden durch die Kooperation des Helmholtz-Zentrums für Ozeanforschung Kiel mit mehreren Großprojekten. Es wurde eine übergreifende Datenmanagement- Infrastruktur für marine Wissenschaften in Kiel aufgebaut (KDMI), die den gesamten Lebenszyklus von Forschungsdaten, deren Beschreibung, Speicherung und Archivierung unterstützt. Durch eine enge Zusammenarbeit mit Wissenschaft und Datenzentren wird sie kontinuierlich angepasst und ausgebaut und kann so an neue Forschungsmethoden angepasst werden. Bewährt hat sich der Einsatz primär von etablierten Softwarewerkzeugen, die sich anhand ihrer Webschnittstellen miteinander vernetzen lassen und bei Bedarf durch Eigenentwicklungen ergänzt werden.
Datenmanagement Systeme
KDMI besteht aus einem webbasierten Portal mit der zentralen Anwendung OSIS (Ocean Science Information System) https://portal.geomar.de/osis, das den Datenaustausch von noch nicht veröffentlichten Daten ermöglicht. Die Metadaten sind öffentlich zugänglich und ermöglichen eine Übersicht der entstehenden Daten. Ein Erinnerungssystem, das auf den durch Datenrichtlinien vorgegebenen Fristen beruht, wird gut angenommen und ermöglicht eine Übersicht über schon vorhandene und noch zu erwartende Daten. Ein weiterer Service ist zum Beispiel der Medienserver ProxSys, der die Speicherung, Beschreibung und Suche von Bildern und Videos ermöglicht. Darauf aufbauend wird derzeit ein Annotationssystem für Fotos und Videos entwickelt. Versionierungssysteme (Subversion und Git) helfen der Wissenschaft in Verbindung mit einem Wiki außer bei der Codeentwicklung auch bei Dokumentation und Datenanalyse.
Integration der Systeme
Das Datenmanagement-Portal (https://portal.geomar.de) ist der zentrale Punkt für die bereitgestellten Systeme und dient auch der Zugriffsverwaltung. Hier können öffentliche und restriktivere interne Seiten für Wikis, Blogs, Kalender und Dokumentenaustausch gestaltet werden.
Ein institutionelles Repositorium für Volltexte wird von der GEOMAR Bibliothek betrieben (OceanRep: http://oceanrep.geomar.de). Es ist mit dem Portal verwoben und ermöglicht durch die Verknüpfung von Autoren, deren Daten und Publikationen die Einbindung von automatisch aktualisierten Listen z.B. auf Projektwebseiten oder in Berichten. Die Publikation von Forschungsdaten in Datenzentren wie PANGAEA (http://www.pangaea.de) dient der langfristigen Verfügbarkeit und Zitierbarkeit.

Forschungsdatendienste an einer Universität – im Spagat zwischen Möglichkeiten und Realitäten
Ralph Mueller-Pfefferkorn (TU Dresden)

Universitäten beherbergen ein breites Spektrum an Fachdisziplinen. Deren umfangreiche Forschungsaktivitäten und die damit einhergehenden Anforderungen, z.B. beim Verwalten und Verarbeiten von Forschungsdaten, stellen universitäre Infrastruktureinrichtungen wie Rechenzentren vor eine schwierige Aufgabe: bei begrenzten Ressourcen die Diversität optimal zu unterstützen. Das ZIH der TU Dresden entwickelt und betreibt seit vielen Jahren Datendienste für Wissenschaftlerinnen und Wissenschaftler. Die dabei gesammelten Erfahrungen zeigen, dass unterschiedlichste Aspekte Einfluss auf Entscheidungen für oder wider den Einsatz und den Erfolg von bestimmten Werkzeugen und Diensten sowohl auf Anbieter- als auch auf Nutzerseite haben.

LZA Lite - eine Plattform zum Forschungsdatenmanagement im Verbund
Hans-Dieter Weckmann (Zentrum für Informations- und Medientechnologie Heinrich Heine Universität Düsseldorf)
Die Hochschulen Düsseldorf, Siegen und Wuppertal kooperieren im Bereich Langzeitarchivierung und Forschungsdatenmanagement (die Unterzeichnung der Kooperationsvereinbarung erfolgte durch die Rektorate). Als Meilenstein dieser Kooperation wurde die Plattform „LZA Lite“ geschaffen, um Daten in ein digitales Archiv überführen und im Anschluss verwalten zu können. Die LZA Lite Plattform besteht aus mehreren Diensten und Anwendungen. Den Kern des Systems bildet das Open-Source-Repository Fedora Commons, der Ingest-Prozess wird durch die Software der Firma Docuteam unterstützt. Abgelegt werden die Daten auf einem (auch geografisch) verteilten Speicher mithilfe der S3-Technologie. Für den Benutzer-Zugang zum Archiv wurde eine SharePoint-basierte Oberfläche entwickelt. Der sichere Zugang zum System wird durch Shibboleth-Authentifizierung gewährleistet. Mit Hilfe dieser SharePoint-Realisierung und nachfolgende Programm-Module können Dokumente mit Metadaten versehen und in das Archiv übergeführt werden. Zusätzlich ist für den direkten Import von Dateien/Metadaten in das Repository ein „SIP-Zweig“ vorgesehen. Ebenfalls über die SharePoint-GUI kann im Archiv nach Metadaten gesucht und anschließend das archivierte Dokument wiederhergestellt werden. Getestet wurde dieses System im Rahmen eines Förderprojektes als Langzeitarchiv für Prüfungs- und Studierendendaten. Weitere Use-Cases, wie elektronische Laborbücher, befinden sich in der Umsetzung. Im nächsten Schritt soll die Archivierung von Forschungsdaten unterstützt werden. Aktuell befindet sich das System in der testweisen Anwendung und soll im Jahr 2017 in den Produktivbetrieb übergehen.

Erleichterte Metadatengenerierung für wirtschaftswissenschaftliche Fachzeitschriften: Das ZBW Journal Data Archive
Sven Vlaeminck (ZBW)
Fachzeitschriften in den Wirtschaftswissenschaften verfügen nur in seltenen Fällen über so genannte „Data Disclosure Policies“ – also über Richtlinien, die Vorgaben zur Einbeziehung der für einen Artikel genutzten Forschungsdaten in den Publikations- und Reviewprozess machen, und damit eine Replikation der publizierten Ergebnisse erleichtern sollen. Selbst Zeitschriften mit solchen Richtlinien stellen im Regelfall die Replikationsdaten zu Fachartikeln nur als zip-file per Attachment zum jeweiligen Paper auf der Verlagshomepage zur Verfügung. Dieses Vorgehen ist aus verschiedenen Gründen verbesserungswürdig:

Sind diese Daten nicht zitierbar. Autor/inn/en können somit nicht durch ein Zitat für die Datenbereitstellung „belohnt“ werden. Unter dem Aspekt der Förderung von Data Sharing ist diese Praxis somit unzureichend.
Verwendete Forschungsdaten können schwer aufgefunden oder nachgenutzt werden, da sie als einzelne Entität gar nicht erst auftauchen und somit nicht in disziplinären oder allgemeinen Fachportalen oder Suchmaschinen sichtbar sind.

Das ZBW Journal Data Archive ist ein recht neuer disziplinärer Service, der ein Ergebnis des DFG- geförderten Projekts „European Data Watch Extended“ (www.edawax.de) ist. Dieser Service zielt die die Redaktionen von wirtschaftswissenschaftlichen Fachzeitschriften, die durch ein niedrigschwelliges Angebot ihre Autor/inn/en dazu anhalten können, die genutzten Forschungsdaten mit Metadaten zu versehen und so eine Zitation und Nachnutzung der Forschungsdaten zu erleichtern.
Der Vortrag erläutert zudem die Kriterien die zur Auswahl der zugrundeliegende Open-Source Software CKAN (www.ckan.org) geführt haben und beschreibt spätere technologische Anpassungen.

Projekt DataWiz: Die Notwendigkeit disziplinspezifischer Forschungsdatenmanagement-Werkzeuge am Beispiel der Psychologie
Martin Kerwer, Ronny Bölter (ZPID)

Forschungsdatenmanagement sollte so früh wie möglich, am besten von Anfang an in den Forschungsprozess integriert sein. Deswegen wird im DFG-Projekt DataWiz am Leibniz- Zentrum für Psychologische Information und Dokumentation derzeit ein Assistenzsystem entwickelt, das Psychologen und Psychologinnen in ihrem Forschungsdatenmanagement wissensbasiert und prozedural unterstützen soll. Die Notwendigkeit einer solchen fachspezifischen Entwicklung gründet sich zwangsläufig auf die vorliegenden Besonderheiten der Disziplin „Psychologie“. Zu diesen Spezifika der Psychologie zählen u.a. in erhöhtem Maß datenschutzrechtliche Probleme, ein hoher Anteil an Daten aus kleinformatigen Studien, eine große Bandbreite an Datenerhebungsverfahren, urheberrechtlicher Schutz von Messinstrumenten und die häufige Anpassung oder Neuentwicklung von Messinstrumenten im Feld.
Um Forscher und Forscherinnen vor diesem Hintergrund angemessen in der Dokumentation, der Archivierung und dem Teilen ihrer Daten unterstützen zu können, sind disziplinübergreifende Lösungen derzeit noch ungeeignet. Dies gründet sich u.a. darauf, dass (1) sich disziplinübergreifende Angebote nicht in ausreichendem Maß in fachspezifische Workflows eingliedern und dadurch von Anwendern als zusätzlicher Arbeitsaufwand wahrgenommen werden, (2) rechtliche Problemstellungen wissensbasierte Unterstützung und ein abgestuftes Nutzermanagement im Assistenzsystem erfordern, (3) die nachhaltige Nutzbarkeit der Daten durch fachspezifische Dokumentation (z.B. von Messinstrumenten) sichergestellt werden muss, (4) Zusatznutzen, der die Nutzerakzeptanz steigert, auf disziplinspezifischer Ebene durch Schnittstellen zu fachrelevanter Software oder Unterstützung von Publikationsstandards generiert werden kann, während entsprechende Funktionalitäten für fächerübergreifende Entwicklungen unverhältnismäßig aufwendig wären.
Der Vortrag endet mit einem Ausblick auf die Anschlussfähigkeit des Werkzeugs DataWiz an generische fächerübergreifende Entwicklungen und geplante Maßnahmen, um die fächerübergreifende Nachnutzbarkeit psychologischer Daten zu erhöhen.

Versionierungswerkzeuge für Forschungsdaten – Datenmanagement im Forschungsprozess
Sibylle Hermann (Universität Stuttgart)

Ein häufiges Problem bei der Daten-Archivierung besteht darin, dass die zugrunde liegenden Daten nicht geordnet und strukturiert vorliegen. Erschwerend kommt hinzu, dass an den meisten Einrichtungen bislang keine ganzheitlichen Prozesse zum Datenmanagement etabliert sind. Dabei gilt es insbesondere, folgende Punkte zu beachten:

Es existiert oft kein einheitliches Vokabular (Metadaten, um die angefallenen Daten zu beschreiben). Zur Referenzierbarkeit müssen neue Methoden entwickelt werden.

Existierende Versionierungswerkzeuge sind zu kompliziert – bzw. passen nicht für das Anwendungsszenario – um sie effektiv in der Fachpraxis einsetzen zu können.

Die Anforderungen an die Arbeitsweise sind sehr heterogen – oft ist ein kollaboratives Arbeiten an verschiedenen Orten nötig.

Das Projekt ReplayDH versucht, anhand konkreter Anforderungen aus der Computerlinguistik Werkzeuge zu entwickeln, die dabei helfen, ein strukturiertes Datenmanagement zu ermöglichen. Das Projekt verfolgt bei der Entwicklung der Werkzeuge einen Bottom-Up-Ansatz: Es werden exemplarisch für einen speziellen Anwendungsfall der Digital Humanities Werkzeuge entwickelt, dabei aber darauf Rücksicht genommen, dass daraus auch eine generisch einsetzbare Lösung resultiert, die die Forschenden bei dem Prozess der Entstehung ihrer Daten begleitet. Dieses soll vorrangig dazu dienen, zitierbare Zwischenstände mit einem einheitlichen Metadatenschema zu dokumentieren und Änderungen zu verfolgen. Darüber hinaus fällt die Nachbearbeitung der Daten weg. Das Werkzeug setzt auf existierende Systeme zur Versionierung (Git) auf, nur mit einem einfach zu bedienenden Graphical User Interface (GUI), das den Wissenschaftler durchgehend begleiten soll. Darüber hinaus müssen die Schnittstellen so gestaltet werden, dass der Forscher zur Abbildung seines Workflows nur ein Programm bedienen muss, das eine klare Nutzerführung bietet. Der Fokus des Projektes liegt darauf, den konkreten Bedarf aus der Forschung aufzugreifen. In Zusammenarbeit mit den Forschenden soll ein Werkzeug entwickelt werden, das auch so von den Forschenden gewollt ist, um damit eine höhere Akzeptanz und Nutzung zu erzielen.

Session 1: Metadaten in der Praxis
Moderator: Dominik Schmitz, Florian Krämer (RWTH Aachen)

Metadaten werden im Kontext des Forschungsdatenmanagements eine wichtige Rolle zugewiesen. Sie ermöglichen das Erschließen fremder Datenbestände, das Wiederauffinden von fremden oder auch nur eigenen Daten sowie deren sinnvolle und korrekte Nachnutzung. In der Praxis werden bisher aber nur wenige Daten konsequent durch Metadaten beschrieben. Gründe dafür sind der hohe Aufwand und die fehlende, gut in den (bisherigen) Forschungsprozess integrierte Unterstützung durch geeignete Werkzeuge.

Die Herausforderung besteht also darin, Werkzeuge und möglicherweise auch Prozesse so zu gestalten, dass schon bei begrenztem Aufwand eine ausreichend hohe Qualität von beschreibenden Metadaten erreicht wird, die zu einer spürbaren Verbesserung im Umgang mit Forschungsdaten führt. Natürlich sind häufig fachspezifische Verarbeitungs- und Analysewerkzeuge wie Text/Data Mining Werkzeuge, Statistik-Tools oder Simulationswerkzeuge erforderlich, um wissenschaftlich mit den Daten arbeiten zu können. Die maschinenlesbare Verfügbarkeit von begleitenden Metadaten kann man jedoch als grundlegenden „Backbone“ verstehen, auf den kompliziertere Prozesse und Unterstützungen aufsetzen können.

Entsprechend rückt die Session die Werkzeuge für das effektive und effiziente Metadatenmanagement in den Vordergrund. Die Teilnehmer des Workshops sind aufgerufen, entsprechende Werkzeuge zu benennen und nach Möglichkeit das Werkzeug und darauf aufbauende Konzepte vorzustellen oder sogar eine arbeitsfähige Installation für Hands-On-Erfahrungen bereit zu stellen.

Session 2: Lücken im Werkzeugkasten
Moderator: Jens Ludwig (Staatsbibliothek zu Berlin), Harry Enke (AIP)

Wenn man vor die Aufgabe gestellt ist, Forschungsdatenmanagement als Service umzusetzen, hat man die sehr breite Palette genereller Software-Produkte und eine sehr kleine Auswahl spezialisierter Forschungsdaten-Software zur Verfügung. Häufig sind auch die Kriterien fuer die Auswahl und die Übersicht über den Markt unzureichend.

In dieser Breakout-Session wollen wir die gemeinsame Expertise nutzen, um eine Liste zu erstellen, die fehlende Werkzeuge mit ihren Anwendungsszenarien benennt. Ein Impuls-Referat wird ein Beispiel für Entwicklungsbedarf skizzieren, der nicht durch generische oder spezialisierte Software abgedeckt ist.

Session 3: Werkzeuge und Partizipation
Moderator: Jens Dierkes (SUB Göttingen)

Werkzeuge zum Umgang mit Forschungsdaten müssen den Bedürfnissen der Nutzenden entsprechen, unkompliziert sein und nach Möglichkeit wenig Zeit, Nerven und Geld kosten. Infrastruktureinrichtungen sind bestrebt, den Angehörigen ihrer Forschungseinrichtung zeitgemäße Werkzeuge anzubieten und möglichst viele Bedürfnisse abzudecken. Um diesem Ziel näherzukommen, ist es jedoch notwendig, den Forschenden und seinen Arbeitsalltag zu kennen. In dieser Session soll es darum gehen, den Fokus nicht auf die Tools direkt zu legen, sondern darauf, auf welche Art und Weise Infrastruktureinrichtungen mit Forschenden und Forschende untereinander näher zusammengebracht werden können. Kann eine Plattform zu diesem Zweck geschaffen werden und wie könnte diese aussehen? Gibt es möglicherweise Beispiele auf denen man aufbauen kann? Im Dialog mit den Forschenden können Fragen diskutiert werden, deren Beantwortung dazu beiträgt, die geplanten Werkzeuge mit den potentiellen Nutzern abzustimmen. Hierbei können auch andere Fragen geklärt werden, wie z. B. Welche Vorteile bieten die bekannten Werkzeuge kommerzieller Anbieter für den Nutzer? Sind sich die Forschenden über mögliche Nachteile dieser kommerziellen Services bewusst? Wie kann die Wahrnehmung von institutionell angebotenen Werkzeugen verbessert werden?

Session 4: Einsatz kommerzieller und Open-Source Software für wissenschaftliche Workflows am Beispiel von PubFlow
Moderator: Wilhelm Hasselbring (Universität Kiel)

Ist es möglich und überhaupt sinnvoll, mit den kommerziellen Anbietern generischer Werkzeuge zu konkurrieren, die von WissenschaftlerInnen auch für das kollaborative Arbeiten an Forschungsdaten benutzt werden? Wie ist die Langzeitperspektive beim Einsatz von kommerziellen Werkzeugen? Diese Fragen werden in dieser Session nach einem Impulsvortrag zur Erfahrung mit der selbst entwickelten Publikationsworkflow-Software PubFlow diskutiert.

In wissenschaftlichen Arbeiten gehört es immer stärker zur Anforderung, dass Ergebnisse zusammen mit den ihnen zugrunde liegenden Daten und Datenprodukten publiziert werden. Weiterhin fördert die Veröffentlichung von Daten größere Projekte, die durch die umfangreiche Datenbasis Zusammenhänge in größeren Skalen erforschen können. Um die erfassten und verarbeiteten Daten öffentlich zur Verfügung zu stellen, müssen sie in eine allgemeine Form gebracht werden, die je nach Publikationsplattform variieren kann. Auch die Datenquellen können unterschiedliche Formate für die gleiche Messaktivität bereitstellen. Der Weg von gemessenen, lokalen hin zu publizierten Daten mit einheitlichen Formaten kann stark schwanken und sehr aufwändig sein. Um Wissenschaftler und Datenkuratoren in diesem Vorgang zu unterstützen, bietet PubFlow die Möglichkeit für verschieden Publikationsvorgänge feste Arbeitsabläufe, oder Workflows, zu definieren und umzusetzen. Alle Vorgänge werden durch ein Ticketsystem verwaltet. Für jedes Datenpaket, das veröffentlicht werden soll, legt der Wissenschaftler, der diese Daten veröffentlichen will, ein neues Ticket an. PubFlow nutzt für die Verwaltung unter anderem JIRA (http://www.atlassian.com/software/jira) und jBPM (http://www.jbpm.org/).

Session 5: offene Session
Moderator: TBA

Protokoll

Am 17.06.2016 fand der 5. Workshop der DINI/nestor AG Forschungsdaten an der Christian-Alberts-Universität zu Kiel statt. Thema des Workshops war „Werkzeuge für Forschungsdaten. Bedarf und Integration in Forschungs- und Datenmanagementprozesse“.

In einem ersten Vortragsblock wurden institutionelle Dienste vorgestellt und diskutiert. In seinem Vortrag mit dem Titel „Etablierung einer virtuellen Forschungsumgebung als zentrales Angebot“ erläuterte Thilo Paul-Stüve den Aufbau einer Forschungsumgebung als Dienstleistung, die eine transdisziplinäre Nutzung, zumindest in Teilen, ermöglicht. Dabei soll ein Angebote aufgebaut werden, dass modular auch disziplinär anpassbar ist und Werkzeuge für das Forschungsdatenmanagement sowohl weiterentwickelt als auch wiederverwendet werden sollen. Organisatorisch ist die Forschungsumgebung durch ein zentrales Service-Büro, das strategisch durch eine FDM-AG gesteuert wird, in die Universität eingebunden.

Im zweiten Vortrag wurden die im ersten thematisierten Werkzeuge für den disziplinären Bereich der Marinewissenschaft vorgestellt. Carsten Schirnick vom GEOMAR stellte in seinem Vortrag „Integrierte Datenmanagement-Systeme für marine Forschung in Kiel“ neben der Entwicklung des Datenmanagementbereichs auch die verschiedenen Portal- und Repository-Lösungen für unterschiedliche Daten/Medien aus der marinen Forschung vor. Ziel war es, neben unterschiedlichen Publikationsplattformen eine einheitliche Arbeitsplattform für die Verarbeitung und den Austausch von Daten/Medien bereitzustellen. Die eigenentwickelte auf grails basierte Plattform Ocean science information system (OSIS) dient dabei als zentraler Informationsknoten.

Im dritten Vortrag stellt Ralph Müller-Pfefferkorn die Forschungsdatendienste des Rechenzentrums an der TU Dresden vor. Es wurden sowohl die Herausforderungen erläutert, vor denen Rechenzentren von Universitäten mit vielen unterschiedlichen Disziplinen mit dem Angebot von Diensten die möglichst alles abdecken und alle zufriedenstellen stehen und dabei immer nur eine begrenzte Anzahl von Ressourcen zur Verfügung steht. Weiterhin wurden die Erfahrungen mit den angebotenen Diensten und deren Nutzern sowie die Einführung von neuen Diensten thematisiert. Zuletzt wurde das DFG-Projekt MASI, welches eine Plattform für das Metadatenmanagement für „lebende Daten“ entwickelt sowie die Publikationsplattform OpARA (Open Access Repository und Archiv) vorgestellt.

Im zweiten Vortragsblock wurden eher disziplinspezifische Ansätze zur Entwicklung von Werkzeugen für Forschungsdaten thematisiert.

Im ersten Vortrag stellten Marc Ewert und Christian Trapp den im Verbund von drei Universitäten (Düsseldorf, Wuppertal und Siegen) organisierten Ansatz zur Langzeitarchivierung von Forschungsdaten vor. Die Plattform LZA Lite verbindet Archivierung und Publikation von Forschungsdaten. Dabei wird eine zentrale aber auch verteilte Speicherung mittels S3-Technologie verfolgt. Es sollen gemeinsame Services zum Forschungsdatenmanagement und zur IT Infrastruktur entwickelt werden wobei die drei Universitäten jeweils nach ihrem Profil inhaltliche Schwerpunkte bedienen. Die LZA Lite Plattform besteht dabei aus einer austauschbaren Anwendungssoftware, die den Dateningest in ein Fedora Commons Repository ermöglichen kann. Die verteilte Speicherung erfolgt jeweils hausintern über eine S3 Technologie. In einem weiteren Schritt sollen Beratungsangebote zum FDM angeboten werden, um die Kompetenzen in diesem Bereich aufzubauen.

Im seinem Vortrag mit dem Titel „Erleichterte Metadatengenerierung für wirtschaftswissenschaftliche Fachzeitschriften: Das ZBW Journal Data Archive“ erläutert Sven Vlaeminck (ZBW) die Hintergründe und Entwicklungen des ZBW Journal Data Archive in dem die Metadaten von Forschungsdaten die auf einem wirtschaftswissenschaftlichen Artikel basieren archiviert und präsentiert werden.

Der Vortrag von Martin Kerwer (ZPID) „Projekt DataWiz: Die Notwendigkeit disziplinspezifischer Forschungsdatenmanagement-Werkzeuge am Beispiel der Psychologie“ stellte das Projekt DataWiz vor, das eine integrierte Lösung von der Planung, Dokumentation und Publikation bis zur Verknüpfung von Forschungsdaten darstellt. Die Entwicklung einer disziplinspezifischen Lösung wird angestrebt, da Besonderheiten des Faches in disziplinübergreifenden Lösungen nur unzureichend abgebildet werden können. Auch werden fachspezifische Entwicklungen in der Community stärker als relevant wahrgenommen.

Sybille Hermann aus der UB Stuttgart stellte in ihrem Vortrag „Versionierungswerkzeuge für Forschungsdaten – Datenmanagement im Forschungsprozess“ das Projekt RePlay-DH vor, welches zum Ziel hat eine Plattform für Forschungsdatenmanagement-Dienste basierend auf der Software Git zu entwickeln. Dabei sollen bereits im Forschungsprozess nach Möglichkeit alle Metadaten erstellt werden, so dass innerhalb der Versionierung bereits dokumentiert wird, was sich geändert hat. Das Projekt wird von der Universität Stuttgart in Kooperation mit der Universität Ulm durchgeführt.