RDA-DE-Trainings-Workshop-2017

Aus Forschungsdaten.org
Zur Navigation springen Zur Suche springen

Das Thema "Forschungsdaten und wie gehe ich damit um" ist in aller Munde - bei Wissenschaftlerinnen und Wissenschaftlern genauso wie bei den Wissenschaftsorganisationen und der Politik. Doch was muss man als Forschende/r beachten? Welche Methoden oder Werkzeuge unterstützen das Forschungsdatenmanagement? Welche Angebote gibt es?

Nach dem sehr gut angenommenen und erfolgreichen ersten Trainingsworkshop im letzten Jahr wird die Research Data Alliance Deutschland (RDA-DE) in Zusammenarbeit mit der Deutschen Initiative für Netzwerkinformation (DINI) und dem nationalen Kompetenzzentrum für Big Data ScaDS Dresden/Leipzig am 8. und 9. Juni 2017 am Zentrum für Informationsdienste und Hochleistungsrechnen der TU Dresden (ZIH) den zweiten Trainingsworkshop zum Forschungsdatenmanagement veranstalten.


Anmeldung

Die Anzahl der Teilnehmer ist auf 40 begrenzt. Anmeldefrist ist der 1. Juni 2017. Falls dann noch Plätze verfügbar sind, kann auch noch nachgemeldet werden. Für die Teilnahme wird ein Beitrag von 35 € erhoben. Dazu wird bis spätestens zur Anmeldefrist eine Rechnung zugesandt.

Die Anmeldung finden Sie hier

Agenda

Übersicht

Die Veranstaltung beginnt am 8.Juni um 11.00 und endet am 9. Juni um 16.00, so dass nur eine Übernachtung eingeplant werden muss.

Es wird zwei parallel Tracks geben: Track A richtet sich an Einsteiger in das Thema Forschungsdaten, Track B an Fortgeschrittene.

Zeit Track A - für Einsteiger Track B - für Fortgeschrittene
Tag 1
11:00 - 12:00 Plenum - Stand und Status von RDA und RDA-DE
12:00 - 13:15 Mittagspause in der Mensa (auf Selbstzahlerbasis)
13:15 - 15.15 A1: Einführung in das Forschungsdatenmanagement
Kerstin Helbig
B1: Arbeiten mit PIDs
Ulich Schwardmann
15:15 - 15:45 Kaffeepause
15:45 - 17:45 A1: Einführung in das Forschungsdatenmanagement
Kerstin Helbig
B2: Die Metadateninfrastruktur des

CLARIN-Projektes
Thomas Eckart

19:30 Gemeinsames Abendessen (auf Selbstzahlerbasis) im Altmarktkeller, Altmarkt 4, 01067 Dresden
Tag 2
8:30 - 10:30 A2: Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements
Anne Lauber-Rönsberg
B3: Der Metadaten-Lebenszyklus im interdisziplinären Datenkatalog EUDAT-B2FIND und in der Klimaforschung
Heinrich Widmann
10:30 - 11:00 Kaffeepause
11:00 - 13:00 A3/1: Daten publizieren
Kirsten Elger
B4: Einführung in die Datenanalyse mit Apache Spark
René Jäkel ScaDS Dresden/Leipzig
13:00 - 14:00 Mittagspause (Catering im Hause)
14:00 - 16:00 A3/2: Daten finden
Kirsten Elger Heinrich Widmann
B4: Einführung in die Datenanalyse mit Apache Spark
René Jäkel ScaDS Dresden/Leipzig

Kurs-Details

A1: Einführung in das Forschungsdatenmanagement

Forschungsdatenmanagement - worum geht es dabei überhaupt? Woher kommen Anforderungen? Wie sieht Forschungsdatenmanagement praktisch aus? Die Session bietet einen Einstieg in die Thematik und fasst Begriffe, aktuelle Anforderungen sowie Stakeholder zusammen. An praktischen Beispielen wird gezeigt, welche Rolle Forschungsdaten inzwischen in der Wissenschaftskommunikation und -politik einnehmen. Ein weiterer Schwerpunkt der Session liegt auf Datenmanagementplänen. Nach einer theoretischen Einführung werden Tools zur Erstellung eines Plans vorgestellt. Kleine Gruppenübungen komplettieren die Session.

Zielgruppe: Die Session richtet sich primär an Teilnehmerinnen und Teilnehmer, die gerade erst begonnen haben, sich mit dem Thema Forschungsdatenmanagement zu beschäftigen.

Agenda:

  1. Grundbegriffe des Forschungsdatenmanagements
  2. Effektive Datenmanagementplanung

A2: Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements

Der Vortrag erläutert, welche urheberrechtlichen Fragen sich im Zusammenhang mit dem Forschungsdatenmanagement ergeben. Dabei wird zunächst darauf eingegangen, inwieweit Forschungsergebnisse schutzfähig sind und wem sie - unter Berücksichtigung dienstrechtlicher Regelungen - "gehören". Die rechtliche Zuordnung von Forschungsergebnissen ist u.a. relevant dafür, wem die Entscheidungsbefugnis für die Veröffentlichung der Ergebnisse obliegt. Zudem werden mögliche Lizenzmodelle dargestellt. Zum Abschluss werden kurz datenschutzrechtliche Fragestellungen thematisiert.

Der Workshop soll den Teilnehmerinnen und Teilnehmern rechtliche Grundlagen vermitteln, zugleich aber auch noch klärungsbedürftige rechtliche Fragestellungen identifizieren und zur Diskussion stellen. Wenn sich bereits im Vorfeld Fragen ergeben, können Sie sie gern an mich weiterleiten (anne.lauber@tu-dresden.de), damit diese Aspekte in dem Workshop entsprechend berücksichtigt werden können.

A3/1: Daten publizieren

In den letzten Jahren haben sich Datenpublikationen, d.h. die Veröffentlichung von Forschungsdaten als eigenständige Publikationen, als „best practice“ entwickelt, um den internationalen Erwartungen und Forderungen nach Open Research Data nachzukommen. Datensätze und ihre Beschreibungen werden von Forschungsdatenrepositorien veröffentlicht, idealerweise mit einem Digital Object Identifier (DOI), und sind inzwischen voll zitierbar in wissenschaftlichen Artikeln. Nach einem einführenden Teil über Erwartungen und Forderungen aber auch über internationale Initiativen zum Umgang mit Forschungsdaten (COPDESS, FORCE 11) werden die wichtigsten „Komponenten“ einer Datenpublikation vorgestellt (Metadaten, Dateiformate, Beschreibung – worauf muss ich achten?) und eine kurze Einführung in die International Geo Sample Number (IGSN) gegeben.

  • Was ist eine Datenpublikation und was brauche ich dafür?
  • Was sind die Vorteile von Datenpublikationen?
  • Was habe ich als Wissenschaftler davon, meine Daten zu publizieren?
  • Wie zitiere ich einen Datensatz den ich nachnutze?

A3/2: Daten finden

Der offene Zugang zu Forschungsdaten wird immer wichtiger in der Wissenschaftslandschaft und führt zur stetig zunehmenden Zahl von Forschungsdaten Repositorien, in welchen Daten archiviert, kuratiert und verteilt werden. Was gibt es für Möglichkeiten, publizierte Forschungsdaten zu finden? Woher weiß ich, was es für Repositorien gibt? In dieser Session stellen wir verschiedene Möglichkeiten vor, Daten zu finden, beginnend mit einer disziplinären Datenbank über das Metadatenportal eines Datenrepositoriums bis zu Portalen wie DataCite oder B2Find, die Metadaten aus verschiedenen Datenbanken und Repositorien zusammenführen. Darüber hinaus stellen wir re3data.org vor, die Registry of Research Data Repositories, eine strukturierte interdisziplinäre Übersicht und Beschreibung von bisher über 1850 Datenrepositorien und -Portalen gibt (im Mai 2017).

B1: Arbeiten mit PIDs

Diese Session zeigt einfache und fortgeschrittene Anwendungsbeispiele für auf dem Handle-System basierenden Persistent Identifiers (PIDs), wie sie von ePIC bereitgestellt werden. Es wird dargestellt, wie PIDs verwaltet, mit Metadaten angereichert und aufgelöst werden. Im Detail werden die folgenden Fragen behandelt: Einsatz von PIDs,technische Nutzung der ePIC PID-Service API, Nutzung von PID Information Types für Metadaten, Gestaltung von PID-Records. Einführungen werden durch Hands-On-Beispiele ergänzt.

Ziel: Ziel des Kurses ist, dass die Teilnehmer das Wissen darüber vermittelt bekommen, wie PIDs sinnvoll im wissenschaftlichen Betrieb verwendet, verwaltet und aufgelöst werden.

Teilnehmer: Der Kurs richtet sich vornehmlich an Daten-Wissenschaftler, Software Entwickler und Daten-Manager, die die verschiedenen Möglichkeiten der Verwendung von PIDs in ihrer Arbeit kennen lernen und damit das Daten-Management und den Zugriff auf Daten professioneller gestalten wollen.

Agenda:

  1. Persistente Identifikatoren
  2. PID Information Types und Data Type Registries

B2: Die Metadateninfrastruktur des CLARIN-Projektes

In dieser Session werden verschiedene Aspekte der Erstellung, Auslieferung und Aufbereitung strukturierter Metadaten am Beispiel der Component Metadata Infrastructure (CMDI) dargestellt. CMDI-basierte Metadaten sind zentraler Integrationsbaustein im Rahmen des Forschungs-Infrastrukturprojektes CLARIN, das sich der systematischen Erfassung und Bereitstellung linguistischer Ressourcen widmet. Es wird der Nutzen und Mehrwert von Metadaten in einer föderierten und stark vernetzten Umgebung dargestellt. Exemplarisch wird auf den gesamten Erstellungs- und Auslieferungsprozess von Metadaten (Schemagenerierung, Instanzerstellung, Dissemination) und auf Möglichkeiten ihrer nutzerfreundlichen Aufbereitung im Rahmen von Weboberflächen eingegangen. Abschließend wird die Problematik mangelnder Metadatenqualität anhand realer Beispiele aufgezeigt und mögliche Lösungsstrategien vorgestellt.

Agenda:

  1. Metadaten in einer Forschungsinfrastruktur für Sprachressourcen (CLARIN)
  2. Erstellungsprozess von Metadaten am Beispiel der CMDI
  3. Bereitstellung und Aufbereitung von Metadaten in föderierten Systemen
  4. Problemfälle und Lösungsansätze

B3: Der Metadaten-Lebenszyklus im interdisziplinären Datenkatalog EUDAT-B2FIND und in der Klimaforschung

In diesem Kurs werden verschiedene Standard-Verfahren und Technologien vorgestellt, die heutzutage im Management von Metadaten angewendet werden. Dies reicht vom 'Erzeugen' und der Extraktion der Metadaten, über deren Formatierung und Aggregation, bis hin zu der Homogenierung und der semantischen Transformation. Das zentrale Ziel ist hierbei die Metadatensätze in einem semantisch gemeinsamen Suchraum zu indizieren und damit Forschungsdaten über ein Webportal suchbar und wiederverwendbar zu machen.

Wie dieser Metadaten-Lebenszyklus implementiert werden kann, wird anhand des interdisziplinären Metadaten-Dienstes EUDAT-B2FIND und anhand des WDCC-Portals 'CERA' für Daten aus der Klimaforschung erläutert.

Der Kurs wird z.T. auch an praktischen Beispielen zeigen, wie man vorgehen kann.

Agenda :

  1. Einführung zu Metadaten : Was, wozu und wie
  2. Best practices und die FAIR-Prinzipien
  3. Management von Metadaten : Methoden, Standards und Schemas
  4. Umsetzung und Implementierung
    1. EUDAT-B2FIND
    2. WDCC/CERA
  5. Hands-On Übungen (soweit Zeit und Möglichkeit)

B4: Einführung in die Datenanalyse mit Apache Spark

Ein effizientes Datenmanagement stellt die Grundlage für weiterführende Analysen basierend auf vorhandenen Daten dar. In jüngerer Vergangenheit haben sich generische Frameworks zur Datenanalyse, auch insbesondere für große Datenbestände entwickelt, die zunehmend durch ihren hohen Funktionsumfang interessant für generische Datenanalysen werden. In dieser Session soll in das Themengebiet "Data Analytics" eingeführt werden und exemplarisch anhand von konkreten Beispielen der Umgang mit einem generische Framework zur Datenanalyse - am Beispiel von Apache Spark - erprobt werden.

Ziel des Workshop ist es, einen Überblick über das Themenfeld "Data Analytics" zu erhalten, technologische Konzepte und state-of-the-art Methoden kennenzulernen und Handlungen zur Datenanalyse (Integration und Datenaufbereitung; Auswahl relevanter Analyseverfahren, etc. ) zu erproben.

Agenda:

  1. Überblick über Data Analytics als Teilgebiet von Big Data
  2. Einführung in generelle Prozessierungsstrategien und Verknüpfungen zum Datenmanagement
  3. Einführung in das Framework Apache Spark
  4. Hands-On-Teil: Anwendung von Framework-Routinen auf Daten aus verschiedenen Anwendungsbeispielen

Organisatorisches

Hotels

Dresden bietet ein große Zahl an Hotels aller Qualitäts- und Preisklassen an, die man in den üblichen Portalen oder direkt buchen kann.
Die TU Dresden hat ein eigenes Gästehaus mit einem guten Preis-Leistungsverhältnis - Link


Tagungsort

Der Andreas-Pfitzmann-Bau (Nöthnitzer Str. 46) ist das Gebäude der Fakultät Informatik und liegt am Rand des Hauptcampus der TU Dresden.