RDA-DE-Trainings-Workshop-2017: Unterschied zwischen den Versionen

Aus Forschungsdaten.org
Zur Navigation springen Zur Suche springen
Keine Bearbeitungszusammenfassung
 
(43 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt)
Zeile 5: Zeile 5:
Bild:ScaDS_Logo_klein.png|
Bild:ScaDS_Logo_klein.png|
</gallery>
</gallery>


Das Thema "Forschungsdaten und wie gehe ich damit um" ist in aller Munde - bei Wissenschaftlerinnen und Wissenschaftlern genauso wie bei den Wissenschaftsorganisationen und der Politik. Doch was muss man als Forschende/r beachten? Welche Methoden oder Werkzeuge unterstützen das Forschungsdatenmanagement? Welche Angebote gibt es?
Das Thema "Forschungsdaten und wie gehe ich damit um" ist in aller Munde - bei Wissenschaftlerinnen und Wissenschaftlern genauso wie bei den Wissenschaftsorganisationen und der Politik. Doch was muss man als Forschende/r beachten? Welche Methoden oder Werkzeuge unterstützen das Forschungsdatenmanagement? Welche Angebote gibt es?
Zeile 14: Zeile 13:
* Ort: Technische Universität Dresden, [http://navigator.tu-dresden.de/gebaeude/apb Andreas-Pfitzmann-Bau] Nöthnitzer Str. 46, 01187 Dresden
* Ort: Technische Universität Dresden, [http://navigator.tu-dresden.de/gebaeude/apb Andreas-Pfitzmann-Bau] Nöthnitzer Str. 46, 01187 Dresden
* Veranstalter: [http://www.forschungsdaten.org/index.php/RDA-DE Research Data Alliance Deutschland (RDA-DE)] in Kooperation mit der [http://dini.de Deutschen Initiative für Netzwerkinformation (DINI)], dem nationalen Kompetenzzentrum für Big Data [http://www.scads.de ScaDS Dresden/Leipzig] und dem [http://www.forschungsdaten.org/index.php/RDA-DE-Trainings-Workshop-2016 Zentrum für Informationsdienste und Hochleistungsrechnen] der TU Dresden
* Veranstalter: [http://www.forschungsdaten.org/index.php/RDA-DE Research Data Alliance Deutschland (RDA-DE)] in Kooperation mit der [http://dini.de Deutschen Initiative für Netzwerkinformation (DINI)], dem nationalen Kompetenzzentrum für Big Data [http://www.scads.de ScaDS Dresden/Leipzig] und dem [http://www.forschungsdaten.org/index.php/RDA-DE-Trainings-Workshop-2016 Zentrum für Informationsdienste und Hochleistungsrechnen] der TU Dresden
* Kontakt: [mailto:rdadetraining-organisation@lists.fusionforge.zih.tu-dresden.de rdadetraining-organisation@lists.fusionforge.zih.tu-dresden.de]
<br />
==Anmeldung==
Die Anzahl der Teilnehmer ist auf 40 begrenzt. Anmeldefrist ist der 1. Juni 2017. Falls dann noch Plätze verfügbar sind, kann auch noch nachgemeldet werden. Für die Teilnahme wird ein Beitrag von 35 € erhoben. Dazu wird bis spätestens zur Anmeldefrist eine Rechnung zugesandt.


==Anmeldung==
Die Anmeldung finden Sie [http://event.zih.tu-dresden.de/events/view/21 hier]
Wird demnächst freigeschaltet


==Agenda==
==Agenda==
=== Übersicht ===
Die Veranstaltung beginnt am 8.Juni um 11.00 und endet am 9. Juni um 16.00, so dass nur eine Übernachtung eingeplant werden muss.


Die Veranstaltung beginnt am 8.Juni um 11.00 und endet am 9. Juni um 16.00, so dass nur eine Übernachtung eingeplant werden muss. Für die Teilnahme wird ein Beitrag von 35 € erhoben.  
Es wird zwei parallel Tracks geben: Track A richtet sich an Einsteiger in das Thema Forschungsdaten, Track B an Fortgeschrittene.


Es wird zwei parallel Tracks geben. Track A richtet sich an Einsteiger in das Thema Forschungsdaten, Track B an Fortgeschrittene.
{| class="wikitable" style="text-align:center"


{| class="wikitable" style="text-align:center"
! colspan="3" | Donnerstag, 8. Juni 2017
! Zeit || Track A || Track B
|-
|-
! colspan="3" |Tag 1
| 11:00 - 12:00 ||  colspan="2" | Plenum: RDA und RDA-DE - Wieso? Weshalb? Warum? (Raum 1004) [http://tu-dresden.de/zih/die-einrichtung/struktur/ralph-mueller-pfefferkorn Ralph Müller-Pfefferkorn]
|-
|-
| 11:00 - 12:00 || colspan="2" | Plenum
! Zeit || Track A - für Einsteiger (Raum 1004) || Track B - für Fortgeschrittene (Raum E006)
|-
|-
| 12:00 - 13:15 || colspan="2" | Mittagspause in der Mensa
| 12:00 - 13:15 || colspan="2" | Mittagspause in der Mensa (auf Selbstzahlerbasis)
|-
|-
| 13:15 - 15.15 || Einführung in das Forschungsdatenmanagement <br /> [http://www.cms.hu-berlin.de/de/dl/dataman Kerstin Helbig] ||  Arbeiten mit PIDs <br /> [http://www.gwdg.de/web/guest/about-us/organization/departments/escience Ulich Schwardmann]
| 13:15 - 15.15 || A1: Einführung in das Forschungsdatenmanagement <br /> [http://www.cms.hu-berlin.de/de/dl/dataman Kerstin Helbig] ||  B1: Arbeiten mit PIDs <br /> [http://www.gwdg.de/web/guest/about-us/organization/departments/escience Ulich Schwardmann]
|-
|-
| 15:15 - 15:45 || colspan="2" | Kaffeepause  
| 15:15 - 15:45 || colspan="2" | Kaffeepause  
|-
|-
| 15:45 - 17:45 ||    Einführung in das Forschungsdatenmanagement <br /> [http://www.cms.hu-berlin.de/de/dl/dataman Kerstin Helbig] ||  Die Metadateninfrastruktur des  
| 15:45 - 17:45 ||    A1: Einführung in das Forschungsdatenmanagement <br /> [http://www.cms.hu-berlin.de/de/dl/dataman Kerstin Helbig] ||  B2: Die Metadateninfrastruktur des  
CLARIN-Projektes <br /> [http://asv.informatik.uni-leipzig.de/staff/Thomas_Eckart Thomas Eckart]
CLARIN-Projektes <br /> [http://asv.informatik.uni-leipzig.de/staff/Thomas_Eckart Thomas Eckart]
|-  
|-  
| 19:00 ||  colspan="2" | Gemeinsames Abendessen (auf Selbstzahlerbasis)
| 19:30 ||  colspan="2" | Gemeinsames Abendessen (auf Selbstzahlerbasis) im [http://www.altmarktkeller.de Altmarktkeller], Altmarkt 4, 01067 Dresden
|-
|-
| || colspan="2" |  
| || colspan="2" |  
|-
|-
! colspan="3" | Tag 2
! colspan="3" | Freitag, 9. Juni 2017
|-
|-
| 8:30 - 10:30 ||  Daten publizieren und Daten finden (Arbeitstitel) <br /> [http://www.gfz-potsdam.de/wissenschaftliche-infrastruktur/bibliothek-und-informationsdienste/mitarbeiter/profil/kirsten-elger/ Kirsten Elger] || Metadaten in EUDAT und der Klimaforschung (Arbeitstitel) <br /> [http://www.dkrz.de/about/Organisation/mitarbeiter/HeinrichWidmann Heinrich Widmann]
| 8:30 - 10:30 ||  A2: Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements <br /> [http://tu-dresden.de/gsw/jura/igewem/jfbimd13 Anne Lauber-Rönsberg] || B3: Der Metadaten-Lebenszyklus im interdisziplinären Datenkatalog EUDAT-B2FIND und in der Klimaforschung <br /> [http://www.dkrz.de/about/Organisation/mitarbeiter/HeinrichWidmann Heinrich Widmann]
|-
|-
| 10:30 - 11:00 || colspan="2" | Kaffeepause
| 10:30 - 11:00 || colspan="2" | Kaffeepause
|-
|-
| 11:00 - 13:00 ||  Daten publizieren und Daten finden (Arbeitstitel) <br /> [http://www.gfz-potsdam.de/wissenschaftliche-infrastruktur/bibliothek-und-informationsdienste/mitarbeiter/profil/kirsten-elger/ Kirsten Elger] || Einführung in die Datenanalyse mit Apache Spark <br /> [http://www.scads.de ScaDS Dresden/Leipzig]
| 11:00 - 13:00 ||  A3/1: Daten publizieren <br /> [http://www.gfz-potsdam.de/wissenschaftliche-infrastruktur/bibliothek-und-informationsdienste/mitarbeiter/profil/kirsten-elger/ Kirsten Elger] || B4: Einführung in die Datenanalyse mit Apache Spark <br /> René Jäkel [http://www.scads.de ScaDS Dresden/Leipzig]
|-  
|-  
| 13:00 - 14:00 || colspan="2" | Mittagspause (Catering im Hause)
| 13:00 - 14:00 || colspan="2" | Mittagspause (Catering im Hause)
|-  
|-  
| 14:00 - 16:00 || Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements <br /> [http://tu-dresden.de/gsw/jura/igewem/jfbimd13 Anne Lauber-Rönsberg] || Einführung in die Datenanalyse mit Apache Spark <br /> [http://www.scads.de ScaDS Dresden/Leipzig]
| 14:00 - 16:00 || A3/2: Daten finden <br /> [http://www.gfz-potsdam.de/wissenschaftliche-infrastruktur/bibliothek-und-informationsdienste/mitarbeiter/profil/kirsten-elger/ Kirsten Elger] [http://www.dkrz.de/about/Organisation/mitarbeiter/HeinrichWidmann Heinrich Widmann] || B4: Einführung in die Datenanalyse mit Apache Spark <br /> René Jäkel [http://www.scads.de ScaDS Dresden/Leipzig]
|}
|}
=== Kurs-Details===
==== Plenum: RDA und RDA-DE - Wieso? Weshalb? Warum? ====
Vorstellung der Research Data Alliance (RDA), von RDA Europe und RDA DE
''Material zur Session:'' [[Medium:RDA_Vorstellung_2017.pdf |Folien]]
====A1: Einführung in das Forschungsdatenmanagement ====
Forschungsdatenmanagement - worum geht es dabei überhaupt? Woher kommen Anforderungen? Wie sieht Forschungsdatenmanagement praktisch aus? Die Session bietet einen Einstieg in die Thematik und fasst Begriffe, aktuelle Anforderungen sowie Stakeholder zusammen. An praktischen Beispielen wird gezeigt, welche Rolle Forschungsdaten inzwischen in der Wissenschaftskommunikation und -politik einnehmen. Ein weiterer Schwerpunkt der Session liegt auf Datenmanagementplänen. Nach einer theoretischen Einführung werden Tools zur Erstellung eines Plans vorgestellt. Kleine Gruppenübungen komplettieren die Session.
Zielgruppe: Die Session richtet sich primär an Teilnehmerinnen und Teilnehmer, die gerade erst begonnen haben, sich mit dem Thema Forschungsdatenmanagement zu beschäftigen.
Agenda:
# Grundbegriffe des Forschungsdatenmanagements
# Effektive Datenmanagementplanung
''Material zur Session:'' [[Medium:Einführung-in-das-Forschungsdatenmanagement.pdf|Folien]], [[Medium:Handout-A1-Einführung-in-das-Forschungsdatenmanagement.pdf|Handout]]
====A2: Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements====
Der Vortrag erläutert, welche urheberrechtlichen Fragen sich im Zusammenhang mit dem Forschungsdatenmanagement ergeben. Dabei wird zunächst darauf eingegangen, inwieweit Forschungsergebnisse schutzfähig sind und wem sie - unter Berücksichtigung dienstrechtlicher Regelungen -  "gehören". Die rechtliche Zuordnung von Forschungsergebnissen ist u.a. relevant dafür, wem die Entscheidungsbefugnis für die Veröffentlichung der Ergebnisse obliegt. Zudem werden mögliche Lizenzmodelle dargestellt. Zum Abschluss werden kurz datenschutzrechtliche Fragestellungen thematisiert.
Der Workshop soll den Teilnehmerinnen und Teilnehmern rechtliche Grundlagen vermitteln, zugleich aber auch noch klärungsbedürftige rechtliche Fragestellungen identifizieren und zur Diskussion stellen. Wenn sich bereits im Vorfeld Fragen ergeben, können Sie sie gern an mich weiterleiten (anne.lauber@tu-dresden.de), damit diese Aspekte in dem Workshop entsprechend  berücksichtigt werden können.
''Material zur Session:'' [[Medium:2017-06-09-Trainingsworkshop_LauberRönsberg_UrheberrechtFDM.pdf |Folien]]
====A3/1: Daten publizieren====
In den letzten Jahren haben sich Datenpublikationen, d.h. die Veröffentlichung von Forschungsdaten als eigenständige Publikationen, als „best practice“ entwickelt, um den internationalen Erwartungen und Forderungen nach Open Research Data nachzukommen. Datensätze und ihre Beschreibungen werden von Forschungsdatenrepositorien veröffentlicht, idealerweise mit einem Digital Object Identifier (DOI), und sind inzwischen voll zitierbar in wissenschaftlichen Artikeln. Nach einem einführenden Teil über Erwartungen und Forderungen aber auch über internationale Initiativen zum Umgang mit Forschungsdaten (COPDESS, FORCE 11) werden die wichtigsten „Komponenten“ einer Datenpublikation vorgestellt (Metadaten, Dateiformate, Beschreibung – worauf muss ich achten?) und eine kurze Einführung in die International Geo Sample Number (IGSN) gegeben.
* Was ist eine Datenpublikation und was brauche ich dafür?
* Was sind die Vorteile von Datenpublikationen?
* Was habe ich als Wissenschaftler davon, meine Daten zu publizieren?
* Wie zitiere ich einen Datensatz den ich nachnutze?
''Material zur Session:'' [[Medium:2017-06-09-Trainingskurs_Elger_data_publication_citation.pdf |Folien]]
====A3/2: Daten finden====
Der offene Zugang zu Forschungsdaten wird immer wichtiger in der Wissenschaftslandschaft und führt zur stetig zunehmenden Zahl von Forschungsdaten Repositorien, in welchen Daten archiviert, kuratiert und verteilt werden. Was gibt es für Möglichkeiten, publizierte Forschungsdaten zu finden? Woher weiß ich, was es für Repositorien gibt? In dieser Session stellen wir verschiedene Möglichkeiten vor, Daten zu finden, beginnend mit einer disziplinären Datenbank über das Metadatenportal eines Datenrepositoriums bis zu Portalen wie DataCite oder B2Find, die Metadaten aus verschiedenen Datenbanken und Repositorien zusammenführen. Darüber hinaus stellen wir re3data.org vor, die Registry of Research Data Repositories, eine strukturierte interdisziplinäre Übersicht und Beschreibung von bisher über 1850 Datenrepositorien und -Portalen gibt (im Mai 2017).
''Material zur Session:'' [[Medium:2017-06-09-Trainingskurs_Elger_data_publication_citation.pdf |Folien]]
====B1: Arbeiten mit PIDs ====
Diese Session zeigt einfache und fortgeschrittene Anwendungsbeispiele für auf dem Handle-System basierenden Persistent Identifiers (PIDs), wie sie von ePIC bereitgestellt werden.
Es wird dargestellt, wie PIDs verwaltet, mit Metadaten angereichert und aufgelöst werden.
Im Detail werden die folgenden Fragen behandelt: Einsatz von PIDs,technische Nutzung der ePIC PID-Service API, Nutzung von PID Information Types für Metadaten, Gestaltung von PID-Records.
Einführungen werden durch Hands-On-Beispiele ergänzt.
Ziel: Ziel des Kurses ist, dass die Teilnehmer das Wissen darüber vermittelt bekommen, wie PIDs sinnvoll im wissenschaftlichen Betrieb verwendet, verwaltet und aufgelöst werden.
Teilnehmer: Der Kurs richtet sich vornehmlich an Daten-Wissenschaftler, Software Entwickler und Daten-Manager, die die verschiedenen Möglichkeiten der Verwendung von PIDs in ihrer Arbeit kennen lernen und damit das Daten-Management und den Zugriff auf Daten professioneller gestalten wollen.
Agenda:
# Persistente Identifikatoren
# PID Information Types und Data Type Registries
''Material zur Session:'' [[Medium:2017-06-08-Trainingskurs_Arbeiten_mit_PIDs_Teil1-Schwardmann.pdf|Folien Teil 1]], [[Medium:2017-06-08-Trainingskurs_Arbeiten_mit_PIDs_Teil2-Schwardmann.pdf|Folien Teil 2]]
====B2: Die Metadateninfrastruktur des CLARIN-Projektes====
In dieser Session werden verschiedene Aspekte der Erstellung, Auslieferung und Aufbereitung strukturierter Metadaten am Beispiel der Component Metadata Infrastructure (CMDI) dargestellt. CMDI-basierte Metadaten sind zentraler Integrationsbaustein im Rahmen des
Forschungs-Infrastrukturprojektes CLARIN, das sich der systematischen Erfassung und Bereitstellung linguistischer Ressourcen widmet.
Es wird der Nutzen und Mehrwert von Metadaten in einer föderierten und stark vernetzten Umgebung dargestellt. Exemplarisch wird auf den gesamten Erstellungs- und Auslieferungsprozess von Metadaten (Schemagenerierung, Instanzerstellung, Dissemination) und auf Möglichkeiten ihrer nutzerfreundlichen Aufbereitung im Rahmen von Weboberflächen eingegangen. Abschließend wird die Problematik mangelnder Metadatenqualität anhand realer Beispiele aufgezeigt und mögliche Lösungsstrategien vorgestellt.
Agenda:
# Metadaten in einer Forschungsinfrastruktur für Sprachressourcen (CLARIN)
# Erstellungsprozess von Metadaten am Beispiel der CMDI
# Bereitstellung und Aufbereitung von Metadaten in föderierten Systemen
# Problemfälle und Lösungsansätze
''Material zur Session:'' [[Medium:2017-06-08-Trainingskrus-Eckart-Metadaten-CLARIN.pdf |Folien]]
====B3: Der Metadaten-Lebenszyklus im interdisziplinären Datenkatalog EUDAT-B2FIND und in der Klimaforschung====
In diesem Kurs werden verschiedene Standard-Verfahren und Technologien vorgestellt, die heutzutage im Management von Metadaten angewendet werden. Dies reicht vom 'Erzeugen' und der Extraktion der Metadaten, über deren Formatierung und Aggregation, bis hin zu der Homogenierung und der semantischen Transformation. Das zentrale Ziel ist hierbei die Metadatensätze in einem semantisch gemeinsamen Suchraum zu indizieren und damit Forschungsdaten über ein Webportal suchbar und wiederverwendbar zu machen.
Wie dieser Metadaten-Lebenszyklus implementiert werden kann, wird anhand des interdisziplinären Metadaten-Dienstes EUDAT-B2FIND und anhand des WDCC-Portals 'CERA' für Daten aus der Klimaforschung erläutert.
Der Kurs wird z.T. auch an praktischen Beispielen zeigen, wie man vorgehen kann.
Agenda :
# Einführung zu Metadaten : Was, wozu und wie
# Best practices und die FAIR-Prinzipien
# Management von Metadaten : Methoden, Standards und Schemas
# Umsetzung und Implementierung
## EUDAT-B2FIND
## WDCC/CERA
# Hands-On Übungen (soweit Zeit und Möglichkeit)
''Material zur Session:'' [[Medium:2017-06-09-Trainingsworkshop_Widmann_MDLifeCycle.pdf |Folien]]
====B4: Einführung in die Datenanalyse mit Apache Spark ====
Ein effizientes Datenmanagement stellt die Grundlage für weiterführende Analysen basierend auf vorhandenen Daten dar. In jüngerer Vergangenheit haben sich generische Frameworks zur Datenanalyse, auch insbesondere für große Datenbestände entwickelt, die zunehmend durch ihren hohen Funktionsumfang interessant für generische Datenanalysen werden. In dieser Session soll in das Themengebiet "Data Analytics" eingeführt werden und exemplarisch anhand von konkreten Beispielen der Umgang mit einem generische Framework zur Datenanalyse - am Beispiel von Apache Spark - erprobt werden.
Ziel des Workshop ist es, einen Überblick über das Themenfeld "Data Analytics" zu erhalten, technologische Konzepte und state-of-the-art Methoden kennenzulernen und Handlungen zur Datenanalyse (Integration und Datenaufbereitung; Auswahl relevanter Analyseverfahren, etc. ) zu erproben.
Agenda:
# Überblick über Data Analytics als Teilgebiet von Big Data
# Einführung in generelle Prozessierungsstrategien und Verknüpfungen zum Datenmanagement
# Einführung in das Framework Apache Spark
# Hands-On-Teil: Anwendung von Framework-Routinen auf Daten aus verschiedenen Anwendungsbeispielen
''Material zur Session:'' [[http://wwwpub.zih.tu-dresden.de/~jaekel/rda_tutorial.zip |Folien, Code und mehr]]


==Organisatorisches==
==Organisatorisches==

Aktuelle Version vom 23. Juni 2017, 13:27 Uhr

Das Thema "Forschungsdaten und wie gehe ich damit um" ist in aller Munde - bei Wissenschaftlerinnen und Wissenschaftlern genauso wie bei den Wissenschaftsorganisationen und der Politik. Doch was muss man als Forschende/r beachten? Welche Methoden oder Werkzeuge unterstützen das Forschungsdatenmanagement? Welche Angebote gibt es?

Nach dem sehr gut angenommenen und erfolgreichen ersten Trainingsworkshop im letzten Jahr wird die Research Data Alliance Deutschland (RDA-DE) in Zusammenarbeit mit der Deutschen Initiative für Netzwerkinformation (DINI) und dem nationalen Kompetenzzentrum für Big Data ScaDS Dresden/Leipzig am 8. und 9. Juni 2017 am Zentrum für Informationsdienste und Hochleistungsrechnen der TU Dresden (ZIH) den zweiten Trainingsworkshop zum Forschungsdatenmanagement veranstalten.


Anmeldung

Die Anzahl der Teilnehmer ist auf 40 begrenzt. Anmeldefrist ist der 1. Juni 2017. Falls dann noch Plätze verfügbar sind, kann auch noch nachgemeldet werden. Für die Teilnahme wird ein Beitrag von 35 € erhoben. Dazu wird bis spätestens zur Anmeldefrist eine Rechnung zugesandt.

Die Anmeldung finden Sie hier

Agenda

Übersicht

Die Veranstaltung beginnt am 8.Juni um 11.00 und endet am 9. Juni um 16.00, so dass nur eine Übernachtung eingeplant werden muss.

Es wird zwei parallel Tracks geben: Track A richtet sich an Einsteiger in das Thema Forschungsdaten, Track B an Fortgeschrittene.

Donnerstag, 8. Juni 2017
11:00 - 12:00 Plenum: RDA und RDA-DE - Wieso? Weshalb? Warum? (Raum 1004) Ralph Müller-Pfefferkorn
Zeit Track A - für Einsteiger (Raum 1004) Track B - für Fortgeschrittene (Raum E006)
12:00 - 13:15 Mittagspause in der Mensa (auf Selbstzahlerbasis)
13:15 - 15.15 A1: Einführung in das Forschungsdatenmanagement
Kerstin Helbig
B1: Arbeiten mit PIDs
Ulich Schwardmann
15:15 - 15:45 Kaffeepause
15:45 - 17:45 A1: Einführung in das Forschungsdatenmanagement
Kerstin Helbig
B2: Die Metadateninfrastruktur des

CLARIN-Projektes
Thomas Eckart

19:30 Gemeinsames Abendessen (auf Selbstzahlerbasis) im Altmarktkeller, Altmarkt 4, 01067 Dresden
Freitag, 9. Juni 2017
8:30 - 10:30 A2: Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements
Anne Lauber-Rönsberg
B3: Der Metadaten-Lebenszyklus im interdisziplinären Datenkatalog EUDAT-B2FIND und in der Klimaforschung
Heinrich Widmann
10:30 - 11:00 Kaffeepause
11:00 - 13:00 A3/1: Daten publizieren
Kirsten Elger
B4: Einführung in die Datenanalyse mit Apache Spark
René Jäkel ScaDS Dresden/Leipzig
13:00 - 14:00 Mittagspause (Catering im Hause)
14:00 - 16:00 A3/2: Daten finden
Kirsten Elger Heinrich Widmann
B4: Einführung in die Datenanalyse mit Apache Spark
René Jäkel ScaDS Dresden/Leipzig

Kurs-Details

Plenum: RDA und RDA-DE - Wieso? Weshalb? Warum?

Vorstellung der Research Data Alliance (RDA), von RDA Europe und RDA DE

Material zur Session: Folien

A1: Einführung in das Forschungsdatenmanagement

Forschungsdatenmanagement - worum geht es dabei überhaupt? Woher kommen Anforderungen? Wie sieht Forschungsdatenmanagement praktisch aus? Die Session bietet einen Einstieg in die Thematik und fasst Begriffe, aktuelle Anforderungen sowie Stakeholder zusammen. An praktischen Beispielen wird gezeigt, welche Rolle Forschungsdaten inzwischen in der Wissenschaftskommunikation und -politik einnehmen. Ein weiterer Schwerpunkt der Session liegt auf Datenmanagementplänen. Nach einer theoretischen Einführung werden Tools zur Erstellung eines Plans vorgestellt. Kleine Gruppenübungen komplettieren die Session.

Zielgruppe: Die Session richtet sich primär an Teilnehmerinnen und Teilnehmer, die gerade erst begonnen haben, sich mit dem Thema Forschungsdatenmanagement zu beschäftigen.

Agenda:

  1. Grundbegriffe des Forschungsdatenmanagements
  2. Effektive Datenmanagementplanung

Material zur Session: Folien, Handout

A2: Urheberrechtliche Rahmenbedingungen des Forschungsdatenmanagements

Der Vortrag erläutert, welche urheberrechtlichen Fragen sich im Zusammenhang mit dem Forschungsdatenmanagement ergeben. Dabei wird zunächst darauf eingegangen, inwieweit Forschungsergebnisse schutzfähig sind und wem sie - unter Berücksichtigung dienstrechtlicher Regelungen - "gehören". Die rechtliche Zuordnung von Forschungsergebnissen ist u.a. relevant dafür, wem die Entscheidungsbefugnis für die Veröffentlichung der Ergebnisse obliegt. Zudem werden mögliche Lizenzmodelle dargestellt. Zum Abschluss werden kurz datenschutzrechtliche Fragestellungen thematisiert.

Der Workshop soll den Teilnehmerinnen und Teilnehmern rechtliche Grundlagen vermitteln, zugleich aber auch noch klärungsbedürftige rechtliche Fragestellungen identifizieren und zur Diskussion stellen. Wenn sich bereits im Vorfeld Fragen ergeben, können Sie sie gern an mich weiterleiten (anne.lauber@tu-dresden.de), damit diese Aspekte in dem Workshop entsprechend berücksichtigt werden können.

Material zur Session: Folien

A3/1: Daten publizieren

In den letzten Jahren haben sich Datenpublikationen, d.h. die Veröffentlichung von Forschungsdaten als eigenständige Publikationen, als „best practice“ entwickelt, um den internationalen Erwartungen und Forderungen nach Open Research Data nachzukommen. Datensätze und ihre Beschreibungen werden von Forschungsdatenrepositorien veröffentlicht, idealerweise mit einem Digital Object Identifier (DOI), und sind inzwischen voll zitierbar in wissenschaftlichen Artikeln. Nach einem einführenden Teil über Erwartungen und Forderungen aber auch über internationale Initiativen zum Umgang mit Forschungsdaten (COPDESS, FORCE 11) werden die wichtigsten „Komponenten“ einer Datenpublikation vorgestellt (Metadaten, Dateiformate, Beschreibung – worauf muss ich achten?) und eine kurze Einführung in die International Geo Sample Number (IGSN) gegeben.

  • Was ist eine Datenpublikation und was brauche ich dafür?
  • Was sind die Vorteile von Datenpublikationen?
  • Was habe ich als Wissenschaftler davon, meine Daten zu publizieren?
  • Wie zitiere ich einen Datensatz den ich nachnutze?

Material zur Session: Folien

A3/2: Daten finden

Der offene Zugang zu Forschungsdaten wird immer wichtiger in der Wissenschaftslandschaft und führt zur stetig zunehmenden Zahl von Forschungsdaten Repositorien, in welchen Daten archiviert, kuratiert und verteilt werden. Was gibt es für Möglichkeiten, publizierte Forschungsdaten zu finden? Woher weiß ich, was es für Repositorien gibt? In dieser Session stellen wir verschiedene Möglichkeiten vor, Daten zu finden, beginnend mit einer disziplinären Datenbank über das Metadatenportal eines Datenrepositoriums bis zu Portalen wie DataCite oder B2Find, die Metadaten aus verschiedenen Datenbanken und Repositorien zusammenführen. Darüber hinaus stellen wir re3data.org vor, die Registry of Research Data Repositories, eine strukturierte interdisziplinäre Übersicht und Beschreibung von bisher über 1850 Datenrepositorien und -Portalen gibt (im Mai 2017).

Material zur Session: Folien

B1: Arbeiten mit PIDs

Diese Session zeigt einfache und fortgeschrittene Anwendungsbeispiele für auf dem Handle-System basierenden Persistent Identifiers (PIDs), wie sie von ePIC bereitgestellt werden. Es wird dargestellt, wie PIDs verwaltet, mit Metadaten angereichert und aufgelöst werden. Im Detail werden die folgenden Fragen behandelt: Einsatz von PIDs,technische Nutzung der ePIC PID-Service API, Nutzung von PID Information Types für Metadaten, Gestaltung von PID-Records. Einführungen werden durch Hands-On-Beispiele ergänzt.

Ziel: Ziel des Kurses ist, dass die Teilnehmer das Wissen darüber vermittelt bekommen, wie PIDs sinnvoll im wissenschaftlichen Betrieb verwendet, verwaltet und aufgelöst werden.

Teilnehmer: Der Kurs richtet sich vornehmlich an Daten-Wissenschaftler, Software Entwickler und Daten-Manager, die die verschiedenen Möglichkeiten der Verwendung von PIDs in ihrer Arbeit kennen lernen und damit das Daten-Management und den Zugriff auf Daten professioneller gestalten wollen.

Agenda:

  1. Persistente Identifikatoren
  2. PID Information Types und Data Type Registries

Material zur Session: Folien Teil 1, Folien Teil 2

B2: Die Metadateninfrastruktur des CLARIN-Projektes

In dieser Session werden verschiedene Aspekte der Erstellung, Auslieferung und Aufbereitung strukturierter Metadaten am Beispiel der Component Metadata Infrastructure (CMDI) dargestellt. CMDI-basierte Metadaten sind zentraler Integrationsbaustein im Rahmen des Forschungs-Infrastrukturprojektes CLARIN, das sich der systematischen Erfassung und Bereitstellung linguistischer Ressourcen widmet. Es wird der Nutzen und Mehrwert von Metadaten in einer föderierten und stark vernetzten Umgebung dargestellt. Exemplarisch wird auf den gesamten Erstellungs- und Auslieferungsprozess von Metadaten (Schemagenerierung, Instanzerstellung, Dissemination) und auf Möglichkeiten ihrer nutzerfreundlichen Aufbereitung im Rahmen von Weboberflächen eingegangen. Abschließend wird die Problematik mangelnder Metadatenqualität anhand realer Beispiele aufgezeigt und mögliche Lösungsstrategien vorgestellt.

Agenda:

  1. Metadaten in einer Forschungsinfrastruktur für Sprachressourcen (CLARIN)
  2. Erstellungsprozess von Metadaten am Beispiel der CMDI
  3. Bereitstellung und Aufbereitung von Metadaten in föderierten Systemen
  4. Problemfälle und Lösungsansätze

Material zur Session: Folien

B3: Der Metadaten-Lebenszyklus im interdisziplinären Datenkatalog EUDAT-B2FIND und in der Klimaforschung

In diesem Kurs werden verschiedene Standard-Verfahren und Technologien vorgestellt, die heutzutage im Management von Metadaten angewendet werden. Dies reicht vom 'Erzeugen' und der Extraktion der Metadaten, über deren Formatierung und Aggregation, bis hin zu der Homogenierung und der semantischen Transformation. Das zentrale Ziel ist hierbei die Metadatensätze in einem semantisch gemeinsamen Suchraum zu indizieren und damit Forschungsdaten über ein Webportal suchbar und wiederverwendbar zu machen.

Wie dieser Metadaten-Lebenszyklus implementiert werden kann, wird anhand des interdisziplinären Metadaten-Dienstes EUDAT-B2FIND und anhand des WDCC-Portals 'CERA' für Daten aus der Klimaforschung erläutert.

Der Kurs wird z.T. auch an praktischen Beispielen zeigen, wie man vorgehen kann.

Agenda :

  1. Einführung zu Metadaten : Was, wozu und wie
  2. Best practices und die FAIR-Prinzipien
  3. Management von Metadaten : Methoden, Standards und Schemas
  4. Umsetzung und Implementierung
    1. EUDAT-B2FIND
    2. WDCC/CERA
  5. Hands-On Übungen (soweit Zeit und Möglichkeit)

Material zur Session: Folien

B4: Einführung in die Datenanalyse mit Apache Spark

Ein effizientes Datenmanagement stellt die Grundlage für weiterführende Analysen basierend auf vorhandenen Daten dar. In jüngerer Vergangenheit haben sich generische Frameworks zur Datenanalyse, auch insbesondere für große Datenbestände entwickelt, die zunehmend durch ihren hohen Funktionsumfang interessant für generische Datenanalysen werden. In dieser Session soll in das Themengebiet "Data Analytics" eingeführt werden und exemplarisch anhand von konkreten Beispielen der Umgang mit einem generische Framework zur Datenanalyse - am Beispiel von Apache Spark - erprobt werden.

Ziel des Workshop ist es, einen Überblick über das Themenfeld "Data Analytics" zu erhalten, technologische Konzepte und state-of-the-art Methoden kennenzulernen und Handlungen zur Datenanalyse (Integration und Datenaufbereitung; Auswahl relevanter Analyseverfahren, etc. ) zu erproben.

Agenda:

  1. Überblick über Data Analytics als Teilgebiet von Big Data
  2. Einführung in generelle Prozessierungsstrategien und Verknüpfungen zum Datenmanagement
  3. Einführung in das Framework Apache Spark
  4. Hands-On-Teil: Anwendung von Framework-Routinen auf Daten aus verschiedenen Anwendungsbeispielen

Material zur Session: [|Folien, Code und mehr]

Organisatorisches

Hotels

Dresden bietet ein große Zahl an Hotels aller Qualitäts- und Preisklassen an, die man in den üblichen Portalen oder direkt buchen kann.
Die TU Dresden hat ein eigenes Gästehaus mit einem guten Preis-Leistungsverhältnis - Link


Tagungsort

Der Andreas-Pfitzmann-Bau (Nöthnitzer Str. 46) ist das Gebäude der Fakultät Informatik und liegt am Rand des Hauptcampus der TU Dresden.