RDA-DE-Trainings-Workshop-2016

Aus Forschungsdaten.org
Zur Navigation springen Zur Suche springen

RDA-DE-Schulungsworkshop-2016.png

Organisatorisches

Die Veranstaltung beginnt am 24. Mai um 11.00 und endet am 25. Mai um 16.00, so dass nur eine Übernachtung eingeplant werden muss. Für die Teilnahme wird ein Beitrag von 30 € erhoben.

In zwei parallelen Tracks werden die folgenden Themen angeboten. Dabei werden in einem durchgehenden Track ein zentrales Thema, und in drei jeweils halbtägigen Sessions weitere Themen behandelt. Begonnen wird mit einer Übersicht über den Stand der RDA Arbeiten.

Zeit Session 1 Session 2
Tag 1
11:00 Plenum
12:00 - 13:15 Mittagspause (ausserhalb, selbst organisiert)
13:15 - 15.15 Daten Repositorien 1 Daten Workflows
15.15 - 15.45 Kaffeepause
15.45 - 17.45 Daten Repositorien 2 Daten Workflows
Tag 2
8.30 - 10.30 Daten Repositorien 3 Einsatz von PIDs
10.30 - 11.00 Kaffeepause
11.00 - 13.00 Daten Repositorien 4 Einsatz von PIDs
ab 12:00 Metadaten Workflows 1
13.00 - 14.00 Mittagspause (Catering im Hause)
14.00 - 16.00 Daten Repositorien 5 Metadaten Workflows 2

RDA Übersicht

Für alle Teilnehmer wird ein Überblick über den Stand der Diskussionen in RDA nach dem Tokyo-Plenary gegeben inkl. Möglichkeiten für Fragen und Diskussionen.

Nach dem Mittagessen beginnen die eigentlichen Schulungsveranstaltungen.

Thema 1: Datenrepositorien - 2 Tage

Durchgehend an beiden Tagen werden die Rolle und Funktionsweise von Datenrepositorien unter verschiedenen Blickwinkeln von verschiedenen Sprechern behandelt: Aufgaben, Organisation der Daten, Policies und Workflows, Zertifizierung, Interface und Software- Lösungen für Repositorien. In einem konkreten Beispiel wird ein Test-Repositorium aufgebaut.

Ziel: Ziel des Kurses ist, dass die Teilnehmer Wissen darüber vermittelt bekommen, wie vertrauenswürdige Repositorien aufzubauen sind und wie sie sich in die Infrastruktur- Landschaft einfügen können.

Teilnehmer: Der Kurs richtet sich vornehmlich an Wissenschaftler und Daten-Manager, die mehr Einblick über moderne wissenschaftliche Repositorien haben wollen bzw. die selbst ein lokales Repositorium aufbauen wollen.

Thema 2: Einsatz von PIDs - halber Tag

An einem halben Tag werden im Detail die folgenden Fragen behandelt: Einsatz von PIDs, Gestaltung von PID-Records, technische Nutzung von PID-Bibliotheken. Einführungen werden durch Hands-On-Beispiele ergänzt.

Ziel: Ziel des Kurses ist, dass die Teilnehmer ein Wissen darüber vermittelt bekommen, wie PIDs sinnvoll im wissenschaftlichen Betrieb verwendet werden, in dem große Mengen an Daten erzeugt, genutzt und verwaltet werden.

Teilnehmer: Der Kurs richtet sich vornehmlich an Daten-Wissenschaftler, Software Entwickler und Daten-Manager, die die verschiedenen Möglichkeiten der Verwendung von PIDs in ihrer Arbeit lernen und damit das Daten-Management und den Zugriff auf Daten professioneller gestalten wollen.

Thema 3: Daten-Workflows - halber Tag

Gerade bei größeren Datenmengen sind Verfahren und Werkzeuge zur automatisierten Verwaltung und Analyse essentiell. Im Workshop soll dargestellt werden, für welche Zwecke Workflows bei Datenauswertung und Datenmanagement eingesetzt werden können, welche Prinzipien befolgt werden sollten, um z.B. Reproduzierbarkeit zu garantieren, und welche Umgebungen zur Verfügung stehen. Einführungen werden durch Hands-On Beispiele ergänzt.

Ziel: Ziel des Kurses ist, dass die Teilnehmer einen Einblick in das effiziente, automatisierte Umgehen mit Daten bekommen und in ihren eigenen Bereichen umsetzen können.

Teilnehmer: Der Kurs richtet sich an Daten-Wissenschaftler und -Manager, die ihre Arbeit mit Daten automatisieren wollen.

Agenda:

  1. "Daten-Workflows - eine Einführung" - Richard Grunzke (TU Dresden, Zentrum für Informationsdienste und Hochleistungsrechenen): Dieser Überblicksvortrag wird Mechanismen zur automatischen Analyse von Daten beleuchten. Einerseits wird es um Methoden gehen, die direkt durch die Daten anhand von Regeln ausgelöst werden. Andererseits werden Workflow Engines einführt, deren Workflows durch die Nutzer selbst ausgelöst werden und komplexe Analyseautomatismen ermöglichen. Weiterhin wird das Thema Provenance eingeführt, das zum Ziel hat die wissenschaftliche Reproduzierbarkeit zu unterstützten indem Informationen über die Verarbeitung von Daten gespeichert und verwendet werden.
  2. "Data Workflow Provenance" - Ajinkya Prabhune (KIT, Institut für Prozessdatenverarbeitung und Elektronik): Scientific workflows are associated with provenance information. Provenance is categorised into two types, (a)Prospective provenance, (b) Retrospective provenance. ProvONE is a W3C standard that enables capturing both these types of provenance. For handling the provenance information of nanoscopy scientific workflows the ProvONE is integrated with the Nanoscopy Open Reference Data Repository (NORDR) and a dedicated graph database is used for storing and querying the provenance information.
  3. "Hands-on tutorial on usage the Kepler Scientific Workflow System (including INDIGO-DataCloud extension)" - Marcin Plociennik (Poznan Supercomputing and Networking Center) The Kepler scientific workflow system is an open source tool that enables creation, execution and sharing of workflows across a broad range of scientific and engineering disciplines while also facilitating remote and distributed execution of workflows. Kepler builds upon the dataflow-oriented Ptolemy II system 2, which is a software system for modeling and simulation of real-time embedded systems. Kepler workflows model the flow of data between a series of computation steps. Kepler facilitates the execution process, data movement and gathering provenance information. Kepler is being used by wide range of scientific disciplines including bioinformatics, biology astronomy, astrophysics, nuclear fusion, nanotechnology, chemistry, ecology, hydrology, etc. This tutorial will introduce the basics required to build own workflows using that tool. The more complex scenarios will also be presented, advertising potential capabilities of the system (e.g. INDIGO-DataCloud extension).
  4. "Unicore Data Workflows" - Richard Grunzke (TU Dresden, Zentrum für Informationsdienste und Hochleistungsrechenen): UNICORE unterstützt das sogenannte Data Oriented Processing. Dieses ermöglicht die Definition von Regeln anhand derer Aktionen auf herein kommende Dateien ausgelöst werden. So lassen sich zum Beispiel automatische Vorverarbeitungs-Pipelines oder neuartige Datenanalysemöglichkeiten realisieren. Dieser Vortrag führt die Methode allgemein ein und geht anhand eines praktischen Beispieles in die Tiefe. Folien.

Thema 4: Metadaten-Workflows - halber Tag

An einem halben Tag wird dargestellt, welche Standard-Verfahren und Technologien heutzutage in vielen Disziplinen angewendet werden, um Metadaten zu aggregieren, semantisch zu übersetzen, zu indizieren und dann über ein Suchportal mittels Faceted-Search Techniken anzubieten. Der Kurs wird z.T. auch an praktischen Beispielen zeigen, wie man vorgehen kann.

Ziel: Ziel des Kurses ist darzustellen, wie Daten-Manager gezielt und möglichst effizient Metadaten-Portale auf der Basis bekannter Technologien aufsetzen können.

Teilnehmer: Der Kurs richtet sich an Daten-Manager, die Metadaten-Portale realisieren wollen.