DINI-nestor-WS3

Aus Forschungsdaten.org
Zur Navigation springen Zur Suche springen

3. DINI/nestor-Workshop "Langzeitarchivierung von Forschungsdaten"
Ort; Konrad-Zuse-Zentrum für Informationstechnik, Takustraße 7, 14195 Berlin
Zeit: 19. Juni 2015 von 10:30 - 16.30 Uhr

Ankündigung

Digitale Langzeitarchivierung (LZA) beschreibt den dauerhaften Erhalt digitaler Informationen unabhängig von zeitlich vorgegebenen Soft- und Hardwareänderungen. Diese digitalen Informationen umfassen unterschiedlichste Daten- und Informationsobjekte in Form von Texten, Bildern und weiteren Datentypen. Die Langzeitarchivierung von Forschungsdaten und die damit verbundene Nachnutzung digitaler Daten haben in den letzten Jahren verstärkt an Bedeutung gewonnen, begegnen aber auch vielfältigen Herausforderungen.

Im Unterschied zur Erhaltung von digitalen Textdokumenten ist diese bei Forschungsdaten vor dem Hintergrund der technischen und wissenschaftlichen Diversität weitaus komplexer. Sie zeigt sich beispielsweise durch eine Vielzahl an Datenformaten und unterschiedlichste Speicherbedarfe. Unter Umständen müssen für die Möglichkeit der Nachnutzung nicht nur Daten, sondern ganze Datenumgebungen archiviert werden.

Die DINI/nestor AG Forschungsdaten greift das Thema Langzeitarchivierung von Forschungsdaten im Rahmen eines Workshops am 19.06.2015 im Konrad-Zuse-Zentrum in Berlin auf und lädt Sie hiermit herzlich dazu ein.

Mögliche Themen des Workshops umfassen die Herausforderungen und Zukunftschancen der Langzeitarchivierung von Forschungsdaten. Nachfolgende Themenvorschläge beziehen sich auf Vorschläge zu LZA-Fragestellungen, welche im Kontext des heutigen Forschungsdatenmanagements immer noch unzureichend geklärt sind:

  • Welche wesentlichen technischen, organisatorischen, finanziellen und wissenschaftlichen Aspekte umfasst die digitale Langzeitarchivierung?
  • Welche Voraussetzungen müssen erfüllt sein, um die Nachnutzung von Forschungsdaten zu gewährleisten?
  • Welche Formen (Best Practices) der LZA gibt es bereits für Forschungsdaten?
  • Was kostet die digitale LZA von Forschungsdaten und welche Infrastrukturen werden bereits für die LZA von Forschungsdaten eingesetzt?
  • Welche Einrichtungen und Akteure übernehmen die Verantwortung für die LZA und wie sehen konkrete Aufgabenfelder aus?
  • Welche Kriterien muss ein vertrauenswürdiges Langzeitarchiv erfüllen und wer ist verantwortlich für die Erstellung und Prüfung solcher Kriterien?
  • Welche Standards für Datenformate und Metadatenformate haben sich für welche Anwendungsbereiche etabliert?
  • Welche Daten sind archivierungswürdig, welche Kriterien gibt es für eine Auswahl? Wer trifft die Auswahl? Gibt es disziplinspezifische Archivierungskriterien? Welche disziplinübergreifenden Herangehensweisen gibt es?

Wir laden dazu ein, Vorträge und Erfahrungsberichten zu den oben genannten und thematisch verwandten Fragen beizutragen.

Anmeldung


Das Anmeldeformular finden Sie unter: http://dini.de/veranstaltungen/workshops/langzeitarchivierung-von-forschungsdaten/anmeldeformular/

Die Teilnehmerzahl ist auf 100 begrenzt und die Teilnahmegebühr beträgt 20 €. Wir bitten um Ihr Verständnis.

Programm

9:30 bis 10:30 Uhr Registrierung
10:30 bis 10:45 Uhr Begrüßung und Einführung durch die DINI/nestor-AG Forschungsdaten
Janna Neumann (Technische Informationsbibliothek)
Begrüßung durch das Konrad-Zuse-Zentrum für Informationstechnik
TIm Hasler (ZIB)
10:45 bis 12:00 Uhr Block 1: Moderation: Janna Neumann
Aspekte der Langzeitarchivierung in Policies von Forschungsdatenrepositorien
Jessika Rücknagel (HU Berlin)
Vertrauenswürdiges digitales Langzeitarchiv – Zertifizierung an der TIB
Franziska Schwab (Technische Informationsbibliothek)
Konzept für die Definition Signifikanter Eigenschaften von sozialwissenschaftlichen Forschungsdaten
Natascha Schumann, Reiner Mauer, Stefan Müller, Astrid Recker (GESIS – Leibniz Institut für Sozialwissenschaften)
12:00 bis 13:00 Uhr Mittagspause
13:00 bis 13:50 Uhr Block 2: Moderation: Jens Ludwig
NaLiDa: Nachhaltigkeit linguistischer Daten
Claus Zinn, Erhard Hinrichs, Thorsten Trippel (Universität Tübingen)
Digitales Datenmanagement seit 1988 – Überführung eines digitalen Forschungsarchivs aus dem Bereich Systemökologie in das ETH Data Archive
Ana Sesartic (ETH Zürich)
13:50 bis 14:10 Uhr Kaffeepause
14:10 bis 15:00 Uhr Block 3: Moderation: Maxi Kindling
Langzeitarchivierung von Forschungsdaten in interdisziplinären Forschungsverbünden. Ein Praxisbericht aus dem Forschungszentrum Europa an der Universität Trier
Marina Lemaire (Universität Trier)
Langzeitarchivierung aus der Perspektive eines interdisziplinären Großprojektes: Ein Erfahrungsbericht aus dem SFB/TRR 32
Constanze Curdt, Dirk Hoffmeister, Georg Bareth, Ulrich Lang (Universität Köln)
15:00 bis 15:30 Uhr Abschlussdiskussion
15:30 bis 17:00 Uhr öffentliche AG Sitzung

Abstracts und Präsentationsfolien


Aspekte der Langzeitarchivierung in Policies von Forschungsdatenrepositorien
Jessika Rücknagel (HU Berlin)
Policies sind ein wesentliches Werkzeug um zielgerichtetes Forschungsdatenmanagement Policies sind ein wesentliches Werkzeug um zielgerichtetes Forschungsdatenmanagement auf unterschiedlichen Ebenen zu ermöglichen. Von besonderer Bedeutung sind hierbei jene Policy-Dokumente, die sich mit Aspekten der langfristigen Verfügbarhaltung der Datensätze auseinandersetzen. In einer kleinen Studie werden exemplarisch Policies von Forschungsdatenrepositorien analysiert, die sich mit den angesprochenen Aspekten der (digitalen) Langzeitarchivierung auseinandersetzen. Auf diese Weise soll ein Überblick über Trends und Herangehensweisen geschaffen werden, der als richtungsweisend für die Planung eigener (repositoriumsspezifischer) Preservation Policies zu betrachten ist. Folgende Forschungsfragen stehen hierbei im Mittelpunkt:

  • In welchen Policy-Arten werden die Aspekte zur Langzeitarchivierung tendentiell angesprochen?
  • Wie viele Preservation Policies wurden identifiziert?
  • Wie konkret sind die Schriften, die als Preservation Policy klassifiziert werden wirklich? Auch im Vergleich mit Data Policies?


Vertrauenswürdiges digitales Langzeitarchiv – Zertifizierung an der TIB
Franziska Schwab (Technische Informationsbibliothek)
An die vertrauenswürdige Langzeitarchivierung werden vielfältige Anforderungen gestellt. Der Nachweis über die Umsetzung dieser Anforderungen erfolgt über Zertifizierungsverfahren. Die entsprechenden Siegel und die transparente Darstellung der Infrastruktur, Prozesse und Verfahren machen die Vertrauenswürdigkeit eines digitalen Langzeitarchivs öffentlich sichtbar und stärken das Vertrauen der Datenproduzenten, der Nutzer und eventueller Kunden in die Befähigung der Institution, die langfristige Verfügbarkeit der ihr anvertrauten Objekte sicher zu stellen. Im Vortrag wird der Zertifizierungsprozess an der TIB im Goportis-Kontext vorgestellt. Dabei liegt der Schwerpunkt besonders auf der Vorbereitung der Zertifizierung, aufgetretenen Herausforderungen und Lösungsansätzen sowie der Besonderheit der Zertifizierung im Verbund.

Konzept für die Definition Signifikanter Eigenschaften von sozialwissenschaftlichen Forschungsdaten
Natascha Schumann, Reiner Mauer, Stefan Müller, Astrid Recker (GESIS – Leibniz Institut für Sozialwissenschaften)
Das GESIS Datenarchiv stellt quantitative Forschungsdaten, vorwiegend aus nationalen und internationalen vergleichenden Umfragen, für die Nachnutzung bereit. Forschungsdaten werden gemäß klar definierten Anforderungen ausgewählt, aufbereitet, dokumentiert, langfristig gesichert und zugänglich gemacht. Ein besonderes Augenmerk bei der Archivierung und Bereitstellung von Forschungsdaten aus den Sozialwissenschaften liegt auf der Einhaltung von datenschutzrechtlichen Bestimmungen

Vor diesem Hintergrund gibt der Beitrag einen kurzen Überblick über den Archivierungsworkflow im GESIS Datenarchiv und eine Beschreibung bestehender Konzepte zu „Signifikanten Eigenschaften“. Dabei handelt es sich um diejenigen Merkmale der digitalen Objekte, die im Falle von Veränderungen, z. B. durch Migrationen, erhalten bleiben müssen, damit die Daten weiterhin nutzbar bleiben. Diese Eigenschaften können sich auf die Daten selbst beziehen und unterscheiden sich je nach Dateityp. Sie müssen auch im Hinblick auf die (zukünftigen) Nutzergruppen, die „Designated Communities“ definiert werden. Während für die meisten Forschenden sichergestellt sein muss, dass die Daten in maschinell verarbeitbaren Formaten zur Verfügung stehen, sind auch Szenarien denkbar, in denen sich Forschende gar nicht für die Daten selbst, sondern ausschließlich für die verwendeten Messinstrumente interessieren (z.B. zur Entwicklung eigener Instrumente). Entsprechend sind Kenntnisse sowohl der Daten als auch der anvisierten Zielgruppe unerlässlich im Hinblick auf die Langzeitarchivierung und bei der Bestimmung der signifikanten Eigenschaften. Bei der Langzeitarchivierung von sozialwissenschaftlichen Forschungsdaten ist darüber hinaus noch eine weitere wichtige Ebene zu berücksichtigen. Zur Interpretation sozialwissenschaftlicher Daten sind Informationen zum Entstehungskontext unerlässlich. Nicht nur die Ergebnisse der Datenerhebung müssen also archiviert werden, sondern auch weitere Informationen über den Erhebungsprozess, die Methodik, verwendete Instrumente etc. Nur wenn all diese Information zugänglich sind, kann eine langfristige Nutzbarkeit der Daten sichergestellt werden. Eine wichtige Aufgabe des Archivs besteht somit auch darin, festzulegen, welche als relevant für die Nachnutzung eingestuft werden.

Das Datenarchiv ist derzeit dabei, die Definition der für seine Zwecke signifikanten Eigenschaften sowohl in Bezug auf den Forschungsprozess (Kontextinformationen) als auch auf das Archivpaket zu entwickeln. Dieser Prozess beinhaltet verschiedene Arbeitsschritte, die neben der Auseinandersetzung mit bestehender Forschungs- und Projektergebnissen (z.B. aus dem InSPECT-Projekt) die ergänzende Beschreibung unserer Archivpakete mit PREMIS Metadaten enthält. Abschließend soll in Experteninterviews überprüft werden, ob das Datenarchiv mit der Definition der signifikanten Eigenschaften die Bedürfnisse seiner Zielgruppe, sozialwissenschaftlich Forschende, trifft.

NaLiDa: Nachhaltigkeit linguistischer Daten
Claus Zinn, Erhard Hinrichs, Thorsten Trippel (Universität Tübingen)
Im Projekt “Nachhaltigkeit Linguistischer Daten” (NaLiDa) an der Universität Tübingen geht es um die digitale Archivierung linguistischer Forschungsprimärdaten. Es umfasst die Sammlung von wissenschaftlichen Daten im sprachwissenschaftlichen Umfeld, die Verwendung und Weiterentwicklung eines Metadatenframeworks zu ihrer Beschreibung, das Einpflegen der Daten in ein Repositorium, sowie die Entwicklung von Werkzeugen zur Metadatenverarbeitung und zum Metadaten-basierten Zugriff. Das Projekt zielt auf die Konstruktion eines Referenzmodells, das aus einer technologischen Infrastruktur besteht, die standardisierte und qualitätssichernde Arbeitsabläufe ermöglicht, und das beschreibt, wie diese exemplarisch effektiv in eine existierende universitäre Infrastruktur integriert werden kann. Das Projekt leistet hierbei individuelle Beratungs- und Servicedienstleistungen für Forschungsprojekte und Einzelforscher, und ist am Aufbau eines nationalen und internationalen Verbunds beteiligt, der den gegenseitigen Austausch von sprachwissenschaftlichen Forschungsprimärdaten ermöglichen soll.

Digitales Datenmanagement seit 1988 – Überführung eines digitalen Forschungsarchivs aus dem Bereich Systemökologie in das ETH Data Archive
Ana Sesartic (ETH Zürich)
Die Fachgruppe Systemökologie an der ETH Zürich befasst sich seit ihrer Gründung im Jahr 1988 intensiv mit dem Thema Management von Forschungsdaten und hat während dieser Zeit ein umfangreiches Archivkonzept für die eigenen Daten entwickelt. Dabei entstanden u.a. Metadaten-Schema und –Datenbank, Anleitungen zur Erstellung der digitalen Archive, Empfehlungen zum Umgang mit Formaten und Speichermedien, zur Qualitätssicherung und vieles mehr.

Diese frühe Beschäftigung mit dem Thema seitens der Forscher kam zustande, da in der Gruppe einerseits viele heterogene Daten produziert wurden, die sowohl aus Beobachtungen als auch aus Modellen stammen, und anderseits ein reger interdisziplinärer Austausch stattfand. Besonders hervorzuheben sind dabei die langjährige Mitarbeit am Kapitel Ökosysteme der UNO Klimaberichte, sowie die weltweit längste Datenreihe zur Beobachtung einer ökologisch bedeutenden Falterart.

Mit der Pensionierung des Gruppenleiters soll das Archiv der Fachgruppe Systemökologie zur Langzeitarchivierung in das ETH Data Archive (Rosetta) der ETH-Bibliothek überführt werden. Dabei stossen wir immer wieder auf Fragen, die wertvolle Denkanstösse bezüglich der Archivierung von Forschungsdaten allgemein geben und auf unerwartete Hürden, die auch in anderen Forschungsdisziplinen zu erwarten sind und deren Überwindung interdisziplinärer Zusammenarbeit zwischen Bibliothek, Forschern, Archivaren und Informatikdiensten bedarf.

Langzeitarchivierung von Forschungsdaten in interdisziplinären Forschungsverbünden. Ein Praxisbericht aus dem Forschungszentrum Europa an der Universität Trier
Marina Lemaire (Universität Trier)
Für die Langzeitarchivierung von Forschungsdaten ist ein professionelles Forschungsdatenmanage-ment nicht nur notwendig, sondern auch ein Teil der guten wissenschaftlichen Praxis. Die strukturier-te Aufbereitung und nachhaltige Sicherung von Forschungsdaten ist ein zentrales Aufgabenfelder bei der strategischen Neuausrichtung der wissenschaftlichen Informationsinfrastrukturen für die Geistes- und Sozialwissenschaften. Ausgehend von der Frage, wie die in den zahlreichen Digitalisierungsvor-haben sowie in Forschungsprojekten zunehmend in großem Umfang entstandenen digitalen Daten über den Projektabschluss hinaus angesichts des raschen technologischen Wandels gesichert werden können, entstanden Machbarkeitsstudien und umfassende Empfehlungen zur Langzeitarchivierung und zur Lösung der damit verbundenen technischen, organisatorischen und rechtlichen Herausforde-rungen. Zunächst konzentrierten sich diese Aktivitäten auf die Datensicherung beim Abschluss von Forschungsprojekten. Inzwischen wird dafür plädiert, das Forschungsdatenmanagement bereits in der Planungsphase von Forschungsprojekten zu berücksichtigen und dabei alle für eine adäquate langfristige Nachnutzung der Forschungsdaten notwendigen Schritte in den Blick zu nehmen. Die dazu erforderlichen Aufgaben werden in Datenlebenszyklus-Modellen systematisch beschrieben und entsprechende Richtlinien zum Umgang mit Forschungsdaten einschließlich Metadaten sowie zur Erstellung von Datenmanagementplänen dokumentiert.

An der Universität Trier wurde im Rahmen des INF-Projektes des SFB 600 „Fremdheit und Armut“ gemeinsam mit dem Zentrum für Informations-, Medien- und Kommunikationstechnologie (ZIMK) ein Virtuelles Datenrepositorium „ViDa“ (www.vida.uni-trier.de) prototypisch aufgebaut. Dabei wurde auf der Basis des Anforderungsprofils eines interdisziplinären, geisteswissenschaftlichen Verbundes nicht nur eine technische Infrastruktur entwickelt, sondern auch Workflows definiert und vertragli-che Regelungen getroffen, die den Datengebern und -nehmern für die Nutzung des Datenrepositori-ums rechtliche Rahmenbedingungen garantieren.

Die Erfahrungen, die bei der Entwicklung von ViDa und dessen Integration in den Forschungsprozess gemacht wurden, fließen nun in die Planung und Entwicklung neuer Forschungsvorhaben ein. Dabei stellen interdisziplinäre Forschungsverbünde besondere Herausforderungen an das Forschungsda-tenmanagement. Es müssen die Anforderungen mehrerer Forschungsvorhaben aus unterschiedli-chen Fächern berücksichtigt und zusammengeführt werden, um die Langzeitarchivierung und Nach-nutzung der Forschungsdaten sicherzustellen. Für die einzelnen Forschungsvorhaben müssen For-schungsdatenmanagementkonzepte entwickelt werden, die in einem übergreifenden Konzept zu-sammengeführt und den Data Policies auf der Ebene der Gesamtuniversität sowie der jeweiligen Verbünde bzw. Fächer gerecht werden. Die Planungs-, Konzeptions- und Dokumentationsarbeiten beziehen sich dabei auf den gesamten Forschungsprozess, d.h. von der Erfassung der Forschungspri-märdaten, über ihre Analyse, Publikation bis hin zur langfristigen Sicherung und Bereitstellung für künftige Forschungsvorhaben. Ebenfalls zu berücksichtigen sind die mit dem Datenmanagement ver-bundenen organisatorischen, finanziellen, technischen und rechtlichen Aspekte in den verschiedenen Phasen des Datenlebenszyklus, wobei insbesondere die für die Nachnutzung notwendigen Informati-onen in einem Datenmanagementplan dokumentiert werden. Ausgehend von einer detaillierten Analyse der Fragestellungen und Arbeitsmethoden der jeweiligen Forschungsvorhaben müssen in Zusammenarbeit mit den Forschenden Richtlinien für die Bearbeitung der Primärdaten in den ver-schiedenen Arbeitsphasen und für die systematische Erfassung der für die Beantwortung der jeweili-gen Forschungsfragen relevanten Sachinformationen, Meta- und Kontextdaten entwickelt werden. Dabei sind die durch die Disziplinenvielfalt begründete Heterogenität der Dokumente, das breite Spektrum von Arbeitsmethoden sowie die Unterschiede in Formen und Intensität digital basierter Arbeitsweisen zu beachten. Es werden deshalb unterschiedliche Datenmanagementstrategien entwi-ckelt, die sowohl die individuelle Forschungsarbeit berücksichtigen als auch die Anforderungen, die an eine spätere langfristige Verfügbarkeit und Nachnutzbarkeit gestellt werden. Die jeweiligen Modelle zur Beschreibung der Primärdaten, ihrer Erhebung, Anreicherung mit struktu-rellen, deskriptiven und administrativen Metadaten sowie ihre Bearbeitung über die verschiedenen Phasen des Forschungsprozesses hinweg bilden die Basis für die jeweilige, spezifisch auf die For-schungsprojekte abgestimmte Konfiguration der IT-Infrastruktur. Der Beitrag wird am Beispiel der Projektverbünde am Forschungszentrum Europa an der Universität Trier die notwendigen Planungs- und Arbeitsschritte für das Forschungsdatenmanagement skizzieren, offene Fragen identifizieren und das Virtuelle Datenrepositorium „ViDa“ vorstellen.

Langzeitarchivierung aus der Perspektive eines interdisziplinären Großprojektes: Ein Erfahrungsbericht aus dem SFB/TRR 32
Constanze Curdt, Dirk Hoffmeister, Georg Bareth, Ulrich Lang (Universität Köln)
Der Umgang mit Forschungsdaten hat in den vergangenen Jahren zunehmend an Bedeutung gewonnen. Deshalb haben Forschungsförderer und weitere Organisationen entsprechende Empfehlungen und Verpflichtungen erlassen. Im Fokus stehen hierbei vor allem die Reproduzierbarkeit von Forschungsergebnissen und die Nachnutzung der Forschungsdaten für neue Forschungsfragen. Besonders in interdisziplinären Großforschungsprojekten ist außerdem besonders der Austausch von Forschungsdaten zur Schaffung von Synergien wesentlich. In allen Fällen sollten erstellte Forschungsdaten gut aufbereitet, dokumentiert, nachhaltig gespeichert und gesichert werden. Der Zugang zu den Daten sollte entsprechend der festgelegten Zugangsrechte sowohl während der Projektlaufzeit als auch darüber hinaus gewährleistet sein. Im Rahmen eines INF-Projektes des SFB/TRR 32 „Muster und Strukturen in Boden-Pflanzen-Atmosphären-Systemen: Erfassung, Modellierung und Datenassimilation“ (www.tr32.de, Laufzeit 2007-2018) wurde ein Forschungsdatenmanagementsystem zur systematischen Speicherung, Austausch und langfristigen Nutzung der Projektdaten aufgebaut. Die sogenannte Projektdatenbank TR32DB (www.tr32db.de) wurde entsprechend der Anforderungen der ProjektteilnehmerInnen und der DFG geplant und in der Infrastruktur des Regionalen Rechenzentrums der Universität zu Köln implementiert. Die sich hieraus ergebenen Herausforderungen und Problemen (z.B: heterogene Daten mit Dateigrößen bis zu ~8GB/Datei), sowie gesammelte Erfahrungen werden in diesem Vortrag vorgestellt. Aktuell beinhaltet die TR32DB ~1100 Datensätze, deren interoperable Metadaten frei verfügbar sind. Für mehrere dieser Datensätze steht ein DOI zur Verfügung, welcher den Datensatz als Mehrwert für den Nutzer zitierbar macht.

Protokoll