LABIMI/F

Aus Forschungsdaten.org
Version vom 11. Mai 2015, 15:09 Uhr von Jochenklar (Diskussion | Beiträge)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche
Projekt
LABIMI/F
LABIMI/F – Langzeitarchivierung biomedizinischer Forschungsdaten
Zeitraum: Juni 2011 bis Mai 2013
Beteiligt: - Abteilung Medizinische Informatik, Universitätsmedizin Göttingen
- Institut für Biometrie und Medizinische Informatik, Universitätsklinikum Magdeburg
- Institut für Medizinische Informatik und Statistik, Universitätsklinikum Schleswig-Holstein
- AG Genomische Gastroenterologie, Klinik für Innere Medizin I, Universitätsklinikum Schleswig-Holstein
- Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaft e.V. (AWMF)
- Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF)
- Zuse-Institut Berlin (ZIB)
gefördert von: Deutsche Forschungsgemeinschaft (DFG)
Website: Projekt-Webseiten

Langzeitarchivierung biomedizinischer Forschungsdaten

Projektbeschreibung

LABIMI/F realisiert an Beispielen aus der Genomforschung und der biomedizinischen Bildanalyse eine prototypische Infrastruktur zur Archivierung von Forschungsdaten. Dafür wurden die entsprechenden Arbeitsprozesse inkl. der daraus resultierenden Datenformate und -größen analysiert und bereits existierende Metadatenstandards zur Annotation dieser Daten identifiziert. Die Genomforschung produziert seit dem Aufkommen von Next-Generation-Sequencing (NGS) eine Vielzahl verschiedener Daten unterschiedlicher Formate und Größen. Die prominentesten Vertreter sind die Datenformate FASTQ und SAM bzw. dessen komprimierte Form BAM. Bei der Speicherung von Bilddaten haben sich die Formate DICOM und NIFTI-1 durchgesetzt. Um den Forschungskontext und somit die Qualität der Nachnutzung archivierter Forschungsdaten zu erhalten und so einen Informationsverlust über die Zeit entgegen zu wirken, müssen die Forschungsdaten mit Metadaten annotiert werden. Dabei ist die Auswahl der zu erhebenden Metadaten ist für eine spätere Nachnutzung essenziell und sollte bestehende bereits erarbeitete minimale Metadatenschemata und Standards, wie z.B. Minimalinformationen über Genomsequenzen (MIGS), berücksichtigen. Die Relevanz und Art der einzelnen Metadaten ist dabei vom Experiment und Verwendungszweck abhängig. Daher ist es zu empfehlen vor der Archivierung die minimalen Metadatenschemata in Zusammenarbeit mit dem Wissenschaftler zu prüfen und gegebenenfalls für die konkrete Anwendung anzupassen. Außerdem sollte dieser Prozess auch über die Archivierungsdauer fortgesetzt werden, um Änderungen in fachlichen Aspekten, Standards und Technik zu folgen. Das Nachnutzen von annotierten Forschungsdaten kann allerdings nur erfolgen, wenn Forscher bereit sind, ihre Forschungsdaten zu veröffentlichen. Aufgrund der Forderungen von der DFG und des Wissenschaftsrates, alle Forschungsdaten zu archivieren, akzeptieren Forscher i.d.R. das annotierte Archivieren ihrer Forschungsdaten. Der Archivierungsprozess (vor allem die Annotation) sollte sich möglichst optimal in die Arbeitsabläufe von Forschern integrieren, um eine große Akzeptanz zu gewährleisten. Die Bereitschaft eigene Forschungsdaten zu teilen, wird oft durch die Befürchtung der Fremdverwertung gehemmt. Um dieser Angst entgegen zu wirken und den Austausch von Forschungsdaten zu fördern, wurde in LABIMI/F eine Archivierungsinfrastruktur aufgebaut, welche die Metainformationen zu Forschungsdaten in einem teilweise öffentlich durchsuchbaren DSpace- Repositorium veröffentlicht, die Forschungsdaten selbst jedoch durch die Ablage im föderierten Dateisystem XtreemFS unter der Kontrolle des Forschers verbleiben. Die prototypische Implementierung der LABIMI/F-Infrastruktur verwendet ausschließlich open source Software und ermöglicht eine Recherche der Metadaten. Zudem steht aus dem Projekt eine grafische Schnittstelle für die Annotation der Forschungsdaten und den Import in die Archivierungsinfrastruktur bereit. Die Metadaten können über XML-Schemata spezifiziert und validieren werden. Die aufgebaute Infrastruktur steht in Göttingen zur Langzeitarchivierung verschiedenster Studiendaten bereit. Zusätzlich zur prototypischen Implementierung wird das Projekt von einem Datenschutzund Betriebskonzept, sowie einer beispielhafte Dienstgütevereinbarung mit drei Qualitätsstufen flankiert und bietet somit neben der Installationshilfe, Anregungen sowie Hilfestellungen zum Betrieb von Langzeitarchivierungsinfrastruktur.