Synthetische Daten

Synthetische Daten sind künstlich generierte Datensätze, die die statistischen Eigenschaften, Strukturen und Muster realer Daten nachbilden, ohne dabei personenbezogene oder vertrauliche Informationen zu enthalten. Diese Art von Forschungsdaten werden mithilfe mathematischer Modelle, Simulationsverfahren oder generativer KI‑Methoden erzeugt, die charakteristische Merkmale der Ausgangsdaten erlernen und daraus realitätsnahe, aber vollständig künstliche Beispiele generieren.

Synthetische Daten sind also Datensätze, die nicht durch reale Messungen oder Erhebungen entstehen, sondern durch algorithmische Verfahren erzeugt werden.

Zweck von synthetischen Forschungsdaten

Synthetische Daten werden eingesetzt, um:

Datenschutz zu gewährleisten, insbesondere bei sensiblen personenbezogenen Daten.
Forschung und Entwicklung zu ermöglichen, wenn reale Daten nicht verfügbar, eingeschränkt nutzbar oder stark reguliert sind.
KI‑Modelle zu trainieren, zu testen oder zu validieren, ohne auf große reale Datensätze angewiesen zu sein.
Datenzugang zu erleichtern, z. B. für Open‑Data‑Projekte oder kollaborative Forschung.

Erzeugung von synthetischen Forschungsdaten

Statistische Modelle (Regressionsmodelle, Daten basierend auf geschätzten Verteilungen und Abhängigkeiten)
Simulationsmodelle (agentenbasierte Modelle)
Generative KI‑Modelle (erlernte komplexe Muster)

Fallbeispiele (Use Cases)

Gesundheitsforschung (datenschutzkonforme Patientendatensätze)
Mobilitätsforschung (Simulation von Verkehrsströmen)
Finanzwesen (Generierung von Transaktionsdaten für Risikoanalysen)
Software‑Testing (Testdaten für Systeme, ohne reale Kundendaten)
KI‑Training (Ergänzung und / oder Ersatz realer Trainingsdaten)

Vorteile

Hoher Datenschutz: Keine Rückverfolgbarkeit zu realen Personen
Flexibilität: Daten können in beliebiger Menge erzeugt werden
Kostenreduktion: Weniger Aufwand für Datenerhebung und -freigabe
Verbesserte Datenqualität: Möglichkeit, seltene Ereignisse gezielt zu modellieren
Förderung von Open Science

NFDI4Health und synthetische Daten

NFDI4Health beschreibt synthetische Daten als Lösung gegen Datensilos, die durch strenge Datenschutzanforderungen entstehen, siehe hier:

Das Teilen von Daten in der Gesundheitsforschung ist aufgrund hoher datenschutzrechtlicher Anforderungen häufig schwierig und zeitaufwendig. Die Folge sind Datensilos, in denen forschungsrelevante Daten Organisationen nicht oder nur eingeschränkt verlassen können. Synthetische Daten bieten hierfür einen möglichen Lösungsansatz: Als künstlich erzeugte Datensätze versuchen sie die statistischen und strukturellen Eigenschaften realer Daten abzubilden, ohne Rückschlüsse auf patientenspezifische, sensible Daten zuzulassen. Dadurch können synthetische Daten potenziell einfacher geteilt werden und ermöglichen die Simulation von Analysen und Experimenten in Szenarien, in denen der Zugriff auf Realdaten nicht oder nur sehr eingeschränkt möglich ist. NFDI4Health unterstützt Forschende mit Methoden zur synthetischen Datengenerierung sowie mit Werkzeugen zur Bewertung von realitätsnahen möglichen Risiken aus Sicht des Datenschutzes und Visualisierung synthetischer Daten.

Herausforderungen

Modellabhängigkeit: Qualität hängt stark vom verwendeten Erzeugungsmodell ab
Bias‑Reproduktion: Verzerrungen der Originaldaten können übernommen oder verstärkt werden
Validierungsaufwand: Synthetische Daten müssen sorgfältig geprüft werden
Begrenzte Realitätsnähe: Extrem komplexe Zusammenhänge lassen sich nicht immer vollständig abbilden

Kernthesen
Die Mehrzahl der Trainingsdaten für KI-Projekte wird demnächst synthetisch generiert.

Die Hauptanwendungsbereiche sind der Ersatz personenbeziehbarer Daten und die Generierung von Trainingsdaten für das Computer-Sehen.

Beim Computer-Sehen können sich generative KI-Modelle und 3‑D-Simulationsumgebungen gut ergänzen.

Handlungsempfehlungen

Europa braucht eine eigene Start-up-Szene mit spannenden Geschäftsmodellen für synthetische Datum, um diesen Trend mitzugestalten.

Data Scientists sollten sich in Zukunft intensiv mit generativen Modellen auseinandersetzen.

Bei der Anwendung von Künstlicher Intelligenz (KI) sind fehlende Daten immer noch eine Kernherausforderung und die Kosten zur Beschaffung ein kritischer Faktor für die Wirtschaftlichkeit vieler Geschäftsmodelle. Synthetische, also künstlich generierte Daten bilden einen Ausweg. Ein vielversprechender Lösungsansatz besteht darin, für die Datensynthese selbst ein KI-Modell einzusetzen.

Bezug von synthetischen Forschungsdaten zu Datenschutz und Recht

Synthetische Daten gelten in der Regel nicht als personenbezogene Daten, sofern keine Re‑Identifikation möglich ist.

Dennoch sind Qualitätsprüfungen, Risikobewertungen und Transparenz über die Erzeugungsmethoden essenziell, um Datenschutzanforderungen wie die DSGVO zuverlässig zu erfüllen.

Literatur

Hecker, D., Voss, A., Paaß, G. et al. Big Data 2.0 – mit synthetischen Daten KI-Systeme stärken. Wirtsch Inform Manag 15, 161–167 (2023). https://doi.org/10.1365/s35764-022-00437-z

Moazemi S, Adams T, Ng HG, Kühnel L, Schneider J, Näher AF, ... Fröhlich H. NFDI4Health workflow and service for synthetic data generation, assessment and risk management. Stud Health Technol Inform. 2024;317:21–29. doi:10.3233/SHTI240834

Synthetische Daten

Inhaltsverzeichnis

Zweck von synthetischen Forschungsdaten

Erzeugung von synthetischen Forschungsdaten

Fallbeispiele (Use Cases)

Vorteile

NFDI4Health und synthetische Daten

Herausforderungen

Bezug von synthetischen Forschungsdaten zu Datenschutz und Recht

Literatur

Navigationsmenü

Synthetische Daten

Zweck von synthetischen Forschungsdaten

Erzeugung von synthetischen Forschungsdaten

Fallbeispiele (Use Cases)

Vorteile

NFDI4Health und synthetische Daten

Herausforderungen

Bezug von synthetischen Forschungsdaten zu Datenschutz und Recht

Literatur

Navigationsmenü

Suche