Synthetische Daten: Unterschied zwischen den Versionen
Keine Bearbeitungszusammenfassung |
Keine Bearbeitungszusammenfassung |
||
| Zeile 44: | Zeile 44: | ||
Dennoch sind Qualitätsprüfungen, Risikobewertungen und Transparenz über die Erzeugungsmethoden essenziell, um Datenschutzanforderungen wie die DSGVO zuverlässig zu erfüllen. | Dennoch sind Qualitätsprüfungen, Risikobewertungen und Transparenz über die Erzeugungsmethoden essenziell, um Datenschutzanforderungen wie die DSGVO zuverlässig zu erfüllen. | ||
== Literatur == | |||
Hecker, D., Voss, A., Paaß, G. ''et al.'' Big Data 2.0 – mit synthetischen Daten KI-Systeme stärken. ''Wirtsch Inform Manag'' '''15''', 161–167 (2023). https://doi.org/10.1365/s35764-022-00437-z | |||
Version vom 24. Juni 2026, 10:59 Uhr
Synthetische Daten sind künstlich generierte Datensätze, die die statistischen Eigenschaften, Strukturen und Muster realer Daten nachbilden, ohne dabei personenbezogene oder vertrauliche Informationen zu enthalten. Diese Art von Forschungsdaten werden mithilfe mathematischer Modelle, Simulationsverfahren oder generativer KI‑Methoden erzeugt, die charakteristische Merkmale der Ausgangsdaten erlernen und daraus realitätsnahe, aber vollständig künstliche Beispiele generieren.
Synthetische Daten sind also Datensätze, die nicht durch reale Messungen oder Erhebungen entstehen, sondern durch algorithmische Verfahren erzeugt werden.
Zweck von synthetischen Forschungsdaten
Synthetische Daten werden eingesetzt, um:
- Datenschutz zu gewährleisten, insbesondere bei sensiblen personenbezogenen Daten.
- Forschung und Entwicklung zu ermöglichen, wenn reale Daten nicht verfügbar, eingeschränkt nutzbar oder stark reguliert sind.
- KI‑Modelle zu trainieren, zu testen oder zu validieren, ohne auf große reale Datensätze angewiesen zu sein.
- Datenzugang zu erleichtern, z. B. für Open‑Data‑Projekte oder kollaborative Forschung.
Erzeugung von synthetischen Forschungsdaten
- Statistische Modelle (Regressionsmodelle, Daten basierend auf geschätzten Verteilungen und Abhängigkeiten)
- Simulationsmodelle (agentenbasierte Modelle)
- Generative KI‑Modelle (erlernte komplexe Muster)
Fallbeispiele (Use Cases)
- Gesundheitsforschung (datenschutzkonforme Patientendatensätze)
- Mobilitätsforschung (Simulation von Verkehrsströmen)
- Finanzwesen (Generierung von Transaktionsdaten für Risikoanalysen)
- Software‑Testing (Testdaten für Systeme, ohne reale Kundendaten)
- KI‑Training (Ergänzung und / oder Ersatz realer Trainingsdaten)
Vorteile
- Hoher Datenschutz: Keine Rückverfolgbarkeit zu realen Personen
- Flexibilität: Daten können in beliebiger Menge erzeugt werden
- Kostenreduktion: Weniger Aufwand für Datenerhebung und -freigabe
- Verbesserte Datenqualität: Möglichkeit, seltene Ereignisse gezielt zu modellieren
- Förderung von Open Science
Herausforderungen
- Modellabhängigkeit: Qualität hängt stark vom verwendeten Erzeugungsmodell ab
- Bias‑Reproduktion: Verzerrungen der Originaldaten können übernommen oder verstärkt werden
- Validierungsaufwand: Synthetische Daten müssen sorgfältig geprüft werden
- Begrenzte Realitätsnähe: Extrem komplexe Zusammenhänge lassen sich nicht immer vollständig abbilden
Bezug von synthetischen Forschungsdaten zu Datenschutz und Recht
Synthetische Daten gelten in der Regel nicht als personenbezogene Daten, sofern keine Re‑Identifikation möglich ist.
Dennoch sind Qualitätsprüfungen, Risikobewertungen und Transparenz über die Erzeugungsmethoden essenziell, um Datenschutzanforderungen wie die DSGVO zuverlässig zu erfüllen.
Literatur
Hecker, D., Voss, A., Paaß, G. et al. Big Data 2.0 – mit synthetischen Daten KI-Systeme stärken. Wirtsch Inform Manag 15, 161–167 (2023). https://doi.org/10.1365/s35764-022-00437-z