Das InGef - Institut für angewandte Gesundheitsforschung Berlin - plant, im Rahmen eines Forschungsprojektes KI-basierte synthetische, identifikationsgeschützte Gesundheitsdaten zu generieren. Ziel ist es, Routinedaten der gesetzlichen Krankenversicherung in Deutschland durch geeignete Verfahren zu synthetisieren.
Die Förderung des Projekts mit dem langen Namen: „Künstliche Intelligenz am Forschungsdatenzentrum – Erforschung von Anonymisierungsmöglichkeiten und AI-readiness (KI-FDZ)“, hat das deutsche Bundesministerium für Gesundheit (BMG) übernommen, die datentechnische Umsetzung erfolgt gemeinsam mit Mostly AI. Außerdem beteiligt sind das Forschungsdatenzentrum Gesundheit (FDZ) am Bundesinstitut für Arzneimittel und (BfArM), die AG Medizininformatik des Berlin Institute of Health (BIH) an der Charité- Universitätsmedizin Berlin und das Fraunhofer-Institut für Digitale Medizin MEVIS.
Schutz der Privatsphäre von Patient*innen
KI-FDZ soll die Nutzung von Gesundheitsdaten zu Forschungszwecken in Deutschland nachhaltig verbessern. Ziel ist die Generierung synthetischer sowie über klassische Methoden anonymisierter Daten, die eine nachträgliche Re-Identifikation der Originaldaten verhindern und dabei gleichzeitig die Nutzbarkeit der Daten wahren. So kann die Privatsphäre des Individuums, insbesondere bei hochsensiblen Gesundheitsdaten, geschützt und der Datenschutz gewährleistet werden.
Synthetische Daten sind eine Art „künstliche“ Repräsentation eines Originaldatensatzes. Sie werden von einem Modell erstellt, das zunächst mithilfe der Originaldaten berechnet wird. Das Modell lernt, welche statistischen Zusammenhänge zwischen den Daten bestehen und überträgt diese dann auf 'erfundene' Daten (sog. synthetische Daten). So können Originaldatensätze verschlüsselt und geschützt werden. Bei KI-FDZ übernimmt MOstly AI diese Synthetisierung. Die Anwendung klassischer Anonymisierungsverfahren auf die Gesundheitsdaten erfolgt durch die AG Medizininformatik am BIH.
Pilotprojekt - Synthetische Daten als Grundlage für Forschung
„Der Bedarf an innovativen Lösungen für eine sichere Nutzung von Gesundheitsdaten für die Forschung ist groß“, erläutert Tobias Hann, CEO von Mostly AI. „Die mit unserer Plattform generierten Daten sollen durch die beteiligten Einrichtungen bezüglich ihrer Nutzbarkeit für wissenschaftliche Analysen und ihres Identifikationsschutzes untersucht werden. Durch das Projekt sollen die Möglichkeiten für eine sichere Datenbereitstellung für Forschende verbessert werden. Wir freuen uns auf die Zusammenarbeit mit dem Projektkonsortium und darauf, einen wertvollen Beitrag zu KI-FDZ zu leisten.“
Jochen Walker, Geschäftsführer des InGef, erklärt: „Bislang fehlt in Deutschland Evidenz, ob synthetische Krankenkassendaten als hochwertige Alternative zu anonymisierten Originaldaten eingesetzt werden können. Zentrale Herausforderung wird sein, die Sicherheit und den Schutz der Daten zu gewährleisten und gleichzeitig den ursprünglichen, relevanten Informationsgehalt zu erhalten. Dazu soll im Rahmen des Projektes auch untersucht werden, ob klassische Anonymisierungs- bzw. Synthetisierungsverfahren in Kombination mit der Nutzung der Open-Source Datenextraktionsplattform Conquery unter Wahrung der datenschutzrechtlichen Anforderung umsetzbar sind. Damit gehen wir der Frage nach, ob realitätsnahe Versorgungsforschung bei maximalem Datenschutz der Gesundheitsdaten gefördert werden kann.“