Gesichter, Kreditkarten, Geburtsurkunden – Wie private Daten in KI-Trainingssets landen konnten (und niemand es stoppte)
KI frisst alles – auch Ihre persönlichen Daten
Was passiert mit den Daten, die wir arglos im Internet hochladen? Forscher haben nun gezeigt, dass die Antwort erschreckender ist als viele dachten: Sie landen im Training von Künstlicher Intelligenz – ohne Zustimmung, ohne Kontrolle und oft ohne Schutz. Der Datensatz DataComp CommonPool, eine gigantische Sammlung von über 12 Milliarden Bild-Text-Paaren für KI-Modelle, enthält laut einer neuen Studie massiv private und sensible Informationen.
Dazu gehören: Gesichter, Gesundheitsdaten, Kreditkartenbilder, Bewerbungsunterlagen – sogar Kinderfotos und Geburtsurkunden. Die Forscher fanden diese Inhalte in nur 0,1 % des Datensatzes. Hochgerechnet geht es also um hundertausende bis Millionen identifizierbare Fälle, die längst in KI-Systemen wie Bildgeneratoren stecken. Und das Schlimmste: Der Schaden ist schon da – Rückgängig machen? Fast unmöglich.
Öffentlich zugänglich ist nicht gleichbedeutend mit erlaubt
Die Daten in CommonPool stammen aus frei zugänglichen Websites, die durch automatisierte Web-Scraper abgegrast wurden – teilweise seit 2014. Die Ersteller des Datensatzes behaupten, es sei nur für die Forschung gedacht, aber die Lizenz verbietet kommerzielle Nutzung nicht. Das öffnet Tür und Tor für Firmen, die ihre KI mit diesen Daten füttern – möglicherweise auch mit Ihren persönlichen Daten.
Viele Menschen haben ihre Inhalte in gutem Glauben online gestellt, etwa in Bewerbungsportalen oder Familienblogs. Sie haben nicht damit gerechnet, dass ein KI-Modell später ihre Dokumente analysiert, Gesichter erkennt oder Wohnorte mit Gesundheitsdaten verknüpft. Und genau das ist das Kernproblem: Das Internet ist kein Selbstbedienungsladen für KI.
Filter, die nicht funktionieren – und ein Gesetz, das hinterherhinkt
Die Betreiber von CommonPool haben angeblich Schutzmaßnahmen eingebaut – etwa Gesichtserkennung und Unkenntlichmachung. Die Realität: Die Algorithmen machen eben nicht alle Gesichter unkenntlich. E-Mails, Ausweisnummern, Adressen? Ebenfalls kaum gefiltert. Warum? Weil das technisch schwer ist – so sagen es selbst die Forscher. Doch ist das eine Entschuldigung?
Selbst wenn Betroffene wüssten, dass ihre Daten verwendet wurden – was unwahrscheinlich ist – und sie deren Löschung verlangen: Das trainierte KI-Modell bleibt bestehen. Es lernt aus den Daten – und dieses Wissen lässt sich nicht einfach „löschen“. Der Gesetzgeber? Reagiert langsam. In Europa gibt es zwar die DSGVO, in den USA lokale Datenschutzgesetze – aber viele Datensatz-Ersteller fallen durchs Raster, da sie klein oder forschungsorientiert sind.
Was bedeutet “öffentlich”? Ein Denkfehler mit Folgen
Ein zentraler Irrtum in der KI-Community: Was im Netz öffentlich sichtbar ist, ist frei nutzbar. Doch das ist ein gefährlicher Trugschluss. Wie die Studie zeigt, umfasst „öffentlich zugänglich“ oft extrem private Inhalte, die nie für solche Zwecke gedacht waren – von der Geburtsurkunde bis zur privaten Familienseite. Die Forscher fordern nun ein Umdenken in der Branche. Und zwar dringend.
Fahrlässig – und brandgefährlich.
Die KI-Welt denkt oft: „Was online ist, gehört allen.“ Falsch gedacht! Wenn mein Gesicht oder meine Kreditkartennummer in einem KI-Modell auftaucht, dann ist das keine technische Panne – es ist ein klarer Verstoß gegen meine Rechte.
Dass riesige Datensätze voller personenbezogener Informationen online kursieren, während Gesetzgeber und Aufsichtsbehörden im Tiefschlaf sind, ist ein digitaler Skandal. Und das Argument „Filtern ist schwer“? Klingt wie: „Ich fahre zu schnell, weil mein Auto keine Bremse hat.“
Wir sagen: Solche Datensätze gehören sofort vom Netz genommen. Wer private Daten nutzt, ohne zu fragen, der sollte nicht forschen – sondern zur Rechenschaft gezogen werden. Punkt.
Du möchtest sicherstellen, dass Deine persönlichen Daten geschützt sind? Buche jetzt eine Beratung bei unseren Experten für Datenschutzrecht!