Gesichter, Kreditkarten, Geburtsurkunden – Wie private Daten in KI-Trainingssets landen konnten (und niemand es stoppte)

Veröffentlicht am: 07.August.2025Kategorien: Rechtliches, Tech & E-CommerceLesezeit: 3 Min.

Kilian Floß verfasst Blogartikel zu rechtlichen und tagesaktuellen Themen für den Love & Law Blog.

KI frisst alles – auch Ihre persönlichen Daten

Was passiert mit den Daten, die wir arglos im Internet hochladen? Forscher haben nun gezeigt, dass die Antwort erschreckender ist als viele dachten: Sie landen im Training von Künstlicher Intelligenz – ohne Zustimmung, ohne Kontrolle und oft ohne Schutz. Der Datensatz DataComp CommonPool, eine gigantische Sammlung von über 12 Milliarden Bild-Text-Paaren für KI-Modelle, enthält laut einer neuen Studie massiv private und sensible Informationen.

Dazu gehören: Gesichter, Gesundheitsdaten, Kreditkartenbilder, Bewerbungsunterlagen – sogar Kinderfotos und Geburtsurkunden. Die Forscher fanden diese Inhalte in nur 0,1 % des Datensatzes. Hochgerechnet geht es also um hundertausende bis Millionen identifizierbare Fälle, die längst in KI-Systemen wie Bildgeneratoren stecken. Und das Schlimmste: Der Schaden ist schon da – Rückgängig machen? Fast unmöglich.

Öffentlich zugänglich ist nicht gleichbedeutend mit erlaubt

Die Daten in CommonPool stammen aus frei zugänglichen Websites, die durch automatisierte Web-Scraper abgegrast wurden – teilweise seit 2014. Die Ersteller des Datensatzes behaupten, es sei nur für die Forschung gedacht, aber die Lizenz verbietet kommerzielle Nutzung nicht. Das öffnet Tür und Tor für Firmen, die ihre KI mit diesen Daten füttern – möglicherweise auch mit Ihren persönlichen Daten.

Viele Menschen haben ihre Inhalte in gutem Glauben online gestellt, etwa in Bewerbungsportalen oder Familienblogs. Sie haben nicht damit gerechnet, dass ein KI-Modell später ihre Dokumente analysiert, Gesichter erkennt oder Wohnorte mit Gesundheitsdaten verknüpft. Und genau das ist das Kernproblem: Das Internet ist kein Selbstbedienungsladen für KI.

Filter, die nicht funktionieren – und ein Gesetz, das hinterherhinkt

Die Betreiber von CommonPool haben angeblich Schutzmaßnahmen eingebaut – etwa Gesichtserkennung und Unkenntlichmachung. Die Realität: Die Algorithmen machen eben nicht alle Gesichter unkenntlich. E-Mails, Ausweisnummern, Adressen? Ebenfalls kaum gefiltert. Warum? Weil das technisch schwer ist – so sagen es selbst die Forscher. Doch ist das eine Entschuldigung?

Selbst wenn Betroffene wüssten, dass ihre Daten verwendet wurden – was unwahrscheinlich ist – und sie deren Löschung verlangen: Das trainierte KI-Modell bleibt bestehen. Es lernt aus den Daten – und dieses Wissen lässt sich nicht einfach „löschen“. Der Gesetzgeber? Reagiert langsam. In Europa gibt es zwar die DSGVO, in den USA lokale Datenschutzgesetze – aber viele Datensatz-Ersteller fallen durchs Raster, da sie klein oder forschungsorientiert sind.

Was bedeutet “öffentlich”? Ein Denkfehler mit Folgen

Ein zentraler Irrtum in der KI-Community: Was im Netz öffentlich sichtbar ist, ist frei nutzbar. Doch das ist ein gefährlicher Trugschluss. Wie die Studie zeigt, umfasst „öffentlich zugänglich“ oft extrem private Inhalte, die nie für solche Zwecke gedacht waren – von der Geburtsurkunde bis zur privaten Familienseite. Die Forscher fordern nun ein Umdenken in der Branche. Und zwar dringend.

Fahrlässig – und brandgefährlich.

Die KI-Welt denkt oft: „Was online ist, gehört allen.“ Falsch gedacht! Wenn mein Gesicht oder meine Kreditkartennummer in einem KI-Modell auftaucht, dann ist das keine technische Panne – es ist ein klarer Verstoß gegen meine Rechte.

Dass riesige Datensätze voller personenbezogener Informationen online kursieren, während Gesetzgeber und Aufsichtsbehörden im Tiefschlaf sind, ist ein digitaler Skandal. Und das Argument „Filtern ist schwer“? Klingt wie: „Ich fahre zu schnell, weil mein Auto keine Bremse hat.“

Wir sagen: Solche Datensätze gehören sofort vom Netz genommen. Wer private Daten nutzt, ohne zu fragen, der sollte nicht forschen – sondern zur Rechenschaft gezogen werden. Punkt.

Recht 24/7 ist Deutschlands große Online-Rechtsanwaltskanzlei

Als einzige Online-Kanzlei erhielt Recht 24/7 in den Jahren 2023, 2024, 2025 und 2026 zum vierten Mal in Folge das Focus Money Kundensiegel „Höchste Kundenzufriedenheit“. Die Online-Kanzlei Recht 24/7 wurde 2003 mit dem Slogan “Anwalt geht auch einfach” gegründet und hat seitdem mehr als 100.000 zufriedenen Mandanten in allen Rechtsfragen geholfen. Das belegt auch die Auszeichnung „Sehr hohes Kundenvertrauen“ der WirtschaftsWoche vom Oktober 2024.

In den Bereichen Markenanmeldungen und Gründungen hat die Kanzlei die meisten Anmeldungen in den Jahren 2022 und 2021 in Deutschland durchgeführt:

https://dev-recht24-7.de/dpma-markenanmeldung-mit-deutschlands-nummer-eins/.

Du möchtest sicherstellen, dass Deine persönlichen Daten geschützt sind? Buche jetzt eine Beratung bei unseren Experten für Datenschutzrecht!

zum Anwalt

Zum Festpreis 169 EURO (brutto)

Gesichter, Kreditkarten, Geburtsurkunden – Wie private Daten in KI-Trainingssets landen konnten (und niemand es stoppte)

KI frisst alles – auch Ihre persönlichen Daten

Öffentlich zugänglich ist nicht gleichbedeutend mit erlaubt

Filter, die nicht funktionieren – und ein Gesetz, das hinterherhinkt

Was bedeutet “öffentlich”? Ein Denkfehler mit Folgen

Fahrlässig – und brandgefährlich.

Recht 24/7 ist Deutschlands große Online-Rechtsanwaltskanzlei

Weitere Beiträge zum Thema

EuGH-Urteil zu Online-Casinos: Für viele Anbieter beginnt jetzt die heikle Phase

Drei Millionen Euro Schaden – Angestellter haftet persönlich

Wal “Timmy” vor Gericht: Warum Mitgefühl allein noch kein Recht auf Rettung schafft

17 Jahre ohne Führerschein unterwegs: Kontrolle auf der A3 endet für Autofahrer mit bitterem Erwachen

Helene Fischer gegen „Bild“: Dieses Urteil zeigt, wie teuer eine falsche Schlagzeile werden kann

Capri zieht die Reißleine: Wer Touristen bedrängt, zahlt jetzt kräftig