OpenAIs GPT-4: Verbesserte Leistung, gleiche Datenschutzprobleme?

Die Veröffentlichung von OpenAIs GPT-4 am 14. März wurde mit einem beispiellosen Hype begrüßt. Das Unternehmen behauptet, das Modell sei genauer, besser bei der Problemlösung und leistungsfähiger als das Vorgängermodell von OpenAI, GPT-3.

Aber hat OpenAI mit GPT-4 die mit GPT-3 verbundenen Risiken für die Privatsphäre und den Datenschutz gelöst? Können große Sprachmodelle (LLMs) mit strengen Datenschutzgesetzen wie der EU-Datenschutzgrundverordnung (GDPR) koexistieren?

Dieser Artikel befasst sich mit den Risiken für den Schutz der Privatsphäre und des Datenschutzes, die durch LLMs entstehen, und bezieht sich dabei speziell auf das GPT-4 und die Politik von OpenAI.

KI-Systeme und „Angriffe auf die Privatsphäre

Risiken für die Privatsphäre führen nicht immer zu materiellem Schaden oder Leid für den Einzelnen. Das Eindringen in die Privatsphäre kann zu weiterreichenden gesellschaftlichen Schäden führen. KI-Systeme wie GPT-4 bergen jedoch einige individuelle Risiken für die Privatsphäre.

Sehen wir uns zwei „Angriffe auf die Privatsphäre“ an, die bei KI-Systemen auftreten können.

Identifizierung von Einzelpersonen

Ein Risiko für die Privatsphäre besteht darin, dass ein böswilliger Akteur ein KI-System dazu veranlassen könnte, Ergebnisse zu erzeugen, die persönliche Daten aus dem Trainingssatz offenlegen. Dies wird manchmal als „Angriff auf die Mitgliedschaft“ bezeichnet.

Für öffentliche LLMs wie ChatGPT dürften die Folgen eines solchen Angriffs gering sein. Das Modell wird mit öffentlich zugänglichen Daten trainiert, so dass das Wissen, dass die Daten einer Person im Trainingssatz enthalten sind, nicht viel über diese Person aussagt.

In anderen Zusammenhängen ist die Gefahr jedoch größer, etwa wenn GPT-4 in ein privates KI-System integriert wird, das für besonders sensible Zwecke eingesetzt wird.

Wenn beispielsweise ein KI-System in einem klinischen Umfeld eingesetzt wird, besteht ein Risiko, wenn offengelegt wird, wessen Daten in das Training des Systems eingeflossen sind.

Model Inversion Attack

GPT-4 kann verwendet werden, um die Informationen, die ein Nutzer bereits über eine Person hat, zu erweitern. Dies wird manchmal als „Modellinversionsangriff“ bezeichnet.

OpenAIs
GPT-4 Technischer Bericht
stellt fest, dass „GPT-4 das Potenzial hat, zur Identifizierung von Personen verwendet zu werden, wenn es mit externen Daten ergänzt wird“. Das Unternehmen sagt jedoch, dass es mehrere Schritte unternommen hat, um dieses Risiko zu mindern, unter anderem:

Feinabstimmung von Modellen zur Abwehr von Angriffen auf die Privatsphäre.
Entfernung personenbezogener Daten aus den Schulungsdaten, „soweit dies möglich ist“.

Überwachung der Versuche der Nutzer, Personen zu identifizieren.
Untersagung solcher Versuche in den Nutzungsbedingungen der Software.

Anders als bei früheren KI-Modellen,
gibt OpenAI nur sehr wenige Informationen über GPT-4 heraus.
Das Unternehmen begründet diese Änderung der Politik mit dem „Wettbewerb“ und Sicherheitsbedenken. Daher ist es schwer zu sagen, wie wirksam diese Abhilfemaßnahmen sein werden.

Große Sprachmodelle und die GDPR: Eine Verbindung, die in der Hölle gemacht wurde?

KI-Systeme bergen nicht nur Risiken für den Schutz der Privatsphäre, sondern auch für die Einhaltung der Datenschutzbestimmungen.

Die „Grundsätze der Datenverarbeitung“ der DSGVO verlangen von Organisationen, personenbezogene Daten auf verantwortungsvolle Weise zu sammeln und zu nutzen. Aber diese Grundsätze stehen wohl im Widerspruch zu der massiven Datenerhebung, die für die Ausbildung eines LLM erforderlich ist.

Alle Grundsätze der DSGVO sind für KI relevant. Hier sind einige Beispiele dafür, wie die Grundsätze der Datenschutz-Grundverordnung mit der Entwicklung und Verwendung von LLM wie GPT-4 in Konflikt geraten könnten.

Rechtmäßigkeit, Fairness und Transparenz

Nach dem Grundsatz „Rechtmäßigkeit, Fairness und Transparenz“ müssen Organisationen personenbezogene Daten auf eine Weise verwenden, die:

Entspricht den gesetzlichen Bestimmungen.
Sie widerspricht nicht unnötig den vernünftigen Erwartungen der Menschen.
ist so klar und transparent wie möglich.

Der Grundsatz der Rechtmäßigkeit, Fairness und Transparenz bezieht sich auf die in der Datenschutz-Grundverordnung festgelegten Informationspflichten.

Die Menschen haben ein Recht darauf zu erfahren, was mit ihren Daten geschieht und wie sie ihre Datenschutzrechte ausüben können.
Gemäß Artikel 14 der Datenschutz-Grundverordnung müssen Organisationen normalerweise Personen benachrichtigen, wenn sie deren personenbezogene Daten von einer dritten Quelle erhalten haben.

Aufgrund der Art und Weise, wie personenbezogene Daten für die Ausbildung von LLM wie GPT-4 erhoben werden, ist es wohl fast unmöglich, die Transparenzverpflichtungen der DSGVO zu erfüllen.

Es gibt Ausnahmen von den Meldepflichten der Datenschutz-Grundverordnung – aber es ist schwer zu sagen, ob die Aktivitäten von OpenAI unter eine dieser Ausnahmen fallen würden.

Der Grundsatz der „Rechtmäßigkeit, Fairness und Transparenz“ steht auch im Zusammenhang mit den Bestimmungen der Datenschutz-Grundverordnung zur „Rechtsgrundlage“.

Organisationen müssen eine von sechs Rechtsgrundlagen für die Verarbeitung personenbezogener Daten haben. Dies ist der Fall, wenn eine Person ihre Einwilligung gegeben hat, wenn eine gesetzliche Verpflichtung besteht oder wenn die Verarbeitung im „berechtigten Interesse“ der Organisation erfolgt.

Die Datenschutzrichtlinie von OpenAI
listet mehrere Rechtsgrundlagen für die Verarbeitung in verschiedenen Kontexten auf.
Die Rechtsgrundlage von OpenAI für die Verwendung von Terabytes personenbezogener Daten zum Trainieren seiner KI-Modelle wird in der Richtlinie jedoch nicht genannt
.

Daher können wir nur spekulieren, welche Rechtsgrundlage für die KI-Trainingsaktivitäten von OpenAI gelten könnte.

Zweck Einschränkung

Der Grundsatz der „Zweckbindung“ verpflichtet Organisationen, personenbezogene Daten nur für „festgelegte, eindeutige und rechtmäßige Zwecke“ zu erfassen. Der Grundsatz schränkt auch die Verarbeitung personenbezogener Daten durch Organisationen für nicht damit zusammenhängende weitere Zwecke ein.

Die Zweckbindung ist ein Eckpfeiler des Datenschutzes.
Menschen stellen personenbezogene Daten in einem bestimmten Kontext zur Verfügung
(zum Beispiel beim Posten auf Reddit)
in der begründeten Erwartung, dass diese personenbezogenen Daten nicht für andere Zwecke verwendet werden
(z. B. für das Training eines KI-Systems).

Es gibt Ausnahmen von der allgemeinen Regel der „Zweckbindung“. So können Organisationen personenbezogene Daten zu Forschungszwecken oder für andere Zwecke im öffentlichen Interesse erheben, auch wenn die Daten ursprünglich für einen anderen Zweck bereitgestellt wurden.

Aber auch wenn eine Ausnahme gilt, müssen Organisationen alle möglichen Datenschutz- und Sicherheitsvorkehrungen treffen.

OpenAI könnte argumentieren, dass eine der Ausnahmen der DSGVO zur „Zweckbindung“ auf die Ausbildung des GPT-4 Anwendung findet. Andere, einschließlich der Datenschutzbehörden, könnten anderer Meinung sein.

Minimierung von Daten

Nach dem Grundsatz der Datenminimierung dürfen Organisationen nicht mehr personenbezogene Daten verwenden, als für einen bestimmten Zweck erforderlich sind.

Für die Ausbildung eines LLM werden große Mengen an Daten benötigt, darunter auch personenbezogene Daten. Wir wissen nicht, wie viele Daten für das Training von GPT-4 gesammelt wurden. Wir wissen jedoch viel mehr über den Vorgänger von GTP-4, GPT-3.

GPT-3 wurde auf rund 45 Terabyte Daten trainiert, die aus Büchern, Wikipedia-Artikeln und – vor allem – Daten aus dem offenen Internet bestehen. Wir können davon ausgehen, dass für das Training von GPT-4 noch mehr Daten benötigt wurden als für GPT-3.

Es ist schwer zu sagen, inwieweit die Ausbildungsdaten des GPT-4 „persönliche Daten“ sind. Aber natürlich wird ein großer Teil dieser Informationen aus persönlichen Daten bestehen. Es ist möglich, dass diese Daten nicht nach dem Grundsatz der Datenminimierung“ erhoben wurden.

Genauigkeit

Der Grundsatz der „Richtigkeit“ verlangt, dass personenbezogene Daten richtig und aktuell sind. Ungenaue personenbezogene Daten sollten so schnell wie möglich berichtigt werden. Die Genauigkeit ist ein wichtiges Thema für Texterstellungsmaschinen wie GPT-4.

LLMs neigen dazu, zu „halluzinieren“ (ungenaue Ergebnisse zu erzeugen). Manche Menschen Schätzung dass bis zu 20 % der Ausgaben von GPT-3 Halluzinationen waren. GPT-4 kann diese Zahl verbessern, beseitigt aber nicht die Halluzinationen.

Wenn ein
KI-Forscher
im vergangenen Jahr GPT-3 nach ihrer Person befragte, gab das Modell zahlreiche falsche Antworten, unter anderem, dass sie ein Model und eine Eishockeyspielerin sei.

Die Ergebnisse des GPT-4 werden wahrscheinlich ähnlich ungenaue personenbezogene Daten enthalten. Es gibt keine klare Möglichkeit für Einzelpersonen, auf diese Weise entstandene unrichtige personenbezogene Daten zu berichtigen,

Begrenzung der Speicherung

Nach dem Grundsatz der „Speicherbegrenzung“ dürfen Organisationen personenbezogene Daten nur so lange aufbewahren, wie sie für einen bestimmten Zweck benötigt werden.

Die begrenzte Speicherkapazität kann bei KI-Systemen ein Problem darstellen, da personenbezogene Daten, die in den Trainingssätzen enthalten sind, auf unbestimmte Zeit bestehen bleiben können.

A 2020
Bericht des Europäischen Parlaments
stellte fest, dass es „zweifellos ein Spannungsverhältnis zwischen der KI-gestützten Verarbeitung großer Mengen personenbezogener Daten und dem Grundsatz der Speicherbegrenzung“ gibt.

Personenbezogene Daten können länger gespeichert werden, wenn dies für Forschungs- oder Statistikzwecke erforderlich ist. Es ist jedoch nicht klar, dass die Verarbeitung durch OpenAI unter diese Ausnahme fällt.

Der Grundsatz der „Speicherbegrenzung“ ist mit dem in der DSGVO verankerten „Recht auf Löschung“ verknüpft. Im weiteren Verlauf des Artikels werden wir uns mit den Problemen befassen, die sich für KI-Unternehmen ergeben können, wenn sie Anfragen auf der Grundlage des Rechts auf Löschung erfüllen.

Integrität und Vertraulichkeit

Der Grundsatz der „Integrität und Vertraulichkeit“ der Datenschutz-Grundverordnung verlangt von Organisationen, angemessene technische und organisatorische Maßnahmen zu ergreifen, um die Sicherheit personenbezogener Daten zu gewährleisten.

Die Verwendung eines KI-Modells wie GPT-4 birgt Sicherheitsrisiken. OpenAI trainiert GPT-4 derzeit nicht auf Eingaben von Nutzern. Personenbezogene Daten, die beispielsweise heute in ChatGPT eingegeben werden, erscheinen daher morgen nicht mehr in den Ausgaben von ChatGPT.

Allerdings,
OpenAI kann auf persönliche Daten zugreifen, die in einige seiner KI-Programme eingegeben wurden.
Das Unternehmen nutzt diese Eingaben für die Entwicklung seiner Systeme und kann sie in Zukunft für Trainingssätze verwenden.

Daher empfiehlt das britische National Cyber Security Centre (NCSC)
empfohlen
keine sensiblen Daten (persönliche oder andere) in öffentliche LLMs wie ChatGPT einzugeben.

Es besteht auch das Risiko, dass GPT-4 für Cyberangriffe verwendet werden kann. Der Bericht von OpenAI über GPT-4 stellt fest, dass das Modell „für einige Teilaufgaben des Social Engineering“ nützlich sein kann, z. B. für die Erstellung von Phishing-E-Mails.

OpenAIs Datenschutzpraktiken

OpenAI wurde wegen der angeblichen Nichteinhaltung seiner Verpflichtungen im Rahmen der Datenschutz-Grundverordnung kritisiert. Sehen wir uns einige der Datenschutzfragen an, die für OpenAI als Organisation relevant sein könnten.

Rechte der betroffenen Personen

Die Datenschutzrichtlinie von OpenAI legt nahe, dass Nutzer beantragen können, dass OpenAI jedes der in der DSGVO festgelegten Rechte der betroffenen Personen unterstützt. Allerdings, die Ausübung der Rechte der betroffenen Person kann in manchen Fällen unmöglich sein.

Der KI-Forscher Miguel Luengo-Oroz
schlägt vor
dass ein neuronales Netzwerk wie GPT-4 keine Daten „vergessen“ kann, die in seinen Trainingssätzen vorhanden waren – es kann nur seinen Algorithmus anpassen, um Daten, die es als weniger nützlich oder relevant erachtet, aus der Prioritätenliste zu streichen.

Dies stellt ein Problem dar, da
es für ein Unternehmen wie OpenAI unmöglich sein kann, Anfragen gemäß dem „Recht auf Löschung“ der DSGVO nachzukommen.

Auch wenn neuronale Netze wie GPT-4 keine Trainingsdaten „enthalten“, können ihre Ausgaben dennoch persönliche Daten enthalten. Wenn jemand die Möglichkeit ausschließen möchte, dass seine persönlichen Daten in den Ergebnissen des Modells auftauchen, ist nicht klar, wie OpenAI diesen Wunsch erfüllen könnte.

Das Recht auf Löschung ist nicht absolut. Andere Rechte, wie das „Recht auf Zugang“, sind jedoch viel weiter gefasst. Auch könnte es für OpenAI undurchführbar sein, die Daten einer bestimmten Person aus einem großen und unstrukturierten Trainingssatz zu finden und bereitzustellen.

Vereinbarung zur Datenverarbeitung

Die Datenschutz-Grundverordnung verlangt von den für die Verarbeitung Verantwortlichen“, dass sie mit den Datenverarbeitern“, die in ihrem Auftrag personenbezogene Daten verarbeiten, einen Vertrag (eine so genannte Datenverarbeitungsvereinbarung“) abschließen.

Wenn ein Unternehmen personenbezogene Daten in ein Produkt eingibt, auf dem GPT-4 (oder ein anderes OpenAI-Modell) läuft, wäre OpenAI in der Regel ein Datenverarbeiter und müsste einen Datenverarbeitungsvertrag mit diesem Unternehmen abschließen.

Obwohl OpenAI bereits seit mehreren Jahren KI-Tools für europäische Unternehmen anbietet, hat es erst jetzt eine
Datenverarbeitungsabkommen
im März 2023. Außerdem scheint sich die Vereinbarung nur auf die API-Produkte von OpenAI und nicht auf ChatGPT zu beziehen.

Wer also personenbezogene Daten in ChatGPT eingibt, riskiert einen Verstoß gegen die Vorschriften der DSGVO über für die Verarbeitung Verantwortliche und Auftragsverarbeiter.

Internationale Datenübertragungen

Die Datenschutz-Grundverordnung legt strenge Regeln dafür fest, wie Unternehmen personenbezogene Daten aus der EU in „Drittländer“ wie die USA übertragen.

Vor der Übermittlung personenbezogener Daten an ein Unternehmen in einem Drittland müssen in der EU ansässige Organisationen eine der in der DSGVO vorgesehenen „internationalen Übermittlungsgarantien“ anwenden und sicherstellen, dass ausländische Geheimdienste keinen Zugriff auf die personenbezogenen Daten haben.

Derzeit herrscht große Unsicherheit in Bezug auf Datenübertragungen, da das oberste Gericht der EU entschieden hat, dass die internationalen Übermittlungsgarantien der DSGVO bei der Übermittlung personenbezogener Daten an in den USA ansässige Organisationen in bestimmten Fällen nicht gültig sind.

In der Datenschutzrichtlinie von OpenAI heißt es, dass die Nutzer „verstehen und anerkennen“, dass personenbezogene Daten in die USA übermittelt werden, wenn sie OpenAI-Produkte verwenden.

Das Unternehmen erklärt, dass es personenbezogene Daten nur „im Rahmen eines rechtsgültigen Übermittlungsverfahrens“ übermitteln wird. Allerdings, OpenAI gibt nicht an, auf welche der in der DSGVO vorgesehenen Datenübertragungsmechanismen es sich stützt.

Die jüngsten Regulierungsmaßnahmen im Rahmen der DSGVO deuten darauf hin, dass es möglicherweise keine praktikable Möglichkeit gibt, personenbezogene Daten an einige US-Unternehmen zu übermitteln, ohne gegen die EU-Vorschriften für die Datenübermittlung zu verstoßen.

Diese Probleme bei der Datenübermittlung haben dazu geführt, dass die EU-Aufsichtsbehörden erklärt haben, dass die Nutzung von Plattformen wie Google Analytics und Facebook Login gemäß der Datenschutzgrundverordnung illegal ist. Ähnliche Probleme könnten sich für OpenAI ergeben.

Wir hoffen, dass dieser Leitfaden hilfreich war. Wir danken Ihnen für die Lektüre und wünschen Ihnen viel Erfolg bei der Verbesserung der Datenschutzpraktiken in Ihrem Unternehmen! Bleiben Sie dran und lesen Sie weitere hilfreiche Artikel und Tipps, wie Sie Ihr Geschäft ausbauen und durch die Einhaltung von Datenschutzbestimmungen Vertrauen gewinnen können. Testen Sie die Datenschutzpraktiken Ihres Unternehmens,

HIER KLICKEN

und erhalten Sie jetzt Ihre sofortige Datenschutzbewertung!