Künstliche Intelligenz (KI), Algorithmus, Daten und DSGVO

Was gilt hinsichtlich der Daten einer Künstlichen Intelligenz?

Vieles im Bereich „Künstliche Intelligenz“ (KI) ist rechtlich noch ungeklärt. Aktuell von besonderem Interesse ist, was hinsichtlich der Daten gilt, die für das Training einer Künstlichen Intelligenz verwendet werden und was rechtlich hinsichtlich der fertig trainierten Künstlichen Intelligenz gilt, in der die Trainingsdaten in irgendeiner Form enthalten sind (z. B. dem Algorithmus).

Hinsichtlich der Daten ist zunächst zu unterscheiden zwischen den Trainingsdaten und den Ergebnisdaten. Trainingsdaten im vorstehenden Sinne sind diejenigen Daten, mit denen die KI trainiert wird. Ergebnisdaten im vorstehenden Sinne ist die fertig trainierte KI mit ihrem trainierten Datenbestand. Je nach genauer Ausgestaltung der KI-Anwendung können diese Daten sehr unterschiedlich sein, oder manchmal auch gar nicht vorhanden sein.

Trainingsdaten

Trainingsdaten sind also diejenigen Daten, mit der „die KI gefüttert“ wird. Bei der rechtlichen Beurteilung ergeben sich zugleich Überschneidungen mit dem Bereich „Big Data“, wobei es sich dabei um ein „Buzzword“ handelt, das rechtlich ebenso wenig präzise umrissen ist.

Es ist sodann weiter zu unterscheiden, um welche Art von Trainingsdaten es sich handelt:

Nicht-personenbezogene Daten

Wenn keine personenbezogenen Daten vorliegen, ist insbesondere zu prüfen, ob durch die Nutzung der Daten gegen vertragliche oder gesetzliche Geheimhaltungspflichten verstoßen wird, z. B. weil die Daten einer vertraglichen Geheimhaltungsvereinbarung (NDA) unterfallen, oder weil die Daten z. B. der Verschwiegenheitspflicht eines Arztes oder sonstigen Berufsgeheimnisträgers unterliegen. Darüber hinaus kann zu prüfen sein, ob sonstige vertragliche Verpflichtungen hinsichtlich der Daten bestehen, wobei sich solche Pflichten auch konkludent als vertragliche Nebenpflicht ergeben können, z. B. dann, wenn ein Dienstleister Daten von einem Kunden im Rahmen eines Servicevertrags erhält. Auch ein sogar als Straftatbestand ausgestalteter Verstoß gegen das Geschäftsgeheimnisschutzgesetz (GeschGehG) wegen unberechtigter Erlangung, Offenlegung oder Nutzung der Daten kommt in Betracht. Weiter sind Regelungen aus dem Bereich der E-Privacy-Richtlinie und der aktuell (allerdings stockend) im europäischen Normgebungsverfahren befindlichen E-Privacy-Verordnung zu beachten. Nach dem E-Privacy-Recht ist es u. a. maßgeblich, wie die Daten oder Informationen erlangt wurden, insbesondere ob sie unberechtigt aus einem Endgerät erhoben wurden.

Weitere rechtliche Rahmenbedingungen hinsichtlich von bloßen Daten wurden bereits in verschiedenen Veranstaltungen unseres Forums Digitalisierungsrecht & Industrie 4.0 besprochen und werden dort regelmäßig unter Betrachtung neuer Gesetze und Entscheidungen thematisiert.

Personenbezogene Daten

Liegen personenbezogene Daten vor, ist das Datenschutzrecht, insbesondere die DSGVO, zu berücksichtigen. Dann muss für die Verarbeitung der Daten zu Zwecken des KI-Trainings eine Rechtsgrundlage gefunden werden. Zwar kommt eine Interessenabwägung als Rechtsgrundlage in Betracht. Allerdings setzt dies in der Regel eine Betrachtung des Einzelfalles jedes Betroffenen voraus. So kann das Ergebnis der Interessenabwägung bei einem betroffenen Kind anders ausfallen als bei einem Erwachsenen. Darüber hinaus kommt die Interessenabwägung als Rechtsgrundlage nicht in Betracht, wenn Gesundheitsdaten oder sonstige besondere Kategorien personenbezogener Daten betroffen sind.

Eine Einwilligung ist rechtlich stets eine Möglichkeit. Allerdings ergeben sich bei der praktischen Umsetzung in der Regel erhebliche Probleme. Zum einen muss jeder Betroffene ausreichend informiert und aufgeklärt worden sein, welche Datenverarbeitung erfolgt. Gerade bei KI-Systemen stellt dies ein besonderes Problem dar. Zudem ist eine datenschutzrechtliche Einwilligung jederzeit frei widerruflich. Dies bedeutet erhebliche Folgeprobleme, wenn die Daten bereits in das KI-System gegeben wurden und geklärt werden muss, ob und inwieweit Daten gelöscht werden müssen, weil sie von der Einwilligung betroffen sind.

Ein anderer Ansatz besteht darin, personenbezogene Daten zunächst zu abstrahieren und zu anonymisieren und die KI nur mit diesen Daten zu trainieren. Eine Variante dieser Methode ist es, personenbezogene Daten zunächst auf der Grundlage einer Einwilligung zu verarbeiten, im Laufe der Verarbeitung durch das KI-Training jedoch von einer Anonymisierung auszugehen, weil die einzelnen Trainingsdaten in der trainierten KI nicht mehr „erkennbar“ sind.

Hierbei stellt sich jedoch die rechtliche Frage, ob der Vorgang, personenbezogene Daten zu anonymisieren selbst eine Datenverarbeitung ist, die einer Rechtsgrundlage nach der DSGVO bedarf. Diese Frage kann und wird allgemein rechtlich noch vertieft diskutiert und von den Gerichten beurteilt werden. Nach den gegenwärtig Positionierungen des Bundesbeauftragten für den Datenschutz und die Informationsfreiheit (BfDI) sowie der bisherigen Artikel-29-Datenschutzgruppe ist die Frage zu bejahen. Das bloße Erzeugen von anonymisierten Daten aus personenbezogenen Daten stellt danach also eine Datenverarbeitung dar, die einer Rechtsgrundlage bedarf. Dies gilt auch dann, wenn anschließend ausschließlich mit den anonymisierten Daten weitergearbeitet wird.

Ergebnisdaten in der fertig trainierten KI

Die Beurteilung der Rechtslage hinsichtlich der Ergebnisdaten, also derjenigen Daten, die in der fertig trainierten KI enthalten sind, ist technisch sehr genau zu betrachten. Oftmals wird hier lediglich noch vom Algorithmus gesprochen. Unter dem Begriff „KI“ werden gegenwärtig aber viele verschiedene Techniken verstanden und der Begriff sehr lose verwendet.

In jedem Fall muss bewertet werden, inwieweit die Trainingsdaten in der fertig trainierten KI enthalten sind. Hier ist ein gesamtes Spektrum denkbar:

  • Am linken Ende des Spektrums steht eine einfachste KI (die eigentlich keine „echte KI“ darstellt). In dieser KI sind die Trainingsdaten vollständig in einer Datenbank hinterlegt und die KI greift bei zukünftigen Entscheidungsfindungen auf diese Datenbank zu.
  • Am rechten Ende des Spektrum steht eine KI, die aus Trainingsdaten Erkenntnisse abgeleitet hat und bei der lediglich ein abstraktes Ergebnis gespeichert ist (also ein Algorithmus).
In der erstgenannten Situation, also am linken Ende des Spektrums, sind die Trainingsdaten vollständig in der fertig trainierten KI vorhanden. Daher gelten für die KI dieselben rechtlichen Rahmenbedingungen in Bezug auf die Daten wie hinsichtlich der Trainingsdaten. In der zuletzt genannten Situation, also am rechten Ende des Spektrums, wurden die Trainingsdaten anonymisiert. Die KI unterliegt daher nicht (oder kaum) mehr den rechtlichen Rahmenbedingungen, die für die Trainingsdaten galten. Zwischen diesen beiden Positionen in dem Spektrum besteht eine Gemengelage und es kommt auf eine genauere Betrachtung an, welche Daten in welcher Form noch vorhanden sind; hierunter können insbesondere bestimmte Formen des „Machine Learning“ fallen.

Zu betonen ist jedoch, dass Spezialgesetze zu diesem Aspekt einer KI noch nicht vorhanden sind und auch noch keine gefestigte Rechtsprechung. Die Rechtslage ist der noch in der Entwicklung befindlich, sodass neben der Ermittlung der tatsächlichen Verhältnisse hinsichtlich der KI jeweils eine aktuelle Bewertung der Rechtslage erforderlich ist. So wird voraussichtlich insbesondere verschärft darüber diskutiert werden, inwieweit sich der Widerruf einer Einwilligung auf die fertig trainierte KI auswirkt. Dies vor allem, wenn es sich um Gesundheitsdaten handelt oder in irgendeiner Weise die inneren Sphären des Allgemeinen Persönlichkeitsrechts (namentlich die Privatsphäre und die Intimsphäre) betroffen ist.

Fazit

Auf die Daten, die im Rahmen Künstlicher Intelligenz verarbeitet werden, können die bisherigen Gesetze angewendet werden, auch wenn sie hierauf nicht speziell zugeschnitten sind. Hinsichtlich der Trainingsdaten kann die Rechtslage mit den bisherigen Gesetzen noch vergleichsweise gut beurteilt werden. Hinsichtlich der Daten in der fertig trainierten KI kommt es jedoch maßgeblich darauf an, wie die KI technisch genau ausgestaltet ist und in welcher Form die Trainingsdaten in ihr hinterlegt sind. Der allgemein gerne erfolgende Verweis darauf, dass es sich bei der KI um eine Blackbox handele und man selbst nicht mehr wisse, wie sich die KI trainiert habe und welche Daten genau vorliegen, ist nach der gegenwärtigen Rechtslage in dieser Pauschalität nicht zielführend. Mit dem oben dargestellten Bewertungsspektrum lassen sich jedoch auch in einer solchen Blackbox-Situation rechtliche Bewertungen vornehmen.

Die vorstehende Bewertung zu KI und Datenschutz stellt nur einen Teilaspekt der Rechtslage rund um Künstliche Intelligenz dar. So stellen sich auch im Datenschutzrecht weitergehende Fragen, z. B. im Hinblick auf die Rechtmäßigkeit, als Mensch von einer KI bewertet zu werden (vgl. Art. 22 DSGVO) oder im Hinblick auf die Frage, wie die erforderlichen datenschutzrechtlichen Informationen (vgl. Artt. 13, 14 DSGVO) erteilt werden können, wie mit Auskunftsbegehren umzugehen ist, ob eine Datenportabilität ermöglicht werden muss und wie eine erforderliche Datenschutz-Folgenabschätzung (DSFA) anzustellen ist. Hierbei ist auch zu berücksichtigen, dass eine fertig trainierte KI (oder der entstandene Algorithmus) als Geschäftsgeheimnis angesehen werden kann, über den man als Unternehmen zur Wahrung des Wettbewerbsvorteils keine Auskunft erteilen möchte und die KI (oder den Algorithmus) insbesondere nicht offenlegen möchte. Auf diese und weitere Fragen gehen wir gerne gesondert, z. B. im Rahmen unseres regelmäßig stattfindenden Forums Digitalisierungsrecht & Industrie 4.0, ein.