Künstliche Intelligenz (KI) und Machine Learning (ML) Rechtliche Rahmenbedingungen bei der Nutzung von Trainingsdaten

Für das Training einer künstlichen Intelligenz (KI) oder Artificial Intelligence (AI) und damit dem Machine Learning (ML) oder maschinellen Lernen ist das Vorhandensein von Trainingsdaten grundlegend. Diese Trainingsdaten werden – unabhängig von allen Unterschieden bei den Begrifflichkeiten im Detail – auch als Dataset oder Korpus bezeichnet und unterliegen oftmals einem rechtlichen Schutz, sodass durch das Training Rechtsverstöße entstehen können. Welche denkbaren Rechtsverstöße sind dies und in welchem Umfang ist eine Nutzung zulässig?

Schutz von Trainingsdaten, Dataset und Korpus

Es besteht gegenwärtig kein spezielles Gesetzbuch für künstliche Intelligenzen. Zur Beurteilung, ob durch die Nutzung von Trainingsdaten zum Training einer künstlichen Intelligenz im Rahmen von Machine Learning ein Rechtsverstoß entstehen kann, ist ein Blick in verschiedene Gesetze und Rechtsgebiete zu werfen. Es ist dabei insbesondere zu denken an:

Die Trainingsdaten sind urheberrechtlich geschützt, sodass die Nutzung gegen das Urheberrechtsgesetz (UrhG) verstoßen kann. Die Folge kann sein, dass neben Schadensersatzansprüchen z. B. auch Vernichtungsansprüche und sogar gerichtliche Eilmaßnahmen einer Gegenseite zur Dursuchung der eigenen Geschäftsräume ohne vorherige eigene Anhörung möglich sind.
Die Trainingsdaten enthalten personenbezogene Daten, sodass bei der Verarbeitung die DSGVO und etwaige sonstige Datenschutzvorschriften zu beachten sind.
Die Trainingsdaten unterliegen einer vertraglichen Geheimhaltungsvereinbarung, ggf. mit Vertragsstrafenregelung, sodass durch das Training oder die spätere Verbreitung der trainierten KI Schadensersatzansprüche und ggf. Vertragsstrafen entstehen bzw. verwirkt werden können.

Trainingsdaten und Urheberrecht

Urheberrechtlicher Schutz

Das Urheberrecht kann unter verschiedenen Aspekten betroffen sein. Dies hängt davon ab, welcher Natur die Trainingsdaten sind. Je nachdem, ob es sich bei den Trainingsdaten um Texte, Bilder, Musik, Videos, Software, Datenbanken oder eines der verschiedenen anderen Schutzrechte handelt, sind unterschiedliche Abschnitte des Urheberrechtsgesetzes (UrhG) zu beachten.

So können z. B. durch die Erhebung von Daten über ein Screen-Scraping, Web-Scraping oder über Web-Crawler insbesondere die Rechte Dritter als Datenbankhersteller verletzt werden. Siehe hierzu auch unseren gesonderten Artikel zur Zulässigkeit von Screen-Scraping / Web-Scraping und Web-Crawlern.

Sollen z. B. Texte von Webseiten Dritter für das Training der eigenen KI verwendet werden, kann gegen das Urheberrecht der jeweiligen Textverfasser verstoßen werden sowie gegen ein Datenbankrecht des Webseitenbetreibers, das aufgrund seiner Investitionen in die Auswahl und strukturierte Zusammenstellung der einzelnen Inhalte entstanden sein kann. Sollen hingegen Bilder für ein maschinelles Lernen verwendet werden, können die Urheberrechte (oder verwandten Leistungsschutzrechte) des jeweiligen Fotografen zu berücksichtigen sein, der in aller Regel keine allgemeine Lizenz (oder kein allgemeines Nutzungsrecht) für die Nutzung der Bilder zum Zwecke des maschinellen Lernens erteilt hat.

Ausnahmen vom urheberrechtlichen Schutz

Das Urheberrechtsgesetz sieht jedoch auch Schranken vor. Obwohl also fremde Inhalte urheberrechtlich geschützt sind, dürfen sie ohne Erlaubnis des Rechteinhabers für eigene Zwecke genutzt werden. Solche sog. Schranken des Urheberrechts bestehen für verschiedene Spezialbereiche.

Im Hinblick auf eine fremde Datenbank dürfen z. B. unwesentliche Inhalte nicht systematisch und nicht wiederholt ausgewertet werden (siehe Details hierzu in unserem Beitrag zur Zulässigkeit von Screen-Scraping / Web-Scraping und Web-Crawlern).

Erst im März ist zudem eine neue urheberrechtliche Schrank zum „Text und Data Mining“ (TDM) eingeführt worden. Die betreffende Regelung findet sich in § 60d UrhG. Danach ist es ausdrücklich gestattet, eine Vielzahl von Werken als Ursprungsmaterial automatisiert auszuwerten und zwar auch systematisch und mit dem ausdrücklichen Ziel, daraus einen Korpus (also ein Dataset) zu erstellen. Allerdings gilt diese Regelung ausdrücklich nur für den rein wissenschaftlichen Bereich. Der praktische Nutzen der Norm ist daher sehr begrenzt. In § 60c UrhG findet sich eine ebenfalls relevante Regelung, jedoch ebenfalls für den wissenschaftlichen Bereich.

Die Regelungen der §§ 60c und 60d UrhG lassen jedoch erkennen, dass die Vornahme des Text und Data Mining und die Bildung eines Korpus zu kommerziellen Zwecken bedenklich ist und streng anhand anderer in Frage kommender Schranken ausgerichtet werden muss, um zulässig zu sein.

Aktuell bestehen Hoffnungen, dass durch eine anstehende, größere urheberrechtliche Reform weitergehende, pauschale Freigaben auch für den kommerziellen Bereich erfolgen werden.

Unabhängig von der Berufung auf gesetzliche Schrankenbestimmungen zur Nutzung von Trainingsdaten kann auch darauf geachtet werden, nur Inhalte von solchen Dritten zu verwenden, die eine Nutzung für ein maschinelles Lernen vertraglich gestatten. So kommt es z. B. in Betracht, Inhalte näher zu prüfen, die unter einer Lizenz aus der „Creative Commons“-Lizenzfamilie stehen.

Trainingsdaten und Datenschutz

Wenn die Trainingsdaten personenbezogene Daten enthalten, ist das Datenschutzrecht (in der Regel in Form der DSGVO) zu beachten. Die Nutzung der Trainingsdaten darf dann nur bei Vorliegen einer Rechtsgrundlage erfolgen. Der Ausweg, zunächst eine Anonymisierung durchzuführen, ist zwar denkbar. Allerdings kann bereits der Vorgang, aus personenbezogenen Daten anonymisierte Daten zu erzeugen, einer Rechtsgrundlage nach der DSGVO bedürfen. Zudem sind anonymisierte Daten oftmals keine tauglichen Trainingsdaten mehr, weil der Personenbezug oder zumindest die Verknüpfung bestimmter Teildaten untereinander für das maschinelle Lernen erforderlich ist.

Zum Thema der künstlichen Intelligenz und der Beachtung des Datenschutzrechts siehe bereits unsere ausführlichen Beitrag hier.

Trainingsdaten und Geheimhaltungsvereinbarung

Vollkommen unabhängig von den gesetzlichen Regelungen kann die Nutzung von Daten zum Zwecke des Trainings einer KI aufgrund vertraglicher Regelungen unzulässig sein.

Stellt z. B. ein Zulieferunternehmen fest, dass es über einen interessanten Datenschatz verfügt und möchte hieraus eine künstliche Intelligenz trainieren, könnten Geheimhaltungsvereinbarungen oder NDAs mit den Lieferanten oder sonstigen Partnern zu beachten sein. In solchen Geheimhaltungsvereinbarungen oder NDAs können neben dem Verbot der Verwertung der Daten zu eigenen Zwecken und dem Verbot der Weitergabe der Daten empfindliche Vertragsstrafen geregelt sein. Bereits durch ein maschinelles Lernen kann also gegen eine Geheimhaltungsvereinbarung oder ein NDA verstoßen werden und insbesondere bei der Weitergabe einer fertig trainierten KI an Dritte. Dabei ist zu beachten, dass ein „Rückrechnen“ auf die Ausgangsdaten (oder Teilen davon) aus der fertig trainierten KI durchaus denkbar ist. Details hängen jedoch sehr stark von der jeweiligen KI ab. Der pauschale Ansatz, dass nur eine fertig trainierte KI weitergegeben werde und die Ausgangsdaten daher Dritten nicht offengelegt würden, ist somit nicht immer belastbar.

Fazit

Sehr viele interessante Ausgangsdaten, die zum Zwecke des Trainings einer künstlichen Intelligenz im Rahmen maschinellen Lernens genutzt werden sollen, unterliegen rechtlichen Rahmenbedingungen. Durch das schlichte Training oder die Weitergabe einer fertig trainierten, künstlichen Intelligenz können daher Rechtsverstöße entstehen, die neben Unterlassungsansprüchen auch Schadensersatzansprüche und sogar gerichtliche Eilverfahren ohne eigene Anhörung zur Sicherstellung von Unterlagen unter Einbindung von Gerichtsvollziehern zur Folge haben können.

Werden jedoch einige rechtliche Rahmenbedingungen beachtet, ist ein maschinelles Lernen ohne rechtliche Risiken zulässig.

Stand: 2. Feb. 2021