Urheberrechtliche Zulässigkeit von KI-Trainigsdaten

Bekannt dürfte mittlerweile sein, dass unterschiedliche und meist frei zugängliche Daten zu Trainingszwecken einer künstlichen Intereleganz (kurz: KI) verwendet werden. Das sogenannte Text- und Data Mining spielen eine entscheidende Rolle bei der Entwicklung und Optimierung von KI-Systemen. Dabei handelt es sich um Verfahren, die das Internet nach Datensätzen durchsuchen und diese analysieren.

Am 27.09.2024 hat als erstes deutsche Gericht das LG Hamburg (Urteil vom 27.09.2024 – 310 O 227/23) zusammenfassend entschieden, dass eine Datenbank, welche öffentlich und kostenfrei einen Datensatz im Internet zur Verfügung stellt, zum Trainieren von KI-Systemen genutzt werden kann. Das Urheberrechtsgesetz gestattet in § 44b und § 60d UrhG das Vervielfältigen von rechtmäßig zugänglichen Werken für Text- und Data-Mining-Zwecke. Der Begriff „Text und Data Mining“ wird in § 44b Abs. 1 UrhG rechtlich definiert und bezieht sich auf

„die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.“

Vervielfältigung kann nicht auf § 44b UrhG gestützt werden

Zu beachten ist jedoch, dass eine Vervielfältigung jedoch dann unzulässig ist, wenn der Rechteinhaber einen Nutzungsvorbehalt gemäß § 44b Abs. 3 UrhG erklärt hat, welcher bei online zugänglichen Werken in „maschinenlesbarer Form“ erfolgen müsse. Hervorzuheben ist in diesem Kontext, dass das LG Hamburg angedeutet hat, dass das Erfordernis der „Maschinenlesbarkeit“ auch dann erfüllt sei, wenn der Vorbehalt in natürlicher Sprache abgefasst sei. Grund hierfür ist, dass KI-Anwendungen selbst mittlerweile natürliche Sprache verstehen und interpretieren können.

Ausblick

Gegenstand der Entscheidung des Landgerichts Hamburg war lediglich eine frühe Phase des KI-Trainings, konkret die Erstellung eines Trainingsdatensatzes. Daher lässt sich diese Entscheidung nicht auf spätere Phasen des KI-Trainings übertragen. Ungeklärt ist insbesondere die Frage, wie die Nutzung des Trainingsdatensatzes unmittelbar für das KI-Training urheberrechtlich zu bewerten ist und ob die dabei entstehenden Vervielfältigungen geschützter Inhalte durch die Text- und Data Mining-Schranken des § 44b UrhG erlaubt sind. Darüber hinaus ist weiterhin offen, was korrekt unter dem Wortlaut der „Maschinenlesbarkeit“ zu verstehen ist.

Aufgrund der zentralen urheberrechtlichen Fragen des Rechtsstreits ist jedoch davon auszugehen, dass das Verfahren in weitere Instanzen, möglicherweise bis zum Bundesgerichtshof und zum Europäischen Gerichtshof, getragen wird. Bis dahin sollten beim Training von KI-Systemen bzw. Modulen die Nutzungsvorbehalte auf Websites beachtet werden, selbst wenn diese in natürlicher Sprache abgefasst sind.

Domenic Ipta Rechtsanwalt