Fünf Erkenntnisse zu general purpose AI aus dem geleakten AI Act

Briefing

Anfang dieser Woche sind zwei Dokumente durchgesickert, die den neuesten Entwurf des EU-KI-Gesetzes enthalten sollen. Der endgültige Wortlaut ist "in Arbeit", seit das EU-Parlament und der EU-Rat am 9. Dezember 2023 ihre politische Einigung bekannt gegeben haben. Die letzte Version, die in Umlauf war, enthielt die Änderungen, die das Europäische Parlament am 14. Juni 2023 verabschiedet hatte: der erste Versuch, mit der Zeitenwende umzugehen, die sich aus dem Start des Chat GPT am 30. November 2022 ergeben hat.

Diese Änderungen wurden seinerzeit offensichtlich mit heißer Nadel gestrickt, um zu verhindern, dass eines der regulatorischen Vorzeigeprojekte der EU nicht von vornherein überholt ist. Parallel dazu gab es in den USA eine erste Welle von Klagen von Rechteinhabern, die verschiedene KI-Anbieter hauptsächlich wegen Urheberrechtsverletzungen aufgrund der angeblichen Verwendung ihrer Werke beim Training ihrer KI-Systeme verklagten. Eines der wichtigsten Argumente, die vorgebracht wurden, konzentrierte sich auf die urheberrechtliche Schrankenbestimmung für Text- und Data-Mining, die sich aus der Umsetzung der EU-Richtlinie 2019/790 vom 17. April 2019 über den digitalen Binnenmarkt ergibt. Gemäß Artikel 4 der Richtlinie ist die Nutzung urheberrechtlich geschützter Inhalte für Text- und Data-Mining-Zwecke zulässig, es sei denn, die Rechteinhaber haben diese nicht ausdrücklich in angemessener Weise, etwa mit maschinenlesbaren Mitteln im Fall von online veröffentlichten Inhalten, mit einem Nutzungsvorbehalt versehen haben. Die Rechteinhaber bezweifelten die Anwendbarkeit der Schrankenregelung und hatten Rechtsexperten mit der Erarbeitung und Publikation von Argumenten beauftragt, warum das Training von KI-Modellen nicht unter die Schranke für Text- und Data-Mining falle.

Der jetzt durchgesickerte Text soll nahezu final sein, eine Abstimmung darüber ist im Rat für den 2. Februar vorgesehen. Natürlich gibt es hier und da noch Lücken, die bei der Endredaktion geschlossen werden. Nichtsdestotrotz enthält er bedeutende Änderungen, die zeigen, dass viel Gehirnschmalz in ihn geflossen ist. Im Folgenden möchten wir einige Eindrücke über die Regulierung der "general purpose AI“, der allgemeinen künstlichen Intelligenz" ("GPAI") teilen, die im Mittelpunkt der öffentlichen Aufmerksamkeit stand:

1. GPAI-Modelle sind zumindest als AI mit begrenztem Risiko einzustufen

Der Logik einer risikobasierten Regulierung mit vier Bereichen folgend wurden die GPAI-Modelle nun in den dritten Korb eingeordnet, der Produkte mit begrenztem Risiko umfasst, die gemäß Artikel 52 besonderen Transparenzpflichten unterliegen. Mit dieser Einordnung ist die Kontroverse beendet, ob GPAI-Modelle grundsätzlich als hochriskant einzustufen sind oder nicht. Es wurde jedoch eine neue Unterkategorie eingefügt - "GPAI-Modelle mit systemischem Risiko". Es gibt zwei alternative Klassifizierungskriterien in Artikel 52a, die sich beide auf die "hohen Wirkungsmöglichkeiten des GPAI-Modells" konzentrieren. Eine solche Qualität muss evaluiert werden. Sie wird vermutet, wenn der kumulierte Rechenaufwand für das Training, gemessen in floating point operations, 10^25 übersteigt. Liebhaber des ordnungsgemäßen Verfahrens mögen in die Einzelheiten des in Artikel 52b festgelegten Verfahrens eintauchen, auf die wir hier nicht eingehen werden. GPAI-Modelle mit einem systematischen Risiko müssen weitere Verpflichtungen gemäß Artikel 52d erfüllen, die unter anderem darauf abzielen, diese Risiken zu ermitteln und zu mindern und einen angemessenen Schutz der Cybersicherheit zu gewährleisten.

2. Die Schranke für Text- und Data-Mining umfasst das Training von KI-Modellen

Obwohl das KI-Gesetz keine neuen Bestimmungen über Schranken des Urheberrechts enthalten wird, ist die Formulierung in Erwägungsgrund 60i in diesem Punkt glasklar: Die Nutzung von urheberrechtlich geschützten Inhalten erfordert die Zustimmung des Rechtsinhabers, sofern keine Schrankenbestimmung eingreift. Mit der Richtlinie 2019/790 wurde die Schranke für Text- und Data-Mining unter bestimmten Bedingungen eingeführt. Hiernach können sich Rechteinhaber vor allem das Recht einer Nutzung für Text- und Data-Mining vorbehalten. Wenn sie diesen Vorbehalt erklärt haben, müssen Anbieter von GPAI-Modellen deren Zustimmung einholen, um deren geschützte Inhalte für Text- und Data-Mining zu nutzen.

3. Dokumentieren Sie Ihr Training!

Alle GPAI-Modelle müssen die in Artikel 52c festgelegten Verpflichtungen erfüllen, die die vom EU-Parlament in den früheren Artikel 28b über Foundation Models eingeführten Konzepte aufgreifen, wie z. B. die in dessen Absatz 1 festgelegte Dokumentationspflicht. Dazu gehört die Dokumentation des Trainings- und Testprozesses des Modells. Die Mindestanforderungen sind in Anhang IXa näher spezifiziert und umfassen "Informationen über die für Training, Test und Validierung verwendeten Daten ... einschließlich Art und Herkunft der Daten und Kuratierungsmethoden (z.B. bereinigen, filtern etc.)" sowie "wie die Daten erhalten und ausgewählt wurden". Außerdem muss eine Urheberrecht Policy eingeführt werden, um sicherzustellen, dass von den Rechtsinhabern erklärte Vorbehalte in Bezug auf Text und Data Mining erkannt und eingehalten werden.

Als dieses Dokumentationskonzept zum ersten Mal aufkam, wurde argumentiert, dass so eine Zielscheibe auf dem Rücken der Entwickler von KI-Modellen geheftet wird. Der aktuelle Ansatz des KI Gesetzes, einerseits die Anwendbarkeit der Text- und Data-Mining Schranke zu bestätigen und andererseits Dokumentationspflichten einzuführen, scheint ein Kompromiss zu sein: KI-Modelle funktionieren nur, wenn sie trainiert wurden, und ein Teil des Trainingsmaterials ist urheberrechtlich geschützt. Wenn eine solche Nutzung - als Ausnahme vom Grundsatz der Maßgeblichkeit des Rechteinhabers - zulässig ist, soll die Einhaltung der Grenzen einer solchen Schranke überprüfbar sein. Das "Zielscheiben-Argument“ greift nur, wenn der Modellentwickler sein Modell nicht innerhalb der Grenzen der Schrankenregelung trainiert hat. Das Interesse der betroffenen Rechtsinhaber, sich gegen eine Verletzung ihrer Rechte zur Wehr zu setzen, sowie das Interesse der rechtskonformen Entwickler, auf fairen Märkten zu konkurrieren, sind jedoch schützenswert.

Es lohnt sich, einen kurzen Blick auf die Wirksamkeitsbestimmungen zu werfen: Der Standard für die Anwendung ist zwei Jahre nach Inkrafttreten, Artikel 85 (2), also vermutlich im Sommer 2026, sollte das KI-Gesetz in den nächsten Monaten vom scheidenden EU-Parlament final verabschiedet werden. Die GPAI-Vorschriften sind auf einer Überholspur, da Artikel 85 (3) ihre Anwendung innerhalb von 12 Monaten nach Inkrafttreten vorsieht. GPAI-Modelle, die zum Zeitpunkt des Inkrafttretens des AI-Gesetzes bereits auf dem Markt sind, erhalten eine zweijährige Frist, um die Anforderungen zu erfüllen. Es wird interessant sein zu sehen, wie die Dokumentation der in der Vergangenheit verwendeten Trainingsmaterialien realisiert wird. Die Schrankenregelung für Text- und Data-Mining scheint die Anfertigung dauerhafter Kopien davon nicht zuzulassen ("dürfen so lange aufbewahrt werden, wie es für die Zwecke des Text und Data Mining notwendig ist"), Artikel 4 (2) Richtlinie 2019/790.

4. Keine Umgehungsversuche!

Erwägungsgrund 60j befasst sich mit der internationalen Dimension der Schrankenregelung für Text und Data Mining und den fairen Marktbedingungen: Schummeln gilt nicht – etwa indem man Modelle auf den EU-Markt bringt, die diesen Mindestschutzstandard missachten und dann argumentiert, dass das eigene KI-Modell in einer anderen Rechtsordnung mit niedrigeren Urheberrechtsstandards trainiert wurde. Hier wird kein globaler Standard diktiert, sondern nur ein altes Sprichwort umgesetzt: Wer in meinem Garten spielen will, muss sich an meine Regeln halten. Zumindest dann, wenn der Anwendungsbereich dieses Konzepts nur für Daten gilt, die direkt oder indirekt aus der EU stammen.

Und genau in diesem Zusammenhang wird dann auch die Bedeutung der Dokumentationspflichten deutlich: Wer heimlich in einer anderen Rechtsordnung trainiert und das dann zu verschleiern versucht, muss dennoch eine Trainingsdokumentation vorlegen, die sein Modell trägt. Da die Einhaltung der Anforderungen überwacht wird - der Entwurf des KI Gesetzes enthält hierzu nach Artikel 68a sieben gesonderte Bestimmungen, bislang als Artikel A bis H bezeichnet – werden entsprechende Umgehungsversuche wohl aufgedeckt werden.

5. Open source Privilegien

Einige dieser Verpflichtungen gelten nicht, wenn der Anbieter das GPAI-Modell unter einer "freien und offenen [open source] Lizenz" anbietet, Artikel 52 (-2). Nach Erwägungsgrund (60i+1) hat das KI-Gesetz ein engeres Verständnis von "frei und quelloffen" als allgemein üblich: Dort wird klargestellt, dass diese Erleichterung nur gilt, wenn das Modell nicht gegen einen Preis oder eine andere Monetarisierung, einschließlich der Verwendung personenbezogener Daten, angeboten wird.

So viel für heute. Es gibt viele weitere Aspekte zu berichten, auf die wir kurzfristig zurückkommen werden.

Rechtsgebiete und Gruppen Informationstechnologie

Branchen Technology, Media & Communications Artificial Intelligence & Machine Learning

Hot Topics KI-Verordnung (AI-Act)