Hintergrund
Nach dem Europäischen AI Act (Verordnung (EU) 2024/1689) müssen Anbieter von KI-Modellen für allgemeine Zwecke (General-Purpose AI, „GPAI“), wie z. B. Modelle der GPT-Familie, Llama oder Gemini, bestimmte Anforderungen erfüllen, etwa Dokumentationen erstellen oder eine Strategie zur Einhaltung des Urheberrechts einführen.
Um die Einhaltung dieser Anforderungen zu erleichtern, sieht der AI Act die Erstellung von Praxisleitfäden für die Verwendung von GPAI-Modellen vor. Auf Einladung des Büros für Künstliche Intelligenz haben verschiedene Experten und Interessengruppen vier Arbeitsgruppen gebildet, um einen ersten Praxisleitfaden zu entwerfen. Sollte die EU-Kommission diesen genehmigen, wird er innerhalb der EU „allgemeine Gültigkeit“ haben. Durch die Annahme des genehmigten GPAI-Praxisleitfadens können Unternehmen ihre proaktive Einhaltung der Vorschriften nachweisen und so möglicherweise behördliche Prüfungen und Strafen vermeiden (weitere Informationen über die Rolle des Praxisleitfadens).
Das Büro für Künstliche Intelligenz hat nun den dritten Entwurf der Arbeitsgruppen für den Praxisleitfaden veröffentlicht, der die folgenden Themen abdeckt:
- Selbstverpflichtungen
- Transparenz
- Urheberrecht
- Schutz und Sicherheit
Die finale Fassung des Praxisleitfadens ist für den 2. Mai 2025 geplant.
Im Folgenden werden wichtige Details für den Abschnitt über das Urheberrecht des dritten Entwurfs erörtert. Im Vergleich zum vorherigen zweiten Entwurf wurde dieser gestrafft und gekürzt. Insbesondere wird im dritten Entwurf - im Gegensatz zum zweiten Entwurf - generell gefordert, dass die Einhaltung der Vorschriften in einem angemessenen Verhältnis zur Größe und zu den Kapazitäten des Anbieters stehen sollte.
Für wen ist das relevant?
Der Praxisleitfaden ist in erster Linie für Anbieter von GPAI-Modellen relevant. Dies sind Modelle, die eine erhebliche Allgemeinheit aufweisen und in der Lage sind, ein breites Spektrum unterschiedlicher Aufgaben kompetent zu erfüllen. Dabei kann es sich um Anbieter der bekannten großen Sprachmodelle wie GPT (OpenAI), Llama (Meta), Gemini (Google) oder Mistral (Mistral AI) handeln. Auch kleinere Modellanbieter können allerdings betroffen sein, sofern ihre Modelle für ein breiteres Spektrum von Aufgaben verwendet werden können. Zudem können auch Unternehmen, die Modelle für ihre eigenen Zwecke verfeinern, zu GPAI-Modellanbietern werden.
Ebenfalls sollten sich „downstream provider“, d. h. Unternehmen, die GPAI-Modelle in ihre KI-Systeme implementieren, mit dem Praxisleitfaden vertraut machen. So könnte er zu einem Quasi-Standard für GPAI-Modelle werden, der festlegt, was Entwickler von KI-Systemen von einem GPAI-Modell erwarten können und was nicht, was auch bei Vertragsverhandlungen mit GPAI-Modellanbietern berücksichtigt werden sollte.
Kernpunkte des Code of Practice zum Urheberrecht
Die Anbieter von GPAI-Modellen sind verpflichtet, eine Strategie zur Einhaltung des EU-Urheberrechts zu entwickeln (Art. 53 (1) (c) AI Act: "policy"). Da es bisher keine damit vergleichbare Vorschrift gab, gibt es auch keine praktische Anleitung, wie eine solche Strategie aussehen sollte. Der Praxisleitfaden soll diese Regelungslücke nun schließen.
In diesem Zuge wird von den Anbietern verlangt, die folgenden Maßnahmen umzusetzen:
Anbieter, die den Praxisleitfaden unterzeichnen („Unterzeichner“), müssen eine Strategie zur Einhaltung des EU-Urheberrechts ausarbeiten, auf dem neuesten Stand halten und umsetzen.
Dies ist bereits direkt im Rahmen des AI-Acts vorgeschrieben. Auch die Einhaltung dieser Strategie muss innerhalb der Organisation der Anbieter sichergestellt werden.
Eine wichtige Änderung des 3. Entwurfs gegenüber dem 2. Entwurf besteht darin, dass die Unterzeichner nicht mehr verpflichtet sind, diese Strategie zu veröffentlichen, sondern ihnen lediglich empfohlen wird, dies zu tun. Diese schwächere Regelung ist auch im Hinblick auf den AI Act sinnvoll, welcher keine solche Verpflichtung zur Veröffentlichung vorsieht.
Den Unterzeichnern ist es generell gestattet, Web-Crawler für Text- und Data-Mining-Zwecke („TDM“) einzusetzen, um Trainingsdaten für ihre GPAI-Modelle zu erhalten. Sie müssen jedoch sicherstellen, dass solche Crawler Technologien respektieren, die den Zugang zu urheberrechtlich geschütztem Material einschränken, wie etwa Paywalls.
Darüber hinaus müssen die Unterzeichner so genannte „Piraterie-Domains“ ausschließen, d. h. Internetquellen, die urheberrechtswidriges Material anbieten.
Die Unterzeichner sollen sicherstellen, dass Web-Crawler ein von den Urheberrechtsinhabern erklärtes TDM-opt-out erkennen und einhalten. Nach dem EU-Urheberrecht ist TDM zwar generell zulässig, aber Rechteinhaber sollten die Möglichkeit haben können, ihre Inhalte davor zu schützen ("opt-out").
Dieses opt-out muss bei Webinhalten maschinenlesbar sein. Der dritte Entwurf spezifiziert diese Anforderungen an Programme, die das Internet automatisiert durchsuchen ("Webcrawler"), indem er festlegt, dass sie das weit verbreitete robots.txt-Protokoll erkennen und einhalten müssen. Darüber hinaus müssen Web-Crawler andere relevante maschinenlesbare opt-outs für Schutzrechte einhalten, wie z. B. Metadaten, die als Industriestandard etabliert sind oder Lösungen, die von Rechteinhabern weitgehend übernommen wurden und akzeptiert werden.
Ferner sollten die Unterzeichner angemessene Maßnahmen ergreifen, um die Rechteinhaber darüber zu informieren, welche Webcrawler eingesetzt werden und wie diese Crawler mit eine robots.txt - Vorbehalt umgehen. Diese Informationen könnten z. B. über einen Web-Feed verbreitet werden. Für eine Veröffentlichung dieser Informationen enthält der dritte Entwurf allerdings keine Verpflichtung mehr.
Anbieter von GPAI-Modellen können auch Datensätze von Dritten beziehen, anstatt selbst Web Crawling zu betreiben. Während der zweite Entwurf explizit eine urheberrechtliche Überprüfung (due-diligence) von Datensätzen Dritter verlangte, stellt der dritte Entwurf, nur noch die Anforderung des Vornehmens von "angemessenen Anstrengungen", um Informationen darüber zu erhalten, ob die Webcrawler, die zur Sammlung der Informationen verwendet wurden, mit einer robot.txt übereinstimmen.
Beim Einsatz von KI besteht das Risiko, dass die KI Ergebnisse erzeugt, die Urheberrechte verletzen, z. B. durch die Vervielfältigung von Code oder eines Bildes, das online gefunden wurde, aber dennoch dem Urheberrechtsschutz unterliegt.
Die Unterzeichner sollen angemessene Anstrengungen unternehmen, um ein solches Risiko zu mindern. Dies ist eine willkommene Erleichterung jener im Vergleich zum zweiten Entwurf, in dem Maßnahmen vorgeschrieben waren, um eine übermäßige Ähnlichkeit ("overfitting") der produzierten Inhalte zu vermeiden. Der Entwurf ist nun technisch neutraler und verlangt auch hier wieder "angemessene Anstrengungen".
Darüber hinaus sollen die Unterzeichner Bestimmungen in ihre Allgemeinen Geschäftsbedingungen (oder ähnlichen Dokumenten) aufnehmen, die es ihnen ermöglichen, Anbietern von nachgelagerten KI-Systemen eine urheberrechtsverletzende Nutzung ihres GPAI-Modells zu untersagen!
Die Unterzeichner müssen eine Kontaktstelle für Rechteinhaber einrichten. Jene soll einen Mechanismus enthalten, der es Rechteinhabern ermöglicht, Beschwerden über Urheberrechtsverletzungen einzureichen.
Nach dem dritten Entwurf ist es den Unterzeichner nun erlaubt, die Bearbeitung von Beschwerden zu verweigern, die unbegründet oder übertrieben sind.
Schlussfolgerung und Empfehlungen für Unternehmen
Der dritte Entwurf enthält im Vergleich zum zweiten Entwurf einige sinnvolle Änderungen, die es den Unternehmen ermöglichen, den Verhaltenskodex in angemessener Weise einzuhalten. Dadurch sollte es für die Unternehmen praktikabler werden, den Verhaltenskodex tatsächlich zur Einhaltung des AI-Gesetzes zu nutzen.
Allerdings muss man sich darüber im Klaren sein, dass es sich bei dem Verhaltenskodex nach wie vor nur um einen Entwurf handelt, an dem noch erhebliche Änderungen vorgenommen werden können. Es ist wahrscheinlich, aber nicht garantiert, dass die EU-Kommission den endgültigen Verhaltenskodex genehmigen wird.
Die Arbeitsgruppen werden nun bis zum 30. März 2025 Rückmeldungen von Interessengruppen erhalten und im Mai 2025 eine endgültige Fassung vorlegen.