Generative künstliche Intelligenz hat sich in den letzten Jahren deutlich schneller entwickelt als je zuvor und verändert weiterhin die Art und Weise, wie Inhalte erstellt, konsumiert und verbreitet werden. Ob beim Verfassen von Geschäftsbriefen, beim Komponieren von Musik oder bei der Codegenerierung – große Sprachmodelle (LLM) sind für verschiedene Aspekte der Kreativität und der beruflichen Praxis von zentraler Bedeutung geworden.
Diese Entwicklungen haben jedoch auch eine der umstrittensten Rechtsfragen des digitalen Zeitalters aufgeworfen: Stellt die Verwendung von urheberrechtlich geschütztem Material zum Training von KI einen Verstoß gegen das Urheberrecht dar? Künstliche Intelligenz stellt eine Innovation im Recht dar. Zwei bevorstehende Entscheidungen des Obersten Gerichtshofs der USA in Fällen gegen Meta und Anthropic beginnen zu definieren, was als maßgeblicher Präzedenzfall angesehen werden könnte.
Auf den ersten Blick scheinen diese Entscheidungen die KI-Unternehmen zu begünstigen; bei näherer Betrachtung zeigt sich jedoch ein komplexes und unsicheres rechtliches Umfeld. Im Folgenden werden diese Urteile in Frage gestellt und die Fair-Use-Doktrin in Bezug auf KI sowie ihre Auswirkungen auf die künftige Entwicklung der generativen KI bewertet.
Hintergrund: Das Datenproblem beim KI-Training
Chatbasierte KI-Systeme wie Llama (von Meta) und Claude (von Anthropic) wurden auf großen Datensätzen aus Büchern, Websites, Artikeln und verschiedenen Online-Medien trainiert. Selbst wenn so viel in eine hochwertige Computerinfrastruktur und menschliche Experten oder Talente investiert wird, stammt dieses dritte wesentliche Element, die Daten, oft aus dem Internet, ohne dass die Produzenten der Inhalte ihre Zustimmung gegeben haben. Schriftsteller, Musikkünstler, Verlage und Kunsthandwerker argumentieren, dass dies ausbeuterisch sei und nicht funktioniere, vor allem, wenn ihr Werk unter das Urheberrecht fällt.
Diese Streitigkeiten wurden in zwei prominenten Fällen in den Vereinigten Staaten verhandelt, die beide im Schnellverfahren zugunsten von KI-Unternehmen entschieden wurden. Die Entscheidungen haben den Fall jedoch nicht abgeschlossen. Stattdessen haben sie eine neue juristische Diskussion über die Rechte der Urheber von Inhalten und die Verantwortung von KI-Entwicklern eröffnet.
Fair Use verstehen: Das rechtliche Rückgrat der KI-Verteidigung
Gemäß Abschnitt 107 des US-Urheberrechtsgesetzes suitableimmen die Gerichte die „faire Nutzung“ durch die Prüfung von vier Hauptfaktoren:
- Zweck und Charakter der Nutzung
- Art des urheberrechtlich geschützten Werks
- Umfang und Wesentlichkeit des genutzten Anteils
- Auswirkung auf den Markt für das Originalwerk
Wichtig ist, dass es sich bei der fairen Nutzung um eine positive Verteidigung handelt – der Beklagte gibt zu, dass er urheberrechtlich geschützte Inhalte verwendet, argumentiert aber, dass seine Nutzung rechtlich zulässig ist.
Untersuchen wir, wie sich diese Faktoren in den Fällen Meta und Anthropic auswirken.
Fallstudie 1: Anthropic und die Verwendung von gekauften und raubkopierten Büchern
Überblick: Im Fall von Anthropic nutzte das Unternehmen sowohl physische Bücher als auch digitale Raubkopien aus Quellen wie Books3 und LibGen für die Schulung seines Claude-Modells.
Schlüsselentscheidungen:
- Umgestaltende Nutzung: Das Gericht stufte das Einscannen legal erworbener Bücher für interne Recherchen und Modellschulungen als umgestaltend ein und erfüllte damit einen der Kernpunkte der fairen Nutzung.
- Verwendung von raubkopierten Büchern: Das Gericht war weniger nachsichtig, was die Verwendung raubkopierter Bücher durch Anthropic betrifft. Richter William Alsup stellte fest, dass das Anlegen einer Forschungsbibliothek mit Millionen von Raubkopien keine Umgestaltung darstellte, so dass ein separates Verfahren zu dieser Frage angesetzt wurde.
Bemerkenswertes Zitat: „Raubkopien zu erstellen, um eine Forschungsbibliothek aufzubauen, ohne dafür zu bezahlen … war seine Nutzung – und keine transformative.“ – Judge Alsup.
Fallstudie 2: Meta’s Training von Llama mit Torrentedaten
Überblick: Meta hat über 80,6 Terabyte an Inhalten heruntergeladen, darunter auch Bücher aus Schattenbibliotheken wie Z-Library und LibGen, um seine Llama-Modelle zu trainieren. Zu den Klägern gehörten hochkarätige Autoren wie Sarah Silverman und Ta-Nehisi Coates.
Schlüsselentscheidungen:
- Angemessene Nutzung bejaht: Richter Vince Chhabria entschied, dass die Verwendung dieser Bücher durch Meta für die KI-Schulung als faire Nutzung gilt, vor allem weil die Kläger keinen erheblichen Marktschaden nachweisen konnten.
- Grenzen werden anerkannt: Trotz des Urteils zu Gunsten von Meta kritisierte Richter Chhabria den Standpunkt des Unternehmens, dass eine Einschränkung des KI-Trainings den technischen Fortschritt aufhalten würde, und nannte dies „Unsinn“.
Bemerkenswertes Zitat: „Meta hat das halbherzige Argument der Kläger, dass ihr Kopieren dem Markt erheblichen Schaden zufügt oder zuzufügen droht, entkräftet… aber das mag im Widerspruch zur Realität stehen.“ – Richter Chhabria.
Fünf wichtige rechtliche Schlussfolgerungen aus den Urteilen
Ausbildungsmethoden sind wichtig
Die Unterscheidung zwischen gekauften und raubkopierten Inhalten ist rechtlich von Bedeutung. Während das Einscannen von gekauften Büchern als faire Nutzung angesehen wurde, bleiben raubkopierte Inhalte ein potenzieller rechtlicher Stolperstein für KI-Unternehmen.
Transformative Nutzung ist zentral
Die Gerichte betonten, dass die bloße Umwandlung von gedruckten Büchern in digitale Formate für den internen Gebrauch eine Umgestaltung darstellen kann. Bei wahllosem Scraping oder Raubkopieren von Inhalten fehlt dieser Schutz jedoch.
Training AI ≠ Inhalt wortwörtlich kopieren
Beide Gerichte zogen Analogien zwischen KI-Training und menschlichem Lernen. Die Behauptung lautete, dass es nicht per se gegen das Urheberrecht verstößt, wenn man einem Modell beibringt, aus Inhalten zu lernen, anstatt sie wortwörtlich wiederzugeben.
Keine unmittelbare Schädigung des Marktes bedeutet keine Zuwiderhandlung
Einer der größten Schwachpunkte der Kläger war, dass sie nicht nachweisen konnten, inwiefern die KI-Schulung den Verkaufs- oder Lizenzierungsmärkten für ihre Arbeit schadet.
Piraterie könnte immer noch geahndet werden
Während die knappen Urteile die KI-Unternehmen für suitableimmte Verwendungszwecke schützten, ließen beide Gerichte die Tür für künftige Klagen offen, insbesondere im Hinblick auf die Verwendung von raubkopiertem Material. Anthropic zum Beispiel steht noch ein umfassendes Verfahren wegen der Verwendung nicht genehmigter digitaler Inhalte bevor.
Auswirkungen auf die Industrie
Mehr Transparenz erforderlich
KI-Unternehmen haben es lange vermieden, ihre Trainingsdatensätze offenzulegen, um eine rechtliche Haftung zu vermeiden. Diese Urteile deuten darauf hin, dass Transparenz zu einer rechtlichen Notwendigkeit werden könnte, insbesondere beim Umgang mit urheberrechtlich geschütztem Material.
Lizenzierungsmärkte können entstehen
Obwohl die Gerichte derzeit keinen Markt für die Lizenzierung von Inhalten speziell für KI-Schulungen anerkennen, könnte sich dies ändern. Als Ergebnis fortgesetzter Rechtsstreitigkeiten und öffentlichen Drucks könnten branchenweite Standards für die Entschädigung von Urhebern entwickelt werden.
Regulatorische Rahmenbedingungen sind im Kommen
Die politischen Entscheidungsträger in den USA, der EU und anderen Ländern sind jetzt mehr denn je motiviert, klare KI-Vorschriften zu definieren, die ein Gleichgewicht zwischen Innovation und Urheberrechten herstellen. Diese jüngsten Urteile werden wahrscheinlich die kommende Gesetzgebung beeinflussen.
Zu beobachtende Fälle
Anstehende Klagen gegen OpenAI und andere Unternehmen werden zeigen, inwieweit diese Präzedenzfälle für KI-Outputs und nicht nur für Trainingsdaten gelten. Dadurch könnte sich die rechtliche Prüfung von den Eingaben auf die Inferenzschichten verlagern – ein ganz anderes rechtliches Schlachtfeld.
Schlussfolgerung: Ein Wendepunkt, nicht das letzte Wort
Die beiden Urteile zum Urheberrecht in den Fällen Meta und Anthropic sind keine eindeutigen Siege für die KI-Firmen; sie sind die ersten Schritte auf dem langen und sich entwickelnden Weg des Rechts. Sie werfen nicht nur ein Licht darauf, wie Gerichte die Bedeutung der fairen Nutzung im Zusammenhang mit künstlicher Intelligenz definieren, sondern auch zahlreiche Fragen auf, die wahrscheinlich unbeantwortet bleiben werden.
Regulierungsbehörden, Branchenteilnehmer und Gerichte ringen weiterhin mit der Beantwortung dieser Fragen. Ein Aspekt der Debatte, der nach wie vor ungelöst ist, ist das Eigentum an den Daten, womit der entscheidende Faktor für die Zukunft der generativen KI unbeantwortet bleibt: Die Diskussion ist noch nicht abgeschlossen. Die Zukunft der KI-Entwicklung, die Menschen, die davon profitieren, und das Entschädigungssystem, das andere Schöpfer in einer automatisierten Welt erhalten, werden in ein paar Jahren entschieden sein.