"AI Act ułatwi autorom weryfikację, czy ich utwory były wykorzystywane na potrzeby uczenia maszynowego, a tym samym – ewentualne dochodzenie roszczeń" - mówi w wywiadzie dr Zbigniew Okoń, partner w kancelarii Rymarz Zdort Maruta.

W projekcie rozporządzenia – Akt o sztucznej inteligencji (AI Act) ciągle zachodzą zmiany. Niektóre są niepokojące. Jak to wygląda, jeśli chodzi o rozwiązania dotyczące praw autorskich?
ikona lupy />
dr Zbigniew Okoń, partner w kancelarii Rymarz Zdort Maruta / Materiały prasowe / fot. Materiały prasowe

Od grudnia ub.r. zmiany projektu w tym zakresie były minimalne: doszły tylko nowe motywy. Jak rzadko kiedy, w przypadku AI Actu dość optymistycznie oceniam to, co proponuje unijny prawodawca.

Prace nad tym rozporządzeniem zaczęły się na długo przed upowszechnieniem generatywnej sztucznej inteligencji, więc projekt początkowo zajmował się innymi obszarami AI niż uczenie maszynowe i takie modele, jak ChatGPT. Ich rozwiązania pojawiły się dopiero w poprawkach po pierwszym czytaniu w Parlamencie Europejskim. Potem odniosła się do tego Rada UE. Obecny tekst jest efektem uzgodnień w trilogu, który w grudniu ub.r. zakończył się porozumieniem politycznym. Nie opublikowano wtedy jednak projektu. Roboczy tekst rozporządzenia wyciekł dopiero teraz i z punktu widzenia relacji do prawa autorskiego obejmuje kilka ciekawych rozwiązań.

Najważniejsze z nich to przepis o obowiązku posiadania polityki zgodności z unijnymi regulacjami w zakresie prawa autorskiego. Według Motywu 60j trenowanie modeli GPAI (sztuczna inteligencja ogólnego przeznaczenia o szerokim zakresie zastosowań) będzie musiało przebiegać na zasadach unijnego prawa autorskiego – nawet jeśli odbywa się poza obszarem Unii Europejskiej. Jeżeli ta zasada nie zostanie zachowana, model i oparte na nim systemy AI nie będą mogły wejść na rynek UE. To rozwiązanie ma zapobiec wprowadzaniu na rynek unijny modeli GPAI wytrenowanych w bardziej liberalnej jurysdykcji, gdzie nie ma prawnych ograniczeń wykorzystania cudzych utworów do uczenia maszynowego.

W przeciwnym wypadku dostawcy mogliby przy użyciu web scrapingu (pobieranie danych z internetu – red.) szkolić modele GPAI na treściach unijnych twórców, nie płacąc za prawa autorskie, gdyż odbywałoby się to poza Unią – a później oferowaliby gotowe systemy na naszym rynku.

Mogliby je tak szkolić np. w Stanach Zjednoczonych?

Może niekoniecznie tam, bo w USA toczy się już ponad 20 sporów sądowych dotyczących używania web scrapingu na potrzeby uczenia maszynowego i nie wiemy, jak się zakończą. Będzie to zależało od odpowiedzi na pytanie, czy taki użytek chronionych utworów stanowi fair use. Koncepcja fair use opiera się na założeniu, że nie stanowi naruszenia prawa autorskiego korzystanie z utworu w sposób słuszny, godziwy, a zarazem nieprzynoszący nadmiernego uszczerbku interesom twórcy. Fair use stanowi więc ograniczenie praw autorskich, tym różniące się od dozwolonego użytku, znanego z polskiego prawa autorskiego, i podobnych rozwiązań innych państw kontynentalnej Europy, że ma charakter otwarty. To pozwala sądom na elastyczne orzekanie, uwzględniające postęp techniczny. W dotychczasowym orzecznictwie w oparciu o fair use uzasadniono m.in. zgodność z prawem usługi Google Books czy internetowych wyszukiwarek grafik, pozwalających na podgląd miniaturek.

Spory dotyczące szkolenia modeli AI są na zbyt wczesnym etapie, żeby przesądzić, jak się zakończą i jakie kryteria sformułują sądy jako warunek legalności wykorzystania do tego celu cudzych utworów. Z pewnością firmy technologiczne mają sporo argumentów przemawiających za dopuszczalnością takich praktyk, ale również twórcy i dostawcy treści nie są bez szans. Szczególnie dobrze przygotowany od strony faktycznej i prawnej jest pozew „New York Times” przeciwko Open AI i Microsoftowi. Kładzie się w nim nacisk na możliwość uzyskania za pomocą ChatGPT i Bing Copilot obszernych fragmentów artykułów, które normalnie są ukryte za paywallem. Duża objętość zwracanych fragmentów i wpływ takiej praktyki na komercyjną eksploatację utworów są zaś czynnikami, które sąd powinien uwzględnić przy ocenie, czy dany użytek stanowił fair use.

Trochę inaczej przedstawia się sytuacja w Europie. W 2019 r. uchwalono dyrektywę 2019/790 o prawie autorskim na jednolitym rynku cyfrowym (dyrektywę DSM – red.). Dyrektywa zawiera w art. 3 i 4 dwa nowe, obowiązkowe dla państw członkowskich wyjątki dotyczące text and data mining (eksploracji tekstów i danych – TDM). W kontekście uczenia modeli AI szczególne znaczenie ma art. 4, dotyczący tzw. komercyjnego TDM, a więc takiego, który nie jest prowadzony przez organizacje badawcze i inne instytucje nienastawione na zysk. Praktyka taka jest dopuszczalna, jeżeli są spełnione dwa warunki, do których zresztą czytelnie odwołuje się AI Act. Po pierwsze, musimy mieć legalny dostęp do tych treści – nie mogą one więc pochodzić z pirackich źródeł, a odnotowano już takie przypadki, że nawet duże firmy wykorzystywały nielegalnie udostępnione książki ze zbioru o nazwie Books3.

Po drugie, wolno to robić, jeżeli uprawniony nie zastrzegł swoich praw w tym zakresie. Czyli jeżeli nie zamieścił oświadczenia, że nie życzy sobie wykorzystywania jego utworu do TDM (opt-out).

Istotny jest jednak sposób zastrzeżenia praw. W przypadku utworów, które są w publicznym dostępie w sieci – czyli nie za paywallem, nie w płatnym serwisie – zastrzeżenie praw, żeby było skuteczne, zgodnie z dyrektywą DSM musi być wyrażone za pomocą środków do odczytu maszynowego. Do tej pory nie wykształcił się jednak wspólny standard rynkowy w tym zakresie. Funkcjonują różne mechanizmy oraz polityki i w efekcie zastrzeżenie praw to fikcja.

Można udawać, że się go nie zauważyło?

Tak, firma może powiedzieć: skanowaliśmy tę stronę, ale nie było na niej zastrzeżenia praw w standardzie, który stosujemy. Może były inne, ale nie mamy obowiązku ich wszystkich znać.

„Nie mamy pańskiego płaszcza i co pan nam zrobi”.

Tak. W tym zakresie AI Act przyniesie kolejną dużą zmianę: nałoży na dostawców modeli AI obowiązek respektowania zastrzeżeń praw. Będą musieli identyfikować i respektować, w tym poprzez najnowocześniejsze technologie, zastrzeżenie praw z art. 4 dyrektywy DSM, czyli – innymi słowy – postarać się to zastrzeżenie praw dostrzec i uwzględnić.

Tylko czy art. 4 dyrektywy DSM na pewno stosuje się też do uczenia maszynowego?

Na ten temat trwa w Europie dyskusja. Za odpowiedzią twierdzącą przemawia chociażby to, że art. 4 dyrektywy DSM, który pojawił się na przełomie lat 2018 i 2019, został wprowadzony – dość pospiesznie zresztą – w okresie, kiedy gwałtownie zaczęła rosnąć presja na uczenie maszynowe, a prasa donosiła o wykorzystaniu setek tysięcy książek czy milionów artykułów do uczenia opracowywanych wówczas modeli. Jest jednak grupa autorów, którzy twierdzą, że prawodawca nie mógł mieć tego na myśli, bo dyrektywę przyjmowano przed upowszechnieniem modeli generatywnej sztucznej inteligencji.

W każdym razie teraz w projekcie AI Actu prawodawca unijny wyraźnie powołuje się na przepisy dyrektywy DSM dotyczące eksploracji tekstów i danych – potwierdzając, że znajdują one zastosowanie do trenowania modeli sztucznej inteligencji.

Kolejna sprawa istotna z punktu widzenia ochrony interesów twórców to obowiązek publikowania podsumowań zbiorów danych, które zostały wykorzystane do uczenia maszynowego. Publikowanie takich podsumowań jest obecnie regułą w przypadku modeli open source, natomiast wielu komercyjnych dostawców skrzętnie ukrywa, na jakich danych szkoli model. Nowy obowiązek ułatwi autorom weryfikację, czy ich utwory były wykorzystywane na potrzeby uczenia maszynowego, a tym samym ułatwi ewentualne dochodzenie roszczeń w stosunku do dostawcy modelu AI.

Ostatnią nowością jest konieczność prowadzenia dokumentacji technicznej, zawierającej m.in. opis metod wykorzystanych przy uczeniu maszynowym, parametrów itp. Te dane nie będą udostępniane publicznie, natomiast mają być dostępne na żądanie regulatora – tj. nowego unijnego urzędu ds. sztucznej inteligencji. To pozwoli ocenić, czy istniało ryzyko naruszenia praw, czy zachowano warunki unijnego prawa autorskiego. Z tego wymogu będą zwolnione jedynie modele open source, czyli takie, które można ściągnąć bez opłat i których parametry, w tym wagi, informacje na temat architektury modelu oraz na temat wykorzystania modelu, są publicznie dostępne. ©℗

Rozmawiała Elżbieta Rutkowska