Jednym z podstawowych problemów związanych z rozwojem narzędzi opartych na sztucznej inteligencji (AI) jest legalność wykorzystywania różnych materiałów do trenowania modeli. Czy korzystanie bez specjalnej zgody utworów dostępnych w Internecie zawsze naruszy prawa autorskie twórców?

Wbrew przekonaniu wyrażonemu m.in. przez niektórych szefów firm tworzących narzędzia AI, obecnie obowiązujące przepisy zasadniczo regulują taki sposób wykorzystania. Zapewne są potrzebne specyficzne regulacje, niemniej nie jest prawdą, jakoby obszar AI w ogóle nie był objęty obecnie obowiązującym prawem.

Pytanie, czy można legalnie korzystać z utworów dostępnych w Internecie do trenowania AI, jest postawione w sposób zbyt ogólny. Powinno ono brzmieć: które utwory, w jakim zakresie i pod jakimi warunkami można wykorzystywać w taki sposób?

W tym miejscu zostawiam na boku kwestię ochrony wytworów AI przez prawo autorskie. Zaznaczę tylko, że utwór musi pochodzić od człowieka, więc chronione przez prawo autorskie mogą być co najwyżej utwory stworzone przez człowieka z pomocą narzędzi AI.

ikona lupy />
Michał Starczewski / Inne

Ewentualne naruszenie prawa autorskiego w przypadku narzędzi AI może mieć miejsce przede wszystkim na dwóch etapach. Po pierwsze, na etapie trenowania AI wykorzystuje się duże zbiory utworów. Po drugie, wytwory powstałe wskutek działania algorytmów AI hipotetycznie mogą stanowić naruszenie cudzych praw autorskich, co może mieć miejsce wtedy, gdy przypominają one istniejące utwory lub ich fragmenty. Samo podobieństwo nie stanowi jednak automatycznie o naruszeniu.

Aby w bardziej kategoryczny sposób odpowiedzieć na pytania o prawne aspekty AI potrzebujemy orzecznictwa. Dziś możemy wypowiadać swoje lepiej lub gorzej uzasadnione poglądy. Prawomocne wyroki sądów wyznaczą kierunek interpretacji przepisów. Pierwsze pozwy wpłynęły już do sądów w Stanach Zjednoczonych i Wielkiej Brytanii. Oczywiście, nie mają one wprost przełożenia na orzecznictwo w naszym kraju, niemniej warto się im przyglądać. Pozwy są przejawem obaw, jakie narzędzia AI wzbudzają wśród twórców oraz innych uprawnionych, w tym serwisów stockowych, oferujących banki fotografii i ilustracji. Głośne powództwo wniosło Getty Images przeciwko Stability AI i Midjourney. Pojawienie się zniekształconych znaków wodnych Getty Images w obrazach generowanych przez AI umożliwiło wykazanie, że pozwani posłużyli się zasobami Getty Images do trenowania narzędzia. W swoim pozwie Getty Images podkreśla, że twórcy AI wykorzystali nie tylko obrazy, ale przede wszystkim precyzyjne opisy tekstowe towarzyszące obrazom, dzięki którym możliwe było wytrenowanie narzędzia do generowania obrazów odpowiadających tekstowym poleceniom. Problemem jest więc wykorzystanie nie tylko utworów, ale całej bazy danych zawierającej także bogate metadane.

Trenowanie AI

Stworzenie narzędzia AI wymaga wytrenowania go na ogromnej ilości danych. Twórcy narzędzi AI nie mówią chętnie o pochodzeniu tych danych. Wiadomo jednak, że korzystają m.in. z bazy stworzonej przez niemiecką organizację non-profit LAION (akronim od Large-scale Artificial Intelligence Open Network – Wielkoskalowa Otwarta Sieć Sztucznej Inteligencji). W sierpniu 2021 r. udostępniała bazę 400 mln obrazów z opisowymi metadanymi. W marcu 2022 r. organizacja udostępniła kolejną wersję bazy (LAION5B), zawierającej już 5 miliardów opisanych obrazów. Baza ma służyć celom badawczym.

Korzystać z cudzych utworów można na podstawie umowy (licencji) lub na podstawie przepisów o dozwolonym użytku. Wyroki sądów, jakie zapadną w najbliższych latach, pokażą, gdzie przebiegają granice legalnego korzystania z utworów w celu trenowania AI.

Wciąż niewdrożona w Polsce unijna dyrektywa z 17 kwietnia 2019 r. 790/2019 (zwana dyrektywą Digital Single Market, w skrócie DSM) ujednolica w całej Unii Europejskiej zasady maszynowej analizy tekstu i danych (text and data mining, w skrócie TDM). To te przepisy mogą stanowić podstawę do korzystania z materiałów chronionych prawem autorskim do trenowania AI.

Dyrektywa DSM przewiduje dwie sytuacje. Art. 4 Dyrektywy jest adresowany do wszystkich i stanowi, że wystarczy posiadać legalny dostęp do utworu, by móc włączyć go do analiz TDM, chyba że uprawniony wyraźnie zastrzeże swój brak zgody. Zastrzeżenie może przybrać formę np. odpowiedniej treści w plikach robots.txt, które obecnie służą do komunikacji z robotami indeksującymi wyszukiwarek, np. Google. Z kolei art. 3 Dyrektywy jest adresowany tylko do organizacji badawczych i instytucji dziedzictwa kulturowego. Podmioty te będą uprawnione do włączania utworów, do których mają legalny dostęp, do swoich baz podlegających analizie TDM do celów badań naukowych. W tej drugiej sytuacji podmioty uprawnione nie będą mogły skutecznie sprzeciwić się trenowaniu AI w celach naukowych.

Teoretycznie uprawnieni będą mogli łatwo zakazać komercyjnym firmom trenowania AI w oparciu o ich utwory. W praktyce trudności może sprawiać wykazanie wykorzystywanie utworów wbrew woli uprawnionych. Pomimo trudności dowodowych powinno być jednak jasne, że trenowanie AI w tych warunkach jest nielegalne (przynajmniej w Unii Europejskiej).

Data laundering

Przez analogię do prania brudnych pieniędzy pojawiło się pojęcie prania danych (data laundering). Pranie danych polega na zbieraniu danych w dopuszczalnym celu, przekształcenie ich i wykorzystanie w innym celu. Typowym przykładem jest zebranie danych dostępnych do użytku naukowego lub niekomercyjnego, po czym wykorzystanie ich w celu komercyjnym. Przedmiotem takiej praktyki bywają dane wszelkiego typu: teksty, obrazy, nagrania wideo, programy komputerowe, dane osobowe.

Wytwory AI jako dzieła zależne

W pozwie ze stycznia 2023 r. przeciwko Stability AI i DeviantArt grupa powodów (indywidualnych twórców) twierdzi, że generatywna AI wytwarzająca obrazy to „XXI-wieczne narzędzie do tworzenia kolażu”, czyli dzieł zależnych. AI rozkłada miliony obrazów na części pierwsze, po czym łączy je zgodnie z poleceniami użytkownika (promptami). Argumentacja wydaje się o tyle nietrafna, że do powstania utworu zależnego wymagane jest przejęcie elementów twórczych oryginału. Tymczasem sami powodowie przyznają, że nie są w stanie wskazać podobieństw między swoimi utworami a wytworami AI.

Może się jednak zdarzyć, że obraz wygenerowany przez AI będzie przypominał w całości lub części określone cudze utwory. Co wtedy? Nie każde podobieństwo stanowi naruszenie. Istnieje bowiem ważna kategoria utworów inspirowanych, czyli takich, które nawiązują do innych dzieł, lecz bez zapożyczenia elementów twórczych. Granica pomiędzy utworami inspirowanymi a zależnymi jest jednak nieostra i często staje się przedmiotem sporów.

Prawo autorskie dopuszcza tzw. twórczość paralelną, gdy dwóch twórców stworzy niezależnie podobne utwory. W takiej sytuacji każdemu przysługuje ochrona swojego utworu niezależnie od drugiego. Można mieć wątpliwości, czy ta konstrukcja powinna mieć zastosowanie do wytworów AI, chyba że twórca AI wykazałby, że wcześniejszy utwór nie służył do trenowania AI.

Co jest w interesie publicznym?

W obecnie toczącej się debacie o sztucznej inteligencji powinniśmy zastanawiać się nie tylko, co jest legalne, a co nie, ale także – jak wyznaczyć tę granicę w przyszłości. Na naszych oczach powstają nowe modele biznesowe, a niektóre dawne mogą upaść.

Jak ma wyglądać dystrybucja dochodów pochodzących z cyfrowych dóbr kultury? Wciąż aktualne pozostają przestrogi z okresu powstawania platform cyfrowych: kilku cyfrowych gigantów zarabia ogromne pieniądze, korzystając z cudzej twórczości i obiecując coraz liczniejszym twórcom udział w torcie. W praktyce działa jednak zasada, zgodnie z którą zwycięzcy biorą wszystko.

Zrównoważenie dochodów powinno być jednym celem ustawodawcy. Z drugiej strony w publicznym interesie może okazać się zapewnienie szerokiego dostępu do utworów dla twórców AI. Ograniczenia mogą skutkować niereprezentatywnością wyników AI. Niereprezentatywność, choćby w zakresie danych dotyczących wybranych grup społecznych, etnicznych, płci, czy miejsca zamieszkania, może prowadzić do błędnych, czy wręcz szkodliwych wyników lub rekomendacji generowanych przez AI. Z tego punktu widzenia zasadny wydaje się postulat określenia standardów w zakresie szerokiego, a przede wszystkim zróżnicowanego i reprezentatywnego materiału treningowego dla AI.

Legalność korzystania z utworów do trenowania AI nie dotyczy bowiem tylko narzędzi generujących obrazy lub muzykę. Dotyczy każdego narzędzia AI, które musi zostać wytrenowane do wykonywania swoich zadań.

Michał Starczewski - radca prawny w BWHS Wojciechowski Springer i Wspólnicy