Irlandzki organ ochrony danych (DPC) wszczął dochodzenie w sprawie Google’a i jego dużego modelu językowego (popularnie nazywanego sztuczną inteligencją) PaLM 2 w ubiegłym tygodniu. Chce wiedzieć, czy gigant technologiczny przeprowadził ocenę skutków dla ochrony danych osobowych (DPIA) użytkowników z Unii Europejskiej, zanim zaczął je przetwarzać w celu trenowania tego modelu sztucznej inteligencji.
Kiedy ocena jest niezbędna
Spytaliśmy biuro prasowe Google’a, czy firma wykonała DPIA, a jeśli tak, to z jakim skutkiem – ale nie otrzymaliśmy odpowiedzi.
– Organ ochrony danych może dostać od Google’a odpowiedź, że nie przeprowadzono oceny, bo administrator uznał, że nie jest konieczna. Albo że ją wykonano i nie stwierdzono wysokiego ryzyka – zauważa dr Paweł Litwiński, adwokat, partner w kancelarii Barta Litwiński i członek Społecznego Zespołu Ekspertów przy prezesie Urzędu Ochrony Danych Osobowych.
Jego zdaniem Google powinien był dokonać takiej oceny. RODO wymaga jej, gdy przetwarzanie danych może powodować wysokie ryzyko naruszenia praw lub wolności osób, których dane dotyczą.
– Zgodnie z RODO jedną z przesłanek dla dokonania oceny skutków planowanych operacji przetwarzania dla ochrony danych osobowych jest użycie nowych technologii, a przy trenowaniu AI mamy z tym do czynienia – argumentuje Paweł Litwiński.
Podobnie uważa Jakub Pawłowski, radca prawny z LexDigital.
– W przypadku modelu Google’a i każdego innego modelu językowego (LLM) ryzyko jest moim zdaniem wysokie. Przesądza o tym już samo to, że mamy do czynienia z przetwarzaniem danych z użyciem nowych technologii. Ponadto trenowanie AI wymaga ogromnej liczby danych, co spełnia kolejną przesłankę z art. 35 ust. 1 RODO – mówi Jakub Pawłowski.
Doktor Iga Małobęcka-Szwast, radca prawny i adiunkt z Wydziału Prawa i Administracji Uniwersytetu Warszawskiego, zwraca jednak uwagę, że organy ochrony danych z państw UE nie są w tej kwestii zgodne.
– W opinii francuskiego organu (CNIL) dwie przesłanki – użycie nowych technologii i duża skala przetwarzania danych – będą zwykle spełnione przy trenowaniu dużych modeli językowych, co oznacza, że takie operacje będą powodowały wysokie ryzyko dla ochrony danych – zauważa Iga Małobęcka-Szwast.
– Z kolei hamburski organ (HmbBfDI) uważa, że na etapie trenowania LLM w ogóle nie dochodzi do przetwarzania danych osobowych – dodaje prawniczka. – LLM zamienia dane treningowe w tokeny i informacje o prawdopodobieństwie ich występowania po sobie w określonym kontekście, na podstawie których nie można zidentyfikować osób, których dotyczą. Można by to więc uznać za rodzaj anonimizacji, w efekcie której nie dochodzi do przetwarzania danych osobowych. Kontrargumentem dla tego podejścia jest techniczna możliwość wydobycia treningowych danych osobowych z modeli językowych, np. w przypadku ataku hakerskiego – wyjaśnia.
Elementarz czy fizyka kwantowa
Jak podkreśla Jakub Pawłowski, wysokie ryzyko nie oznacza, że trzeba zrezygnować z przetwarzania danych. Należy jednak zaplanować środki, które temu ryzyku zaradzą. Jest to finalny etap DPIA (patrz: ramka).
– Jeśli administrator nie radzi sobie z wnioskami z przeprowadzonej oceny i nie umie dobrać środków minimalizujących ryzyko, to powinien się zwrócić z pytaniem do organu nadzorczego. I nie powinien zaczynać przetwarzania danych, dopóki nie dostanie odpowiedzi – stwierdza Paweł Litwiński.
Środki zaradcze to największy problem.
– Nawet jeśli ocena skutków dla ochrony danych została przez Google wykonana i przewidział on środki minimalizujące ryzyko, to nie wiadomo, czy organ nadzorczy uzna je za odpowiednie i wystarczające – mówi Jakub Pawłowski.
Czy jest możliwe, żeby trenowanie AI przebiegało zgodnie z RODO?
– Moim zdaniem tak, choć nie będzie to łatwe. Największym problemem przy LLM jest spełnienie zasady minimalizacji danych, gdyż z samej swojej istoty te modele są oparte na ogromnej liczbie danych – odpowiada Iga Małobęcka-Szwast. – Pamiętajmy jednak, że DPIA to nie jest fizyka kwantowa, tylko elementarz RODO. Taką ocenę przeprowadzają nawet niewielkie placówki medyczne. Myślę więc, że przy wprowadzaniu technologii o takiej skali zastosowania i potencjale wpływu na społeczeństwo jak sztuczna inteligencja zwykła przyzwoitość wymaga wykonania DPIA i zastosowania środków ograniczających ryzyko – podkreśla.
Trudno przewidzieć wynik dochodzenia w sprawie Google’a, ale nie sposób zaprzeczyć, że działania DPC wobec big techów i ich modeli sztucznej inteligencji w ostatnich miesiącach nabrały tempa.
Przebudzenie
W czerwcu było głośno o planach Mety, która do trenowania swojej AI chciała wykorzystać dane użytkowników Facebooka i Instagrama – posty, zdjęcia i inne umieszczane tam treści. Nie pytała przy tym o zgodę osób, których dane dotyczą, tylko dała im do końca miesiąca czas na ewentualne zgłoszenie sprzeciwu.
Największy udział w zablokowaniu Mety miały skargi obrońców prywatności z austriackiej organizacji Noyb, założonej przez Maxa Schremsa, bo DPC poprzestał na rozmowach z big techem.
Dużo większą aktywność wykazał potem w odniesieniu do właściciela platformy X, który udostępnianymi na niej danymi użytkowników karmił swoje narzędzie sztucznej inteligencji Grok. Żeby zatrzymać X, irlandzki urząd w sierpniu po raz pierwszy w swojej historii skorzystał z uprawnienia, by zwrócić się o odpowiedni nakaz do tamtejszego sądu. Uzasadnił to „poważnymi obawami”, że szkolenie Groka na danych Europejczyków „stwarza ryzyko dla podstawowych praw i wolności”.
W rezultacie X odciął Grokowi dostęp do danych.
– Wygląda to na przebudzenie organu nadzorczego – ocenia Paweł Litwiński. – Modele językowe funkcjonują już od paru lat i było dziwne, że dotychczas nie stosowano wobec nich narzędzi RODO – dodaje.
– Wynik dochodzenia organu irlandzkiego w sprawie Google’a będzie kluczowy dla całego sektora. Posłuży za wskazówkę dla innych podmiotów tworzących modele językowe – uważa Iga Małobęcka-Szwast.
Wobec AI będą też obowiązywać przepisy poświęconego tej technologii rozporządzenia unijnego – AI Actu (większość od sierpnia 2026 r.). Ta regulacja wprowadza m.in. obowiązkowe analizy ryzyka.
– Nie zastąpią one jednak oceny skutków dla ochrony danych na gruncie RODO – stwierdza Paweł Litwiński.
Jak podkreśla, naruszenie praw osób, których dane dotyczą, przy trenowaniu AI to jedno z głównych ryzyk związanych z tą technologią.
– Nie możemy zablokować sztucznej inteligencji dostępu do danych, bo wtedy nie będzie można rozwijać tej technologii w UE. Jednak musimy też chronić prawa podstawowe osób, których te dane dotyczą. I temu właśnie służy ocena skutków dla ochrony danych: żeby wyważyć obie wartości – podsumowuje Paweł Litwiński.©℗