Polska sztuczna inteligencja a bezpieczeństwo danych. Co wiemy o akcji „Nakarm Bielika”?

W aplikacji InPostu został udostępniony polski model sztucznej inteligencji. Dzięki danym użytkowników będzie się doskonalił, pytanie, czy dla tych danych to bezpieczne.

Gdzie trafiają dane?
Nie tylko przepis na babkę
Niejasna polityka prywatności

Z polskiego modelu sztucznej inteligencji Bielik AI, stworzonego przez Fundację SpeakLeash, można w aplikacji InPost Mobile korzystać od grudnia. Dzięki temu użytkownicy aplikacji poprzez korzystanie z chatu mają go trenować. Akcja nosi nazwę „Nakarm Bielika”.

Eksperci mają jednak wątpliwości co do bezpieczeństwa danych osobowych osób korzystających z aplikacji – chodzi zarówno o ich przetwarzanie, jak i przechowywanie. Niepokoi brak polityki prywatności dotyczącej akcji „Nakarm Bielika” oraz udział Google w aplikacji InPostu. Do rady biznesowej Bielika dołączyła bowiem Magdalena Dziewguć, country director Google Cloud Poland.

Gdzie trafiają dane?

Katarzyna Starosławska, wiceprezes Fundacji SpeakLeash, na pytanie o bezpieczeństwo danych wyjaśnia:

– Dane wejściowe od użytkowników (prompty i odpowiedzi w ramach akcji) są przechowywane w prywatnej chmurze InPost, z pełnym przetwarzaniem w obrębie Unii Europejskiej. Część warstwy aplikacyjnej (frontend, serwisy pośrednie) korzysta z rozwiązań Google Cloud, ale wyłącznie w europejskich centrach danych (Beyond.pl i ACK Cyfronet). To fundamentalne dla bezpieczeństwa i suwerenności technologicznej, bo pozwala rozwijać i świadczyć usługi w całości na infrastrukturze zlokalizowanej w kraju – zapewnia.

Adwokat Paweł Litwiński, partner w Barta Litwiński Kancelaria Radców Prawnych i Adwokatów, zwraca jednak uwagę, że nie ma znaczenia, gdzie dane są, istotne jest natomiast, kto ma do nich dostęp.

– Zgodnie z ustawodawstwem USA (CLOUD Act) podmioty amerykańskie, które przetwarzają dane osobowe w Unii Europejskiej (np. Google czy Microsoft) muszą je udostępnić amerykańskim służbom, jeśli te o nie wystąpią. I to nawet wtedy, gdy są to dane obywateli i obywatelek Unii. Nie wiem, jak jest w tym przypadku, ale podkreślam, obecność w projekcie Google może oznaczać, że dane są objęte Cloud Act i przez to dostępne dla służb z USA – mówi adwokat.

Fundacja w odpowiedzi na pytanie o rolę Magdaleny Dziewguć z Google Cloud Poland w akcji „Nakarm Bielika” uspokaja, że zadaniem rady biznesowej jest „wskazywanie strategicznych kierunków rozwoju polskiej sztucznej inteligencji. Rada ma wyłącznie charakter konsultacyjny – nie zarządza fundacją, nie ma dostępu do danych treningowych ani do kodu modelu”.

Katarzyna Starosławska podkreśla też, że model Bielik jest niezależny od konkretnej technologii. Można go uruchamiać w dowolnej chmurze, lokalnie, na CPU i GPU (np. AMD, NVIDIA, Intel).

Wiceprezes fundacji zaznacza też, że cały projekt wpisuje się w ideę crowdsourcingu – wsłuchiwania się w rzeczywiste potrzeby społeczne i na tej podstawie kształtowania kierunku rozwoju technologii.

– Projekt „Nakarm Bielika” jest obecnie największym tego typu przedsięwzięciem w Europie i został zrealizowany przez ponad 100 osób – wyłącznie polski zespół inżynierów, bez zagranicznych konsultantów – tłumaczy Starosławska.

Nie tylko przepis na babkę

Adwokat Paweł Litwiński zwraca uwagę, że przyjęty przez fundację sposób trenowania modelu językowego jest najbezpieczniejszy prawnie. – Są modele, które wykorzystują w tym celu dane powszechnie dostępne w Internecie (co jest dyskusyjne pod kątem legalności). Są też modele, które używają danych związanych z usługą, w ramach której model powstaje (np. Zoom trenujący własny model na danych pochodzących ze spotkań online), oraz takie, które korzystają z crowdsourcingu – mówi.

Jego zdaniem na pewno z tych trzech podejść crowdsourcing jest najbezpieczniejszy, bo osoby uczestniczące w takim trenowaniu robią to dobrowolnie i świadomie, a więc unika się w ten sposób największych pułapek pozostałych dwóch podejść.

– A do tego w przypadku Bielika dochodzi kwestia taka, że ten model jest nasz, par excellence narodowy, więc taki zryw, żeby go trenować, żywi się również dodatkowym paliwem – dodaje mec. Litwiński.

Katarzyna Starosławska też podkreśla ten aspekt.

– Każda polska firma i każdy obywatel może już dziś trenować Bielika samodzielnie. Wystarczy pobrać otwarte wagi modelu i bezpłatne oprogramowanie treningowe. Akcja „Nakarm Bielika” ma jednak zupełnie inny charakter. Polega ona na masowym, anonimowym udostępnieniu dużego modelu językowego kilkunastu milionom użytkowników aplikacji InPost Mobile – mówi wiceprezes. Jak tłumaczy, chodzi o zebranie informacji, jakie zadania Polacy chcą rozwiązywać za pomocą AI – od pisania życzeń świątecznych, przez pytania faktograficzne, po generowanie porad biznesowych czy kreatywnych treści.

– Dzięki temu zespół SpeakLeash będzie mógł lepiej zaplanować kolejne wersje modelu, tak aby realnie odpowiadały na potrzeby zwykłych użytkowników. W branży nazywa się to wyznaczaniem krzywej użyteczności AI – mówi Katarzyna Starosławska.

Mec. Litwiński zwraca jednak uwagę, że nikt nie jest w stanie przewidzieć, co ludzie będą wpisywać w takich promptach treningowych.

– Jeden poprosi o przepis na babkę, a drugi wrzuci np. pytanie o sposoby leczenia konkretnej choroby, o możliwość kupna żywności zgodnej z zasadami religii muzułmańskiej czy o kluby dla osób LGBTQ, czyli poda dane wrażliwe – wymienia prawnik.

Ponadto, jak tłumaczy, korzystamy z aplikacji InPost po zalogowaniu, a więc można założyć, że nie karmimy Bielika anonimowo.

– Tymczasem odnoszącej się specjalnie do niego polityki prywatności nie ma, a w tej zawartej w aplikacji InPost nie ma słowa o Bieliku. I co w tej sytuacji? Ktoś przetwarza moje dane wrażliwe? Na jakiej podstawie? Kto to w ogóle jest? Co się z tymi danymi dzieje? Warto by to jednak gdzieś opisać – mówi Litwiński.

Niejasna polityka prywatności

Również radca prawny Tomasz Zalewski, założyciel kancelarii Zalewski Legal, zwraca uwagę, że polityka prywatności InPost milczy na temat akcji „Nakarm Bielika”. Według niego powinna się do tego odnosić odrębna część polityki prywatności.

– Być może InPost uznał, że skoro w regulaminie usług mobilnych ma szeroką definicję usług („wszelkie udostępnione przez nas usługi i funkcjonalności dostępne w InPost Mobile”), to korzystanie z Bielika w ramach tej aplikacji jest taką usługą – mówi Zalewski.

W polityce prywatności znajduje się sekcja poświęcona InPost chat AI, cel przetwarzania został tam określony jako „świadczenie usług drogą elektroniczną poprzez zapewnienie dostępu do wirtualnego czatu umożliwiającego konwersacje”. Pod to ogólne określenie w ocenie mec. Zalewskiego można by podciągnąć Bielika. Radca prawny zwraca jednak uwagę, że dalej jest informacja, że „możesz korzystać z usług naszego agenta AI – inteligentnego systemu konwersacyjnego, który wspiera obsługę użytkowników poprzez czat online i który może korzystać z danych osobowych”.

A to jego zdaniem wskazuje, że jednak chodzi o innego rodzaju usługę – o chat do wsparcia obsługi użytkowników.

– Zresztą taki chat działa niezależnie od Bielika, można z nim porozmawiać po wejściu w sekcję Kontakt w aplikacji mobilnej (nazywa się chat MAT).Usługa „Nakarm Bielika” jest jednak szersza – można porozmawiać na dowolny temat – zwraca uwagę Tomasz Zalewski.

W sekcji InPost chat AI jest wskazane, że „Dane przekazywane podczas interakcji z agentem AI, a więc informacje z treści rozmów, wpisywane pytania i odpowiedzi, mogą być wykorzystywane do trenowania sztucznej inteligencji. Dane te służą także do realizacji bieżącej obsługi użytkownika oraz poprawy jakości usługi i wykrywania nadużyć w ramach istniejących funkcji systemu”. Zdaniem mec. Zalewskiego, przy założeniu, że „Nakarm Bielika” mieści się w ramach usługi InPost chat AI, byłaby to podstawa prawna do wykorzystywania danych do trenowania modelu.

– Rozumiem, że celem akcji jest dostarczenie twórcom modelu Bielik danych do dalszego treningu modelu. Jednak moim zdaniem w komunikacji medialnej nie jest to zbyt precyzyjnie wyjaśnione. Jest tylko zdanie: „Każda Twoja rozmowa z Bielikiem to trening dla modelu i realny wkład w jego rozwój”. Nie wiadomo, czy chodzi o to, że model uczy się w czasie rzeczywistym (chyba nie), czy raczej o to, że nasze dane będą stanowiły potem materiał do treningu modelu – analizuje Tomasz Zalewski.

Pytania o bezpieczeństwo danych osób wspierających akcję „Nakarm Bielika” wysłaliśmy również do Urzędu Ochrony Danych Osobowych, jednak do momentu publikacji tego tekstu nie otrzymaliśmy odpowiedzi. ©℗