Sfabrykowane zapisy wystąpień światowych przywódców, jak Barack Obama czy Władimir Putin, mówiących rzeczy, których się po nich nie spodziewamy, robiły wrażenie, odkąd pojawiły się w internecie. Przez pewien czas deepfake pełnił nawet funkcję straszaka. Skoro nie wiadomo, jak odróżnić materiały prawdziwe od fałszywych, to czy nie mamy do czynienia z końcem prawdy?

Mnie zwykle ciekawiło coś innego, czemu analitycy i eksperci poświęcali mniej uwagi. Nie wystarczy stworzyć fałszywkę. Trzeba ją też umieć dostarczyć szerokiemu gronu odbiorców w sposób dla nich wiarygodny. Część ekspertów nie dostrzegała tego szczegółu, przez co powstawało wrażenie nieuniknionego zagrożenia, wiszącego już nad nami. Problematyka deepfake dotarła do wysoko postawionych decydentów i weszła do programów politycznych w krajach Unii Europejskiej, w pewnym stopniu także w Polsce.

Istnienie podobnych zjawisk dostrzeżono dopiero w okolicy 2016 r. Niestety nie zawsze nadaje się im prawidłowe znaczenie. Stwierdzenie, co, kiedy i jakiej rangi problem stanowi, nie jest proste. W 2020 r. kot deepfake wyskoczył z worka. Pierwsze znaczące zastosowanie tej techniki w kampanii wyborczej miało miejsce w Indiach. Przewodniczący Indyjskiej Partii Ludowej Manoj Tiwari zastosował ją w wyborach lokalnych w Delhi… na samym sobie. Rzeczywisty zapis wideo z przemówieniem wygłoszonym po angielsku algorytmicznie przerobiono w taki sposób, że główny bohater sprawiał wrażenie, jakby mówił w dialekcie harianwi. Odbyło się to za jego zgodą, ale bez świadomości odbiorcy końcowego.

Modyfikacja zapisu audiowizualnego była delikatna i subtelna. Wizualnie obejmowała jedynie okolice warg, a odpowiednio zsynchronizowany zapis dźwiękowy sprawiał, że odbiorca mógł odnieść wrażenie, iż ogląda polityka mówiącego jego językiem. Z perspektywy elektoratu dzięki technologii deepfake Tiwari uzyskał możliwość mówienia w dialekcie, którego nie zna. W rzeczywistości materiał odczytał prawdopodobnie profesjonalny mówca, a algorytm podłożył go pod istniejące wcześniej wideo w taki sposób, by brzmiał jak nagranie bohatera spotu.

Do realistycznych modyfikacji w rodzaju deepfake potrzeba danych. Z tym nie ma żadnego problemu, jeśli modyfikacji podlega coś, co się kontroluje. Można wyobrazić sobie wiele wyzwań, w tym etyczno-moralnych, ale nie ma tu mowy o końcu prawdy. W indyjskich regionach obowiązują 23 języki urzędowe, a ich mieszkańcy posługują się łącznie 780 mowami, więc problem dotarcia z przekazem do wszystkim odbiorców jest realny. Indyjscy ludowcy poszerzyli grono odbiorców, ale elektorat największej demokracji świata zyskał możliwość dotarcia do treści polityczno-społecznych w zrozumiałym dla niego języku. Wygląda to zatem na pozytywne wykorzystanie technologii deepfake.

Nie czuję się ekspertem od marketingu politycznego, więc nie zamierzam wnikać w filozoficzne różnice między dezinformacją a politycznym PR. Nie chcę w tym tekście rozważać, na ile blisko prawdy leżą kampanijne technikalia w rodzaju czytania z telepromptera wypowiedzi, które wcześniej ktoś komuś napisał. Czuję się jednak w obowiązku zaznaczyć, że kluczowe znaczenie takiej algorytmicznej produkcji spotów audiowizualnych dotyczy skalowalności. W przypadku zdarzenia w Indiach kandydat nie musiał uczyć się wymowy nieznanego dialektu. Zdolność tę nadano mu automatycznie. W przyszłości być może nawet nie trzeba będzie mieć nic do powiedzenia ani dobrej dykcji, a nawet nie władać poprawnie żadnym językiem z ojczystym na czele.

Technicznie do modyfikacji w rodzaju deepfake potrzeba algorytmu, danych i komputerów. W zależności od oczekiwanego efektu i specyfiki, uczenie modelu sztucznej inteligencji takiego zastosowania może być dziś kwestią kilku godzin lub dni. W warunkach kontrolowanych, przy dostępie do odpowiednich zasobów, nie stanowi to problemu. Nawet jeśli – jak w Indiach – wciąż zachodzi potrzeba podłożenia zachowania, czyli przeczytania przemówienia z odpowiednią dykcją i intonacją. Wydaje się, że algorytmiczna automatyzacja produkcji przemówień polityków, dyplomatów i biznesmenów to tylko kwestia czasu.

Być może już za kilka lat, mając odpowiednie dane startowe, będzie można tworzyć realistyczny i spersonalizowany przekaz na dużo większą skalę. Da to wtedy posiadaczom technologii ewidentną przewagę w komunikacji na wielu poziomach. Publicznie znana i popularna twarz nie będzie musiała nic robić. Dane o swoim zachowaniu, wymagane do dalszego przetwarzania, udostępni tylko raz. Od tej pory wszystko można stworzyć automatycznie. Znajoma twarz mogłaby mówić o problemach ważnych dla lokalnych społeczności na poziomie gmin, miast, a może nawet osiedli czy budynków. Setki przemówień w tym samym czasie.

Wkład merytoryczny wypowiedzi zapewnialiby analitycy zorientowani w sprawach lokalnych, podczas gdy główny bohater spotu w tym czasie piłby kawę przy serniczku. O ile w ogóle by jeszcze żył. Czy w niektórych systemach autorytarnych nie można by twarzy zmarłego już przywódcy wykorzystywać przez dłuższy czas, by zapewniać społeczeństwo, że wszystko jest w porządku? W demokracjach zaś prędzej czy później trzeba rozpocząć debatę o roli nowoczesnych technologii w komunikacji – także politycznej – i wyznaczyć jej granice i jasne zasady. Być może pierwszą z nich powinien być obowiązek oznaczania materiałów generowanych automatycznie.