Język jest pełen wizualnych odniesień. Mówimy: nie wierzyć własnym oczom, obraz jest wart tysiąca słów, prawda w oczy kole, co z oczu, to z serca. Przykłady można by mnożyć. Wzrok ma dla człowieka fundamentalne znaczenie. Ale zmysł wzroku nie od początku towarzyszył życiu na Ziemi. Jeszcze ok. 540 mln lat temu wszystkie organizmy żyły pod wodą i żaden z nich nie miał zdolności widzenia. Dopiero trylobity, jako pierwsze zwierzęta, były w stanie dostrzegać światło słoneczne rozświetlające ich otoczenie. A potem, w ciągu 10–15 mln lat, nastąpiła niezwykła zmiana. W okresie, który dziś nazywamy eksplozją kambryjską, pojawili się przodkowie większości współczesnych zwierząt, a zdolność widzenia stała się powszechna.
Dziś swoją eksplozję kambryjską przeżywa sztuczna inteligencja (AI). Można odnieść wrażenie, że co tydzień odkrywa nam jakieś nowe, zdumiewające narzędzie. Początkowo rozwój generatywnej sztucznej inteligencji był napędzany przez duże modele językowe, takie jak ChatGPT, imitujące inteligencję werbalną człowieka. Tymczasem moim zdaniem o wiele ważniejsza jest inteligencja oparta na wzroku, którą określam jako inteligencję przestrzenną. Język jest istotny, ale ludzka zdolność rozumienia świata i umiejętność wchodzenia z nim w interakcje opiera się w dużej mierze na zdolności widzenia.
Dziedzina badań nad sztuczną inteligencją znana jako widzenie komputerowe od dawna dąży do tego, aby komputery wykazywały się taką samą, albo większą, inteligencją przestrzenną jak ludzie. W ciągu ostatnich 15 lat dyscyplina ta poczyniła ogromne postępy. Jestem głęboko przekonana, że AI należy rozwijać, stawiając na pierwszym miejscu dobro człowieka, i temu właśnie poświęciłam moją karierę.
Nikt nie uczy dziecka, jak ma widzieć. Dzieci uczą się rozumieć świat poprzez doświadczenia i przykłady. Ich oczy są jak biologiczne aparaty fotograficzne, robiące pięć zdjęć na sekundę. W ciągu pierwszych trzech lat życia dziecko jest w stanie zobaczyć setki milionów takich obrazów.
Wieloletnie badania wykazały, że kluczowym elementem widzenia jest rozpoznawanie obiektów, dlatego uczenie komputerów zaczęliśmy od tej umiejętności. Nie było to łatwe. Istnieje nieskończenie wiele sposobów, by trójwymiarowy kształt, na przykład kota, przedstawić jako dwuwymiarowy obraz. Istotny jest kąt widzenia, pozycja zwierzęcia, tło i wiele innych czynników. Do zidentyfikowania kota na zdjęciu komputer potrzebuje dużej ilości informacji, podobnie jak dziecko.
Aby rozpoznawanie obrazów przez komputery stało się możliwe, potrzebny był zbieg trzech elementów, który nastąpił w połowie pierwszej dekady XXI w. Wówczas algorytmy znane jako splotowe sieci neuronowe, istniejące od dziesięcioleci, zostały połączone z nowoczesnymi, mocnymi procesorami graficznymi (GPU) i dostępnością dużych zbiorów danych (big data) – miliardów obrazów z internetu czy aparatów cyfrowych.
Moje laboratorium wniosło do tego współdziałania element „big data”. W 2007 r., w ramach projektu pod nazwą ImageNet, stworzyliśmy bazę zawierającą 15 mln podpisanych obrazów, przedstawiających obiekty z 22 tys. kategorii. Następnie, wraz z innymi badaczami, za pomocą zgromadzonych obrazów i ich opisów tekstowych, wytrenowaliśmy modele sieci neuronowych, aby potrafiły prostym zdaniem opisać niewidziane wcześniej zdjęcie. Nieoczekiwanie szybki postęp systemów rozpoznawania obrazów, stworzonych przy użyciu bazy danych ImageNet, przyczynił się do dzisiejszego skokowego rozwoju AI.
W miarę postępu technologicznego pojawiła się nowa generacja modeli, opartych na takich technikach, jak architektura transformatorowa i dyfuzja, które dały początek narzędziom generatywnej sztucznej inteligencji. W domenie języka umożliwiło to powstanie chatbotów takich, jak ChatGPT. W sferze wizualnej nowoczesne systemy nie tylko rozpoznają, lecz także generują obrazy i filmy w odpowiedzi na polecenia tekstowe. Efekty są imponujące, ale wciąż tylko dwuwymiarowe.
Aby komputery miały inteligencję przestrzenną taką jak ludzka, muszą być zdolne do tworzenia modeli świata, do rozumowania na temat rzeczy i miejsc oraz do nawiązywania interakcji zarówno w czasie, jak i w trójwymiarowej przestrzeni. Jednym słowem, w rozwijaniu sztucznej inteligencji musimy przejść od dużych modeli językowych do dużych modeli świata.
Pierwsze oznaki tego nowego podejścia są już widoczne w laboratoriach badawczych i w przemyśle. Najnowsze modele AI – uczone przy pomocy tekstu, obrazów, filmów i danych przestrzennych, pochodzących z czujników i sensorów robotycznych – pozwalają sterować robotami za pomocą poleceń tekstowych. Możemy poprosić je o odłączenie ładowarki telefonu czy też zrobienie kanapki. Modele te potrafią również przekształcić dwuwymiarowy obraz w nieskończoną liczbę potencjalnych przestrzeni trójwymiarowych, które użytkownik może eksplorować.
Możliwości zastosowań są nieograniczone. Wyobraźcie sobie roboty, które potrafią poruszać się po domach i opiekować starszymi osobami, albo służą jako dodatkowe, niestrudzone ręce chirurgom. Możliwe jest też wykorzystanie ich w symulacjach, szkoleniach i edukacji. To właśnie jest sztuczna inteligencja prawdziwie zorientowana na człowieka, a kolejnym etapem jej rozwoju będzie inteligencja przestrzenna. To, co u ludzi wymagało setek milionów lat ewolucji, komputerom zajęło kilka dziesięcioleci. A ostatecznie skorzystamy na tym właśnie my, ludzie. ©Ⓟ