Samouk AI pokazuje podobieństwa do tego, jak działa mózg PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Samouk AI pokazuje podobieństwa do tego, jak działa mózg

Od dekady wiele z najbardziej imponujących systemów sztucznej inteligencji jest nauczanych przy użyciu ogromnego zbioru oznaczonych danych. Obraz może być oznaczony etykietą „kot pręgowany” lub „kot tygrysi”, na przykład, aby „wytrenować” sztuczną sieć neuronową w prawidłowym odróżnianiu pręgowanego od tygrysa. Strategia okazała się zarówno spektakularnie udana, jak i żałośnie ułomna.

Takie „nadzorowane” szkolenie wymaga danych mozolnie oznaczonych przez ludzi, a sieci neuronowe często idą na skróty, ucząc się kojarzenia etykiet z minimalnymi, a czasem powierzchownymi informacjami. Na przykład sieć neuronowa może wykorzystać obecność trawy do rozpoznania zdjęcia krowy, ponieważ krowy są zazwyczaj fotografowane na polach.

„Wychowujemy generację algorytmów, które są jak studenci, [którzy] nie przychodzili na zajęcia przez cały semestr, a potem w noc przed finałem wkuwają” – powiedział. Aleksiej Efros, informatyk z Uniwersytetu Kalifornijskiego w Berkeley. „Tak naprawdę nie uczą się materiału, ale dobrze radzą sobie na teście”.

Co więcej, dla badaczy zainteresowanych skrzyżowaniem inteligencji zwierząt i maszyn, to „nadzorowane uczenie się” może być ograniczone w tym, co może ujawnić na temat biologicznych mózgów. Zwierzęta — w tym ludzie — nie wykorzystują do nauki oznakowanych zbiorów danych. W większości samodzielnie eksplorują środowisko, dzięki czemu zyskują bogate i solidne zrozumienie świata.

Teraz niektórzy neuronaukowcy obliczeniowi zaczęli badać sieci neuronowe, które zostały wytrenowane z niewielką ilością danych oznaczonych przez człowieka lub bez nich. Te algorytmy „samonadzorowanego uczenia się” okazały się niezwykle skuteczne w: modelowanie ludzkiego języka a ostatnio rozpoznawanie obrazu. W ostatnich pracach modele obliczeniowe systemów wzrokowych i słuchowych ssaków zbudowane przy użyciu modeli samonadzorowanego uczenia się wykazały bliższy związek z funkcją mózgu niż ich odpowiedniki w uczeniu nadzorowanym. Niektórym neurologom wydaje się, że sztuczne sieci zaczynają ujawniać niektóre z rzeczywistych metod używanych przez nasze mózgi do uczenia się.

Wadliwy nadzór

Modele mózgu inspirowane sztucznymi sieciami neuronowymi osiągnęły wiek około 10 lat temu, mniej więcej w tym samym czasie co sieć neuronowa o nazwie AlexNet zrewolucjonizował zadanie klasyfikacji nieznanych obrazów. Ta sieć, podobnie jak wszystkie sieci neuronowe, składała się z warstw sztucznych neuronów, jednostek obliczeniowych, które tworzą połączenia między sobą, które mogą różnić się siłą lub „wagą”. Jeśli sieć neuronowa nie zaklasyfikuje prawidłowo obrazu, algorytm uczący aktualizuje wagi połączeń między neuronami, aby ta błędna klasyfikacja była mniej prawdopodobna w następnej rundzie szkolenia. Algorytm powtarza ten proces wiele razy ze wszystkimi obrazami uczącymi, dostosowując wagi, aż poziom błędów sieci będzie akceptowalnie niski.

Mniej więcej w tym samym czasie neuronaukowcy opracowali pierwsze modele obliczeniowe system wzrokowy naczelnych, wykorzystując sieci neuronowe, takie jak AlexNet i jego następcy. Związek wyglądał obiecująco: kiedy małpom i sztucznym sieciom neuronowym pokazano te same obrazy, na przykład, aktywność prawdziwych i sztucznych neuronów wykazała intrygującą zgodność. Powstały sztuczne modele słyszenia i wykrywania zapachu.

Jednak w miarę postępów w tej dziedzinie naukowcy zdali sobie sprawę z ograniczeń nadzorowanego szkolenia. Na przykład w 2017 roku Leon Gatys, informatyk pracujący wówczas na Uniwersytecie w Tybindze w Niemczech, wraz z kolegami zrobili zdjęcie Forda Model T, a następnie nałożyli na zdjęcie wzór skóry lamparta, tworząc dziwaczny, ale łatwo rozpoznawalny obraz . Wiodąca sztuczna sieć neuronowa prawidłowo sklasyfikowała oryginalny obraz jako Model T, ale zmodyfikowany obraz uznała za lamparta. Zafiksował się na fakturze i nie miał pojęcia o kształcie samochodu (lub lamparta, jeśli o to chodzi).

Strategie samonadzorowanego uczenia się mają na celu unikanie takich problemów. W tym podejściu ludzie nie etykietują danych. Raczej „etykiety pochodzą z samych danych” — powiedział Friedemanna Zenke, neurobiolog obliczeniowy w Instytucie Badań Biomedycznych im. Friedricha Mieschera w Bazylei w Szwajcarii. Algorytmy samonadzorowane zasadniczo tworzą luki w danych i proszą sieć neuronową o wypełnienie luk. Na przykład w tak zwanym modelu dużego języka algorytm uczący pokaże sieci neuronowej kilka pierwszych słów zdania i poprosi o przewidzenie następnego słowa. Po przeszkoleniu za pomocą ogromnego zbioru tekstu zebranego z Internetu model wydaje się uczyć składniową strukturę języka, demonstrującą imponujące zdolności językowe — wszystko bez zewnętrznych etykiet i nadzoru.

Podobny wysiłek ma miejsce w dziedzinie wizji komputerowej. Pod koniec 2021 roku Kaiming He a koledzy ujawnili swoje „zamaskowany autokoder”, który opiera się na a technika zapoczątkowany przez zespół Efros w 2016 roku. Samonadzorowany algorytm uczenia losowo maskuje obrazy, zasłaniając prawie trzy czwarte każdego z nich. Maskowany koder automatyczny zamienia niemaskowane części w ukryte reprezentacje — skompresowane opisy matematyczne zawierające ważne informacje o obiekcie. (W przypadku obrazu, utajona reprezentacja może być opisem matematycznym, który wychwytuje między innymi kształt obiektu na obrazie). Dekoder następnie konwertuje te reprezentacje z powrotem na pełne obrazy.

Algorytm samonadzorowanego uczenia się szkoli kombinację kodera i dekodera w celu przekształcenia zamaskowanych obrazów w ich pełne wersje. Wszelkie różnice między obrazami rzeczywistymi a zrekonstruowanymi są wprowadzane z powrotem do systemu, aby pomóc mu się uczyć. Ten proces jest powtarzany dla zestawu obrazów szkoleniowych, dopóki wskaźnik błędów systemu nie będzie odpowiednio niski. W jednym przykładzie, gdy wyszkolony zamaskowany autokoder został wyświetlony wcześniej niewidoczny obraz autobusu, którego prawie 80% jest zasłoniętych, system z powodzeniem zrekonstruował strukturę autobusu.

„To bardzo, bardzo imponujący wynik” – powiedział Efros.

Utajone reprezentacje stworzone w systemie takim jak ten wydają się zawierać znacznie głębsze informacje niż mogły zawierać poprzednie strategie. System może nauczyć się kształtu samochodu, na przykład — lub lamparta — a nie tylko ich wzorów. „I to jest naprawdę podstawowa idea samonadzorowanego uczenia się – budujesz swoją wiedzę od podstaw” – powiedział Efros. Żadnego wkuwania w ostatniej chwili, aby przejść testy.

Samonadzorowane mózgi

W systemach takich jak ten niektórzy neuronaukowcy dostrzegają echa tego, jak się uczymy. „Myślę, że nie ma wątpliwości, że 90% tego, co robi mózg, to samonadzorowane uczenie się”, powiedział Blake’a Richardsa, neurobiolog obliczeniowy na Uniwersytecie McGill i Mila z Instytutu Sztucznej Inteligencji w Quebecu. Uważa się, że biologiczne mózgi nieustannie przewidują, powiedzmy, przyszłą lokalizację obiektu podczas ruchu lub następne słowo w zdaniu, tak jak samonadzorowany algorytm uczenia się próbuje przewidzieć lukę w obrazie lub fragmencie tekstu. Mózgi też same uczą się na swoich błędach — tylko niewielka część informacji zwrotnych naszego mózgu pochodzi z zewnętrznego źródła, mówiącego w zasadzie „niewłaściwa odpowiedź”.

Rozważmy na przykład układy wzrokowe ludzi i innych naczelnych. Są one najlepiej zbadane ze wszystkich zwierzęcych systemów sensorycznych, ale neuronaukowcy starali się wyjaśnić, dlaczego obejmują one dwie oddzielne ścieżki: brzuszny strumień wzrokowy, który jest odpowiedzialny za rozpoznawanie obiektów i twarzy, oraz grzbietowy strumień wzrokowy, który przetwarza ruch („ co” i „gdzie” odpowiednio).

Richards i jego zespół stworzyli samonadzorowany model, który podpowiada odpowiedź. Oni przeszkolony sztuczna inteligencja łącząca dwie różne sieci neuronowe: pierwsza, zwana architekturą ResNet, została zaprojektowana do przetwarzania obrazów; druga, znana jako sieć rekurencyjna, może śledzić sekwencję wcześniejszych danych wejściowych w celu przewidywania następnych oczekiwanych danych wejściowych. Aby wyszkolić połączoną sztuczną inteligencję, zespół rozpoczął od sekwencji, powiedzmy, 10 klatek z wideo i pozwolił ResNet przetwarzać je jedna po drugiej. Sieć rekurencyjna przewidziała następnie utajoną reprezentację 11. ramki, nie dopasowując po prostu pierwszych 10 ramek. Algorytm samonadzorowanego uczenia się porównał przewidywanie z rzeczywistą wartością i poinstruował sieci neuronowe, aby zaktualizowały swoje wagi, aby ulepszyć przewidywanie.

Zespół Richardsa odkrył, że sztuczna inteligencja wyszkolona za pomocą jednego ResNetu była dobra w rozpoznawaniu obiektów, ale nie w kategoryzowaniu ruchu. Ale kiedy podzielili pojedynczy ResNet na dwie, tworząc dwie ścieżki (bez zmiany całkowitej liczby neuronów), sztuczna inteligencja opracowała reprezentacje obiektów w jednym i ruchu w drugim, umożliwiając dalsze kategoryzację tych właściwości – tak jak prawdopodobnie nasze mózgi robić.

Aby dalej przetestować sztuczną inteligencję, zespół pokazał jej zestaw filmów, które naukowcy z Allen Institute for Brain Science w Seattle pokazali wcześniej myszom. Podobnie jak naczelne, myszy mają obszary mózgu wyspecjalizowane w obrazach statycznych i ruchu. Naukowcy z firmy Allen rejestrowali aktywność neuronalną w korze wzrokowej myszy, gdy zwierzęta oglądały filmy.

Również tutaj zespół Richardsa znalazł podobieństwa w sposobie, w jaki sztuczna inteligencja i żywe mózgi reagowały na filmy. Podczas treningu jedna ze ścieżek w sztucznej sieci neuronowej stała się bardziej podobna do brzusznych, wykrywających obiekty obszarów mózgu myszy, a druga ścieżka upodobniła się do obszarów grzbietowych zorientowanych na ruch.

Wyniki sugerują, że nasz system wzrokowy ma dwie wyspecjalizowane ścieżki, ponieważ pomagają one przewidywać wizualną przyszłość, powiedział Richards; pojedyncza ścieżka nie wystarczy.

Podobną historię opowiadają modele ludzkiego układu słuchowego. W czerwcu zespół kierowany przez Jean-Rémi King, naukowiec w Meta AI, wyszkolił sztuczną inteligencję o nazwie Wav2Vec 2.0, który wykorzystuje sieć neuronową do przekształcania dźwięku w ukryte reprezentacje. Naukowcy maskują niektóre z tych reprezentacji, które są następnie przesyłane do innej składowej sieci neuronowej zwanej transformatorem. Podczas uczenia transformator przewiduje zamaskowane informacje. W tym procesie cała sztuczna inteligencja uczy się przekształcać dźwięki w utajone reprezentacje – znowu nie są potrzebne żadne etykiety. Zespół wykorzystał około 600 godzin danych głosowych, aby wyszkolić sieć, „co jest w przybliżeniu tym, co dziecko otrzyma w ciągu pierwszych dwóch lat doświadczenia” – powiedział King.

Po przeszkoleniu systemu naukowcy odtwarzali fragmenty audiobooków w języku angielskim, francuskim i mandaryńskim. Naukowcy porównali następnie wydajność sztucznej inteligencji z danymi od 412 osób — mieszanki rodzimych użytkowników trzech języków, którzy słuchali tych samych fragmentów dźwięku, podczas gdy ich mózgi były obrazowane w skanerze fMRI. King powiedział, że jego sieć neuronowa i ludzki mózg, pomimo hałaśliwych obrazów fMRI o niskiej rozdzielczości, „nie tylko korelują ze sobą, ale korelują w sposób systematyczny”: aktywność wczesnych warstw sztucznej inteligencji jest zgodna z aktywnością w pierwotnej korze słuchowej, podczas gdy aktywność najgłębszych warstw AI jest zgodna z aktywnością w wyższych warstwach mózgu, w tym przypadku w korze przedczołowej. „To naprawdę piękne dane” — powiedział Richards. „To nie jest rozstrzygające, ale [to] kolejny przekonujący dowód sugerujący, że rzeczywiście sposób, w jaki uczymy się języka, polega w dużej mierze na przewidywaniu kolejnych rzeczy, które zostaną powiedziane”.

Nieuleczalne patologie

Nie wszyscy są przekonani. Josha McDermotta, neurobiolog obliczeniowy z Massachusetts Institute of Technology, pracował nad modelami widzenia i percepcji słuchowej, wykorzystując zarówno uczenie nadzorowane, jak i samonadzorowane. Jego laboratorium zaprojektowało coś, co nazywa „metamerami”, zsyntetyzowanymi sygnałami dźwiękowymi i wizualnymi, które dla człowieka są po prostu nieodgadniony hałas. Jednak dla sztucznej sieci neuronowej metamery wydają się nie do odróżnienia od rzeczywistych sygnałów. Sugeruje to, że reprezentacje, które tworzą się w głębszych warstwach sieci neuronowej, nawet przy samonadzorowanym uczeniu się, nie pasują do reprezentacji w naszych mózgach. Te metody samonadzorowanego uczenia się „to postęp w tym sensie, że jesteś w stanie nauczyć się reprezentacji, które mogą wspierać wiele zachowań związanych z rozpoznawaniem bez potrzeby używania tych wszystkich etykiet”, powiedział McDermott. „Ale nadal mają wiele patologii nadzorowanych modeli”.

Same algorytmy też wymagają więcej pracy. Na przykład w Meta AI Wav2Vec 2.0 sztuczna inteligencja przewiduje utajone reprezentacje tylko dla kilkudziesięciu milisekund dźwięku — mniej czasu niż wypowiedzenie percepcyjnie wyraźnego dźwięku, nie mówiąc już o słowie. „Jest wiele rzeczy do zrobienia, aby zrobić coś podobnego do tego, co robi mózg” – powiedział King.

Prawdziwe zrozumienie funkcji mózgu będzie wymagało czegoś więcej niż samonadzorowanej nauki. Po pierwsze, mózg jest pełen połączeń sprzężenia zwrotnego, podczas gdy obecne modele mają niewiele takich połączeń, jeśli w ogóle. Oczywistym następnym krokiem byłoby wykorzystanie samonadzorowanego uczenia się do trenowania wysoce powtarzających się sieci — trudnego procesu — i zobaczenia, jak aktywność w takich sieciach ma się do rzeczywistej aktywności mózgu. Drugim kluczowym krokiem byłoby dopasowanie aktywności sztucznych neuronów w modelach samonadzorowanego uczenia się do aktywności poszczególnych neuronów biologicznych. „Mam nadzieję, że w przyszłości [nasze] wyniki zostaną potwierdzone również w przypadku nagrań jednokomórkowych” – powiedział King.

Jeśli obserwowane podobieństwa między mózgami a modelami uczenia się samonadzorowanego odnoszą się do innych zadań sensorycznych, będzie to jeszcze silniejsza wskazówka, że ​​jakakolwiek magia, do jakiej zdolny jest nasz mózg, wymaga w jakiejś formie samonadzorowanego uczenia się. „Jeśli znajdziemy systematyczne podobieństwa między bardzo różnymi systemami, [sugerowałoby to], że być może nie ma zbyt wielu sposobów przetwarzania informacji w inteligentny sposób” – powiedział King. „Przynajmniej taka jest piękna hipoteza, z którą chcielibyśmy pracować”.

Znak czasu:

Więcej z Magazyn ilościowy