Co to znaczy dostosować sztuczną inteligencję do wartości ludzkich? Inteligencja danych PlatoBlockchain. Wyszukiwanie pionowe. AI.

Co to znaczy dostosować sztuczną inteligencję do ludzkich wartości?

Wprowadzenie

Wiele lat temu nauczyłem się programować na starej maszynie Symbolics Lisp. System operacyjny miał wbudowane polecenie „DWIM”, skrót od „Do What I Mean”. Jeśli wpisałem polecenie i pojawił się błąd, mogłem wpisać „DWIM”, a maszyna próbowała dowiedzieć się, co chciałem zrobić. W zaskakującym ułamku czasu faktycznie zadziałało.

Polecenie DWIM było mikrokosmosem bardziej współczesnego problemu „dopasowania AI”: my, ludzie, mamy skłonność do wydawania maszynom niejednoznacznych lub błędnych instrukcji i chcemy, aby robiły to, co mamy na myśli, niekoniecznie to, co mówimy.

Komputery często błędnie interpretują to, czego od nich oczekujemy, z nieoczekiwanymi i często zabawnymi skutkami. Na przykład jeden badacz zajmujący się uczeniem maszynowym, badając podejrzanie dobre wyniki programu do klasyfikacji obrazów, odkryty że opierał klasyfikacje nie na samym obrazie, ale na tym, jak długo trwało dostęp do pliku obrazu — obrazy z różnych klas były przechowywane w bazach danych o nieco innych czasach dostępu. Inne przedsiębiorczy programista chciał, aby jego odkurzacz Roomba przestał obijać się o meble, więc podłączył Roombę do sieci neuronowej, która nagradzała prędkość, ale karała Roombę za zderzenie przedniego zderzaka z czymś. Maszyna spełniała te cele, zawsze jadąc do tyłu.

Ale społeczność badaczy dopasowywania sztucznej inteligencji widzi ciemniejszą stronę tych anegdot. W rzeczywistości uważają, że niezdolność maszyn do rozpoznania, czego naprawdę od nich oczekujemy, stanowi egzystencjalne ryzyko. Uważają, że aby rozwiązać ten problem, musimy znaleźć sposoby dostosowania systemów sztucznej inteligencji do ludzkich preferencji, celów i wartości.

Pogląd ten zyskał na znaczeniu dzięki bestsellerowej książce z 2014 roku Superinteligencja przez filozofa Nicka Bostroma, który po części argumentował, że rosnąca inteligencja komputerów może stanowić bezpośrednie zagrożenie dla przyszłości ludzkości. Bostrom nigdy nie zdefiniował dokładnie inteligencji, ale podobnie jak większość innych członków społeczności zajmującej się dopasowywaniem sztucznej inteligencji, później przyjął definicję przegubowy przez badacza AI Stuart Russell jako: „Istota jest uważana za inteligentną, z grubsza mówiąc, jeśli wybiera działania, od których oczekuje się, że osiągną jej cele, biorąc pod uwagę to, co spostrzegła”.

Bostrom oparł swój pogląd na zagrożenia związane ze sztuczną inteligencją na dwóch tezach. Pierwszą z nich jest teza o ortogonalności, która stwierdza słowami Bostroma: „Inteligencja i ostateczne cele to ortogonalne osie, wzdłuż których potencjalni agenci mogą się swobodnie zmieniać. Innymi słowy, mniej więcej dowolny poziom inteligencji można w zasadzie połączyć z mniej więcej dowolnym ostatecznym celem”. Druga to teza o konwergencji instrumentalnej, która zakłada, że ​​agent inteligentny będzie działał w sposób sprzyjający jego własnemu przetrwaniu, samodoskonaleniu i zdobywaniu zasobów, o ile zwiększa to prawdopodobieństwo osiągnięcia przez agenta ostatecznego celu. Następnie poczynił ostatnie założenie: naukowcy wkrótce stworzą superinteligencję AI – taką, która „znacznie przewyższa możliwości poznawcze ludzi w praktycznie wszystkich dziedzinach zainteresowania”.

Dla Bostroma i innych członków społeczności zajmującej się dostosowywaniem sztucznej inteligencji ta perspektywa oznacza zagładę ludzkości, chyba że uda nam się dostosować superinteligentną sztuczną inteligencję do naszych pragnień i wartości. Bostrom ilustruje to niebezpieczeństwo za pomocą słynnego eksperymentu myślowego: wyobraź sobie, że stawiasz superinteligentnej sztucznej inteligencji cel, jakim jest maksymalizacja produkcji spinaczy do papieru. Zgodnie z tezami Bostroma, dążąc do osiągnięcia tego celu, system sztucznej inteligencji wykorzysta swoją nadludzką błyskotliwość i kreatywność, aby zwiększyć własną moc i kontrolę, ostatecznie zdobywając wszystkie światowe zasoby, aby wyprodukować więcej spinaczy do papieru. Ludzkość wymrze, ale produkcja spinaczy rzeczywiście zostanie zmaksymalizowana.

Jeśli wierzysz, że inteligencja jest definiowana jako zdolność do osiągania celów, że każdy cel może być „wstawiony” przez ludzi do superinteligentnego agenta AI i że taki agent wykorzystałby swoją superinteligencję do zrobienia wszystkiego, aby osiągnąć ten cel, to uwierzysz dojść do tego samego konkluzja co zrobił Russell: „Wszystko, co jest potrzebne do zapewnienia katastrofy, to wysoce kompetentna maszyna połączona z ludźmi, którzy mają niedoskonałą zdolność do pełnego i prawidłowego określania ludzkich preferencji”.

To znany trop w science fiction – ludzkość jest zagrożona przez wymykające się spod kontroli maszyny, które źle zinterpretowały ludzkie pragnienia. Teraz spora część społeczności badaczy sztucznej inteligencji jest głęboko zaniepokojona tego rodzaju scenariuszem rozgrywającym się w prawdziwym życiu. Dziesiątki instytutów wydały już setki milionów dolarów na ten problem, a na uniwersytetach na całym świecie oraz w dużych firmach zajmujących się sztuczną inteligencją, takich jak Google, Meta i OpenAI, trwają prace badawcze nad dostosowaniem.

A co z bardziej bezpośrednimi zagrożeniami stwarzanymi przez niesuperinteligentną sztuczną inteligencję, takimi jak utrata pracy, stronniczość, naruszenia prywatności i rozpowszechnianie dezinformacji? Okazuje się, że społeczności zainteresowane głównie takimi krótkoterminowymi zagrożeniami i tymi, które bardziej martwią się długoterminowymi zagrożeniami, nie pokrywają się. W rzeczywistości jest coś w rodzaju wojny kulturowej sztucznej inteligencji, przy czym jedna strona bardziej martwi się obecnymi zagrożeniami niż tym, co postrzega jako nierealistyczny techno-futuryzm, a druga strona uważa bieżące problemy za mniej pilne niż potencjalne katastrofalne ryzyko stwarzane przez superinteligentną sztuczną inteligencję.

Dla wielu spoza tych konkretnych społeczności, sojusz AI wygląda jak religia — z szanowanymi przywódcami, niekwestionowaną doktryną i oddanymi uczniami walczącymi z potencjalnie wszechpotężnym wrogiem (niezaangażowana superinteligentna sztuczna inteligencja). Rzeczywiście, ostatnio informatyk i bloger Scott Aaronson zauważyć że istnieją teraz „prawosławne” i „reformowane” gałęzie wiary w dostosowanie AI. Pisze, że ten pierwszy martwi się prawie całkowicie „niewłaściwą sztuczną inteligencją, która oszukuje ludzi, podczas gdy stara się ich zniszczyć”. W przeciwieństwie do tego, pisze: „my, ryzykujący reformę sztucznej inteligencji, rozważamy taką możliwość, ale przynajmniej tak samo martwimy się potężnymi sztucznymi inteligencjami, które są uzbrojone przez złych ludzi, co do których spodziewamy się, że znacznie wcześniej będą stanowić zagrożenie egzystencjalne”.

Wielu badaczy jest aktywnie zaangażowanych w projekty oparte na wyrównaniu, począwszy od próby przekazania zasad filozofii moralnej do maszyn, do trenowanie dużych modeli językowych w sprawie sądów etycznych pochodzących z crowdsourcingu. Żaden z tych wysiłków nie był szczególnie przydatny w zmuszaniu maszyn do rozumowania w rzeczywistych sytuacjach. Wielu pisarzy zwróciło uwagę na wiele przeszkód, które uniemożliwiają maszynom poznanie ludzkich preferencji i wartości: ludzie często zachowują się irracjonalnie i zachowują się w sposób sprzeczny z ich wartościami, a wartości mogą się zmieniać w ciągu życia i pokoleń. W końcu nie jest jasne, jakich wartości powinny uczyć się maszyny.

Wielu członków społeczności zajmujących się dopasowywaniem uważa, że ​​najbardziej obiecującą drogą naprzód jest technika uczenia maszynowego znana jako odwrotne uczenie się wzmacniające (IRL). W przypadku IRL maszyna nie ma celu maksymalizacji; zwolennicy wyrównania uważają, że takie „wstawione” cele mogą nieumyślnie prowadzić do scenariuszy maksymalizacji spinacza. Zamiast tego zadaniem maszyny jest obserwowanie zachowań ludzi i wnioskowanie o ich preferencjach, celach i wartościach. W ostatnich latach naukowcy wykorzystali IRL do trenować maszyny do grania w gry wideo poprzez obserwację ludzi i uczenie robotów jak zrobić salto w tył przekazując im dodatkowe informacje zwrotne od ludzi (ludzie oglądali krótkie klipy przedstawiające różne próby robota i wybierali ten, który wyglądał najlepiej).

Nie jest jasne, czy podobne metody mogą nauczyć maszyny bardziej subtelnych i abstrakcyjnych idei ludzkich wartości. Pisarz Brian Christian, autor m.in popularnonaukowa książka o dostosowaniu AI, jest optymistą: „Nietrudno sobie wyobrazić zastąpienie mglistego pojęcia „przeskoku w tył” jeszcze bardziej mglistym i niewysłowionym pojęciem, takim jak „pomoc”. Lub „życzliwość”. Lub „dobre” zachowanie.

Myślę jednak, że to niedocenianie wyzwania. Pojęcia etyczne, takie jak życzliwość i dobre zachowanie, są znacznie bardziej złożone i zależne od kontekstu niż wszystko, co IRL opanowało do tej pory. Rozważ pojęcie „prawdomówności” — wartości, której z pewnością chcemy w naszych systemach sztucznej inteligencji. Rzeczywiście, głównym problemem dzisiejszych dużych modeli językowych jest ich niezdolność do odróżnienia prawdy od fałszu. Jednocześnie możemy czasami chcieć, aby nasi asystenci AI, podobnie jak ludzie, złagodzili swoją prawdomówność: aby chronić prywatność, unikać obrażania innych lub zapewniać komuś bezpieczeństwo, wśród niezliczonych innych trudnych do wyartykułowania sytuacji.

Inne koncepcje etyczne są równie złożone. Powinno być jasne, że podstawowym pierwszym krokiem w kierunku nauczenia maszyn pojęć etycznych jest umożliwienie maszynom zrozumienia pojęć podobnych do ludzkich, co, jak argumentowałem, nadal jest sztuczną inteligencją. najważniejszy otwarty problem.

Co więcej, dostrzegam jeszcze bardziej fundamentalny problem z nauką leżącą u podstaw koncepcji dostosowania sztucznej inteligencji. Większość dyskusji wyobraża sobie superinteligentną sztuczną inteligencję jako maszynę, która przewyższa ludzi we wszystkich zadaniach poznawczych, ale wciąż brakuje jej zdrowego rozsądku i pozostaje dziwnie mechaniczna. I co ważne, zgodnie z tezą Bostroma o ortogonalności, maszyna osiągnęła superinteligencję bez żadnych własnych celów ani wartości, zamiast tego czekając, aż cele zostaną wprowadzone przez ludzi.

Czy jednak inteligencja może działać w ten sposób? Nic w obecnej nauce psychologii lub neuronauki nie potwierdza takiej możliwości. Inteligencja, przynajmniej u ludzi, jest głęboko powiązana z naszymi celami i wartościami, a także poczuciem własnej wartości oraz naszym szczególnym środowiskiem społecznym i kulturowym. Doprowadziła do tego intuicja, że ​​rodzaj czystej inteligencji można oddzielić od tych innych czynników wiele nieudanych prognoz w historii SI. Z tego, co wiemy, wydaje się znacznie bardziej prawdopodobne, że celów ogólnie inteligentnego systemu sztucznej inteligencji nie można było łatwo wprowadzić, ale musiałby się rozwijać, podobnie jak nasz, w wyniku własnego wychowania społecznego i kulturowego.

W swojej książce Kompatybilny z ludźmi, Russell argumentuje za pilną potrzebą badań nad problemem zestrojenia: „Właściwy czas, aby martwić się o potencjalnie poważny problem dla ludzkości, zależy nie tylko od tego, kiedy problem się pojawi, ale także od tego, ile czasu zajmie przygotowanie i wdrożenie rozwiązania. ” Ale bez lepszego zrozumienia, czym jest inteligencja i jak można ją oddzielić od innych aspektów naszego życia, nie możemy nawet zdefiniować problemu, a tym bardziej znaleźć rozwiązania. Właściwe zdefiniowanie i rozwiązanie problemu wyrównania nie będzie łatwe; będzie to wymagało od nas opracowania szerokiej, naukowo opartej teorii inteligencji.

Znak czasu:

Więcej z Magazyn ilościowy