Czy sztuczna inteligencja wie, czym jest jabłko? Ona ma zamiar się tego dowiedzieć.

Opublikowane ponownie przez Plato

Obserwuje: 0

Czy sztuczna inteligencja wie, czym jest jabłko? Ona ma zamiar się tego dowiedzieć. | Magazyn Quanta PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zacznij rozmawiać Ellie Pawlik o swojej pracy — szukając dowodów zrozumienia w ramach dużych modeli językowych (LLM) — i może brzmieć, jakby naśmiewała się z tego. Wyrażenie „falowane ręcznie” jest ulubione, a jeśli wspomina o „znaczeniu” lub „rozumowaniu”, często pojawia się to z rzucającymi się w oczy cudzysłowami. To po prostu sposób Pavlicka na zachowanie uczciwości. Jako informatyk studiująca modele językowe na Brown University i Google DeepMind wie, że zaakceptowanie nieodłącznej bzdury języka naturalnego to jedyny sposób, aby potraktować go poważnie. „To dyscyplina naukowa i jest trochę niepewna” – powiedziała.

Precyzja i niuanse współistnieją w świecie Pavlick od czasów dojrzewania, kiedy lubiła matematykę i nauki ścisłe, „ale zawsze utożsamiała się z osobą bardziej kreatywną”. Jako studentka uzyskała stopnie naukowe w dziedzinie ekonomii i gry na saksofonie, a następnie obroniła doktorat z informatyki – dziedziny, w której nadal czuje się outsiderem. „Wiele osób uważa, że inteligentne systemy będą wyglądać bardzo podobnie do kodu komputerowego: schludnie i wygodnie, jak wiele systemów, które dobrze rozumiemy” – stwierdziła. „Po prostu uważam, że odpowiedzi są skomplikowane. Jeśli mam rozwiązanie, które jest proste, jestem prawie pewien, że jest błędne. A nie chcę się mylić.”

Przypadkowe spotkanie z informatykiem, który zajmował się przetwarzaniem języka naturalnego, skłoniło Pavlick do rozpoczęcia pracy doktorskiej, badającej, w jaki sposób komputery mogą kodować semantykę, czyli znaczenie w języku. „Myślę, że zadrapało pewne swędzenie” – powiedziała. „To zanurza się w filozofii, co pasuje do wielu rzeczy, nad którymi obecnie pracuję”. Obecnie jeden z głównych obszarów badań Pavlicka koncentruje się na „ugruntowaniu” — pytaniu, czy znaczenie słów zależy od rzeczy, które istnieją niezależnie od samego języka, takich jak percepcja zmysłowa, interakcje społeczne, a nawet inne myśli. Modele językowe są uczone wyłącznie na tekście, dzięki czemu stanowią owocną platformę do badania wpływu uziemienia na znaczenie. Ale samo to pytanie zajmuje lingwistów i innych myślicieli od dziesięcioleci.

„To nie są tylko problemy «techniczne»” – powiedział Pavlick. „Język jest tak ogromny, że mam wrażenie, że obejmuje wszystko”.

Quanta rozmawiał z Pavlickiem o zrobieniu nauki z filozofii, o tym, co oznacza „znaczenie” i jak ważne są nieseksowne wyniki. Wywiad został skrócony i zredagowany dla przejrzystości.

Co oznacza „zrozumienie” lub „znaczenie” z empirycznego punktu widzenia? Czego konkretnie szukasz?

Kiedy rozpoczynałem program badawczy w Brown, zdecydowaliśmy, że znaczenie w jakiś sposób wiąże się z pojęciami. Zdaję sobie sprawę, że jest to teoretyczne zobowiązanie, którego nie każdy podejmuje, ale wydaje się intuicyjne. Jeśli używasz słowa „jabłko” w znaczeniu jabłka, potrzebujesz koncepcji jabłka. To musi być coś, niezależnie od tego, czy używasz tego słowa w odniesieniu do tego, czy nie. To właśnie oznacza „mieć znaczenie”: musi istnieć koncepcja, coś, co werbalizujesz.

Chcę znaleźć koncepcje w modelu. Chcę czegoś, co mógłbym złapać w sieci neuronowej, dowodu na to, że istnieje rzecz, która wewnętrznie reprezentuje „jabłko”, co pozwala na spójność określania go tym samym słowem. Ponieważ wydaje się, że istnieje taka wewnętrzna struktura, która nie jest przypadkowa i arbitralna. Można znaleźć te małe elementy o dobrze zdefiniowanych funkcjach, które niezawodnie coś robią.

Skupiłem się na scharakteryzowaniu tej wewnętrznej struktury. Jaką formę ma? Może to być jakiś podzbiór wag w sieci neuronowej lub jakiś rodzaj liniowej operacji algebraicznej na tych wagach, jakiś rodzaj abstrakcji geometrycznej. Musi jednak odgrywać rolę przyczynową [w zachowaniu modelu]: jest podłączony do tych danych wejściowych, ale nie do tych, i do tych wyników, a nie do tamtych.

Wydaje się, że jest to coś, co można nazwać „znaczeniem”. Chodzi o to, aby dowiedzieć się, jak znaleźć tę strukturę i ustanowić relacje, a gdy już to wszystko ustalimy, będziemy mogli zastosować ją do pytań typu „Czy wie, co oznacza słowo „jabłko”?”

Czy znalazłeś jakieś przykłady tej konstrukcji?

Tak jeden dalsze polega na tym, że model języka pobiera informację. Jeśli zapytasz modela „Jaka jest stolica Francji”, powinien odpowiedzieć „Paryż”, a „Jaka jest stolica Polski” powinna zwrócić „Warszawa”. Bardzo łatwo może po prostu zapamiętać wszystkie te odpowiedzi i mogą być rozproszone po całym modelu [w modelu] – nie ma prawdziwego powodu, dla którego musiałby mieć połączenie między tymi rzeczami.

Zamiast tego znaleźliśmy w modelu małe miejsce, w którym sprowadza się to połączenie do jednego małego wektora. Jeśli dodasz go do „Jaka jest stolica Francji”, wyświetli się „Paryż”; i ten sam wektor, jeśli zapytasz „Jaka jest stolica Polski”, wyświetli „Warszawę”. Przypomina to systematyczny wektor „odzyskania stolicy”.

To naprawdę ekscytujące odkrycie, ponieważ wygląda na to, że [model] sprowadza te małe pojęcia, a następnie stosuje do nich ogólne algorytmy. I chociaż przyglądamy się tym naprawdę [prostym] pytaniom, chodzi o znalezienie dowodów na istnienie tych surowców, których używa model. W tym przypadku łatwiej byłoby uniknąć zapamiętywania — pod wieloma względami właśnie do tego zaprojektowano te sieci. Zamiast tego rozkłada [informacje] na kawałki i „uzasadnia” je. Mamy nadzieję, że gdy opracujemy lepsze projekty eksperymentalne, być może uda nam się znaleźć coś podobnego dla bardziej skomplikowanych koncepcji.

Jak uziemienie odnosi się do tych reprezentacji?

Sposób, w jaki ludzie uczą się języka, opiera się na mnóstwie informacji pozajęzykowych: wrażeniach cielesnych, emocjach, czy jesteś głodny, czy cokolwiek innego. Uważa się, że jest to naprawdę ważne dla znaczenia.

Istnieją jednak inne koncepcje uziemienia, które mają więcej wspólnego z wewnętrznymi reprezentacjami. Istnieją słowa, które nie są w oczywisty sposób powiązane ze światem fizycznym, a mimo to mają znaczenie. Ulubionym przykładem jest słowo takie jak „demokracja”. To coś w twojej głowie: mogę myśleć o demokracji, nie mówiąc o niej. Zatem podstawą może być język i ta rzecz, ta wewnętrzna reprezentacja.

Twierdzisz jednak, że nawet rzeczy bardziej zewnętrzne, takie jak kolor, mogą nadal być zakotwiczone w wewnętrznych reprezentacjach „pojęciowych”, bez polegania na percepcji. Jak to by działało?

Cóż, model językowy nie ma oczu, prawda? Nie „wie” nic o kolorach. Może więc [obejmuje] coś bardziej ogólnego, na przykład zrozumienie relacji między nimi. Wiem, że gdy połączę kolor niebieski i czerwony, otrzymam fiolet; tego rodzaju relacje mogłyby zdefiniować tę wewnętrzną [ugruntowaną] strukturę.

Możemy podać przykłady kolorów LLM za pomocą kodów RGB [ciągów liczb reprezentujących kolory]. Jeśli powiesz „OK, tutaj jest czerwony” i podasz mu kod RGB dla koloru czerwonego oraz „Oto niebieski” z kodem RGB dla koloru niebieskiego, a następnie powiesz „Powiedz mi, czym jest fiolet”, powinien wygenerować kod RGB dla fioletowy. To mapowanie powinno dobrze wskazywać, że wewnętrzna struktura modelu jest prawidłowa — brakuje mu percepcji [koloru], ale struktura pojęciowa jest.

Trudne jest to, że [model] może po prostu zapamiętać kody RGB, które znajdują się w jego danych treningowych. Zatem „obróciliśmy” wszystkie kolory [od ich rzeczywistych wartości RGB]: Powiedzieliśmy LLM, że słowo „żółty” jest powiązane z kodem RGB oznaczającym kolor zielony i tak dalej. Model spisał się dobrze: gdy poprosisz o kolor zielony, otrzymasz obróconą wersję kodu RGB. Sugeruje to, że istnieje pewien rodzaj spójności w jego wewnętrznych reprezentacjach koloru. To wykorzystanie wiedzy o ich relacjach, a nie tylko zapamiętywanie.

Na tym polega cały sens uziemienia. Mapowanie nazwy na kolor jest arbitralne. Chodzi raczej o relacje między nimi. To było ekscytujące.

Jak te filozoficznie brzmiące pytania mogą być naukowe?

Niedawno dowiedziałem się o eksperymencie myślowym: co by było, gdyby ocean wpłynął na piasek, a kiedy się cofnął, wzory stworzyły wiersz? Czy wiersz ma sens? Wydaje się to bardzo abstrakcyjne i można prowadzić długą filozoficzną debatę.

Zaletą modeli językowych jest to, że nie potrzebujemy eksperymentu myślowego. To nie jest pytanie typu: „Czy teoretycznie coś takiego byłoby inteligentne?” Pytanie tylko: czy to coś jest inteligentne? Staje się naukowy i empiryczny.

Czasami ludzie lekceważą; tam jest „stochastyczne papugi" zbliżać się. Myślę, że wynika to ze strachu, że ludzie będą nadmiernie przypisywać inteligencję tym rzeczom – co rzeczywiście widzimy. I żeby to naprawić, ludzie mówią: „Nie, to wszystko fikcja. To jest dym i lustra.”

To trochę szkoda. Trafiliśmy na coś całkiem ekscytującego i całkiem nowego, i warto to głęboko zrozumieć. To ogromna szansa, której nie należy pomijać, ponieważ obawiamy się nadmiernej interpretacji modeli.

Oczywiście ty"również wyprodukowaliśmy Badania naukowe obalanie właśnie tego rodzaju nadinterpretacji.

Ta praca, podczas której ludzie odkrywali wszystkie „płytkie heurystyki” wykorzystywane przez modele [w celu naśladowania zrozumienia] – była dla mnie podstawą do osiągnięcia pełnoletności jako naukowca. Ale to skomplikowane. To tak, jakby nie ogłaszać zwycięstwa zbyt wcześnie. Jest we mnie trochę sceptycyzmu lub paranoi, że ewaluacja została przeprowadzona prawidłowo, nawet jeśli wiem, że zaprojektowałem ją bardzo starannie!

I to jest część tego: nie przesadne twierdzenia. Inną częścią jest to, że jeśli masz do czynienia z tymi systemami [modelu języka], wiesz, że nie są one na poziomie ludzkim – sposób, w jaki rozwiązują problemy, nie jest tak inteligentny, jak się wydaje.

Skoro tak wiele podstawowych metod i terminów jest przedmiotem debaty w tej dziedzinie, jak w ogóle zmierzyć sukces?

Myślę, że jako naukowcy szukamy precyzyjnego, zrozumiałego dla człowieka opisu tego, na czym nam zależy – w tym przypadku inteligencji. A potem dołączamy słowa, które pomogą nam się tam dostać. Potrzebujemy jakiegoś roboczego słownictwa.

Ale to trudne, bo wtedy można wdać się w tę bitwę semantyczną. Kiedy ludzie pytają: „Czy to ma znaczenie: tak czy nie?” Nie wiem. Kierujemy rozmowę do niewłaściwego tematu.

Próbuję zaoferować dokładny opis zachowań, które chcieliśmy wyjaśnić. I w tym momencie jest kwestią dyskusyjną, czy chcesz nazwać to „znaczeniem”, „reprezentacją”, czy którymkolwiek z tych obciążonych słów. Rzecz w tym, że na stole leży teoria lub proponowany model – przeanalizujmy to.

Jak zatem badania nad modelami językowymi mogą skierować się w stronę bardziej bezpośredniego podejścia?

Rodzaje głębokich pytań, na które naprawdę chciałbym móc odpowiedzieć: Jakie są elementy składowe inteligencji? Jak wygląda ludzka inteligencja? Jak wygląda inteligencja modelowa? – są naprawdę ważne. Ale myślę, że to, co musi się wydarzyć przez następne 10 lat, nie jest zbyt seksowne.

Jeśli chcemy zająć się tymi [wewnętrznymi] reprezentacjami, potrzebujemy metod ich znajdowania – metod, które są naukowo uzasadnione. Jeśli zostanie to zrobione we właściwy sposób, te niskopoziomowe, bardzo nowatorskie rzeczy metodologiczne nie trafią na pierwsze strony gazet. Ale to naprawdę ważne rzeczy, które pozwolą nam poprawnie odpowiedzieć na te głębokie pytania.

Tymczasem modele będą się zmieniać. Będzie więc wiele rzeczy, które ludzie będą publikować, jakby to był „przełom”, ale prawdopodobnie tak nie jest. Moim zdaniem jest za wcześnie na wielkie przełomy.

Ludzie studiują te naprawdę proste zadania, na przykład pytanie [model językowy do wykonania] „Jan dał drinka _______” i próbują sprawdzić, czy jest tam napisane „Jan”, czy „Maryja”. Nie ma to poczucia wyniku wyjaśniającego inteligencję. Ale naprawdę wierzę, że narzędzia, których używamy do opisania tego nudnego problemu, są niezbędne do udzielenia odpowiedzi na głębokie pytania dotyczące inteligencji.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://www.quantamagazine.org/does-ai-know-what-an-apple-is-she-aims-to-find-out-20240425/

Znak czasu: 25 kwietnia 2024 r.

Znak czasu: Jan 17, 2024

Opublikowane ponownie przez Plato

Co oznacza „zrozumienie” lub „znaczenie” z empirycznego punktu widzenia? Czego konkretnie szukasz?

Czy znalazłeś jakieś przykłady tej konstrukcji?

Jak uziemienie odnosi się do tych reprezentacji?

Twierdzisz jednak, że nawet rzeczy bardziej zewnętrzne, takie jak kolor, mogą nadal być zakotwiczone w wewnętrznych reprezentacjach „pojęciowych”, bez polegania na percepcji. Jak to by działało?

Jak te filozoficznie brzmiące pytania mogą być naukowe?

Oczywiście ty"również wyprodukowaliśmy Badania naukowe obalanie właśnie tego rodzaju nadinterpretacji.

Skoro tak wiele podstawowych metod i terminów jest przedmiotem debaty w tej dziedzinie, jak w ogóle zmierzyć sukces?

Jak zatem badania nad modelami językowymi mogą skierować się w stronę bardziej bezpośredniego podejścia?

Rośliny znajdują światło wykorzystując przerwy między komórkami | Magazyn Quanta

Nastolatek rozwiązuje upartą zagadkę o sobowtórach liczb pierwszych

Badania nad wymarłymi ludzkimi genomami nagrodzone Nagrodą Nobla w dziedzinie medycyny

Pytanie o obracającą się linię pomaga odkryć, co sprawia, że prawdziwe liczby są wyjątkowe

Orbitujący pierścień światła czarnej dziury może zaszyfrować jej wewnętrzne sekrety

Znajduje klucze do ekologii w komórkach, które okradają innych

Jak naukowcy radzą sobie z trudnym zadaniem przewidywania cyklu słonecznego | Magazyn Quanta

W „drugim mózgu” jelit pojawiają się kluczowi agenci zdrowia | Magazyn Quanta

Nowy przełom zbliża mnożenie macierzy do ideału | Magazyn Quanta

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto

Wprowadzenie

Wprowadzenie

Co oznacza „zrozumienie” lub „znaczenie” z empirycznego punktu widzenia? Czego konkretnie szukasz?

Czy znalazłeś jakieś przykłady tej konstrukcji?

Wprowadzenie

Jak uziemienie odnosi się do tych reprezentacji?

Twierdzisz jednak, że nawet rzeczy bardziej zewnętrzne, takie jak kolor, mogą nadal być zakotwiczone w wewnętrznych reprezentacjach „pojęciowych”, bez polegania na percepcji. Jak to by działało?

Wprowadzenie

Jak te filozoficznie brzmiące pytania mogą być naukowe?

Oczywiście ty"również wyprodukowaliśmy Badania naukowe obalanie właśnie tego rodzaju nadinterpretacji.

Wprowadzenie

Skoro tak wiele podstawowych metod i terminów jest przedmiotem debaty w tej dziedzinie, jak w ogóle zmierzyć sukces?

Wprowadzenie

Jak zatem badania nad modelami językowymi mogą skierować się w stronę bardziej bezpośredniego podejścia?

Więcej z Magazyn ilościowy

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto