Rozwój ekspertów domenowych w zakresie głębokiego uczenia się PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Rozwój ekspertów dziedzinowych w głębokim uczeniu

Jeremy Howard jest badaczem sztucznej inteligencji i współzałożycielem szybki.ai, platforma dla osób niebędących ekspertami do nauki sztucznej inteligencji i uczenia maszynowego. Przed założeniem fast.ai założył wiele firm — w tym FastMail i Enlitic, pionierów w stosowaniu uczenia głębokiego w medycynie — oraz był prezesem i głównym naukowcem platformy konkursowej uczenia maszynowego Kaggle. 

W tym wywiadzie Howard omawia, co to oznacza dla różnych branż, a nawet dla regionów globalnych, że ludzie bez doktoratów z wyspecjalizowanych laboratoriów badawczych mogą tworzyć i pracować z modelami głębokiego uczenia się. Wśród innych tematów objętych tym szerokim parasolem, dzieli się swoimi przemyśleniami na temat tego, jak najlepiej nadążać za najnowocześniejszymi technikami, szybką inżynierią jako nowym zestawem umiejętności oraz zaletami i wadami systemów generowania kodu, takich jak Codex.


PRZYSZŁOŚĆ: Po uruchomieniu fast.ai przez ostatnie kilka lat, jakie są skutki tego, że o wiele więcej osób zna podstawowe koncepcje głębokiego uczenia się — w porównaniu do kilku lat temu, kiedy ludzie z tą wiedzą byli jednorożcami?

JEREMY HOWARD: Kiedy zaczęliśmy fast.ai, istniało w zasadzie pięć znaczących uniwersyteckich laboratoriów badawczych zajmujących się uczeniem głębokim – a jedynymi ludźmi, którzy wiedzieli, jak zrobić prawie wszystko z uczeniem głębokim, byli ludzie, którzy byli lub byli w tych pięciu laboratoriach . W sumie kod nie był publikowany, nie mówiąc już o danych. A nawet gazety nie publikowały szczegółów, jak sprawić, by to działało w praktyce, częściowo dlatego, że ośrodki akademickie nie dbały zbytnio o praktyczną realizację. Był bardzo skoncentrowany na teorii. 

Więc kiedy zaczynaliśmy, było to bardzo spekulacyjne pytanie: „Czy możliwe jest uczenie głębokie na światowym poziomie bez doktoratu?”. Teraz wiemy, że odpowiedź brzmi tak; pokazaliśmy to już na naszym pierwszym kursie. Nasi pierwsi absolwenci tworzyli patenty z wykorzystaniem głębokiego uczenia się, budowali firmy korzystające z głębokiego uczenia się i publikowali w najlepszych miejscach z wykorzystaniem głębokiego uczenia się. 

Myślę, że Twoje pytanie jest dokładnie właściwe, a dotyczy tego, co się dzieje, gdy eksperci domenowi stają się skutecznymi praktykami głębokiego uczenia się? To tam widzieliśmy najciekawsze rzeczy. Generalnie najlepsze startupy to te zbudowane przez ludzi, którzy osobiście mają swędzenie do drapania. Kiedyś byli rekruterami, więc robią startup rekrutacyjny, albo byli paralegal, więc robią legalny startup, czy cokolwiek. A oni na to: „Och, nienawidzę tej rzeczy w pracy, którą miałem. A teraz, kiedy znam się na głębokim uczeniu się, wiem, że mógłbym to wszystko niemal zautomatyzować”.

Wielu naszych studentów również robi lub zrobiło doktoraty, ale nie z matematyki czy informatyki; zamiast tego robią to w chemoinformatyce, proteomice, dziennikarstwie danych lub czymkolwiek. I bardzo często okazuje się, że są w stanie przenieść swoje badania na zupełnie inny poziom. Na przykład, po raz pierwszy zaczynamy pojawiać się w Internecie duże bazy danych i zbiory danych materiałów z bibliotek publicznych. I są ludzie w tej dziedzinie – bibliotekoznawstwie – którzy teraz robią rzeczy, w których nikomu nawet nie przyszło do głowy, że mogliby zrobić coś na taką skalę. Ale nagle pojawia się pytanie: „O mój Boże, spójrz, co się dzieje, gdy analizujesz bibliotekę jako rzecz". 

Wygłosiłem wykład na konferencji poświęconej hodowli zwierząt, na której wszyscy mówili o głębokim uczeniu się. Dla mnie to naprawdę nieoczywiste użycie, ale dla nich jest to zdecydowanie najbardziej oczywiste zastosowanie. Ludzie używają go do rozwiązywania rzeczywistych problemów przy użyciu rzeczywistych danych w ramach rzeczywistych ograniczeń.

Z mojego doświadczenia z ostatnich kilku lat wynika, że ​​głębokie uczenie się można zastosować w prawie każdej branży — nie każdy część każdy przemysł, ale kilka części prawie każdy przemysł. 

Poznaliśmy jednego faceta, który robił wiele ciekawych rzeczy z diagnostyką malarii, co, jak można sobie wyobrazić, nie jest głównym problemem, który próbowali rozwiązać ludzie w San Francisco.

Wydaje się, że odwrócenie baz wiedzy — głębokie uczenie, które jest obecnie uzupełnieniem wiedzy dziedzinowej — może zmienić równowagę między teorią a zastosowaniem.

Tak, i widać, że to się dzieje. Jedną z wielkich rzeczy na początku ery głębokiego uczenia była praca, którą wykonał Google Brain, podczas której przeanalizowali wiele filmów z YouTube i odkryli, że koty były czynnikiem utajonym w wielu filmach. Ich model nauczył się rozpoznawać koty, ponieważ widział ich tak wiele. To bardzo interesująca praca, ale nikt nie odszedł i nie zbudował na tym firmy. 

Rzeczy, które ludzie były budowanie – znowu przydatne, ale w pewnych obszarach – takie jak wyszukiwanie zdjęć w Google i Apple szybko stało się całkiem dobre, ponieważ można było wyszukiwać rzeczy, które były na zdjęciach. To bardzo pomocne. I to jest rodzaj rzeczy, nad którymi wszyscy pracowali – albo naprawdę abstrakcyjne rzeczy, albo prawdziwe problemy z pierwszego świata. Nie ma w tym nic złego, ale jest też wiele innych rzeczy, nad którymi trzeba popracować. 

Byłem więc zachwycony, gdy po kilku latach spojrzałem na demografię ludzi, którzy przeszli nasz kurs i odkryłem, że jednym z największych miast poza Stanami Zjednoczonymi jest Lagos [stolica Nigerii]. Pomyślałem, że to było naprawdę świetne, ponieważ jest to społeczność, która wcześniej nie zajmowała się głębokim uczeniem. Dosłownie pytałem uczestników pierwszego kursu: „Czy jest tu ktoś z Afryki?” I myślę, że był jeden facet z Wybrzeża Kości Słoniowej, który musiał spalić rzeczy na CD-ROM w swojej bibliotece, ponieważ nie mieli wystarczającego połączenia z Internetem. Więc naprawdę szybko się rozwijało.

A potem było fajnie, ponieważ zaczęliśmy sprowadzać grupy ludzi z Ugandy, Kenii i Nigerii do San Francisco, aby osobiście odbyć kurs i poznać się nawzajem. Poznaliśmy na przykład jednego faceta, który robił wiele ciekawych rzeczy z diagnostyką malarii, co, jak można sobie wyobrazić, nie jest głównym problemem, który próbowali rozwiązać ludzie w San Francisco.

Wydaje mi się, że posiadanie 16 różnych dużych modeli językowych wyszkolonych w 5% Internetu jest jak posiadanie 16 rur wodociągowych wchodzących do domu i 16 zestawów kabli elektrycznych. 

Jak wygląda przeciętna ścieżka kariery dla kogoś, kto wychodzi z programu głębokiego uczenia się, takiego jak Twój?

Jest tak różnorodny. To naprawdę bardzo się zmieniło od wczesnych dni, kiedy to był tylko ten bardzo wczesny sposób myślenia – ludzie, którzy w dużej mierze byli przedsiębiorcami, doktorami i wczesnymi doktorantami i którzy po prostu uwielbiają najnowsze badania i próbowanie nowych rzeczy. To już nie tylko pierwsi użytkownicy, ale także ludzie, którzy próbują nadrobić zaległości lub nadążyć za rozwojem swojej branży.

W dzisiejszych czasach wiele z nich to ludzie, którzy mówią: „O mój Boże, czuję, że głębokie uczenie się zaczyna niszczyć wiedzę specjalistyczną w mojej branży. Ludzie robią rzeczy z odrobiną głębokiego uczenia się, których nawet nie mogę sobie wyobrazić i nie chcę przegapić”. Niektórzy ludzie patrzą nieco dalej w przyszłość i myślą raczej: „No cóż, w mojej branży nikt tak naprawdę nie korzysta z głębokiego uczenia, ale nie wyobrażam sobie, że to pierwszej przemysł, który jest nie ucierpi, więc chcę być pierwszy”. 

Niektórzy ludzie na pewno mają pomysł na firmę, którą chcą zbudować. 

Inną rzeczą, którą często otrzymujemy, jest to, że firmy wysyłają grupę swoich zespołów badawczych lub inżynierskich na kurs tylko dlatego, że czują, że jest to korporacyjna zdolność, którą powinny mieć. Jest to szczególnie pomocne w przypadku dostępnych obecnie interfejsów API online, z którymi ludzie mogą się bawić — Kodeks or DALL-E czy cokolwiek – i poczuj: „Och, to trochę jak coś, co robię w mojej pracy, ale jest trochę inaczej, gdybym mógł to zmienić w ten sposób”. 

Jednak te modele mają również niefortunny efekt uboczny, być może, polegający na zwiększeniu skłonności ludzi do poczucia, że ​​innowacje AI są przeznaczone tylko dla dużych firm i że wykraczają poza ich możliwości. Mogą wybrać bycie pasywnymi konsumentami technologii, ponieważ nie wierzą, że mają możliwość osobistego zbudowania czegoś, co byłoby lepsze niż to, co może budować Google lub OpenAI.

Model, który decyduje, czy podoba ci się film, i model, który może generować haiku, będą w 98% takie same . . . Bardzo, bardzo rzadko musimy trenować od podstaw ogromny model na ogromnym obszarze Internetu.

Nawet jeśli tak jest – jeśli nie możesz prześcignąć OpenAI lub Google – z pewnością istnieje sposób na skorzystanie z tego, co zrobili, z dostępu API do niesamowicie potężnych modeli, prawda?

Pierwszą rzeczą do powiedzenia jest to nie prawda, przynajmniej nie w jakimś ogólnym sensie. Obecnie zachodzi pewna rozgałęzienie szkolenia AI: jest strona Google i OpenAI, która polega na tworzeniu jak najbardziej ogólnych modeli i prawie zawsze ci badacze mają cel w głowie, aby dostać się do AGI. Nie komentuję, czy to dobrze, czy źle; z pewnością skutkuje to użytecznymi artefaktami dla nas, normalnych ludzi, więc to w porządku. 

Istnieje jednak zupełnie inna ścieżka, którą obierają prawie wszyscy nasi uczniowie, a mianowicie: „Jak mogę rozwiązać rzeczywiste problemy ludzi z mojej społeczności w tak pragmatyczny sposób, jak to tylko możliwe?”. I jest znacznie mniej nakładania się, niż mogłoby się wydawać, między dwiema metodami, dwoma zestawami danych, dwiema technikami.

W moim świecie w zasadzie nigdy nie szkolimy modelki od zera. Zawsze się dostraja. Dlatego zdecydowanie wykorzystujemy pracę wielkich facetów, ale zawsze są dostępne bezpłatnie modele do pobrania. Rzeczy takie jak modele dużych języków open-source poprzez Wielka nauka jest w tym bardzo pomocny. 

Jednak prawdopodobnie będą podążać za dużymi facetami od 6 do 12 miesięcy, dopóki nie znajdziemy bardziej demokratycznego sposobu na zrobienie tego. Wydaje mi się, że posiadanie 16 różnych dużych modeli językowych wyszkolonych w 5% Internetu jest jak posiadanie 16 rur wodociągowych wchodzących do domu i 16 zestawów kabli elektrycznych. Wydaje się, że powinien to być bardziej użytek publiczny. Wspaniale jest mieć konkurencję, ale byłoby też miło, gdyby była lepsza współpraca, więc nie musieliśmy wszyscy marnować czasu na robienie tego samego.

Tak więc, kończymy na dostrajaniu, do naszych szczególnych celów, modeli, które zbudowali inni ludzie. To tak, jakby genom człowieka i genomu małpy były prawie takie same, z wyjątkiem kilku procent tu i tam, co okazuje się mieć dużą różnicę. Tak samo jest z sieciami neuronowymi: model, który decyduje, czy podoba ci się film, i model, który może generować haiku, będą w 98% takie same, ponieważ większość z nich dotyczy zrozumienia świata, zrozumienia języka i innych rzeczy . Bardzo, bardzo rzadko musimy trenować od podstaw ogromny model na ogromnym obszarze Internetu.

I dlatego absolutnie mogą konkurować z Google i OpenAI — ponieważ prawdopodobnie nie będzie ich nawet w Twojej przestrzeni. Jeśli próbujesz stworzyć coś, co pozwoli zautomatyzować pracę pracowników pomocniczych, pomóc w planowaniu odporności na katastrofy lub uzyskać lepsze zrozumienie języka płci w ciągu ostatnich 100 lat, nie konkurujesz z Google, konkurujesz z tą niszą, która jest w Twojej domenie.

Jest teraz ważna umiejętność kodowania, polegająca na tym, że wiemy, jak działać szybciej . . . będąc naprawdę dobrym w wymyślaniu właściwych komentarzy do Codexu. . . Dla wielu ludzi jest to prawdopodobnie bardziej wartościowa i natychmiastowa rzecz do nauczenia się niż bycie naprawdę dobrym w kodowaniu.

Jak ważne jest nadążanie za wszystkimi postępami w dziedzinie sztucznej inteligencji, zwłaszcza jeśli pracujesz z nią na mniejszą skalę?

Nikt nie nadąża za wszystkimi postępami. Musisz nadążyć kilka postęp, ale rzeczywiste techniki, z którymi pracujemy, zmieniają się obecnie bardzo powoli. Różnica między kursem fast.ai 2017 a kursem fast.ai 2018 była ogromna, a między kursami 2018 i 2019 była ogromna.Ish. W dzisiejszych czasach bardzo niewiele zmian w ciągu kilku lat.

Rzeczy, które uważamy za naprawdę znaczące, takie jak wzrost liczby architektura transformatora, na przykład ma teraz kilka lat i głównie jest tylko zbiorem ułożonych warstwowo, zwykłych warstw sieci neuronowych ze sprzężeniem do przodu, a niektóre produkty-dot. Świetnie, ale dla kogoś, kto chce to zrozumieć, kto już rozumie konwnety, nawracające siecii podstawowe perceptrony wielowarstwowe, to jak kilka godzin pracy.

Jedną z wielkich rzeczy, które wydarzyły się w ciągu ostatnich kilku lat, jest to, że coraz więcej osób zaczyna rozumieć praktyczne aspekty skutecznego trenowania modelu. Na przykład ostatnio DeepMind wydał artykuł które zasadniczo pokazało, że wszystkie modele językowe są znacznie mniej wydajne niż powinny, dosłownie dlatego, że nie robiły podstawowych rzeczy. Facebook — a konkretnie stażysta Facebooka był głównym autorem gazety — zbudował coś, co nazywa się ConvNeXt, który zasadniczo mówi: „Oto, co się stanie, jeśli weźmiemy normalną splotową sieć neuronową i po prostu wprowadzimy oczywiste poprawki, o których wszyscy wiedzą”. I w zasadzie są obecnie najnowocześniejszym modelem obrazu. 

Tak więc, bycie na bieżąco z podstawowymi podstawami budowania dobrych modeli głębokiego uczenia się jest o wiele mniej trudne, niż się wydaje. I na pewno nie musisz czytać wszystkich gazet w terenie. Szczególnie w tym momencie, kiedy sprawy toczą się o wiele wolniej.

Ale uważam, że dobrze jest mieć szerokie zrozumienie, nie tylko własnego szczególnego obszaru. Powiedzmy, że masz wizję komputerową, bycie dobrym w NLP, filtrowaniu grupowym i analizie tabelarycznej bardzo pomaga – i vice versa, ponieważ nie ma wystarczającego zapylenia krzyżowego między tymi grupami. A od czasu do czasu ktoś zerka na inny obszar, kradnie niektóre z jego pomysłów i wychodzi z przełomowym rezultatem. 

To jest dokładnie to, z czym zrobiłem ULMFiT cztery czy pięć lat temu. Powiedziałem: „Zastosujmy wszystkie podstawowe techniki komputerowego transferu wizji do NLP” i uzyskałem supernowoczesny wynik na mile. Badacze z OpenAI zrobił coś podobnego, ale wymieniłem mój RNN na transformator i przeskalowałem go, i tak się stało GPT. Wszyscy wiemy, jak to poszło. 

Bycie na bieżąco z podstawowymi podstawami budowania dobrych modeli głębokiego uczenia się jest o wiele mniej trudne, niż się wydaje. I na pewno nie musisz czytać wszystkich gazet w terenie.

Wspomniałeś, że w ciągu ostatnich trzech do sześciu miesięcy zaobserwowaliśmy zmianę funkcji krokowej w sztucznej inteligencji. Czy możesz to rozwinąć?

Właściwie nazwałbym to hak zamiast a funkcja kroku. Myślę, że znajdujemy się na krzywej wykładniczej i od czasu do czasu można zauważyć, że rzeczy naprawdę przyspieszyły w zauważalny sposób. Doszło do tego, że wstępnie wytrenowane modele wyszkolone na bardzo dużych zbiorach tekstu i obrazów mogą teraz robić bardzo imponujące rzeczy jedno- lub kilkukrotne w dość ogólny sposób, częściowo dlatego, że w ciągu ostatnich kilku miesięcy ludzie stali się lepsi ze zrozumieniem szybka inżynieria. Zasadniczo wiedza, jak zadać właściwe pytanie — „wyjaśnij swoje rozumowanie” krok po kroku. 

Odkrywamy, że te modele są w stanie robić rzeczy, o których wielu naukowców twierdziło, że nie są możliwe pod względem kompozycyjnego rozumienia świata i przedstawiania rozumowania krok po kroku. Wiele osób mówiło: „Och, musisz użyć technik symbolicznych; sieci neuronowe i głębokie uczenie się nigdy tam nie dotrą”. Okazuje się, że tak. Myślę, że kiedy wszyscy zobaczymy, że może robić te rzeczy, których ludzie twierdzili, że nigdy nie są w stanie, to sprawia, że ​​jesteśmy trochę odważniejsi, próbując zrobić z nimi więcej.

Przypomina mi się, jak pierwszy raz zobaczyłam film w internecie, który pamiętam, pokazywałem mamie, bo to był film z fizjoterapii, a ona jest fizjoterapeutką. To było nagranie przedstawiające ćwiczenia ruchowe stawów w ramieniu i myślę, że było to 128 na 128 pikseli. Był czarno-biały, mocno skompresowany i trwał może około 3 lub 4 sekundy. Byłem bardzo podekscytowany i powiedziałem mamie: „Wow, spójrz na to: wideo w Internecie!” I oczywiście wcale nie była podekscytowana. Zapytała: „Jaki jest z tego pożytek? To najbardziej bezsensowna rzecz, jaką kiedykolwiek widziałem”.

Oczywiście myślałem, że pewnego dnia będzie to tysiąc na tysiąc pikseli, 60 klatek na sekundę, pełnokolorowy, piękny film. Dowód jest, teraz tylko czeka, aż reszta dogoni. 

Więc myślę, że kiedy ludzie widzieli naprawdę niskiej jakości obrazy z głębokiego uczenia się na początku, nie było zbytniej ekscytacji, ponieważ większość ludzi nie zdaje sobie sprawy, że technologia skaluje się w ten sposób. Teraz, kiedy możemy faktycznie tworzyć wysokiej jakości, pełnokolorowe obrazy, które wyglądają o wiele lepiej, niż prawie każdy z nas mógłby sobie wyobrazić lub sfotografować, ludzie nie potrzebują żadnej wyobraźni. Mogą po prostu widzieć to, co się teraz dzieje, jest bardzo imponujące. Myślę, że to robi dużą różnicę.

Czuję, że HCI to największy brakujący element w prawie każdym projekcie głębokiego uczenia się, jaki widziałem. . . Gdybym był w HCI, chciałbym, aby cała moja dziedzina była skupiona na pytaniu, w jaki sposób wchodzimy w interakcję z algorytmami głębokiego uczenia się.

Pomysł szybkiej inżynierii — jeśli nie jako zupełnie nowej kariery, ale przynajmniej jako nowego zestawu umiejętności — jest naprawdę interesujący.

Jest i jestem w tym straszny. Na przykład DALL-E tak naprawdę nie wie, jak poprawnie napisać tekst, co nie stanowiłoby problemu, z wyjątkiem tego, że uwielbia umieszczać tekst we wszystkich swoich krwawych obrazach. Więc zawsze są te losowe symbole i nie mogę, za życia, wymyślić, jak wymyślić podpowiedź, która nie zawiera tekstu. A potem czasami po prostu losowo zmieniam słowo tu lub tam i nagle żadne z nich nie ma już tekstu. Jest w tym jakaś sztuczka, a ja jeszcze tego nie rozgryzłem.

Ponadto, na przykład, istnieje obecnie znacząca umiejętność kodowania, polegająca na tym, że wiesz, jak działać szybciej — szczególnie, jeśli nie jesteś szczególnie dobrym programistą — będąc naprawdę dobrym w wymyślaniu odpowiednich komentarzy do Codexu, aby generowały dla ciebie rzeczy . I wiedza o tym, jakie błędy zwykle popełnia, w jakich rzeczach jest dobry, a w czym zły, oraz wiedza, jak zmusić go do stworzenia testu dla rzeczy, które właśnie dla ciebie zbudował.

Dla wielu ludzi jest to prawdopodobnie bardziej wartościowa i natychmiastowa rzecz do nauczenia się niż bycie naprawdę dobrym w kodowaniu.

W szczególności na temat Codexu, co myślisz o idei kodu generowanego maszynowo?

I napisał post na blogu w rzeczywistości, kiedy wyszedł GitHub Copilot. W tamtym czasie myślałem: „Wow, to jest naprawdę fajne i imponujące, ale nie jestem do końca pewien, na ile jest użyteczne”. I nadal nie jestem pewien.

Jednym z głównych powodów jest to, że chyba wszyscy wiemy, że modele głębokiego uczenia się nie rozumieją, czy mają rację, czy nie. Codex bardzo się poprawił, odkąd przetestowałem jego pierwszą wersję, ale nadal pisze dużo złego kodu. Ponadto zapisuje pełny kod, ponieważ generuje średni kod. Dla mnie branie przeciętnego kodu i przekształcanie go w kod, który lubię i wiem, że jest poprawny, jest znacznie wolniejsze niż pisanie go od zera — przynajmniej w językach, które dobrze znam. 

Ale czuję, że jest tutaj całe pytanie o interfejs człowiek-komputer (HCI) i Czuję, że HCI to największy brakujący element w prawie każdym projekcie głębokiego uczenia się, jaki widziałem: prawie nigdy nie rób tych rzeczy w pełni zastępujących ludzi. Dlatego pracujemy razem z tymi algorytmami. Gdybym był w HCI, chciałbym, aby cała moja dziedzina była skupiona na pytaniu, w jaki sposób wchodzimy w interakcję z algorytmami głębokiego uczenia się. Ponieważ przez dziesięciolecia uczyliśmy się interakcji z graficznymi interfejsami użytkownika, interfejsami wiersza poleceń i interfejsami sieciowymi, ale to zupełnie inna sprawa. 

I nie wiem, jak najlepiej jako programista obcować z czymś takim jak Codex. Założę się, że istnieją naprawdę potężne sposoby na zrobienie tego w każdym obszarze — tworzenie interfejsów i wiązanie danych, budowanie algorytmów i tak dalej — ale nie mam pojęcia, co to za rzeczy.

Opublikowano 21 lipca 2022

Technologia, innowacyjność i przyszłość, jak mówią ci, którzy ją budują.

Dziękujemy za zarejestrowanie się.

Sprawdź w swojej skrzynce odbiorczej wiadomość powitalną.

Znak czasu:

Więcej z Andreessen Horowitz