Małe modele językowe prosperują dzięki GPT-4 jako nauczycielowi | Magazyn Quanta

Małe modele językowe prosperują dzięki GPT-4 jako nauczycielowi | Magazyn Quanta

Tiny Language Models Thrive With GPT-4 as a Teacher | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Wprowadzenie

Nauka języka angielskiego nie jest łatwym zadaniem, o czym doskonale wiedzą niezliczeni uczniowie. Ale kiedy uczniem jest komputer, jedno podejście działa zaskakująco dobrze: po prostu przesyłaj góry tekstu z Internetu do gigantycznego modelu matematycznego zwanego siecią neuronową. Taka jest zasada działania modeli języka generatywnego, takich jak ChatGPT OpenAI, którego zdolność do spójnej (choć nie zawsze zgodnej z prawdą) konwersacji na szeroki zakres tematów zaskakiwała badaczy i opinię publiczną w ciągu ostatniego roku.

Ale to podejście ma swoje wady. Po pierwsze, procedura „szkolenia” wymagana do przekształcenia ogromnych archiwów tekstowych w najnowocześniejsze modele językowe jest kosztowna i czasochłonna. Po drugie, nawet osobom trenującym duże modele językowe trudno jest zrozumieć ich wewnętrzne działanie; to z kolei sprawia, że ​​trudno przewidzieć, na ile sposobów mogą one zakończyć się niepowodzeniem.

W obliczu tych trudności niektórzy badacze zdecydowali się na szkolenie mniejsze modele na mniejszych zbiorach danych, a następnie zbadaj ich zachowanie. „To jak sekwencjonowanie Drosophila genomu w porównaniu z sekwencjonowaniem ludzkiego genomu” – powiedział Ellie Pawlik, badacz modelu językowego na Uniwersytecie Browna.

Teraz w papier Niedawno opublikowano na naukowym serwerze preprintów arxiv.org parę badaczy firmy Microsoft wprowadziło nową metodę uczenia małych modeli językowych: Wychowaj je na ścisłej diecie opartej na dziecięcych opowieściach.

Badacze zajmujący się uczeniem maszynowym przyjęli tę lekcję. GPT-3.5, duży model językowy obsługujący interfejs ChatGPT, ma prawie 200 miliardów parametrów i został wytrenowany na zestawie danych zawierającym setki miliardów słów. (OpenAI nie opublikowało odpowiednich danych dla swojego następcy, GPT-4.) Szkolenie tak dużych modeli wymaga zazwyczaj co najmniej 1,000 wyspecjalizowanych procesorów zwanych procesorami graficznymi, działających równolegle przez tygodnie. Tylko kilka firm jest w stanie zgromadzić niezbędne zasoby, nie mówiąc już o szkoleniu i porównywaniu różnych modeli.

Obaj badacze wykazali, że modele językowe tysiące razy mniejsze od współczesnych, najnowocześniejszych systemów szybko nauczyły się opowiadać spójne i gramatyczne historie, gdy były trenowane w ten sposób. Ich wyniki wskazują nowe kierunki badań, które mogą być pomocne w szkoleniu większych modeli i zrozumieniu ich zachowań.

„Uważam, że ten artykuł jest bardzo pouczający” – powiedział Chandra Bhagawatula, badacz modeli językowych w Allen Institute for Artificial Intelligence w Seattle. „Sama koncepcja jest bardzo interesująca”.

Pewnego razu ...

Sieci neuronowe w sercu modeli językowych to struktury matematyczne luźno inspirowane ludzkim mózgiem. Każdy z nich zawiera wiele sztucznych neuronów ułożonych w warstwy, z połączeniami pomiędzy neuronami w sąsiednich warstwach. Zachowanie sieci neuronowej zależy od siły tych połączeń, zwanych parametrami. W modelu językowym parametry kontrolują, które słowa model może następnie wypluć, biorąc pod uwagę początkowy monit i słowa, które już wygenerował.

Model naprawdę ożywa podczas uczenia, gdy wielokrotnie porównuje swoje dane wyjściowe z tekstem w zestawie danych szkoleniowych i dostosowuje swoje parametry, aby zwiększyć podobieństwo. Niewytrenowaną sieć z losowymi parametrami można łatwo zbudować z kilku linijek kodu, ale spowoduje to jedynie bełkot. Po przeszkoleniu często może wiarygodnie kontynuować nieznany tekst. Większe modele często przechodzą dalsze dostrajanie, podczas którego uczą się odpowiadać na pytania i postępować zgodnie z instrukcjami, ale większość szkolenia polega na opanowaniu przewidywania słów.

Sukces w przewidywaniu słów wymaga modelu językowego umożliwiającego opanowanie wielu różnych umiejętności. Na przykład zasady gramatyki języka angielskiego sugerują, że następnym słowem po słowie „going” będzie prawdopodobnie „to”, niezależnie od tematu tekstu. Ponadto system potrzebuje wiedzy faktograficznej, aby uzupełnić „stolica Francji” i wypełnić fragment zawierający słowo „nie” wymaga elementarnej znajomości logiki.

„Język surowy jest bardzo skomplikowany” – stwierdził Timothy'ego Nguyena, badacz uczenia maszynowego w DeepMind. „Aby wykształcić interesujące zdolności językowe, ludzie uciekają się do zasady: im więcej danych, tym lepiej”.

Wprowadzenie

Ronena Eldana, matematyk, który dołączył do działu badawczego Microsoft w 2022 r., aby badać generatywne modele języków, chciał opracować tańszy i szybszy sposób odkrywania swoich umiejętności. Naturalnym sposobem na osiągnięcie tego było użycie małego zbioru danych, a to z kolei oznaczało, że musiał wytrenować modele, aby specjalizowały się w konkretnym zadaniu, aby nie rozprzestrzeniały się zbyt słabo. Początkowo chciał szkolić modele do rozwiązywania określonej klasy problemów matematycznych, ale pewnego popołudnia, spędzając czas ze swoją 5-letnią córką, zdał sobie sprawę, że bajki dla dzieci idealnie do tego pasują.

„Dosłownie przyszło mi to do głowy, gdy przeczytałem jej historię” – powiedział.

Aby wygenerować spójne historie dla dzieci, model językowy musiałby poznawać fakty o świecie, śledzić postacie i wydarzenia oraz przestrzegać zasad gramatyki – prostszych wersji wyzwań stojących przed dużymi modelami. Jednak duże modele trenowane na ogromnych zbiorach danych uczą się niezliczonych, nieistotnych szczegółów wraz z zasadami, które naprawdę mają znaczenie. Eldan miał nadzieję, że zwięzłość i ograniczone słownictwo opowieści dla dzieci ułatwi małym modelom naukę, dzięki czemu będą łatwiejsze w szkoleniu i łatwiejsze do zrozumienia.

Jednak w świecie modeli językowych „mały” jest względny: zbiór danych tysiąc razy mniejszy niż ten używany do uczenia GPT-3.5 i tak musiałby zawierać miliony historii. „Nie wiem, ile pieniędzy chcesz wydać, ale domyślam się, że nie zatrudnisz profesjonalistów do napisania [kilku milionów] opowiadań” – powiedziała Nguyen.

Aby zadowolić tak żarłocznych czytelników, potrzeba niezwykle płodnego autora, ale Eldan miał na myśli kilku kandydatów. Kto lepiej pisze dla odbiorców składających się z małych modeli językowych niż dużych?

Historie zabawek

Eldan natychmiast przystąpił do stworzenia biblioteki syntetycznych opowiadań dla dzieci generowanych przez duże modele językowe. Wkrótce jednak odkrył, że nawet najnowocześniejsze modelki nie są z natury zbyt kreatywne. Jeśli po prostu powiesz GPT-4, żeby napisała historie odpowiednie dla 4-latków, stwierdził Eldan, „około jedna piąta opowiadań będzie dotyczyć dzieci idących do parku, bojących się zjeżdżalni”. To najwyraźniej kwintesencja historii przedszkola, jeśli chodzi o Internet.

Rozwiązaniem było dodanie odrobiny losowości do podpowiedzi. Najpierw Eldan użył GPT-4 do wygenerowania listy 1,500 rzeczowników, czasowników i przymiotników, które 4-latek mógł znać – na tyle krótkiej, że mógł ją łatwo sprawdzić samodzielnie. Następnie napisał prosty program komputerowy, który wielokrotnie monitował GPT-3.5 lub GPT-4 o generowanie historii odpowiedniej do wieku, zawierającej trzy losowe słowa z listy wraz z dodatkowym losowo wybranym szczegółem, takim jak szczęśliwe zakończenie lub zwrot akcji. Powstałe historie, na szczęście, w mniejszym stopniu skupiały się na przerażających slajdach.

Eldan miał teraz procedurę udostępniania danych szkoleniowych na żądanie, ale nie miał pojęcia, ile pięter będzie potrzebował do wytrenowania modelu funkcjonalnego ani jak duży będzie ten model. Właśnie wtedy nawiązał współpracę z Yuanzhi Li, badacza zajmującego się uczeniem maszynowym w Microsoft i Carnegie Mellon University, aby wypróbować różne możliwości, korzystając z faktu, że małe modele można bardzo szybko trenować. Krok 1 polegał na podjęciu decyzji, w jaki sposób ocenić ich modele.

Wprowadzenie

W badaniach nad modelami językowymi – jak w każdej klasie – ocenianie jest trudnym tematem. Jest nie ma idealnej rubryki obejmuje wszystko, co badacze chcą wiedzieć, a modele, które wyróżniają się w niektórych zadaniach, często spektakularnie zawodzą w innych. Z biegiem czasu badacze opracowali różne standardowe testy porównawcze oparte na pytaniach z jednoznacznymi odpowiedziami, co jest dobrym podejściem, jeśli próbujesz ocenić konkretne umiejętności. Ale Eldana i Li interesowało coś bardziej mglistego: jak duże naprawdę muszą być modele językowe, jeśli maksymalnie upraszcza się język?

„Aby bezpośrednio sprawdzić, czy model mówi po angielsku, myślę, że jedyne, co możesz zrobić, to pozwolić modelowi generować język angielski w sposób otwarty” – powiedział Eldan.

Istnieją tylko dwa sposoby pomiaru wydajności modelu w przypadku takich pytań jakościowych: poleganie na ludziach lub zwrócenie się ponownie do GPT-4. Obydwaj badacze wybrali drugą drogę, pozwalając wielkim modelom zarówno pisać podręczniki, jak i oceniać eseje.

Bhagavatula powiedział, że chciałby zobaczyć, jak oceny GPT-4 porównają się z ocenami recenzentów – GPT-4 może być stronniczy w stosunku do modeli, które pomógł w szkoleniu, a nieprzejrzystość modeli językowych utrudnia ilościowe określenie takich uprzedzeń. Nie sądzi jednak, że takie subtelności wpłyną na porównania między różnymi modelami wytrenowanymi na podobnych zestawach syntetycznych historii – na których skupiają się prace Eldana i Li.

Eldan i Li zastosowali dwuetapową procedurę oceny każdego ze swoich małych modeli po szkoleniu. Najpierw wprowadzili do małego modelu pierwszą połowę historii różniącą się od tych ze zbioru danych szkoleniowych, tak aby wygenerować nowe zakończenie, powtarzając ten proces z 50 różnymi historiami testowymi. Po drugie, poinstruowali GPT-4, aby ocenił zakończenie każdego z zakończeń małego modelu na podstawie trzech kategorii — kreatywności, gramatyki i spójności z początkiem historii. Następnie uśrednili wyniki w każdej kategorii, uzyskując trzy końcowe oceny na model.

Dzięki tej procedurze Eldan i Li byli w końcu gotowi porównać różne modele i dowiedzieć się, którzy uczniowie byli gwiazdami.

Wyniki testu

Po wstępnych badaniach obaj badacze zdecydowali się na zestaw danych szkoleniowych zawierający około 2 miliony historii. Następnie wykorzystali ten zbiór danych, nazwany TinyStories, do uczenia modeli o wielkości od 1 miliona do 30 milionów parametrów i różnej liczbie warstw. To była szybka praca: przy użyciu tylko czterech procesorów graficznych największy z tych modeli trenował nie dłużej niż jeden dzień.

Najmniejsze modele miały trudności. Na przykład jedna historia testowa zaczyna się od złośliwego mężczyzny, który mówi dziewczynie, że weźmie jej kota. Model milionowy utknął w pętli, w której dziewczyna wielokrotnie mówiła mężczyźnie, że chce się zaprzyjaźnić. Ale większe – wciąż tysiące razy mniejsze od GPT-3.5 – radziły sobie zaskakująco dobrze. Wersja zawierająca 28 milionów parametrów opowiadała spójną historię, choć zakończenie było ponure: „Katie zaczęła płakać, ale mężczyzna się tym nie przejmował. Zabrał kota i Katie nigdy więcej nie zobaczyła swojego kota. Koniec."

Oprócz testowania własnych modeli Eldan i Li postawili to samo wyzwanie przed GPT-2 OpenAI, modelem o 1.5 miliarda parametrach wydanym w 2019 roku. Wypadło znacznie gorzej — przed gwałtownym zakończeniem historii mężczyzna grozi, że zabierze dziewczynę do sądu, więzienia, szpitala, kostnicy i wreszcie krematorium.

Wprowadzenie

Nguyen powiedział, że to ekscytujące, że tak małe modele są tak płynne, ale być może nie jest zaskakujące, że GPT-2 miał trudności z zadaniem: jest to większy model, ale odbiegający od stanu techniki i został wytrenowany na zupełnie innym zbiorze danych. „Małe dziecko ćwiczące wyłącznie zadania dla malucha, takie jak zabawa zabawkami, może poradzić sobie lepiej niż ty czy ja” – zauważył. „Nie specjalizowaliśmy się w tej prostej rzeczy.”

Porównania pomiędzy różnymi modelami TinyStories nie są obarczone tymi samymi czynnikami zakłócającymi. Eldan i Li zaobserwowali wskazówki, że sieci z mniejszą liczbą warstw, ale większą liczbą neuronów na warstwę, lepiej odpowiadają na pytania wymagające wiedzy opartej na faktach; i odwrotnie, sieci z większą liczbą warstw i mniejszą liczbą neuronów na warstwę lepiej radziły sobie z śledzeniem postaci i punktów fabuły z wcześniejszych części historii. Bhagavatula uznał ten wynik za szczególnie intrygujący. Jeśli uda się to powtórzyć w większych modelach, stwierdził, „byłby to naprawdę fajny wynik, który mógłby wyniknąć z tej pracy”.

Eldan i Li badali także, w jaki sposób zdolności ich małych modeli zależą od czasu trwania okresu szkolenia. W każdym przypadku modele najpierw opanowały gramatykę, a później spójność. Dla Eldana ten wzór ilustruje, jak różnice w strukturach nagród prowadzą do różnic we wzorcach nabywania języka między sieciami neuronowymi a dziećmi. W przypadku modeli językowych, które uczą się poprzez przewidywanie słów, „zachęta związana ze słowami „chcę mieć” jest tak samo duża, jak w przypadku słów „lody”” – powiedział. Dzieci natomiast „nie przejmują się tym, czy powiedzą «Chciałbym na lody», czy po prostu «Lody, lody, lody»”.

Jakość w porównaniu z ilością

Eldan i Li mają nadzieję, że badania zmotywują innych badaczy do trenowania różnych modeli zbiór danych TinyStories i porównać ich możliwości. Często jednak trudno jest przewidzieć, jakie cechy małych modeli pojawią się także w większych.

„Być może mysie modele widzenia są naprawdę dobrymi odpowiednikami ludzkiego wzroku, ale czy mysie modele depresji są dobrymi modelami ludzkiej depresji?” – powiedział Pawlik. „W każdym przypadku jest to trochę inne.”

Sukces modeli TinyStories sugeruje także szerszą lekcję. Standardowe podejście do kompilowania zestawów danych szkoleniowych obejmuje pobieranie tekstu z Internetu, a następnie filtrowanie śmieci. Tekst syntetyczny generowany przez duże modele mógłby stanowić alternatywny sposób tworzenia wysokiej jakości zestawów danych, które nie musiałyby być tak duże.

„Mamy coraz więcej dowodów na to, że jest to bardzo skuteczne, nie tylko w przypadku modeli wielkości TinyStories, ale także większych” – powiedział Eldan. Dowody te pochodzą z dwóch kolejnych artykułów na temat modeli miliardowych parametrów, autorstwa Eldana, Li i innych badaczy Microsoftu. w pierwszy papierwytrenowali model nauki języka programowania Python przy użyciu fragmentów kodu wygenerowanych przez GPT-3.5 wraz ze starannie dobranym kodem z Internetu. w Dopierorozszerzyli zbiór danych szkoleniowych o syntetyczne „podręczniki” obejmujące szeroki zakres tematów, aby wytrenować model języka ogólnego przeznaczenia. W swoich testach oba modele wypadły korzystnie w porównaniu z większymi modelami trenowanymi na większych zbiorach danych. Jednak ocena modeli językowych jest zawsze trudna, a podejście oparte na syntetycznych danych szkoleniowych jest wciąż w powijakach — potrzebnych jest więcej niezależnych testów.

W miarę jak najnowocześniejsze modele językowe stają się coraz większe, zaskakujące odkrycia ich maleńkich kuzynów przypominają, że nadal nie rozumiemy wielu nawet najprostszych modeli. Nguyen spodziewa się, że pojawi się znacznie więcej artykułów poświęconych podejściu zapoczątkowanemu przez TinyStories.

„Pytanie brzmi: gdzie i dlaczego rozmiar ma znaczenie?” powiedział. „Powinna istnieć nauka na ten temat, a ten artykuł jest początkiem bogatej historii”.

Znak czasu:

Więcej z Magazyn ilościowy