Jak zbudować GPT-3 dla nauki PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Jak zbudować GPT-3 dla nauki

Chcesz stworzyć obraz velociraptory pracujące na wieżowcu w stylu „Lunch Atop A Skyscraper” z 1932 roku? Użyj DALL-E. Chcesz stworzyć wyimaginowany stand-upowy program komediowy Petera Thiela, Elona Muska i Larry'ego Page? Użyj GPT-3. Chcesz dogłębnie zrozumieć badania COVID-19 i odpowiedzieć na pytania w oparciu o dowody? Dowiedz się, jak przeprowadzać wyszukiwanie logiczne, czytać artykuły naukowe i być może uzyskać doktorat, ponieważ nie ma generatywnych modeli sztucznej inteligencji wyszkolonych w ogromnej liczbie publikacji naukowych dotyczących badań. Gdyby tak było, uzyskanie popartych dowodami, prostych odpowiedzi na pytania naukowe byłoby jedną z najprostszych korzyści. Generacyjna sztuczna inteligencja dla nauki może pomóc w odwróceniu spowolnienie innowacyjności w nauce by robić to łatwiej i tańsze znaleźć nowe pomysły. Takie modele mogą również dostarczać popartych danymi ostrzeżeń przed hipotezami terapeutycznymi, które z pewnością zawiodą, równoważąc ludzkie uprzedzenia i unikając miliardów dolarów, kilkudziesięcioletnie ślepe zaułki. Wreszcie takie modele mogłyby walczyć kryzys odtwarzalności poprzez mapowanie, ważenie i kontekstualizowanie wyników badań, zapewniając ocenę wiarygodności.

Dlaczego więc nie mamy DALL-E lub GPT-3 dla nauki? Powodem jest to, że chociaż badania naukowe są najbardziej wartościowa treść na świecie, jest to również najmniej dostępna i zrozumiała treść na świecie. Wyjaśnię, czego potrzeba, aby odblokować dane naukowe na dużą skalę, aby umożliwić generatywną sztuczną inteligencję dla nauki i jak zmieniłoby to sposób, w jaki angażujemy się w badania. 

Co sprawia, że ​​dane z badań naukowych stanowią wyzwanie?

Publikacje naukowe to jedne z najważniejszych na świecie repozytoriów treści i informacji, jakie kiedykolwiek stworzono. Łączą idee i odkrycia na przestrzeni czasu i dyscyplin, i są na zawsze zachowane przez sieć bibliotek. Poparte są dowodami, analizami, wglądem ekspertów i relacjami statystycznymi. Są niezwykle cenne, ale są w dużej mierze ukryte przed siecią i wykorzystywane bardzo nieefektywnie. Sieć jest pełna uroczych, przytulnych filmów z kotami, ale w dużej mierze pozbawiona najnowocześniejszych badań nad rakiem. Jako przykład, Sieć nauki to jeden z najbardziej wszechstronnych indeksów wiedzy naukowej. Istnieje od dziesięcioleci, ale prawdopodobnie jest to coś, o czym większość czytelników nawet nie słyszała, nie mówiąc już o interakcji. Większość z nas nie ma dostępu do prac naukowych, a nawet jeśli to robimy, są one gęste, trudne do zrozumienia i spakowane w formacie PDF — formacie przeznaczonym do drukowania, a nie do Internetu.

Ponieważ artykuły naukowe nie są łatwo dostępne, nie możemy łatwo wykorzystać danych do trenowania modeli generatywnych, takich jak GPT-3 lub DALL-E. Czy możesz wyobraźcie sobie, że badacz mógłby zaproponować eksperyment, a model sztucznej inteligencji mógłby natychmiast powiedzieć im, czy zostało to zrobione wcześniej (a jeszcze lepiej, dać im wynik)? Następnie, gdy będą mieli dane z nowatorskiego eksperymentu, sztuczna inteligencja może zasugerować kolejny eksperyment na podstawie wyniku. Na koniec wyobraź sobie czas, który można by zaoszczędzić, gdyby badacz mógł przesłać swoje wyniki, a model AI mógłby napisać wynikowy rękopis dla ich. Najbliższe, jakie kiedykolwiek zbliżyliśmy do DALL-E nauki, to Google Scholar, ale nie jest to trwałe ani skalowalne rozwiązanie. IBM Watson również starał się osiągnąć wiele z tego, co tutaj opisuję, ale większość prac wyprzedziła ostatnie postępy w dużych modelach językowych i nie wykorzystała odpowiednich lub wystarczających danych, aby dopasować się do szumu marketingowego.

Aby odblokować wartość, którą opisuję, potrzebujemy długoterminowej inwestycji, zaangażowania i wizji. Zgodnie z propozycją niedawno in Przyszłośćpublikacje naukowe należy traktować jako substraty, które należy łączyć i analizować na dużą skalę. Gdy usuniemy bariery, będziemy mogli wykorzystać naukę do zasilania żądnych danych modeli generatywnej sztucznej inteligencji. Modele te mają ogromny potencjał przyspieszania nauki i zwiększania umiejętności naukowych, na przykład poprzez szkolenie ich w zakresie generowania nowych pomysłów naukowych, pomaganie naukowcom w zarządzaniu i poruszaniu się w rozległej literaturze naukowej, pomaganiu w identyfikowaniu wadliwych lub nawet sfałszowanych badań oraz syntezowaniu i przekładaniu złożonych wyników badań na zwykła ludzka mowa.

Jak zdobyć DALL-E lub GPT-3 dla nauki?

Jeśli zajmujesz się technologią, pokazywanie znajomemu wyników z generatywnych modeli AI, takich jak DALL-E or GPT-3 jest jak pokazywanie im magii. Narzędzia te reprezentują następną generację sieci. Wywodzą się z syntezy ogromnych ilości informacji, poza prostym połączeniem, w celu stworzenia narzędzi o zdolnościach generatywnych. Jak więc stworzyć podobnie magiczne doświadczenie w nauce, gdzie każdy może zadać pytanie literatury naukowej prostym językiem i uzyskać zrozumiałą odpowiedź popartą dowodami? Jak możemy pomóc naukowcom w tworzeniu, rozwijaniu, udoskonalaniu i testowaniu ich hipotez? Jak możemy potencjalnie uniknąć marnowania miliardów dolarów na? nieudane hipotezy w badaniach nad chorobą Alzheimera i błędne powiązania między genetyką a depresją

Rozwiązania tych pytań mogą brzmieć jak science fiction, ale istnieją dowody na to, że możemy robić niesamowite i nie do pomyślenia rzeczy, gdy praca naukowa jest wykorzystywana nie tylko do sumowania jej części. Rzeczywiście, wykorzystując prawie 200,000 XNUMX struktur białkowych Bank danych białka dał AlfaFold umiejętność do dokładnego przewidywania struktur białkowych, co właśnie zostało zrobione każde białko kiedykolwiek udokumentowane (ponad 200 milionów!). Naturalnym kolejnym krokiem byłoby wykorzystanie prac badawczych w sposób podobny do struktur białkowych. 

Rozkładaj papiery na ich minimalne składniki

Artykuły naukowe są pełne cennych informacji, w tym liczb, wykresów, zależności statystycznych i odniesień do innych artykułów. Podział ich na różne komponenty i wykorzystanie ich na dużą skalę może pomóc nam w szkoleniu maszyn do różnego rodzaju zadań związanych z nauką, podpowiedzi lub zapytań. Odpowiedzi na proste pytania można uzyskać poprzez szkolenie dotyczące jednego typu komponentu, ale bardziej złożone pytania lub podpowiedzi wymagałyby włączenia wielu typów komponentów i zrozumienia ich wzajemnych relacji.  

Oto kilka przykładów złożonych potencjalnych monitów:

„Powiedz mi, dlaczego ta hipoteza jest błędna”
„Powiedz mi, dlaczego mój pomysł na leczenie nie zadziała”
„Wygeneruj nowy pomysł na leczenie”
„Jakie są dowody na poparcie polityki społecznej X?”
„Kto opublikował najbardziej wiarygodne badania w tej dziedzinie?”
„Napisz mi artykuł naukowy na podstawie moich danych”

Niektóre grupy robią postępy w realizacji tej wizji. Na przykład, Wywołać stosuje GPT-3 do milionów tytułów artykułów i streszczeń, aby pomóc odpowiedzieć na pytania naukowców — trochę jak Alexa, ale dla nauki. Konfiguracja wyodrębnia relacje statystyczne między jednostkami, pokazując, jak różne koncepcje i jednostki są powiązane. Elementarz nie koncentruje się na pracach badawczych per se, ale działa z arXiv i zapewnia tablicę informacyjną informacji wykorzystywanych przez korporacje i rządy do syntezy i zrozumienia dużych ilości danych z wielu źródeł. 

Uzyskaj dostęp do wszystkich komponentów

Niestety, grupy te opierają się głównie wyłącznie na tytułach i abstraktach, a nie na pełnych tekstach, ponieważ około pięć na sześć artykułów nie jest swobodnie lub łatwo dostępnych. W przypadku grup takich jak Web of Science i Google, które mają dane lub artykuły, ich licencje i zakres użytkowania są ograniczone lub nieokreślone. W przypadku Google nie jest jasne, dlaczego nie podjęto publicznie ogłoszonych wysiłków na rzecz szkolenia modeli AI na pełnotekstowych badaniach naukowych w Google Scholar. Co zaskakujące, nie zmieniło się to nawet w trakcie pandemii COVID-19, która zatrzymała świat. Zespół Google AI przyspieszył, tworząc prototyp sposobu, w jaki opinia publiczna może zapytać o COVID-19. Ale – i tu jest kicker – zrobili to, korzystając tylko z artykułów o otwartym dostępie z PubMed, a nie Google Scholar. 

Kwestia uzyskiwania dostępu do dokumentów i wykorzystywania ich do czegoś więcej niż tylko czytania ich pojedynczo jest czymś, co grupy opowiadały od dziesięcioleci. Osobiście pracowałem nad tym przez prawie dekadę, uruchamiając platformę publikacyjną o otwartym dostępie o nazwie Winnower podczas ostatniego roku mojego doktoratu, a następnie praca nad budową artykuł przyszłości w innym startupie o nazwie Authorea. Chociaż żadna z tych inicjatyw nie poszła w pełni tak, jak chciałem, doprowadziły mnie do mojej obecnej pracy w scytować, co przynajmniej częściowo rozwiązało problem dostępu dzięki bezpośredniej współpracy z wydawcami. 

Połącz komponenty i zdefiniuj relacje

Naszym celem jest scytować jest wprowadzenie następna generacja cytatów — zwane Smart Citations — które pokazują, w jaki sposób i dlaczego dowolny artykuł, badacz, czasopismo lub temat był cytowany i ogólniej omawiany w literaturze. Współpracując z wydawcami, wydobywamy zdania bezpośrednio z artykułów pełnotekstowych, w których używają oni swoich odniesień w tekście. Zdania te dają jakościowy wgląd w to, w jaki sposób artykuły były cytowane w nowszych pracach. To trochę jak Rotten Tomatoes do badań.

Wymaga to dostępu do artykułów pełnotekstowych i współpracy z wydawcami, abyśmy mogli wykorzystać uczenie maszynowe do wyodrębniania i analizowania cytowań na dużą skalę. Ponieważ było wystarczająco dużo artykułów w otwartym dostępie, aby rozpocząć, byliśmy w stanie opracować weryfikację koncepcji i jeden po drugim pokazaliśmy wydawcom zwiększoną wykrywalność artykułów indeksowanych w naszym systemie i udostępniliśmy im system do pokaż lepsze dane bardziej odpowiedzialnej oceny badań. To, co uważaliśmy za wypowiedzi ekspertów, oni postrzegali jako zapowiedzi swoich artykułów. Wydawcy podpisali się teraz masowo, a my zindeksowaliśmy ponad 1.1 miliarda inteligentnych cytatów z ponad połowy wszystkich opublikowanych artykułów.

Użyj danych relacyjnych do trenowania modeli AI

Komponenty i relacje wyodrębnione z artykułów mogłyby zostać wykorzystane do szkolenia nowych dużych modeli językowych do badań. GPT-3, choć bardzo potężny, nie został zbudowany do pracy w nauce i słabo radzi sobie z odpowiadaniem na pytania, które możesz zobaczyć na SAT. Kiedy GPT-2 (wcześniejsza wersja GPT-3) była zaadaptowany przez szkolenie go na milionach artykułów naukowych, działał lepiej niż sam GPT-2 w konkretnych zadaniach związanych z wiedzą. Podkreśla to, że dane wykorzystywane do trenowania modeli są niezwykle ważne. 

 Niektóre grupy ostatnio używał GPT-3 do pisania prac naukowychi choć jest to imponujące, fakty lub argumenty, które mogą przedstawiać, mogą być bardzo błędne. Jeśli model nie może poprawnie odpowiedzieć na proste pytania w stylu SAT, czy możemy mu zaufać, że napisze pełny artykuł? SCIgen, który wyprzedził GPT-3 o prawie 20 lat, pokazał, że generowanie dokumentów wyglądających na prawdziwe jest stosunkowo łatwe. Ich system, choć znacznie prostszy, generował dokumenty, które: przyjmowany na różne konferencje. Potrzebujemy modelu, który nie tylko wygląda naukowo, ale jest naukowy i wymaga systemu weryfikacji twierdzeń dotyczących maszyn i ludzi. Meta niedawno wprowadziła system weryfikacji cytowań w Wikipedii, coś, co niektórzy wydawcy mają wokalnie żałowali, że nie mają publikacji naukowych.

Aktualny postęp

Ponownie, kluczową przeszkodą w urzeczywistnieniu tego systemu jest brak dostępu do dokumentów i zasobów potrzebnych do jego stworzenia. Tam, gdzie dokumenty lub informacje stają się dostępne do wykorzystania na dużą skalę, widzimy rozwijają się narzędzia i nowe modele. Wykorzystany zespół Google Patent 100 milionów patentów, aby wyszkolić system pod kątem pomocy w analizie patentowej, skutecznie GooglePatentBERT. Inni wprowadzili modele takie jak BioBERT i SciBERT, i pomimo faktu, że zostali przeszkoleni tylko w około 1% tekstów naukowych tylko w określonych dziedzinach, robią wrażenie w zadaniach naukowych, w tym w naszym systemie klasyfikacji cytowań w scite. 

Niedawno, UczonyBERT został wydany model, który skutecznie wykorzystuje całą literaturę naukową do szkolenia BERT. Pokonują problem z dostępem, ale w szczególności milczą, po prostu podkreślając, że ich użycie jest „niekonsumpcyjne”. Ten przypadek użycia może otworzyć drzwi do inni używają artykułów bez wyraźnej zgody wydawców i mogą być ważnym krokiem w tworzeniu DALL-E nauki. Zaskakujące jest jednak to, że ScholarBERT radził sobie gorzej w różnych zadaniach związanych z wiedzą specjalistyczną niż mniejsze modele języka naukowego, takie jak SciBERT. 

Co ważne, modele w stylu BERT mają znacznie mniejszą skalę niż duże modele językowe, takie jak GPT-3, i nie pozwalają na ten sam rodzaj ogólnych podpowiedzi i uczenia się w kontekście, które napędzały większość szumu GPT-3. Pozostaje pytanie: co by było, gdybyśmy zastosowali te same dane z ScholarBERT do trenowania skalowanego modelu generatywnego, takiego jak GPT-3? Co by było, gdybyśmy mogli w jakiś sposób pokazać, skąd pochodzą odpowiedzi z maszyny, być może łącząc je bezpośrednio z literaturą (np. Inteligentne cytaty)?

Dlaczego teraz?

Na szczęście papiery stają się coraz bardziej otwarte, a maszyny stają się coraz potężniejsze. Możemy teraz zacząć wykorzystywać dane zawarte w dokumentach i połączonych repozytoriach, aby szkolić maszyny, aby odpowiadały na pytania i syntetyzowały nowe pomysły w oparciu o badania. Może to mieć przełom w opiece zdrowotnej, polityce, technologii i wszystkim wokół nas. Wyobraź sobie, że gdybyśmy szukali nie tylko tytułów dokumentów, ale konkretnie odpowiedzi, jak wpłynęłoby to na badania i przepływy pracy we wszystkich dyscyplinach. 

 Uwolnienie światowej wiedzy naukowej od bliźniaczych barier dostępności i zrozumiałości pomoże w przejściu z sieci skoncentrowanej na kliknięciach, wyświetleniach, polubieniach i uwagi na sieć skoncentrowaną na dowodach, danych i prawdziwości. Farmacja jest wyraźnie zachęcana do tego, aby to urzeczywistnić, stąd rosnąca liczba startupów identyfikujących potencjalne cele leków za pomocą sztucznej inteligencji – ale wierzę, że opinia publiczna, rządy i każdy, kto korzysta z Google, może chcieć zrezygnować z bezpłatnych wyszukiwań w celu zdobycia zaufania i czasu – oszczędność. Świat desperacko potrzebuje takiego systemu i potrzebuje go szybko. 


 

 

Opublikowano 18 sierpnia 2022 r

Technologia, innowacyjność i przyszłość, jak mówią ci, którzy ją budują.

Dziękujemy za zarejestrowanie się.

Sprawdź w swojej skrzynce odbiorczej wiadomość powitalną.

Znak czasu:

Więcej z Andreessen Horowitz