Meta debiutuje z dużym językiem trzeciej generacji Llama

Meta debiutuje z dużym językiem trzeciej generacji Llama

Meta wypuściła swój najnowszy model wielkojęzykowy (LLM) – nazwany Llama 3 – i twierdzi, że będzie rzucić wyzwanie znacznie większym modelom, takim jak Google, Mistral i Anthropic.

Ujawnione w długim zapowiedź w czwartek Llama 3 dostępna jest w wersjach od ośmiu miliardów do ponad 400 miliardów parametrów. Dla porównania, największe modele OpenAI i Google zbliżają się do dwóch bilionów parametrów.

Na razie mamy dostęp tylko do ośmiu miliardów i 3 miliardów wariantów tekstu parametrów Lamy 70. Meta nie skończyła jeszcze trenować swoich największych i najbardziej złożonych modeli, ale sugeruje, że będą one wielojęzyczne i multimodalne, co oznacza, że ​​zostaną złożone z wielu mniejszych modeli zoptymalizowanych pod kątem domeny.

Meta twierdzi, że nawet przy zaledwie 70 miliardach parametrów Llama 3 jest w stanie dorównać znacznie większym modelom.

Meta twierdzi, że Llama3-8B i 70B mogą przewyższać znacznie większe modele, w tym Gemini Pro i Claude 3 firmy Anthropic

Meta twierdzi, że Llama3-8B i 70B mogą przewyższać znacznie większe modele, w tym Gemini Pro i Claude 3 firmy Anthropic – kliknij, aby powiększyć

Lepsze dane, lepszy model

Według Meta jedna z największych korzyści wynika z zastosowania tokenizera ze słownictwem wynoszącym 128,000 XNUMX tokenów. W kontekście LLM tokeny mogą składać się z kilku znaków, całych słów, a nawet fraz. Sztuczna inteligencja rozkłada dane wejściowe człowieka na tokeny, a następnie wykorzystuje słownik tokenów do generowania wyników.

Meta wyjaśniła, że ​​jej tokenizer pomaga wydajniej kodować język, znacznie zwiększając wydajność. Dodatkowe korzyści osiągnięto dzięki zastosowaniu zbiorów danych wyższej jakości i dodatkowym etapom dostrajania po szkoleniu, aby poprawić wydajność i ogólną dokładność modelu.

W szczególności Meta ujawniła, że ​​Llama 3 została wstępnie wytrenowana na ponad 15 bilionach tokenów zebranych z publicznie dostępnych źródeł.

Zbiór danych szkoleniowych Lamy 3 jest ponad siedem razy większy i zawiera cztery razy więcej kodu niż Llama 2, który uruchomiona zaledwie dziewięć miesięcy temu. Jednak, jak to się mówi, „śmieci wchodzą, śmieci wychodzą” – Meta twierdzi, że opracowała szereg potoków filtrowania danych, aby zapewnić, że Lama 3 będzie szkolona na podstawie jak najmniejszej ilości złych informacji.

Te kontrole jakości obejmowały zarówno filtry heurystyczne, jak i NSFW, a także deduplikację danych i klasyfikatory tekstu używane do przewidywania jakości informacji przed szkoleniem. Meta wykorzystała nawet swój starszy model Llama 2, który według niej „zaskakująco dobrze identyfikuje dane wysokiej jakości”, aby pomóc w oddzieleniu ziarna od plew.

Pięć procent danych szkoleniowych pochodziło z ponad 30 języków, co według przewidywań Meta pomoże w przyszłości zapewnić modelowi bardziej znaczące możliwości wielojęzyczne. Jak na razie portal Social Network™️ twierdzi, że użytkownicy nie powinni oczekiwać takiego samego poziomu wydajności w językach innych niż angielski.

Trenowanie małych modeli na tak dużym zbiorze danych jest ogólnie uważane za stratę czasu obliczeniowego, a nawet powoduje zmniejszenie korzyści w zakresie dokładności. Idealna kombinacja danych uczących do obliczania zasobów jest określana jako „Szynszyla optymalna” [PDF] kwota. Według Meta dla modelu o ośmiu miliardach parametrów, takiego jak Llama3-8B, byłoby to około 200 miliardów tokenów.

Jednak podczas testów Meta odkryła, że ​​wydajność Lamy 3 stale się poprawia, nawet gdy jest trenowana na większych zbiorach danych. „Zarówno nasze modele z ośmioma miliardami, jak i nasze modele z 70 miliardami parametrów, po przeszkoleniu ich na maksymalnie 15 bilionach tokenów, nadal doskonaliły się logicznie liniowo” – napisał biz.

Wydaje się, że w rezultacie powstał stosunkowo kompaktowy model, który może generować wyniki porównywalne ze znacznie większymi modelami. Prawdopodobnie uznano, że kompromis w zakresie obliczeń jest opłacalny, ponieważ ogólnie rzecz biorąc, mniejsze modele są łatwiejsze do wnioskowania, a zatem łatwiejsze do wdrożenia na dużą skalę.

Przy 8-bitowej precyzji model składający się z ośmiu miliardów parametrów wymaga zaledwie 8 GB pamięci. Zmniejszenie precyzji do 4-bitów – albo przy użyciu sprzętu, który ją obsługuje, albo przy użyciu kwantyzacji do kompresji modelu – zmniejszyłoby wymagania dotyczące pamięci o około połowę.

Meta trenowała model na dwóch klastrach obliczeniowych, z których każdy zawierał 24,000 XNUMX procesorów graficznych Nvidia. Jak można sobie wyobrazić, trening na tak dużym klastrze, choć szybszy, wiąże się również z pewnymi wyzwaniami – wzrasta prawdopodobieństwo, że coś zawiedzie w trakcie biegu treningowego.

Aby temu zaradzić, Meta wyjaśniła, że ​​opracowała stos szkoleniowy, który automatyzuje wykrywanie, obsługę i konserwację błędów. Do hiperskalera dodano także systemy monitorowania awarii i przechowywania danych, aby zmniejszyć obciążenie związane z punktem kontrolnym i wycofywaniem w przypadku przerwania przebiegu szkoleniowego. Po ukończeniu Meta poddała modele serii testów poszkoleniowych i etapów dostrajania.

Oprócz Llama3-8B i 70B Meta wprowadziła także nowe i zaktualizowane narzędzia zaufania i bezpieczeństwa – w tym Llama Guard 2 i Cybersec Eval 2, aby pomóc użytkownikom chronić model przed nadużyciami i/lub atakami polegającymi na natychmiastowym wstrzykiwaniu. Code Shield to kolejny dodatek, który zapewnia poręcze zaprojektowane, aby pomóc odfiltrować niebezpieczny kod generowany przez Llamę 3.

Jak już wcześniej informowaliśmy, generowanie kodu wspomaganego przez LLM doprowadziło do kilku interesujących rzeczy wektory ataku których Meta chce uniknąć.

Dostępność

W ciągu najbliższych kilku miesięcy Meta planuje wdrożyć dodatkowe modele – w tym jeden przekraczający 400 miliardów parametrów i obsługujący dodatkowe funkcjonalności, języki i większe okna kontekstowe. Ta ostatnia umożliwi użytkownikom zadawanie większych, bardziej złożonych zapytań – na przykład podsumowujących duży blok tekstu.

Llama3-8B i 70B są obecnie dostępne do pobrania w witrynie Meta . Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face i inne również planują udostępnić ten model do wdrożenia na swoich platformach.

Jeśli chcesz przetestować Llamę3 na swoim komputerze, możesz zapoznać się z naszym przewodnikiem na temat uruchamiania lokalnych LLM tutaj. Po zainstalowaniu możesz go uruchomić, uruchamiając:

ollama biegnij lama3

Baw się dobrze i daj nam znać, jak poszło. ®

Znak czasu:

Więcej z Rejestr