Lekcje wyciągnięte na temat bezpieczeństwa i niewłaściwego użycia modelu językowego

Opublikowane ponownie przez Plato

Obserwuje: 0

Lekcje wyciągnięte na temat bezpieczeństwa i niewłaściwego używania modeli językowych

Wdrożenie potężnych systemów sztucznej inteligencji znacznie wzbogaciło naszą wiedzę na temat bezpieczeństwa i nadużyć, niż byłoby to możliwe dzięki samym badaniom. Szczególnie:

Niewłaściwe użycie modelu językowego opartego na interfejsie API często przybiera inne formy, niż się najbardziej obawialiśmy.
Zidentyfikowaliśmy ograniczenia w istniejących ocenach modeli językowych, które rozwiązujemy za pomocą nowych testów porównawczych i klasyfikatorów.
Podstawowe badania nad bezpieczeństwem oferują znaczące korzyści dla komercyjnej użyteczności systemów AI.

W tym miejscu opisujemy nasze najnowsze przemyślenia w nadziei, że pomożemy innym programistom AI w rozwiązywaniu problemów związanych z bezpieczeństwem i niewłaściwym wykorzystaniem wdrożonych modeli.

Ow ciągu ostatnich dwóch lat, dowiedzieliśmy się wiele o tym, jak można używać i nadużywać modeli językowych — spostrzeżenia, których nie moglibyśmy zdobyć bez doświadczenia we wdrażaniu w świecie rzeczywistym. W czerwcu 2020 r. zaczęliśmy udostępniać programistom i badaczom API OpenAI, interfejs do uzyskiwania dostępu i tworzenia aplikacji w oparciu o nowe modele sztucznej inteligencji opracowane przez OpenAI. Wdrożenie GPT-3, Codex i innych modeli w sposób, który zmniejsza ryzyko szkód, wiązało się z różnymi wyzwaniami technicznymi i politycznymi.

Przegląd naszego podejścia do wdrażania modeli

Duże modele językowe są teraz w stanie wykonywać a bardzo szeroki zakres zadań, często po wyjęciu z pudełka. Ich profile ryzyka, potencjalne zastosowania i szerszy wpływ na społeczeństwo pozostawać słabo zrozumiany. W rezultacie nasze podejście do wdrażania kładzie nacisk na ciągłą iterację i wykorzystuje następujące strategie mające na celu maksymalizację korzyści z wdrożenia przy jednoczesnym zmniejszeniu związanego z nim ryzyka:

Analiza ryzyka przed wdrożeniem, wykorzystująca rosnący zestaw ocen bezpieczeństwa i czerwonych narzędzi zespołowych (np. sprawdziliśmy nasz InstructGPT pod kątem pogorszenia bezpieczeństwa za pomocą ocen omówione poniżej)
Zaczynając od małej bazy użytkowników (np. zarówno GPT-3, jak i nasz Poleć GPT seria rozpoczęła się jako prywatne wersje beta)
Badanie wyników pilotażowych nowych przypadków użycia (np. badanie warunków, w których moglibyśmy bezpiecznie umożliwić generowanie długich treści, pracując z niewielką liczbą klientów)
Wdrażanie procesów, które pomagają kontrolować wykorzystanie (np. przegląd przypadków użycia, przydziały tokenów i limity szybkości)
Przeprowadzanie szczegółowych przeglądów retrospektywnych (np. incydentów bezpieczeństwa i głównych wdrożeń)

Lekcje wyciągnięte na temat bezpieczeństwa i niewłaściwego używania modeli językowych

Należy zauważyć, że ten diagram ma na celu wizualnie przekazać potrzebę pętli sprzężenia zwrotnego w ciągłym procesie tworzenia i wdrażania modelu oraz fakt, że bezpieczeństwo musi być zintegrowane na każdym etapie. Nie ma na celu przekazania pełnego lub idealnego obrazu procesu naszej lub jakiejkolwiek innej organizacji.

Nie ma złotego środka za odpowiedzialne wdrażanie, dlatego staramy się poznać i rozwiązać ograniczenia naszych modeli oraz potencjalne możliwości nadużyć na każdym etapie rozwoju i wdrażania. Takie podejście pozwala nam dowiedzieć się jak najwięcej o kwestiach bezpieczeństwa i polityki na małą skalę i uwzględnić te spostrzeżenia przed uruchomieniem wdrożeń na większą skalę.

Nie ma srebrnej kuli za odpowiedzialne wdrażanie.

Chociaż nie jest to wyczerpujące, niektóre obszary, w które zainwestowaliśmy do tej pory, obejmują:^[1]:

Trening wstępny dane kuratorstwo i filtrowanie
Strojenie modele na lepsze postępuj zgodnie z instrukcjami
Analiza ryzyka potencjalnych wdrożeń
Zapewnienie szczegółowego użytkownika dokumentacja
Budowanie narzędzia do ekranowania szkodliwych wyników modeli
Przeglądanie przypadków użycia przeciwko naszym polityka
Monitorowanie pod kątem oznak nadużycie
Studiowanie wpływy naszych modeli

Ponieważ każdy etap interwencji ma ograniczenia, konieczne jest podejście holistyczne.

Są obszary, w których moglibyśmy zrobić więcej i w których wciąż mamy pole do ulepszeń. Na przykład, kiedy po raz pierwszy pracowaliśmy nad GPT-3, postrzegaliśmy go jako wewnętrzny artefakt badawczy, a nie system produkcyjny i nie byliśmy tak agresywni w filtrowaniu toksycznych danych treningowych, jak moglibyśmy być w innym przypadku. Zainwestowaliśmy więcej w badanie i usuwanie takiego materiału do kolejnych modeli. Zajęło nam więcej czasu, aby zająć się niektórymi przypadkami nadużyć w przypadkach, w których nie mieliśmy jasnych zasad na ten temat, i poprawiliśmy się w iteracji tych zasad. I nadal pracujemy nad pakietem wymagań bezpieczeństwa, które są maksymalnie skuteczne w rozwiązywaniu zagrożeń, a jednocześnie są wyraźnie przekazywane programistom i minimalizują nadmierne tarcia.

Mimo to wierzymy, że nasze podejście umożliwiło nam zmierzenie i ograniczenie różnego rodzaju szkód wynikających z używania modelu językowego w porównaniu z podejściem bardziej bezradnym, jednocześnie umożliwiając szeroki zakres zastosowań naukowych, artystycznych i komercyjnych naszych modele.^[2]

Wiele kształtów i rozmiarów niewłaściwego używania modelu językowego

OpenAI aktywnie bada ryzyko niewłaściwego wykorzystania sztucznej inteligencji od naszych wczesnych prac nad złośliwe wykorzystanie AI w 2018 i na GPT-2 w 2019 roku, a szczególną uwagę zwróciliśmy na systemy AI wzmacniające operacje wpływu. Mamy pracować z zewnętrzni eksperci do opracowania dowody koncepcji i promowane ostrożny analiza takiego ryzyka przez osoby trzecie. Pozostajemy zaangażowani w rozwiązywanie problemów związanych z operacjami wpływu opartymi na modelach językowych, a ostatnio współorganizowaliśmy warsztaty na ten temat.^[3]

Jednak wykryliśmy i zatrzymaliśmy setki aktorów próbujących nadużywać GPT-3 do znacznie szerszego zakresu celów niż tworzenie dezinformacji do operacji wpływania, w tym w sposób, którego albo nie przewidzieliśmy, albo którego przewidzieliśmy, ale nie spodziewaliśmy się, że będziemy tak powszechne.^[4] Autonomiczne wskazówki dotyczące przypadków użycia, wytyczne dotyczące treści, a wewnętrzna infrastruktura wykrywania i reagowania była początkowo zorientowana na zagrożenia, które przewidywaliśmy na podstawie wewnętrznych i zewnętrznych badań, takich jak generowanie mylących treści politycznych za pomocą GPT-3 lub generowanie złośliwego oprogramowania za pomocą Codex. Nasze wysiłki w zakresie wykrywania i reagowania ewoluowały z biegiem czasu w odpowiedzi na rzeczywiste przypadki nadużyć napotykanych „na wolności”, które nie były tak widoczne, jak operacje mające wpływ na nasze wstępne oceny ryzyka. Przykłady obejmują promocje spamowe dotyczące wątpliwych produktów medycznych i odgrywanie rasistowskich fantazji.

Aby wesprzeć badania nad nadużywaniem modeli językowych i ich łagodzeniem, aktywnie badamy w tym roku możliwości udostępniania statystyk dotyczących incydentów związanych z bezpieczeństwem, aby skonkretyzować dyskusje na temat nadużywania modeli językowych.

Trudność pomiaru ryzyka i wpływu

Wiele aspektów ryzyka i wpływu modeli językowych pozostaje trudnych do zmierzenia, a zatem trudnych do monitorowania, minimalizowania i ujawniania w odpowiedzialny sposób. Aktywnie korzystaliśmy z istniejących akademickich wzorców do oceny modeli językowych i jesteśmy chętni do kontynuowania prac zewnętrznych, ale stwierdziliśmy również, że istniejące wzorcowe zestawy danych często nie odzwierciedlają zagrożeń związanych z bezpieczeństwem i niewłaściwym użyciem, które widzimy w praktyce.^[5]

Takie ograniczenia odzwierciedlają fakt, że akademickie zbiory danych rzadko są tworzone w wyraźnym celu informowania o wykorzystaniu modeli językowych w produkcji i nie korzystają z doświadczenia zdobytego przy wdrażaniu takich modeli na dużą skalę. W rezultacie opracowaliśmy nowe zestawy danych oceny i ramy do pomiaru bezpieczeństwa naszych modeli, które planujemy wkrótce opublikować. W szczególności opracowaliśmy nowe metryki oceny do pomiaru toksyczności w danych wyjściowych modelu, a także opracowaliśmy wewnętrzne klasyfikatory do wykrywania treści, które naruszają nasze polityka treści, takich jak treści erotyczne, szerzenie nienawiści, przemoc, nękanie i samookaleczanie. Oba te z kolei zostały również wykorzystane do ulepszenia naszych danych przedtreningowych^[6]—w szczególności za pomocą klasyfikatorów do odfiltrowania treści i metryk oceny do pomiaru skutków interwencji w zbiorze danych.

Niezawodna klasyfikacja wyników poszczególnych modeli według różnych wymiarów jest trudna, a mierzenie ich wpływu społecznego w skali interfejsu API OpenAI jest jeszcze trudniejsze. Przeprowadziliśmy kilka wewnętrznych badań, aby zbudować siłę instytucjonalną do takiego pomiaru, ale te często rodziły więcej pytań niż odpowiedzi.

Szczególnie zależy nam na lepszym zrozumieniu ekonomicznego wpływu naszych modeli oraz rozkładu tych wpływów. Mamy dobre powody, by sądzić, że skutki wdrożenia obecnych modeli na rynek pracy mogą być już znaczące w wartościach bezwzględnych i będą rosły wraz ze wzrostem możliwości i zasięgu naszych modeli. Do tej pory dowiedzieliśmy się o różnych efektach lokalnych, w tym o ogromnym zwiększeniu wydajności istniejących zadań wykonywanych przez osoby fizyczne, takich jak copywriting i podsumowywanie (czasem przyczyniających się do przenoszenia i tworzenia zadań), a także o przypadkach, w których interfejs API odblokował nowe aplikacje, które wcześniej były niewykonalne , Jak na przykład synteza wielkoskalowych jakościowych informacji zwrotnych. Ale brakuje nam dobrego zrozumienia efektów netto.

Uważamy, że dla tych, którzy opracowują i wdrażają zaawansowane technologie sztucznej inteligencji, ważne jest, aby stawić czoła zarówno pozytywnym, jak i negatywnym skutkom swojej pracy. Omówimy kilka kroków w tym kierunku w końcowej części tego postu.

Związek między bezpieczeństwem a użytecznością systemów AI

W naszym Czarter, opublikowanym w 2018 roku, mówimy, że „obawiamy się, że późny etap rozwoju AGI stanie się konkurencyjnym wyścigiem bez czasu na odpowiednie środki bezpieczeństwa”. Wtedy my opublikowany szczegółowa analiza rozwoju konkurencyjnej AI, którą uważnie śledziliśmy kolejny badania. Jednocześnie wdrażanie systemów sztucznej inteligencji za pośrednictwem interfejsu API OpenAI pogłębiło również nasze zrozumienie synergii między bezpieczeństwem a użytecznością.

Na przykład programiści zdecydowanie preferują nasze modele InstructGPT — które są dostosowane do intencji użytkowników^[7]— nad podstawowymi modelami GPT-3. Warto jednak zauważyć, że modele InstructGPT nie były pierwotnie motywowane względami komercyjnymi, ale raczej miały na celu osiągnięcie postępów w długoterminowej problemy z wyrównaniem. W praktyce oznacza to, że klienci, co być może nie jest zaskakujące, znacznie wolą modele, które pozostają na zadaniu i rozumieją intencje użytkownika, oraz modele, które z mniejszym prawdopodobieństwem generują dane wyjściowe, które są szkodliwe lub nieprawidłowe.^[8] Inne badania podstawowe, takie jak nasza praca nad wykorzystanie informacji pobrane z Internetu w celu bardziej wiernych odpowiedzi na pytania, ma również potencjał do poprawy komercyjnej użyteczności systemów AI.^[9]

Te synergie nie zawsze będą występować. Na przykład, bardziej wydajne systemy często potrzebują więcej czasu na skuteczną ocenę i dostosowanie, co wyklucza natychmiastowe możliwości zysku. A użyteczność użytkownika i społeczeństwa może nie być wyrównana z powodu negatywnych efektów zewnętrznych — rozważ w pełni zautomatyzowane copywriting, co może być korzystne dla twórców treści, ale szkodliwe dla ekosystemu informacyjnego jako całości.

To zachęcające widzieć przypadki silnej synergii między bezpieczeństwem a użytecznością, ale jesteśmy zobowiązani do inwestowania w badania nad bezpieczeństwem i polityką, nawet jeśli są one kompromisem z komercyjną użytecznością.

Zobowiązujemy się do inwestowania w badania nad bezpieczeństwem i polityką, nawet jeśli są one sprzeczne z użytecznością komercyjną.

Sposoby na zaangażowanie

Każda z powyższych lekcji sama w sobie rodzi nowe pytania. Jakiego rodzaju incydenty związane z bezpieczeństwem nadal nie jesteśmy w stanie wykryć i przewidzieć? Jak możemy lepiej mierzyć ryzyko i skutki? W jaki sposób możemy nadal poprawiać zarówno bezpieczeństwo, jak i użyteczność naszych modeli oraz dokonywać kompromisów między tymi dwoma, gdy już się pojawią?

Wiele z tych kwestii aktywnie omawiamy z innymi firmami wdrażającymi modele językowe. Ale wiemy też, że żadna organizacja ani zbiór organizacji nie ma wszystkich odpowiedzi, i chcielibyśmy podkreślić kilka sposobów, w jakie czytelnicy mogą bardziej zaangażować się w zrozumienie i kształtowanie naszego wdrażania najnowocześniejszych systemów sztucznej inteligencji.

Po pierwsze, zdobycie doświadczenia z pierwszej ręki w interakcji z najnowocześniejszymi systemami AI jest nieocenione dla zrozumienia ich możliwości i implikacji. Niedawno zakończyliśmy listę oczekujących interfejsu API po zdobyciu większej wiary w naszą zdolność do skutecznego wykrywania nadużyć i reagowania na nie. Osoby w obsługiwane kraje i terytoria może szybko uzyskać dostęp do API OpenAI, rejestrując się tutaj.

Po drugie, badacze pracujący nad tematami szczególnie dla nas interesującymi, takimi jak uprzedzenia i nadużycia, i którzy mogliby skorzystać ze wsparcia finansowego, mogą ubiegać się o dotowane kredyty API za pomocą ta forma. Badania zewnętrzne mają kluczowe znaczenie zarówno dla naszego zrozumienia tych wieloaspektowych systemów, jak i szerszego zrozumienia opinii publicznej.

Wreszcie dzisiaj publikujemy Program badań badanie wpływu na rynek pracy związanego z naszą rodziną modeli Codex oraz wezwanie współpracowników zewnętrznych do przeprowadzenia tych badań. Cieszymy się, że możemy współpracować z niezależnymi badaczami w celu zbadania skutków naszych technologii w celu informowania o odpowiednich interwencjach politycznych i ostatecznie poszerzenia naszego myślenia z generowania kodu na inne modalności.

Jeśli interesuje Cię praca nad odpowiedzialnym wdrażaniem najnowocześniejszych technologii AI, zastosować do pracy w OpenAI!

Znak czasu: 3 marca 2022 r.

Znak czasu: Sierpnia 31, 2022

Opublikowane ponownie przez Plato

Szybkie dotacje na Superalignment

Wkład Demokratów w program dotacji AI: wyciągnięte wnioski i plany wdrożenia

Nowe sposoby zarządzania danymi w ChatGPT

OpenAI ogłasza nowych członków zarządu

Jak powinny zachowywać się systemy AI i kto powinien o tym decydować?

Nauka gry w Minecrafta dzięki wstępnemu szkoleniu wideo (VPT)

Nauczanie modeli wyrażania niepewności słowami

DALL·E: Przedstawiamy malowanie

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto