Wnioski wyciągnięte z bezpieczeństwa i niewłaściwego użycia modelu językowego PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Lekcje wyciągnięte na temat bezpieczeństwa i niewłaściwego używania modeli językowych

Lekcje wyciągnięte na temat bezpieczeństwa i niewłaściwego używania modeli językowych

Wdrożenie potężnych systemów sztucznej inteligencji znacznie wzbogaciło naszą wiedzę na temat bezpieczeństwa i nadużyć, niż byłoby to możliwe dzięki samym badaniom. Szczególnie:

  • Niewłaściwe użycie modelu językowego opartego na interfejsie API często przybiera inne formy, niż się najbardziej obawialiśmy.
  • Zidentyfikowaliśmy ograniczenia w istniejących ocenach modeli językowych, które rozwiązujemy za pomocą nowych testów porównawczych i klasyfikatorów.
  • Podstawowe badania nad bezpieczeństwem oferują znaczące korzyści dla komercyjnej użyteczności systemów AI.

W tym miejscu opisujemy nasze najnowsze przemyślenia w nadziei, że pomożemy innym programistom AI w rozwiązywaniu problemów związanych z bezpieczeństwem i niewłaściwym wykorzystaniem wdrożonych modeli.


Ow ciągu ostatnich dwóch lat, dowiedzieliśmy się wiele o tym, jak można używać i nadużywać modeli językowych — spostrzeżenia, których nie moglibyśmy zdobyć bez doświadczenia we wdrażaniu w świecie rzeczywistym. W czerwcu 2020 r. zaczęliśmy udostępniać programistom i badaczom API OpenAI, interfejs do uzyskiwania dostępu i tworzenia aplikacji w oparciu o nowe modele sztucznej inteligencji opracowane przez OpenAI. Wdrożenie GPT-3, Codex i innych modeli w sposób, który zmniejsza ryzyko szkód, wiązało się z różnymi wyzwaniami technicznymi i politycznymi.

Przegląd naszego podejścia do wdrażania modeli

Duże modele językowe są teraz w stanie wykonywać a bardzo szeroki zakres zadań, często po wyjęciu z pudełka. Ich profile ryzyka, potencjalne zastosowania i szerszy wpływ na społeczeństwo pozostawać słabo zrozumiany. W rezultacie nasze podejście do wdrażania kładzie nacisk na ciągłą iterację i wykorzystuje następujące strategie mające na celu maksymalizację korzyści z wdrożenia przy jednoczesnym zmniejszeniu związanego z nim ryzyka:

  • Analiza ryzyka przed wdrożeniem, wykorzystująca rosnący zestaw ocen bezpieczeństwa i czerwonych narzędzi zespołowych (np. sprawdziliśmy nasz InstructGPT pod kątem pogorszenia bezpieczeństwa za pomocą ocen omówione poniżej)
  • Zaczynając od małej bazy użytkowników (np. zarówno GPT-3, jak i nasz Poleć GPT seria rozpoczęła się jako prywatne wersje beta)
  • Badanie wyników pilotażowych nowych przypadków użycia (np. badanie warunków, w których moglibyśmy bezpiecznie umożliwić generowanie długich treści, pracując z niewielką liczbą klientów)
  • Wdrażanie procesów, które pomagają kontrolować wykorzystanie (np. przegląd przypadków użycia, przydziały tokenów i limity szybkości)
  • Przeprowadzanie szczegółowych przeglądów retrospektywnych (np. incydentów bezpieczeństwa i głównych wdrożeń)
Lekcje wyciągnięte na temat bezpieczeństwa i niewłaściwego używania modeli językowych


Należy zauważyć, że ten diagram ma na celu wizualnie przekazać potrzebę pętli sprzężenia zwrotnego w ciągłym procesie tworzenia i wdrażania modelu oraz fakt, że bezpieczeństwo musi być zintegrowane na każdym etapie. Nie ma na celu przekazania pełnego lub idealnego obrazu procesu naszej lub jakiejkolwiek innej organizacji.

Nie ma złotego środka za odpowiedzialne wdrażanie, dlatego staramy się poznać i rozwiązać ograniczenia naszych modeli oraz potencjalne możliwości nadużyć na każdym etapie rozwoju i wdrażania. Takie podejście pozwala nam dowiedzieć się jak najwięcej o kwestiach bezpieczeństwa i polityki na małą skalę i uwzględnić te spostrzeżenia przed uruchomieniem wdrożeń na większą skalę.


Nie ma srebrnej kuli za odpowiedzialne wdrażanie.

Chociaż nie jest to wyczerpujące, niektóre obszary, w które zainwestowaliśmy do tej pory, obejmują:[1]:

Ponieważ każdy etap interwencji ma ograniczenia, konieczne jest podejście holistyczne.

Są obszary, w których moglibyśmy zrobić więcej i w których wciąż mamy pole do ulepszeń. Na przykład, kiedy po raz pierwszy pracowaliśmy nad GPT-3, postrzegaliśmy go jako wewnętrzny artefakt badawczy, a nie system produkcyjny i nie byliśmy tak agresywni w filtrowaniu toksycznych danych treningowych, jak moglibyśmy być w innym przypadku. Zainwestowaliśmy więcej w badanie i usuwanie takiego materiału do kolejnych modeli. Zajęło nam więcej czasu, aby zająć się niektórymi przypadkami nadużyć w przypadkach, w których nie mieliśmy jasnych zasad na ten temat, i poprawiliśmy się w iteracji tych zasad. I nadal pracujemy nad pakietem wymagań bezpieczeństwa, które są maksymalnie skuteczne w rozwiązywaniu zagrożeń, a jednocześnie są wyraźnie przekazywane programistom i minimalizują nadmierne tarcia.

Mimo to wierzymy, że nasze podejście umożliwiło nam zmierzenie i ograniczenie różnego rodzaju szkód wynikających z używania modelu językowego w porównaniu z podejściem bardziej bezradnym, jednocześnie umożliwiając szeroki zakres zastosowań naukowych, artystycznych i komercyjnych naszych modele.[2]

Wiele kształtów i rozmiarów niewłaściwego używania modelu językowego

OpenAI aktywnie bada ryzyko niewłaściwego wykorzystania sztucznej inteligencji od naszych wczesnych prac nad złośliwe wykorzystanie AI w 2018 i na GPT-2 w 2019 roku, a szczególną uwagę zwróciliśmy na systemy AI wzmacniające operacje wpływu. Mamy pracować z zewnętrzni eksperci do opracowania dowody koncepcji i promowane ostrożny analiza takiego ryzyka przez osoby trzecie. Pozostajemy zaangażowani w rozwiązywanie problemów związanych z operacjami wpływu opartymi na modelach językowych, a ostatnio współorganizowaliśmy warsztaty na ten temat.[3]

Jednak wykryliśmy i zatrzymaliśmy setki aktorów próbujących nadużywać GPT-3 do znacznie szerszego zakresu celów niż tworzenie dezinformacji do operacji wpływania, w tym w sposób, którego albo nie przewidzieliśmy, albo którego przewidzieliśmy, ale nie spodziewaliśmy się, że będziemy tak powszechne.[4] Autonomiczne wskazówki dotyczące przypadków użycia, wytyczne dotyczące treści, a wewnętrzna infrastruktura wykrywania i reagowania była początkowo zorientowana na zagrożenia, które przewidywaliśmy na podstawie wewnętrznych i zewnętrznych badań, takich jak generowanie mylących treści politycznych za pomocą GPT-3 lub generowanie złośliwego oprogramowania za pomocą Codex. Nasze wysiłki w zakresie wykrywania i reagowania ewoluowały z biegiem czasu w odpowiedzi na rzeczywiste przypadki nadużyć napotykanych „na wolności”, które nie były tak widoczne, jak operacje mające wpływ na nasze wstępne oceny ryzyka. Przykłady obejmują promocje spamowe dotyczące wątpliwych produktów medycznych i odgrywanie rasistowskich fantazji.

Aby wesprzeć badania nad nadużywaniem modeli językowych i ich łagodzeniem, aktywnie badamy w tym roku możliwości udostępniania statystyk dotyczących incydentów związanych z bezpieczeństwem, aby skonkretyzować dyskusje na temat nadużywania modeli językowych.

Trudność pomiaru ryzyka i wpływu

Wiele aspektów ryzyka i wpływu modeli językowych pozostaje trudnych do zmierzenia, a zatem trudnych do monitorowania, minimalizowania i ujawniania w odpowiedzialny sposób. Aktywnie korzystaliśmy z istniejących akademickich wzorców do oceny modeli językowych i jesteśmy chętni do kontynuowania prac zewnętrznych, ale stwierdziliśmy również, że istniejące wzorcowe zestawy danych często nie odzwierciedlają zagrożeń związanych z bezpieczeństwem i niewłaściwym użyciem, które widzimy w praktyce.[5]

Takie ograniczenia odzwierciedlają fakt, że akademickie zbiory danych rzadko są tworzone w wyraźnym celu informowania o wykorzystaniu modeli językowych w produkcji i nie korzystają z doświadczenia zdobytego przy wdrażaniu takich modeli na dużą skalę. W rezultacie opracowaliśmy nowe zestawy danych oceny i ramy do pomiaru bezpieczeństwa naszych modeli, które planujemy wkrótce opublikować. W szczególności opracowaliśmy nowe metryki oceny do pomiaru toksyczności w danych wyjściowych modelu, a także opracowaliśmy wewnętrzne klasyfikatory do wykrywania treści, które naruszają nasze polityka treści, takich jak treści erotyczne, szerzenie nienawiści, przemoc, nękanie i samookaleczanie. Oba te z kolei zostały również wykorzystane do ulepszenia naszych danych przedtreningowych[6]—w szczególności za pomocą klasyfikatorów do odfiltrowania treści i metryk oceny do pomiaru skutków interwencji w zbiorze danych.

Niezawodna klasyfikacja wyników poszczególnych modeli według różnych wymiarów jest trudna, a mierzenie ich wpływu społecznego w skali interfejsu API OpenAI jest jeszcze trudniejsze. Przeprowadziliśmy kilka wewnętrznych badań, aby zbudować siłę instytucjonalną do takiego pomiaru, ale te często rodziły więcej pytań niż odpowiedzi.

Szczególnie zależy nam na lepszym zrozumieniu ekonomicznego wpływu naszych modeli oraz rozkładu tych wpływów. Mamy dobre powody, by sądzić, że skutki wdrożenia obecnych modeli na rynek pracy mogą być już znaczące w wartościach bezwzględnych i będą rosły wraz ze wzrostem możliwości i zasięgu naszych modeli. Do tej pory dowiedzieliśmy się o różnych efektach lokalnych, w tym o ogromnym zwiększeniu wydajności istniejących zadań wykonywanych przez osoby fizyczne, takich jak copywriting i podsumowywanie (czasem przyczyniających się do przenoszenia i tworzenia zadań), a także o przypadkach, w których interfejs API odblokował nowe aplikacje, które wcześniej były niewykonalne , Jak na przykład synteza wielkoskalowych jakościowych informacji zwrotnych. Ale brakuje nam dobrego zrozumienia efektów netto.

Uważamy, że dla tych, którzy opracowują i wdrażają zaawansowane technologie sztucznej inteligencji, ważne jest, aby stawić czoła zarówno pozytywnym, jak i negatywnym skutkom swojej pracy. Omówimy kilka kroków w tym kierunku w końcowej części tego postu.

Związek między bezpieczeństwem a użytecznością systemów AI

W naszym Czarter, opublikowanym w 2018 roku, mówimy, że „obawiamy się, że późny etap rozwoju AGI stanie się konkurencyjnym wyścigiem bez czasu na odpowiednie środki bezpieczeństwa”. Wtedy my opublikowany szczegółowa analiza rozwoju konkurencyjnej AI, którą uważnie śledziliśmy kolejny badania. Jednocześnie wdrażanie systemów sztucznej inteligencji za pośrednictwem interfejsu API OpenAI pogłębiło również nasze zrozumienie synergii między bezpieczeństwem a użytecznością.

Na przykład programiści zdecydowanie preferują nasze modele InstructGPT — które są dostosowane do intencji użytkowników[7]— nad podstawowymi modelami GPT-3. Warto jednak zauważyć, że modele InstructGPT nie były pierwotnie motywowane względami komercyjnymi, ale raczej miały na celu osiągnięcie postępów w długoterminowej problemy z wyrównaniem. W praktyce oznacza to, że klienci, co być może nie jest zaskakujące, znacznie wolą modele, które pozostają na zadaniu i rozumieją intencje użytkownika, oraz modele, które z mniejszym prawdopodobieństwem generują dane wyjściowe, które są szkodliwe lub nieprawidłowe.[8] Inne badania podstawowe, takie jak nasza praca nad wykorzystanie informacji pobrane z Internetu w celu bardziej wiernych odpowiedzi na pytania, ma również potencjał do poprawy komercyjnej użyteczności systemów AI.[9]

Te synergie nie zawsze będą występować. Na przykład, bardziej wydajne systemy często potrzebują więcej czasu na skuteczną ocenę i dostosowanie, co wyklucza natychmiastowe możliwości zysku. A użyteczność użytkownika i społeczeństwa może nie być wyrównana z powodu negatywnych efektów zewnętrznych — rozważ w pełni zautomatyzowane copywriting, co może być korzystne dla twórców treści, ale szkodliwe dla ekosystemu informacyjnego jako całości.

To zachęcające widzieć przypadki silnej synergii między bezpieczeństwem a użytecznością, ale jesteśmy zobowiązani do inwestowania w badania nad bezpieczeństwem i polityką, nawet jeśli są one kompromisem z komercyjną użytecznością.


Zobowiązujemy się do inwestowania w badania nad bezpieczeństwem i polityką, nawet jeśli są one sprzeczne z użytecznością komercyjną.

Sposoby na zaangażowanie

Każda z powyższych lekcji sama w sobie rodzi nowe pytania. Jakiego rodzaju incydenty związane z bezpieczeństwem nadal nie jesteśmy w stanie wykryć i przewidzieć? Jak możemy lepiej mierzyć ryzyko i skutki? W jaki sposób możemy nadal poprawiać zarówno bezpieczeństwo, jak i użyteczność naszych modeli oraz dokonywać kompromisów między tymi dwoma, gdy już się pojawią?

Wiele z tych kwestii aktywnie omawiamy z innymi firmami wdrażającymi modele językowe. Ale wiemy też, że żadna organizacja ani zbiór organizacji nie ma wszystkich odpowiedzi, i chcielibyśmy podkreślić kilka sposobów, w jakie czytelnicy mogą bardziej zaangażować się w zrozumienie i kształtowanie naszego wdrażania najnowocześniejszych systemów sztucznej inteligencji.

Po pierwsze, zdobycie doświadczenia z pierwszej ręki w interakcji z najnowocześniejszymi systemami AI jest nieocenione dla zrozumienia ich możliwości i implikacji. Niedawno zakończyliśmy listę oczekujących interfejsu API po zdobyciu większej wiary w naszą zdolność do skutecznego wykrywania nadużyć i reagowania na nie. Osoby w obsługiwane kraje i terytoria może szybko uzyskać dostęp do API OpenAI, rejestrując się tutaj.

Po drugie, badacze pracujący nad tematami szczególnie dla nas interesującymi, takimi jak uprzedzenia i nadużycia, i którzy mogliby skorzystać ze wsparcia finansowego, mogą ubiegać się o dotowane kredyty API za pomocą ta forma. Badania zewnętrzne mają kluczowe znaczenie zarówno dla naszego zrozumienia tych wieloaspektowych systemów, jak i szerszego zrozumienia opinii publicznej.

Wreszcie dzisiaj publikujemy Program badań badanie wpływu na rynek pracy związanego z naszą rodziną modeli Codex oraz wezwanie współpracowników zewnętrznych do przeprowadzenia tych badań. Cieszymy się, że możemy współpracować z niezależnymi badaczami w celu zbadania skutków naszych technologii w celu informowania o odpowiednich interwencjach politycznych i ostatecznie poszerzenia naszego myślenia z generowania kodu na inne modalności.

Jeśli interesuje Cię praca nad odpowiedzialnym wdrażaniem najnowocześniejszych technologii AI, zastosować do pracy w OpenAI!


Podziękowanie

Podziękowania dla Lilian Weng, Rosie Campbell, Anny Makanju, Boba McGrew, Hannah Wong, Ryana Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov i inni za przekazanie opinii na temat tego posta i związanych z nim prac.


Przypisy

  1. Ten post opiera się na naszym podejściu do wdrażania modeli językowych za pośrednictwem interfejsu API, dlatego opisane lekcje i środki zaradcze są najbardziej odpowiednie dla osób, które również wdrażają oparte na interfejsie API. Spodziewamy się jednak, że część dyskusji będzie miała znaczenie dla osób tworzących aplikacje własne przy użyciu modeli językowych oraz tych, którzy rozważają wydanie modeli językowych typu open source. ↩︎

  2. Ten post ma na celu wyjaśnienie i dzielenie się wnioskami z naszego podejścia, a nie sugerowanie, że wszyscy uczestnicy powinni koniecznie przyjąć to samo podejście lub że to samo podejście ma zastosowanie do wszystkich możliwych systemów SI. Istnieją korzyści i koszty związane z różnymi podejściami do wdrażania, różne modele przyniosą większe lub mniejsze korzyści z badania przed wdrożeniem, aw niektórych przypadkach może być cenne, aby różne ścieżki wdrażania były realizowane przez różne podmioty. ↩︎

  3. Więcej szczegółów na temat tych warsztatów zostanie zawartych w przygotowywanej na ich podstawie publikacji. ↩︎

  4. Środki łagodzące, które podkreślamy w odpowiedzi na nadużycia, również ewoluowały. Na przykład początkowo skupiliśmy się na generowaniu długich tekstów jako wektorze zagrożeń, biorąc pod uwagę wcześniejsze przypadki operacji wpływania, w których ludzie ręcznie pisali długie, wprowadzające w błąd treści. Biorąc pod uwagę ten nacisk, ustalamy maksymalne długości wyjściowe dla generowanego tekstu. Na podstawie pilotażowego badania nad generowaniem długich formularzy zauważyliśmy jednak, że ograniczenia wyjściowe miały niewielki wpływ na naruszenia zasad — zamiast tego zaczęliśmy wierzyć, że większe ryzyko może stanowić wzmocnienie krótkich treści lub zwiększenie zaangażowania w treści wprowadzające w błąd. ↩︎

  5. Przykłady ograniczeń w istniejących zbiorach danych, z perspektywy praktyków poszukujących holistycznej oceny bezpieczeństwa wyników rzeczywistych modeli językowych, obejmują: zbyt wąskie ukierunkowanie (np. tylko pomiar uprzedzeń związanych z płcią zawodową), zbyt szerokie ukierunkowanie (np. mierzenie wszystkiego pod parasolem „toksyczności”), tendencja do abstrahowania specyfiki użycia i kontekstu, brak pomiaru generatywny wymiar wykorzystania modelu językowego (np. użycie stylu wielokrotnego wyboru), podpowiedzi, które różnią się stylistycznie od tych zwykle używanych w rzeczywistych przypadkach użycia modelu językowego, nie obejmując wymiarów bezpieczeństwa, które są ważne w praktyce (np. wynik następujący lub zignorowany motywowane ograniczenie w instrukcji) lub nie uchwycenie rodzajów wyników, które, jak stwierdziliśmy, są skorelowane z nadużyciem (np. treści erotyczne). ↩︎

  6. Chociaż nasze wysiłki są szczególnie ukierunkowane na rozwiązywanie ograniczeń w istniejących testach porównawczych i naszych własnych modelach, przyznajemy również, że istnieją ograniczenia w stosowanych przez nas metodach, takich jak filtrowanie danych oparte na klasyfikatorach. Na przykład operacyjne zdefiniowanie obszarów treści, które chcemy wykrywać za pomocą filtrowania, jest trudne, a sama filtracja może wprowadzać szkodliwe uprzedzenia. Ponadto znakowanie danych toksycznych jest kluczowym elementem tej pracy, a zapewnienie zdrowia psychicznego tych znakujących jest wyzwaniem dla całej branży. ↩︎

  7. Odpowiednim „użytkownikiem” naszego API może być programista tworzący aplikację lub użytkownik końcowy wchodzący w interakcję z taką aplikacją, w zależności od kontekstu. Pojawiają się głębokie pytania dotyczące wartości, które odzwierciedlają nasze dopasowane modele i mamy nadzieję, że uda nam się lepiej zrozumieć, jak równoważyć wartości szerokiego grona potencjalnych użytkowników i konkurencyjnych celów, gdy dopasowywanie modeli językowych jest bardziej pomocne, bardziej zgodne z prawdą i mniej szkodliwe. ↩︎

  8. Bardziej wyrównane modele mają również bardziej praktyczne zalety, takie jak zmniejszenie potrzeby „natychmiastowej inżynierii” (zapewnienie przykładów pożądanego zachowania w celu kierowania modelem we właściwym kierunku), oszczędność miejsca w oknie kontekstowym modelu, które można wykorzystać do innych celów. ↩︎

  9. Poza badaniami odkryliśmy, że inne interwencje związane z bezpieczeństwem czasami przynoszą klientom nieoczekiwane korzyści. Na przykład limity stawek mające na celu ograniczenie spamu lub treści wprowadzających w błąd również pomagają klientom kontrolować wydatki. ↩︎

Znak czasu:

Więcej z OpenAI