Nowe i ulepszone narzędzia do moderacji treści

obraz

Wprowadzamy nowe i ulepszone narzędzie do moderacji treści: The Punkt końcowy moderacji ulepsza nasz poprzedni filtr treści i jest dostępny za darmo już dziś dla programistów OpenAI API.

Aby pomóc programistom chronić ich aplikacje przed możliwym niewłaściwym użyciem, wprowadzamy szybsze i dokładniejsze Punkt końcowy moderacji. Ten punkt końcowy zapewnia programistom OpenAI API bezpłatny dostęp do Oparte na GPT klasyfikatory, które wykrywają niepożądaną zawartość — przykład za pomocą systemów AI pomoc w nadzorze ludzkim nad tymi systemami. Wydaliśmy również oba papier techniczny opisując naszą metodologię i zestaw danych wykorzystywane do oceny.

Po wprowadzeniu tekstu punkt końcowy moderacji ocenia, czy treść ma charakter seksualny, nienawistny, zawiera przemoc lub promuje samookaleczenie — treści zabronione przez nasz polityka treści. Punkt końcowy został przeszkolony pod kątem szybkości, dokładności i niezawodnej pracy w wielu aplikacjach. Co ważne, zmniejsza to szanse, że produkty „powiedzą” niewłaściwą rzecz, nawet jeśli zostaną wdrożone dla użytkowników na dużą skalę. W konsekwencji sztuczna inteligencja może odblokowywać korzyści w newralgicznych ustawieniach, takich jak edukacja, gdzie inaczej nie mogłaby być używana z pewnością.

Wprowadź tekst

Przemoc

Samookaleczenia

Nienawidzić

Seksualny

Punkt końcowy moderacji

Punkt końcowy moderacji pomaga deweloperom czerpać korzyści z naszych inwestycji w infrastrukturę. Zamiast tworzyć i utrzymywać własne klasyfikatory — jest to rozległy proces, co dokumentujemy w naszym papier— zamiast tego mogą uzyskać dostęp do dokładnych klasyfikatorów za pomocą jednego wywołania interfejsu API.

W ramach OpenAI zobowiązanie do uczynienie ekosystemu AI bezpieczniejszym, udostępniamy ten punkt końcowy, aby umożliwić bezpłatne moderowanie wszystkich treści generowanych przez interfejs API OpenAI. Na przykład, Na świecie, klient korzystający z interfejsu API OpenAI, używa punktu końcowego moderacji, aby pomóc swoim wirtualnym postaciom opartym na sztucznej inteligencji „pozostać w skrypcie”. Wykorzystując technologię OpenAI, Inworld może skupić się na swoim podstawowym produkcie – tworzeniu niezapomnianych postaci.

Dodatkowo z zadowoleniem przyjmujemy użycie punktu końcowego do moderowania treści nie wygenerowane za pomocą API OpenAI. W jednym przypadku firma ang – platforma do anonimowego przesyłania wiadomości, skoncentrowana na bezpieczeństwie – wykorzystuje punkt końcowy moderacji do wykrywania nienawistnego języka i zastraszania w swojej aplikacji. NGL stwierdza, że ​​te klasyfikatory są w stanie uogólniać do najnowszego slangu, co pozwala im z czasem zachować większą pewność siebie. Korzystanie z punktu końcowego moderacji do monitorowania ruchu niezwiązanego z interfejsem API jest w prywatnej wersji beta i będzie podlegać opłacie. Jeśli jesteś zainteresowany, skontaktuj się z nami pod adresem wsparcie@openai.com.


Rozpocznij od punktu końcowego moderowania, sprawdzając dokumentacja. Więcej szczegółów na temat procesu szkolenia i wydajności modelu można znaleźć w naszym papier. Wydaliśmy również zestaw danych ewaluacyjnych, zawierający dane Common Crawl oznaczone w tych kategoriach, które, mamy nadzieję, pobudzą dalsze badania w tej dziedzinie.

Znak czasu:

Więcej z OpenAI