Instrumente noi și îmbunătățite de moderare a conținutului

imagine

We are introducing a new-and-improved content moderation tool: The Punct final de moderare îmbunătățește filtrul nostru de conținut anterior și este disponibil gratuit astăzi pentru dezvoltatorii API OpenAI.

Pentru a ajuta dezvoltatorii să-și protejeze aplicațiile împotriva posibilelor utilizări greșite, prezentăm cele mai rapide și mai precise Punct final de moderare. Acest punct final oferă dezvoltatorilor API OpenAI acces gratuit la Bazat pe GPT classifiers that detect undesired content — an instance of folosind sisteme AI pentru a ajuta la supravegherea umană a acestor sisteme. De asemenea, am lansat atât a hârtie tehnică descriind metodologia noastră și date CCD folosit pentru evaluare.

When given a text input, the Moderation endpoint assesses whether the content is sexual, hateful, violent, or promotes self-harm — content prohibited by our politica de conținut. Punctul final a fost instruit pentru a fi rapid, precis și pentru a funcționa robust într-o gamă largă de aplicații. Important este că acest lucru reduce șansele ca produsele să „spună” un lucru greșit, chiar și atunci când sunt implementate utilizatorilor la scară. În consecință, AI poate debloca beneficii în setări sensibile, cum ar fi educația, unde altfel nu ar putea fi folosită cu încredere.

Introdu textul

Violenţă

Autoagresiune

Ură

Sexual

Punct final de moderare

Punctul final Moderation ajută dezvoltatorii să beneficieze de investițiile noastre în infrastructură. În loc să construiască și să mențină propriile clasificatoare — un proces amplu, așa cum documentăm în documentul nostru hârtie— în schimb pot accesa clasificatoare precise printr-un singur apel API.

Ca parte a OpenAI angajament la făcând ecosistemul AI mai sigur, oferim acest punct final pentru a permite moderarea gratuită a întregului conținut generat de API-ul OpenAI. De exemplu, In lume, an OpenAI API customer, uses the Moderation endpoint to help their AI-based virtual characters “stay on-script”. By leveraging OpenAI’s technology, Inworld can focus on their core product – creating memorable characters.

Additionally, we welcome the use of the endpoint to moderate content nu generated with the OpenAI API. In one case, the company NGL – an anonymous messaging platform, with a focus on safety – uses the Moderation endpoint to detect hateful language and bullying in their application. NGL finds that these classifiers are capable of generalizing to the latest slang, allowing them to remain more-confident over time. Use of the Moderation endpoint to monitor non-API traffic is in private beta and will be subject to a fee. If you are interested, please reach out to us at support@openai.com.


Începeți cu punctul final de moderare verificând documentația. Mai multe detalii despre procesul de instruire și performanța modelului sunt disponibile în pagina noastră hârtie. De asemenea, am lansat un set de date de evaluare, cu date de Common Crawl etichetate în cadrul acestor categorii, care sperăm că vor stimula cercetări suplimentare în acest domeniu.

Timestamp-ul:

Mai mult de la OpenAI