Nytt og forbedret verktøy for innholdsmoderering

bilde

Vi introduserer et nytt og forbedret innholdsmodereringsverktøy: The Moderasjonsendepunkt forbedrer vårt tidligere innholdsfilter, og er tilgjengelig gratis i dag for OpenAI API-utviklere.

For å hjelpe utviklere med å beskytte applikasjonene sine mot mulig misbruk, introduserer vi de raskere og mer nøyaktige Moderasjonsendepunkt. Dette endepunktet gir OpenAI API-utviklere gratis tilgang til GPT-basert klassifiserere som oppdager uønsket innhold - en forekomst av ved hjelp av AI-systemer å bistå med menneskelig tilsyn med disse systemene. Vi har også gitt ut både en teknisk papir som beskriver vår metodikk og datasett brukes til evaluering.

Når det gis en tekstinndata, vurderer modereringsendepunktet om innholdet er seksuelt, hatefullt, voldelig eller fremmer selvskading – innhold som er forbudt av våre innholdspolitikk. Endepunktet har blitt opplært til å være raskt, nøyaktig og til å yte robust på tvers av en rekke applikasjoner. Viktigere, dette reduserer sjansene for at produkter "sier" feil ting, selv når de distribueres til brukere i stor skala. Som en konsekvens kan AI låse opp fordeler i sensitive omgivelser, som utdanning, der den ellers ikke kunne brukes med selvtillit.

legge inn tekst

vold

Selvskading

Hat

Seksuell

Moderasjonsendepunkt

Moderasjonsendepunktet hjelper utviklere å dra nytte av våre infrastrukturinvesteringer. I stedet for å bygge og vedlikeholde sine egne klassifiserere – en omfattende prosess, som vi dokumenterer i vår papir— de kan i stedet få tilgang til nøyaktige klassifiseringer gjennom et enkelt API-kall.

Som en del av OpenAI's engasjement til gjør AI-økosystemet tryggere, tilbyr vi dette endepunktet for å tillate gratis moderering av alt OpenAI API-generert innhold. For eksempel, Inworld, en OpenAI API-kunde, bruker Moderasjonsendepunktet for å hjelpe deres AI-baserte virtuelle karakterer med å "holde seg på skriptet". Ved å utnytte OpenAIs teknologi kan Inworld fokusere på deres kjerneprodukt – å skape minneverdige karakterer.

I tillegg ønsker vi bruken av endepunktet for å moderere innhold velkommen ikke generert med OpenAI API. I ett tilfelle selskapet NGL – en anonym meldingsplattform, med fokus på sikkerhet – bruker Moderasjonsendepunktet for å oppdage hatsk språk og mobbing i applikasjonen deres. NGL finner ut at disse klassifisere er i stand til å generalisere til den siste slangen, slik at de kan forbli mer selvsikre over tid. Bruk av Moderasjonsendepunktet for å overvåke ikke-API-trafikk er i privat beta og vil være underlagt et gebyr. Hvis du er interessert, ta kontakt med oss ​​på support@openai.com.


Kom i gang med Moderering-endepunktet ved å sjekke ut dokumentasjonen. Flere detaljer om treningsprosessen og modellytelse er tilgjengelig i vår papir. Vi har også gitt ut en evalueringsdatasett, med Common Crawl-data merket innenfor disse kategoriene, som vi håper vil stimulere til videre forskning på dette området.

Tidstempel:

Mer fra OpenAI