Nytt och förbättrat verktyg för innehållsmoderering

bild

Vi introducerar ett nytt och förbättrat verktyg för innehållsmoderering: The Moderering slutpunkt förbättrar vårt tidigare innehållsfilter och är tillgängligt gratis idag för OpenAI API-utvecklare.

För att hjälpa utvecklare att skydda sina applikationer mot eventuellt missbruk, introducerar vi det snabbare och mer exakta Moderering slutpunkt. Denna slutpunkt ger OpenAI API-utvecklare fri tillgång till GPT-baserad klassificerare som upptäcker oönskat innehåll — en instans av använder AI-system för att hjälpa till med mänsklig övervakning av dessa system. Vi har också släppt både en teknisk papper beskriver vår metodik och dataset används för utvärdering.

När en textinmatning ges, bedömer Modereringsslutpunkten om innehållet är sexuellt, hatiskt, våldsamt eller främjar självskada – innehåll som är förbjudet av vår innehållspolicy. Endpointen har tränats för att vara snabb, exakt och att prestera robust över en rad applikationer. Viktigt är att detta minskar risken för att produkter "säger" fel sak, även när de distribueras till användare i stor skala. Som en konsekvens kan AI låsa upp fördelar i känsliga miljöer, som utbildning, där den annars inte skulle kunna användas med självförtroende.

mata in text

Våld

Självskada

Hata

Sexuell

Moderering slutpunkt

Moderation endpoint hjälper utvecklare att dra nytta av våra infrastrukturinvesteringar. Istället för att bygga och underhålla sina egna klassificerare – en omfattande process, som vi dokumenterar i vår papper— de kan istället komma åt korrekta klassificerare genom ett enda API-anrop.

Som en del av OpenAI's engagemang till gör AI-ekosystemet säkrare, tillhandahåller vi denna slutpunkt för att tillåta gratis moderering av allt OpenAI API-genererat innehåll. Till exempel, I värld, en OpenAI API-kund, använder Modereringsslutpunkten för att hjälpa sina AI-baserade virtuella karaktärer att "hålla sig på skriptet". Genom att utnyttja OpenAIs teknologi kan Inworld fokusera på sin kärnprodukt – att skapa minnesvärda karaktärer.

Dessutom välkomnar vi användningen av slutpunkten för att moderera innehåll inte genereras med OpenAI API. I ett fall företaget NGL – en anonym meddelandeplattform, med fokus på säkerhet – använder Moderation endpoint för att upptäcka hatiskt språk och mobbning i sin applikation. NGL finner att dessa klassificerare är kapabla att generalisera till den senaste slangen, vilket gör att de kan förbli mer självsäkra över tiden. Användning av modereringsändpunkten för att övervaka trafik som inte är API är i privat beta och kommer att vara avgiftsbelagd. Om du är intresserad, vänligen kontakta oss på support@openai.com.


Kom igång med Modereringsslutpunkten genom att checka ut dokumentationen. Mer information om träningsprocessen och modellprestanda finns i vår papper. Vi har också släppt en utvärderingsdatauppsättning, med Common Crawl-data märkta inom dessa kategorier, som vi hoppas kommer att stimulera ytterligare forskning inom detta område.

Tidsstämpel:

Mer från OpenAI