Nyt og forbedret værktøj til indholdsmoderering

billede

Vi introducerer et nyt og forbedret indholdsmodereringsværktøj: The Modereringsslutpunkt forbedrer i forhold til vores tidligere indholdsfilter og er tilgængelig gratis i dag for OpenAI API-udviklere.

For at hjælpe udviklere med at beskytte deres applikationer mod mulig misbrug introducerer vi de hurtigere og mere præcise Modereringsslutpunkt. Dette slutpunkt giver OpenAI API-udviklere gratis adgang til GPT-baseret klassifikatorer, der registrerer uønsket indhold - en forekomst af ved hjælp af AI-systemer at hjælpe med menneskelig overvågning af disse systemer. Vi har også udgivet både en teknisk papir beskriver vores metode og datasæt bruges til evaluering.

Når der gives et tekstinput, vurderer Modererings-slutpunktet, om indholdet er seksuelt, hadefuldt, voldeligt eller fremmer selvskade - indhold forbudt af vores indholdspolitik. Slutpunktet er blevet trænet til at være hurtigt, præcist og til at yde robust på tværs af en række applikationer. Det er vigtigt, at dette reducerer chancerne for, at produkter "siger" det forkerte, selv når de implementeres til brugere i stor skala. Som en konsekvens kan AI frigøre fordele i følsomme omgivelser, såsom uddannelse, hvor den ellers ikke kunne bruges med tillid.

indtast tekst

Vold

Selvskade

Hate

Seksuel

Modereringsslutpunkt

Moderation-endepunktet hjælper udviklere med at drage fordel af vores infrastrukturinvesteringer. I stedet for at bygge og vedligeholde deres egne klassifikatorer - en omfattende proces, som vi dokumenterer i vores papir— de kan i stedet få adgang til nøjagtige klassificeringsorganer gennem et enkelt API-kald.

Som en del af OpenAI's engagement til gør AI-økosystemet mere sikkert, leverer vi dette slutpunkt for at tillade gratis moderering af alt OpenAI API-genereret indhold. For eksempel, Inworld, en OpenAI API-kunde, bruger Moderation-slutpunktet til at hjælpe deres AI-baserede virtuelle karakterer med at "blive på scriptet". Ved at udnytte OpenAIs teknologi kan Inworld fokusere på deres kerneprodukt – at skabe mindeværdige karakterer.

Derudover hilser vi brugen af ​​slutpunktet til at moderere indhold velkommen ikke genereret med OpenAI API. I et tilfælde virksomheden ngl – en anonym meddelelsesplatform med fokus på sikkerhed – bruger Moderation endpoint til at opdage hadefuldt sprog og mobning i deres applikation. NGL finder ud af, at disse klassifikatorer er i stand til at generalisere til den nyeste slang, hvilket giver dem mulighed for at forblive mere selvsikre over tid. Brug af Moderation-slutpunktet til at overvåge ikke-API-trafik er i privat beta og vil være underlagt et gebyr. Hvis du er interesseret, så kontakt os på support@openai.com.


Kom godt i gang med Moderation-slutpunktet ved at tjekke ud dokumentationen. Flere detaljer om træningsprocessen og modellens ydeevne er tilgængelige i vores papir. Vi har også udgivet en evalueringsdatasæt, med Common Crawl-data mærket inden for disse kategorier, som vi håber vil anspore til yderligere forskning på dette område.

Tidsstempel:

Mere fra OpenAI