Flagg skadelig innhold ved hjelp av Amazon Comprehend Toxicity Detection

Publisert av Platon

Følgere: 0

Nettsamfunn driver brukerengasjement på tvers av bransjer som spill, sosiale medier, e-handel, dating og e-læring. Medlemmer av disse nettsamfunnene stoler på at plattformeiere tilbyr et trygt og inkluderende miljø der de fritt kan konsumere innhold og bidra. Innholdsmoderatorer blir ofte ansatt for å gjennomgå brukergenerert innhold og sjekke at det er trygt og i samsvar med vilkårene for bruk. Den stadig økende skalaen, kompleksiteten og variasjonen av upassende innhold gjør imidlertid arbeidsflyter for menneskelig moderering uskalerbare og dyre. Resultatet er fattige, skadelige og ikke-inkluderende samfunn som kobler brukerne og påvirker samfunnet og virksomheten negativt.

Sammen med brukergenerert innhold har maskingenerert innhold brakt en ny utfordring til innholdsmoderering. Den lager automatisk svært realistisk innhold som kan være upassende eller skadelig i stor skala. Bransjen står overfor den nye utfordringen med å automatisk moderere innhold generert av AI for å beskytte brukere mot skadelig materiale.

I dette innlegget introduserer vi toksisitetsdeteksjon, en ny funksjon fra Amazon Comprehend som hjelper deg automatisk å oppdage skadelig innhold i bruker- eller maskingenerert tekst. Dette inkluderer ren tekst, tekst hentet fra bilder og tekst som er transkribert fra lyd- eller videoinnhold.

Oppdag toksisitet i tekstinnhold med Amazon Comprehend

Amazon Comprehend er en NLP-tjeneste (natural-language processing) som bruker maskinlæring (ML) for å avdekke verdifull innsikt og sammenhenger i tekst. Den tilbyr en rekke ML-modeller som enten kan forhåndstrenes eller tilpasses gjennom API-grensesnitt. Amazon Comprehend tilbyr nå en enkel, NLP-basert løsning for påvisning av giftig innhold i tekst.

Amazon Comprehend Toxicity Detection API tildeler en total toksisitetspoeng til tekstinnhold, fra 0–1, noe som indikerer sannsynligheten for at det er giftig. Den kategoriserer også tekst i følgende syv kategorier og gir en konfidenspoengsum for hver:

HAT_TALE – Tale som kritiserer, fornærmer, fordømmer eller dehumaniserer en person eller en gruppe på grunnlag av en identitet, det være seg rase, etnisitet, kjønnsidentitet, religion, seksuell legning, evne, nasjonal opprinnelse eller en annen identitetsgruppe.
GRAFISK – Tale som bruker visuelt beskrivende, detaljerte og ubehagelig levende bilder. Et slikt språk blir ofte gjort omfattende for å forsterke en fornærmelse, ubehag eller skade for mottakeren.
HARASSMENT_OR_ABUSE – Tale som påtvinger forstyrrende kraftdynamikk mellom den som snakker og den som hører (uavhengig av hensikt), søker å påvirke mottakerens psykologiske velvære, eller objektiverer en person.
SEKSUELL – Tale som indikerer seksuell interesse, aktivitet eller opphisselse ved å bruke direkte eller indirekte referanser til kroppsdeler, fysiske egenskaper eller sex.
VOLD_ELLER_TRUSSEL – Tale som inkluderer trusler som søker å påføre smerte, skade eller fiendtlighet mot en person eller gruppe.
FORNÆRMELSE – Tale som inkluderer nedsettende, ydmykende, hånende, fornærmende eller nedverdigende språk.
Banning – Tale som inneholder ord, uttrykk eller akronymer som er uhøflige, vulgære eller støtende.

Du kan få tilgang til Toxicity Detection API ved å ringe den direkte ved å bruke AWS kommandolinjegrensesnitt (AWS CLI) og AWS SDK-er. Giftighetsdeteksjon i Amazon Comprehend støttes for øyeblikket på engelsk.

Bruksmåter

Tekstmoderering spiller en avgjørende rolle i å administrere brukergenerert innhold på tvers av forskjellige formater, inkludert innlegg på sosiale medier, nettpratmeldinger, forumdiskusjoner, nettstedkommentarer og mer. Dessuten kan plattformer som godtar video- og lydinnhold bruke denne funksjonen til å moderere transkribert lydinnhold.

Fremveksten av generativ AI og store språkmodeller (LLM) representerer den siste trenden innen AI. Følgelig er det et økende behov for responsive løsninger for å moderere innhold generert av LLM-er. Amazon Comprehend Toxicity Detection API er ideelt egnet for å dekke dette behovet.

Amazon Comprehend Toxicity Detection API-forespørsel

Du kan sende opptil 10 tekstsegmenter til Toxicity Detection API, hver med en størrelsesgrense på 1 KB. Hvert tekstsegment i forespørselen håndteres uavhengig. I følgende eksempel genererer vi en JSON-fil med navnet toxicity_api_input.json som inneholder tekstinnholdet, inkludert tre eksempeltekstsegmenter for moderering. Merk at i eksemplet er de profane ordene maskert som XXXX.

{ "TextSegments": [ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], "LanguageCode": "en"
}

Du kan bruke AWS CLI til å starte Toxicity Detection API ved å bruke den foregående JSON-filen som inneholder tekstinnholdet:

aws comprehend detect-toxic-content --cli-input-json file://toxicity_api_input.json

Amazon Comprehend Toxicity Detection API-svar

Toxicity Detection API-responsen JSON-utdata vil inkludere toksisitetsanalyseresultatet i ResultList feltet. ResultList viser tekstsegmentelementene, og sekvensen representerer rekkefølgen tekstsekvensene ble mottatt i API-forespørselen. Toksisitet representerer den samlede konfidenspoengsummen for deteksjon (mellom 0–1). Etiketter inkluderer en liste over toksisitetsetiketter med konfidensscore, kategorisert etter type toksisitet.

Følgende kode viser JSON-svaret fra Toxicity Detection API basert på forespørselseksemplet i forrige del:

{ "ResultList": [ { "Toxicity": 0.009200000204145908, "Labels": [ { "Name": "PROFANITY", "Score": 0.0007999999797903001}, { "Name": "HATE_SPEECH", "Score": 0.0017999999690800905}, { "Name": "INSULT", "Score": 0.003000000026077032}, { "Name": "GRAPHIC", "Score": 0.0010000000474974513}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.0013000000035390258}, { "Name": "SEXUAL", "Score": 0.0017000000225380063}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.004999999888241291} ] }, { "Toxicity": 0.7358999848365784, "Labels": [ { "Name": "PROFANITY", "Score": 0.011900000274181366}, { "Name": "HATE_SPEECH", "Score": 0.019500000402331352}, { "Name": "INSULT", "Score": 0.0714000016450882}, { "Name": "GRAPHIC", "Score": 0.006099999882280827}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.018200000748038292}, { "Name": "SEXUAL", "Score": 0.0027000000700354576}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.8145999908447266} ] }, { "Toxicity": 0.9843000173568726, "Labels": [ { "Name": "PROFANITY", "Score": 0.9369999766349792 }, { "Name": "HATE_SPEECH", "Score": 0.30880001187324524 }, { "Name": "INSULT", "Score": 0.42100000381469727 }, { "Name": "GRAPHIC", "Score": 0.12630000710487366 }, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.25519999861717224 }, { "Name": "SEXUAL", "Score": 0.19169999659061432 }, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.19539999961853027 } ] } ]
}

I forrige JSON anses det første tekstsegmentet som trygt med lav toksisitetsscore. Det andre og tredje tekstsegmentet fikk imidlertid toksisitetsscore på henholdsvis 73 % og 98 %. For det andre segmentet oppdager Amazon Comprehend en høy toksisitetsscore for VIOLENCE_OR_THREAT; for det tredje segmentet oppdager den PROFANITY med høy toksisitetsscore.

Eksempelforespørsel ved bruk av Python SDK

Følgende kodebit viser hvordan du bruker Python SDK for å påkalle Toxicity Detection API. Denne koden mottar samme JSON-svar som AWS CLI-kommandoen demonstrert tidligere.

import boto3 import base64
# Initialize a Comprehend boto3 client object
comprehend_client = session.client('comprehend') # Call comprehend Detect Toxic Content API with text segments
response = comprehend_client.detect_toxic_content( TextSegments=[ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], LanguageCode='en'
)

Oppsummering

I dette innlegget ga vi en oversikt over det nye Amazon Comprehend Toxicity Detection API. Vi beskrev også hvordan du kan analysere API-svaret JSON. For mer informasjon, se Forstå API-dokumentet.

Amazon Comprehend-toksisitetsdeteksjon er nå generelt tilgjengelig i fire regioner: us-east-1, us-west-2, eu-west-1 og ap-southeast-2.

For å lære mer om innholdsmoderering, se Veiledning for innholdsmoderering på AWS. Ta det første skrittet mot strømlinjeforme innholdsmodereringsoperasjonene dine med AWS.

Om forfatterne

Lana Zhang er en senior løsningsarkitekt ved AWS WWSO AI Services-teamet, som spesialiserer seg på AI og ML for innholdsmoderering, datasyn, naturlig språkbehandling og generativ AI. Med sin ekspertise er hun dedikert til å promotere AWS AI/ML-løsninger og hjelpe kunder med å transformere sine forretningsløsninger på tvers av ulike bransjer, inkludert sosiale medier, spill, e-handel, media, reklame og markedsføring.

Ravisha SK er Senior Product Manager, Technical i AWS med fokus på AI/ML. Hun har over 10 års erfaring innen dataanalyse og maskinlæring på tvers av forskjellige domener. På fritiden liker hun å lese, eksperimentere på kjøkkenet og utforske nye kaffebarer.