Označite škodljiv jezik v govorjenih pogovorih z Amazon Transcribe Toxicity Detection | Spletne storitve Amazon

Označite škodljiv jezik v govorjenih pogovorih z Amazon Transcribe Toxicity Detection | Spletne storitve Amazon

Povečanje spletnih družabnih dejavnosti, kot so družabna omrežja ali spletne igre, je pogosto prežeto s sovražnim ali agresivnim vedenjem, ki lahko vodi do nezaželenih manifestacij sovražnega govora, spletnega ustrahovanja ali nadlegovanja. Številne skupnosti spletnih iger na primer ponujajo funkcijo glasovnega klepeta za lažjo komunikacijo med uporabniki. Čeprav glasovni klepet pogosto podpira prijateljsko norčevanje in kramljanje, lahko povzroči tudi težave, kot so sovražni govor, spletno ustrahovanje, nadlegovanje in prevare. Označevanje škodljivega jezika pomaga organizacijam ohraniti civilne pogovore in vzdržuje varno in vključujoče spletno okolje, v katerem lahko uporabniki ustvarjajo, delijo in svobodno sodelujejo. Danes se številna podjetja pri pregledu strupene vsebine zanašajo izključno na moderatorje. Vendar pa je prilagajanje človeških moderatorjev, da bi zadovoljili te potrebe z zadostno kakovostjo in hitrostjo, drago. Posledično veliko organizacij tvega, da se bodo soočile z visokimi stopnjami uhajanja uporabnikov, škodo za ugled in regulativnimi kaznimi. Poleg tega so moderatorji pogosto psihično prizadeti zaradi pregleda strupene vsebine.

Amazonski prepis je storitev samodejnega prepoznavanja govora (ASR), ki razvijalcem olajša dodajanje zmožnosti govora v besedilo njihovim aplikacijam. Danes z veseljem sporočamo Odkrivanje strupenosti pri prepisu Amazon, zmožnost strojnega učenja (ML), ki uporablja zvočne in besedilne namige za prepoznavanje in razvrščanje strupene vsebine, ki temelji na glasu, v sedem kategorij, vključno s spolnim nadlegovanjem, sovražnim govorom, grožnjami, zlorabami, psovkami, žaljivkami in nazornim jezikom . Poleg besedila zaznavanje strupenosti uporablja govorne znake, kot so toni in višina, da izostri strupen namen v govoru.

To je izboljšava standardnih sistemov za moderiranje vsebine, ki so zasnovani tako, da se osredotočajo le na določene izraze, brez upoštevanja namena. Večina podjetij ima SLA 7–15 dni za pregled vsebine, ki jo prijavijo uporabniki, ker morajo moderatorji poslušati dolge zvočne datoteke, da ocenijo, ali in kdaj je pogovor postal strupen. Z Amazon Transcribe Toxicity Detection moderatorji pregledajo samo določen del zvočne datoteke, označen za strupeno vsebino (v primerjavi s celotno zvočno datoteko). Vsebina, ki jo morajo človeški moderatorji pregledati, je zmanjšana za 95 %, kar strankam omogoča, da skrajšajo svojo pogodbo o ravni storitev na samo nekaj ur, prav tako pa jim omogoča proaktivno moderiranje več vsebine poleg tiste, ki jo označijo uporabniki. Podjetjem bo omogočilo samodejno zaznavanje in moderiranje vsebine v velikem obsegu, zagotavljanje varnega in vključujočega spletnega okolja ter ukrepanje, preden lahko povzroči odliv uporabnikov ali škodo ugledu. Modele, ki se uporabljajo za zaznavanje strupene vsebine, vzdržuje Amazon Transcribe in jih redno posodablja, da se ohrani natančnost in ustreznost.

V tej objavi se boste naučili:

  • Prepoznajte škodljivo vsebino v govoru z Amazon Transcribe Toxicity Detection
  • Za zaznavanje strupenosti uporabite konzolo Amazon Transcribe
  • Ustvarite opravilo prepisovanja z zaznavanjem toksičnosti z uporabo Vmesnik ukazne vrstice AWS (AWS CLI) in Python SDK
  • Uporabite odziv API-ja za odkrivanje toksičnosti Amazon Transcribe

Zaznajte strupenost v zvočnem klepetu z Amazon Transcribe Toxicity Detection

Amazon Transcribe zdaj ponuja preprosto rešitev, ki temelji na ML, za označevanje škodljivega jezika v govorjenih pogovorih. Ta funkcija je še posebej uporabna za družabne medije, igre na srečo in splošne potrebe, saj strankam odpravlja potrebo po zagotavljanju lastnih podatkov za usposabljanje modela ML. Zaznavanje strupenosti razvršča strupeno zvočno vsebino v naslednjih sedem kategorij in zagotavlja oceno zaupanja (0–1) za vsako kategorijo:

  • psovke – Govor, ki vsebuje besede, besedne zveze ali kratice, ki so nevljudni, vulgarni ali žaljivi.
  • Sovražni govor – Govor, ki kritizira, žali, obsoja ali dehumanizira osebo ali skupino na podlagi identitete (kot so rasa, etnična pripadnost, spol, vera, spolna usmerjenost, sposobnosti in nacionalno poreklo).
  • Spolno – Govor, ki nakazuje spolno zanimanje, aktivnost ali vzburjenost z uporabo neposrednih ali posrednih sklicevanj na dele telesa, telesne lastnosti ali spol.
  • Žalitve – Govor, ki vključuje ponižujoč, ponižujoč, norčevalen, žaljiv ali omalovažujoč jezik. Ta vrsta jezika je označena tudi kot ustrahovanje.
  • Nasilje ali grožnja – Govor, ki vključuje grožnje, katerih cilj je povzročiti bolečino, poškodbo ali sovražnost do osebe ali skupine.
  • Grafično – Govor, ki uporablja vizualno opisne in neprijetno žive podobe. Ta vrsta jezika je pogosto namenoma besedna, da bi povečala nelagodje prejemnika.
  • Nadlegovanje ali zloraba – Govor, katerega namen je vplivati ​​na psihološko dobro počutje prejemnika, vključno s ponižujočimi in objektivizirajočimi izrazi.

Do Toxicity Detection lahko dostopate prek konzole Amazon Transcribe ali tako, da neposredno pokličete API-je z uporabo AWS CLI ali AWS SDK-jev. Na konzoli Amazon Transcribe lahko naložite zvočne datoteke, za katere želite preveriti strupenost, in dobite rezultate v samo nekaj klikih. Amazon Transcribe bo identificiral in kategoriziral strupeno vsebino, kot so nadlegovanje, sovražni govor, spolna vsebina, nasilje, žalitve in kletvice. Amazon Transcribe zagotavlja tudi oceno zaupanja za vsako kategorijo, kar zagotavlja dragocen vpogled v stopnjo toksičnosti vsebine. Zaznavanje strupenosti je trenutno na voljo v standardnem API-ju Amazon Transcribe za paketno obdelavo in podpira ameriški angleški jezik.

Predstavitev konzole Amazon Transcribe

Za začetek se prijavite v Konzola za upravljanje AWS in pojdite na Amazon Transcribe. Če želite ustvariti novo opravilo prepisovanja, morate svoje posnete datoteke naložiti v Preprosta storitev shranjevanja Amazon (Amazon S3), preden jih je mogoče obdelati. Na strani z nastavitvami zvoka, kot je prikazano na naslednjem posnetku zaslona, ​​omogočite Odkrivanje strupenosti in nadaljujte z ustvarjanjem novega delovnega mesta. Amazon Transcribe bo opravilo prepisa obdelal v ozadju. Ko delo napreduje, lahko pričakujete, da se bo status spremenil v IZPOLNJENO ko je postopek končan.

Označite škodljiv jezik v govorjenih pogovorih z Amazon Transcribe Toxicity Detection | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Če želite pregledati rezultate opravila prepisa, izberite opravilo na seznamu opravil, da ga odprete. Pomaknite se navzdol do Predogled transkripcije za preverjanje rezultatov na Strupenost zavihek. Uporabniški vmesnik prikazuje barvno kodirane segmente transkripcije, ki označujejo stopnjo toksičnosti, določeno z oceno zaupanja. Če želite prilagoditi zaslon, lahko uporabite preklopne vrstice v Filtri podokno. Te vrstice vam omogočajo, da prilagodite pragove in ustrezno filtrirate kategorije strupenosti.

Naslednji posnetek zaslona pokriva dele besedila transkripcije zaradi prisotnosti občutljivih ali strupenih informacij.

Označite škodljiv jezik v govorjenih pogovorih z Amazon Transcribe Toxicity Detection | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Transkripcijski API z zahtevo za zaznavanje toksičnosti

V tem razdelku vas vodimo skozi ustvarjanje opravila prepisovanja z zaznavanjem toksičnosti z uporabo programskih vmesnikov. Če zvočna datoteka še ni v vedru S3, jo naložite, da zagotovite dostop prek storitve Amazon Transcribe. Podobno kot pri ustvarjanju prepisovalnega opravila na konzoli morate pri priklicu opravila zagotoviti naslednje parametre:

  • TranscriptionJobName – Določite edinstveno ime opravila.
  • MediaFileUri – Vnesite lokacijo URI zvočne datoteke na Amazon S3. Amazon Transcribe podpira naslednje zvočne formate: MP3, MP4, WAV, FLAC, AMR, OGG ali WebM
  • LanguageCode - Nastavljena en-US. Od tega pisanja Toxicity Detection podpira samo ameriški angleški jezik.
  • ToksičnostKategorije – Predaj ALL vrednost za vključitev vseh podprtih kategorij zaznavanja strupenosti.

Sledijo primeri zagona opravila prepisovanja z omogočenim zaznavanjem strupenosti z uporabo Python3:

import time
import boto3 transcribe = boto3.client('transcribe', 'us-east-1')
job_name = "toxicity-detection-demo"
job_uri = "s3://my-bucket/my-folder/my-file.wav" # start a transcription job
transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'doc-example-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ToxicityDetection = [{'ToxicityCategories': ['ALL']}]
) # wait for the transcription job to complete
while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Isto opravilo prepisovanja z zaznavanjem strupenosti lahko prikličete z naslednjim ukazom AWS CLI:

aws transcribe start-transcription-job --region us-east-1 --transcription-job-name toxicity-detection-demo --media MediaFileUri=s3://my-bucket/my-folder/my-file.wav --output-bucket-name doc-example-bucket --output-key my-output-files/ --language-code en-US --toxicity-detection ToxicityCategories=ALL

Transkripcijski API z odzivom zaznavanja toksičnosti

Izhod JSON za odkrivanje toksičnosti Amazon Transcribe bo vseboval rezultate prepisa v polje z rezultati. Omogočanje zaznavanja strupenosti doda dodatno polje, imenovano toxicityDetection pod poljem z rezultati. toxicityDetection vključuje seznam prepisanih predmetov z naslednjimi parametri:

  • besedilo – Surovo prepisano besedilo
  • strupenost – Ocena zaupanja zaznavanja (vrednost med 0–1)
  • kategorije – Ocena zaupanja za vsako kategorijo strupenega govora
  • Začetni čas – Začetni položaj zaznavanja v zvočni datoteki (sekunde)
  • končni_čas – Končni položaj zaznave v zvočni datoteki (sekunde)

Sledi vzorec skrajšanega odziva zaznavanja strupenosti, ki ga lahko prenesete s konzole:

{ "results":{ "transcripts": [...], "items":[...], "toxicityDetection": [ { "text": "A TOXIC TRANSCRIPTION SEGMENT GOES HERE.", "toxicity": 0.8419, "categories": { "PROFANITY": 0.7041, "HATE_SPEECH": 0.0163, "SEXUAL": 0.0097, "INSULT": 0.8532, "VIOLENCE_OR_THREAT": 0.0031, "GRAPHIC": 0.0017, "HARASSMENT_OR_ABUSE": 0.0497 }, "start_time": 16.298, "end_time": 20.35 }, ... ] }, "status": "COMPLETED"
}

Povzetek

V tej objavi smo podali pregled nove funkcije Amazon Transcribe Toxicity Detection. Opisali smo tudi, kako lahko razčlenite izhod JSON za odkrivanje strupenosti. Za več informacij si oglejte konzolo Amazon Transcribe in preizkusite API za prepisovanje z zaznavanjem strupenosti.

Amazon Transcribe Toxicity Detection je zdaj na voljo v naslednjih regijah AWS: vzhod ZDA (Ohio), vzhod ZDA (N. Virginia), zahod ZDA (Oregon), azijsko-pacifiška regija (Sydney), Evropa (Irska) in Evropa (London). Če želite izvedeti več, obiščite Amazonski prepis.

Več o tem moderiranje vsebine na AWS in naše primeri uporabe ML za moderiranje vsebine. Naredite prvi korak k poenostavitev postopkov moderiranja vsebine z AWS.


O avtorju

Lana ZhangLana Zhang je višji arhitekt rešitev pri AWS WWSO AI Services team, specializiran za AI in ML za moderiranje vsebine, računalniški vid in obdelavo naravnega jezika. S svojim strokovnim znanjem je predana promociji rešitev AWS AI/ML in pomoči strankam pri preoblikovanju njihovih poslovnih rešitev v različnih panogah, vključno z družbenimi mediji, igrami, e-trgovino ter oglaševanjem in trženjem.

Označite škodljiv jezik v govorjenih pogovorih z Amazon Transcribe Toxicity Detection | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Sumit Kumar je Sr produktni vodja, tehnična ekipa AWS AI Language Services. Ima 10 let izkušenj z upravljanjem izdelkov na različnih področjih in je navdušen nad AI/ML. Zunaj službe Sumit rad potuje in uživa v igranju kriketa in tenisa na travi.

Časovni žig:

Več od Strojno učenje AWS