Märgistage kahjulik keel kõnevestlustes rakendusega Amazon Transcribe Toxicity Detection | Amazoni veebiteenused

Märgistage kahjulik keel kõnevestlustes rakendusega Amazon Transcribe Toxicity Detection | Amazoni veebiteenused

Internetis toimuvate sotsiaalsete tegevuste, nagu suhtlusvõrgustike loomine või mängimine, kasv on sageli täis vaenulikku või agressiivset käitumist, mis võib viia vihakõne, küberkiusamise või ahistamise soovimatute ilminguteni. Näiteks pakuvad paljud võrgumängude kogukonnad häälvestluse funktsioone, et hõlbustada oma kasutajate vahelist suhtlust. Kuigi häälvestlus toetab sageli sõbralikku nalja ja prügivestlust, võib see põhjustada ka selliseid probleeme nagu vihakõne, küberkiusamine, ahistamine ja pettused. Kahjuliku keele märgistamine aitab organisatsioonidel hoida vestlusi kodanikuühiskonnas ning säilitada turvalist ja kaasavat veebikeskkonda, kus kasutajad saavad luua, jagada ja vabalt osaleda. Tänapäeval usaldavad paljud ettevõtted mürgise sisalduse ülevaatamisel ainult inimmoderaatoritele. Inimmoderaatorite skaleerimine nende vajaduste rahuldamiseks piisava kvaliteediga ja kiirusega on aga kallis. Selle tulemusel ähvardab paljusid organisatsioone kõrge kasutajate vähenemise määr, maine kahjustamine ja regulatiivsed trahvid. Lisaks avaldab toksilise sisu ülevaatamine moderaatoritele sageli psühholoogilist mõju.

Amazoni transkribeerimine on automaatne kõnetuvastuse (ASR) teenus, mis muudab arendajatel lihtsaks lisada oma rakendustele kõne tekstiks muutmise võime. Täna on meil hea meel teatada Amazoni transkribeerimise toksilisuse tuvastamine, masinõppel (ML) põhinev võimalus, mis kasutab nii heli- kui ka tekstipõhiseid vihjeid häälepõhise mürgise sisu tuvastamiseks ja liigitamiseks seitsmesse kategooriasse, sealhulgas seksuaalne ahistamine, vihakõne, ähvardused, kuritarvitamine, roppused, solvangud ja graafiline keel. . Lisaks tekstile kasutab toksilisuse tuvastamine kõne näpunäiteid, nagu toonid ja helikõrgus, et lihvida kõnes mürgiseid kavatsusi.

See on täiustus standardsetest sisu modereerimissüsteemidest, mis on loodud keskenduma ainult konkreetsetele terminitele, ilma kavatsust arvestamata. Enamikul ettevõtetel on kasutajate teatatud sisu ülevaatamiseks SLA 7–15 päeva, sest moderaatorid peavad kuulama pikki helifaile, et hinnata, kas ja millal vestlus mürgiseks muutus. Amazon Transscribe Toxicity Detectioniga vaatavad moderaatorid üle ainult helifaili konkreetse osa, mis on märgistatud mürgise sisu suhtes (võrreldes kogu helifailiga). Sisu, mida inimmoderaatorid peavad üle vaatama, vähendatakse 95% võrra, mis võimaldab klientidel lühendada SLA-d vaid mõne tunnini, samuti võimaldab neil ennetavalt modereerida rohkem sisu peale kasutajate märgistatud sisu. See võimaldab ettevõtetel automaatselt tuvastada ja modereerida ulatuslikku sisu, pakkuda turvalist ja kaasavat veebikeskkonda ning võtta meetmeid enne, kui see võib põhjustada kasutajate katkestamist või maine kahjustamist. Mürgise sisu tuvastamiseks kasutatavaid mudeleid haldab Amazon Transcribe ja neid värskendatakse perioodiliselt, et säilitada täpsus ja asjakohasus.

Sellest postitusest saate teada, kuidas:

  • Tuvastage kõnes kahjulik sisu Amazon Transscribe Toxicity Detectioniga
  • Kasutage toksilisuse tuvastamiseks konsooli Amazon Transcribe
  • Looge toksilisuse tuvastamisega transkriptsioonitöö, kasutades AWS-i käsurea liides (AWS CLI) ja Pythoni SDK
  • Kasutage Amazoni transkriptsiooni toksilisuse tuvastamise API vastust

Tuvastage helivestluses toksilisus rakendusega Amazon Transscribe Toxicity Detection

Amazon Transcribe pakub nüüd lihtsat ML-põhist lahendust kahjuliku keele märgistamiseks kõnevestlustes. See funktsioon on eriti kasulik sotsiaalmeedia, mängude ja üldiste vajaduste jaoks, mistõttu ei pea kliendid ML-mudeli koolitamiseks oma andmeid esitama. Toksilisuse tuvastamine liigitab toksilise helisisu järgmisse seitsmesse kategooriasse ja annab iga kategooria jaoks usaldusskoori (0–1):

  • Räpane – Kõne, mis sisaldab sõnu, fraase või akronüüme, mis on ebaviisakad, vulgaarsed või solvavad.
  • Vihakõne – Kõne, mis kritiseerib, solvab, taunib või dehumaniseerib isikut või rühma identiteedi alusel (nagu rass, etniline kuuluvus, sugu, religioon, seksuaalne sättumus, võimed ja rahvuslik päritolu).
  • Seksuaalne – Kõne, mis viitab seksuaalsele huvile, aktiivsusele või erutusele, kasutades otseseid või kaudseid viiteid kehaosadele, füüsilistele omadustele või soole.
  • Solvangud – Kõne, mis sisaldab alandavat, alandavat, mõnitavat, solvavat või halvustavat keelt. Seda tüüpi keelt nimetatakse ka kiusamiseks.
  • Vägivald või ähvardus – Kõne, mis sisaldab ähvardusi, mille eesmärk on tekitada valu, vigastusi või vaenulikkust inimese või rühma suhtes.
  • GRAAFIKA – kõne, mis kasutab visuaalselt kirjeldavat ja ebameeldivalt erksat kujundit. Seda tüüpi keel on sageli tahtlikult paljusõnaline, et võimendada adressaadi ebamugavust.
  • Ahistamine või kuritarvitamine – kõne, mille eesmärk on mõjutada vastuvõtja psühholoogilist heaolu, sealhulgas alandavad ja objektistavad terminid.

Toksilisuse tuvastamise funktsioonile pääsete juurde kas Amazon Transcribe'i konsooli kaudu või helistades otse API-dele, kasutades AWS-i CLI-d või AWS-i SDK-sid. Amazon Transcribe'i konsoolis saate üles laadida helifaile, mille toksilisust soovite testida, ja saada tulemusi vaid mõne klõpsuga. Amazon Transcribe tuvastab ja kategoriseerib mürgise sisu, nagu ahistamine, vihakõne, seksuaalne sisu, vägivald, solvangud ja roppused. Amazon Transcribe pakub ka iga kategooria usaldusväärsust, pakkudes väärtuslikku teavet sisu toksilisuse taseme kohta. Toksilisuse tuvastamine on praegu saadaval standardses Amazon Transcribe API-s partiitöötluseks ja toetab USA inglise keelt.

Amazon Transcribe konsooli ülevaade

Alustamiseks logige sisse AWS-i juhtimiskonsool ja avage Amazon Transcribe. Uue transkribeerimistöö loomiseks peate salvestatud failid üles laadima Amazoni lihtne salvestusteenus (Amazon S3) ämbrisse, enne kui neid saab töödelda. Helisätete lehel, nagu on näidatud järgmisel ekraanipildil, lubage Toksilisuse tuvastamine ja jätkake uue töökoha loomist. Amazon Transcribe töötleb transkriptsioonitööd taustal. Töö edenedes võite eeldada, et staatus muutub järgmiseks TÄIDETUD kui protsess on lõppenud.

Märgistage kahjulik keel kõnevestlustes rakendusega Amazon Transscribe Toxicity Detection | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Transkriptsioonitöö tulemuste ülevaatamiseks valige töö avamiseks tööde loendist. Kerige alla jaotiseni Transkriptsiooni eelvaade jaotise tulemuste kontrollimiseks Toksilisus sakk. Kasutajaliides näitab värvikoodiga transkriptsioonisegmente, et näidata toksilisuse taset, mis on määratud usaldusskooriga. Ekraani kohandamiseks saate kasutada lülitusribasid Filtrid paneel. Need ribad võimaldavad teil reguleerida lävesid ja vastavalt filtreerida toksilisuse kategooriaid.

Järgmine ekraanipilt on tundliku või mürgise teabe tõttu katnud osa transkriptsioonitekstist.

Märgistage kahjulik keel kõnevestlustes rakendusega Amazon Transscribe Toxicity Detection | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Transkriptsiooni API toksilisuse tuvastamise taotlusega

Selles jaotises juhendame teid programmeerimisliideste abil toksilisuse tuvastamisega transkriptsioonitöö loomisel. Kui helifail pole veel S3 ämbris, laadige see üles, et tagada Amazon Transcribe juurdepääs. Sarnaselt konsoolis transkriptsioonitöö loomisega peate töö käivitamisel esitama järgmised parameetrid.

  • TranskriptsioonJobName – Määrake töö kordumatu nimi.
  • MediaFileUri – Sisestage Amazon S3 helifaili URI asukoht. Amazon Transcribe toetab järgmisi helivorminguid: MP3, MP4, WAV, FLAC, AMR, OGG või WebM
  • LanguageCode - Seatud en-US. Selle kirjutamise seisuga toetab toksilisuse tuvastamine ainult USA inglise keelt.
  • Toksilisuse kategooriad – Mööda ALL väärtus, et hõlmata kõik toetatud toksilisuse tuvastamise kategooriad.

Järgmised näited on transkriptsioonitöö käivitamise kohta, kui toksilisuse tuvastamine on Python3 abil lubatud.

import time
import boto3 transcribe = boto3.client('transcribe', 'us-east-1')
job_name = "toxicity-detection-demo"
job_uri = "s3://my-bucket/my-folder/my-file.wav" # start a transcription job
transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'doc-example-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ToxicityDetection = [{'ToxicityCategories': ['ALL']}]
) # wait for the transcription job to complete
while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Saate käivitada sama transkriptsioonitöö toksilisuse tuvastamisega, kasutades järgmist AWS CLI käsku:

aws transcribe start-transcription-job --region us-east-1 --transcription-job-name toxicity-detection-demo --media MediaFileUri=s3://my-bucket/my-folder/my-file.wav --output-bucket-name doc-example-bucket --output-key my-output-files/ --language-code en-US --toxicity-detection ToxicityCategories=ALL

Transkriptsiooni API toksilisuse tuvastamise vastusega

Amazon Transcribe'i toksilisuse tuvastamise JSON-väljund sisaldab transkriptsiooni tulemusi tulemuste väljal. Toksilisuse tuvastamise lubamine lisab lisavälja nimega toxicityDetection tulemuste välja all. toxicityDetection sisaldab järgmiste parameetritega transkribeeritud üksuste loendit:

  • tekst – Toores transkribeeritud tekst
  • toksilisus – tuvastamise usaldusskoor (väärtus vahemikus 0–1)
  • kategooriad - Usaldusskoor iga mürgise kõne kategooria kohta
  • algusaeg – tuvastamise alguspunkt helifailis (sekundites)
  • lõpuaeg – tuvastamise lõppasend helifailis (sekundites)

Järgmine on toksilisuse tuvastamise vastuse näidis, mille saate konsoolist alla laadida.

{ "results":{ "transcripts": [...], "items":[...], "toxicityDetection": [ { "text": "A TOXIC TRANSCRIPTION SEGMENT GOES HERE.", "toxicity": 0.8419, "categories": { "PROFANITY": 0.7041, "HATE_SPEECH": 0.0163, "SEXUAL": 0.0097, "INSULT": 0.8532, "VIOLENCE_OR_THREAT": 0.0031, "GRAPHIC": 0.0017, "HARASSMENT_OR_ABUSE": 0.0497 }, "start_time": 16.298, "end_time": 20.35 }, ... ] }, "status": "COMPLETED"
}

kokkuvõte

Selles postituses andsime ülevaate Amazoni uuest transkriptsiooni mürgisuse tuvastamise funktsioonist. Samuti kirjeldasime, kuidas saate toksilisuse tuvastamise JSON-väljundit sõeluda. Lisateabe saamiseks vaadake Amazon Transcribe'i konsooli ja proovige toksilisuse tuvastamise funktsiooniga transkriptsiooni API-d.

Amazon Transscribe Toxicity Detection on nüüd saadaval järgmistes AWS-i piirkondades: USA idaosa (Ohio), USA idaosa (N. Virginia), USA lääneosa (Oregon), Aasia ja Vaikse ookeani piirkond (Sydney), Euroopa (Iirimaa) ja Euroopa (London). Lisateabe saamiseks külastage Amazoni transkribeerimine.

Lisateave sisu modereerimine AWS-is ja meie sisu modereerimine ML kasutusjuhtumeid. Astuge esimene samm selle poole sisu modereerimistoimingute sujuvamaks muutmine AWS-iga.


Andmeid autor

Lana ZhangLana Zhang on AWS WWSO AI Services meeskonna vanemlahenduste arhitekt, kes on spetsialiseerunud AI-le ja ML-le sisu modereerimise, arvutinägemise ja loomuliku keele töötlemise jaoks. Oma teadmistega on ta pühendunud AWS-i AI/ML-lahenduste reklaamimisele ja klientide abistamisele nende ärilahenduste muutmisel erinevates tööstusharudes, sealhulgas sotsiaalmeedia, mängud, e-kaubandus ning reklaam ja turundus.

Märgistage kahjulik keel kõnevestlustes rakendusega Amazon Transscribe Toxicity Detection | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Sumit Kumar on AWS AI keeleteenuste meeskonna Sr tootejuht, tehniline. Tal on 10-aastane tootehalduse kogemus erinevates valdkondades ja ta on kirglik AI/ML-i vastu. Väljaspool tööd armastab Sumit reisida ning talle meeldib mängida kriketit ja murutennist.

Ajatempel:

Veel alates AWS-i masinõpe