Flag Harmful Language In Spoken Conversations With Amazon Transcribe Toxicity Detection

Újra kiadta Platón

Követő: 0

Az online közösségi tevékenységek, például a közösségi hálózatok vagy az online játékok számának növekedése gyakran tele van ellenséges vagy agresszív viselkedéssel, amely a gyűlöletbeszéd, az internetes zaklatás vagy a zaklatás kéretlen megnyilvánulásaihoz vezethet. Például sok online szerencsejáték-közösség hangcsevegési funkciót kínál a felhasználók közötti kommunikáció megkönnyítésére. Bár az audiocsevegés gyakran támogatja a barátságos tréfát és a szemétbeszédet, olyan problémákhoz is vezethet, mint a gyűlöletbeszéd, az internetes zaklatás, a zaklatás és a csalások. A káros nyelvezet megjelölése segít a szervezeteknek civil beszélgetéseket folytatni, és biztonságos és befogadó online környezetet fenntartani, ahol a felhasználók szabadon létrehozhatnak, megoszthatnak és részt vehetnek. Manapság sok vállalat kizárólag emberi moderátorokra hagyatkozik a mérgező tartalom felülvizsgálatában. Az emberi moderátorok méretezése azonban, hogy ezeknek az igényeknek megfelelő minőségben és sebességgel elégítse ki, drága. Ennek eredményeként sok szervezetet fenyeget a magas felhasználói lemorzsolódási arány, a hírnév károsodása és a szabályozási bírságok. Ezenkívül a moderátorokat gyakran pszichológiailag is befolyásolja a mérgező tartalom felülvizsgálata.

Amazon átirat egy automatikus beszédfelismerő (ASR) szolgáltatás, amely megkönnyíti a fejlesztők számára a beszéd-szövegké alakítás képességét alkalmazásaikhoz. Ma örömmel jelentjük be Amazon átírási toxicitás észlelése, egy gépi tanulás (ML) alapú képesség, amely hang- és szövegalapú jelzéseket is használ a hangalapú toxikus tartalmak hét kategóriában történő azonosítására és osztályozására, beleértve a szexuális zaklatást, gyűlöletbeszédet, fenyegetést, visszaélést, káromkodást, sértéseket és grafikus nyelvezetet. . A szövegen kívül a Toxicitásészlelés beszédjeleket, például hangokat és hangmagasságot használ a beszéd mérgező szándékának pontosítására.

Ez továbblépés a szabványos tartalommoderáló rendszerekhez képest, amelyeket úgy terveztek, hogy csak meghatározott kifejezésekre összpontosítsanak, a szándék figyelembevétele nélkül. A legtöbb vállalatnak 7–15 napos SLA-ja van a felhasználók által jelentett tartalom áttekintésére, mivel a moderátoroknak hosszas hangfájlokat kell meghallgatniuk annak értékeléséhez, hogy a beszélgetés mérgezővé vált-e, és mikor. Az Amazon Transcribe Toxicity Detection funkcióval a moderátorok csak a hangfájlnak a mérgező tartalomra megjelölt részét nézik át (a teljes hangfájlhoz képest). Az emberi moderátorok által ellenőrizendő tartalom 95%-kal csökken, így az ügyfelek néhány órára csökkenthetik az SLA-t, valamint lehetővé teszik számukra, hogy proaktívan moderáljanak a felhasználók által megjelölt tartalmakon túl. Lehetővé teszi a vállalkozások számára a tartalmak automatikus észlelését és mérséklését nagyarányúan, biztonságos és befogadó online környezetet biztosít, és még azelőtt lépéseket tesz, hogy az a felhasználók lemorzsolódását vagy hírnevének károsodását okozná. A mérgező tartalom kimutatására használt modelleket az Amazon Transcribe karbantartja, és rendszeresen frissíti a pontosság és relevancia megőrzése érdekében.

Ebből a bejegyzésből megtudhatja, hogyan:

Határozza meg a káros tartalmat a beszédben az Amazon Transcribe Toxicity Detection segítségével
Használja az Amazon Transcribe konzolt a toxicitás észleléséhez
Hozzon létre egy átírási feladatot toxicitásérzékeléssel a AWS parancssori interfész (AWS CLI) és Python SDK
Használja az Amazon Transcribe toxicitás-észlelési API-választ

Észlelje a toxicitást audiocsevegésben az Amazon Transcribe Toxicity Detection segítségével

Az Amazon Transcribe most egy egyszerű, ML-alapú megoldást kínál a káros nyelvek megjelölésére a beszélt beszélgetésekben. Ez a funkció különösen hasznos a közösségi médiában, a játékokban és az általános igényekben, így nincs szükség arra, hogy az ügyfelek saját adatokat adjanak meg az ML modell betanításához. A Toxicitásészlelés a következő hét kategóriába sorolja a toxikus hangtartalmakat, és minden kategóriához megbízhatósági pontszámot (0–1) ad:

Káromkodás – Olyan beszéd, amely udvariatlan, vulgáris vagy sértő szavakat, kifejezéseket vagy mozaikszavakat tartalmaz.
Gyűlöletbeszéd – Egy személyt vagy csoportot identitás (például faj, etnikai hovatartozás, nem, vallás, szexuális irányultság, képességek és nemzeti származás) alapján kritizáló, sértő, elítélő vagy dehumanizáló beszéd.
Szexuális – Olyan beszéd, amely szexuális érdeklődést, aktivitást vagy izgalmat jelez, testrészekre, fizikai tulajdonságokra vagy nemre való közvetlen vagy közvetett hivatkozással.
sértések – Beszéd, amely megalázó, megalázó, gúnyos, sértő vagy lekicsinylő nyelvezetet foglal magában. Az ilyen típusú nyelvezetet zaklatásnak is nevezik.
Erőszak vagy fenyegetés – Fájdalmat, sérülést vagy ellenségeskedést okozó fenyegetést tartalmazó beszéd egy személlyel vagy csoporttal szemben.
Grafikus – Beszéd, amely vizuálisan leíró jellegű és kellemetlenül élénk képeket használ. Ez a fajta nyelv gyakran szándékosan bőbeszédű, hogy felerősítse a címzett kényelmetlenségét.
Zaklatás vagy visszaélés – Beszéd, amelynek célja a fogadó pszichológiai jólétének befolyásolása, beleértve a lealacsonyító és tárgyiasító kifejezéseket.

A Toxicity Detection funkciót az Amazon Transcribe konzolon keresztül vagy az API-k közvetlen meghívásával érheti el az AWS CLI vagy az AWS SDK használatával. Az Amazon Transcribe konzolon feltöltheti azokat a hangfájlokat, amelyek toxicitását tesztelni szeretné, és néhány kattintással eredményt kaphat. Az Amazon Transcribe azonosítja és kategorizálja a mérgező tartalmakat, például a zaklatást, a gyűlöletbeszédet, a szexuális tartalmat, az erőszakot, a sértéseket és a trágár szavakat. Az Amazon Transcribe megbízhatósági pontszámot is biztosít minden kategóriához, értékes betekintést nyújtva a tartalom toxicitási szintjébe. A Toxicity Detection jelenleg elérhető a szabványos Amazon Transcribe API-ban kötegelt feldolgozáshoz, és támogatja az amerikai angol nyelvet.

Az Amazon Transcribe konzol áttekintése

A kezdéshez jelentkezzen be a AWS felügyeleti konzol és lépjen az Amazon Transcribe oldalra. Új átírási feladat létrehozásához fel kell töltenie a rögzített fájlokat egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödröt, mielőtt azokat feldolgoznák. A hangbeállítások oldalon, amint az a következő képernyőképen látható, engedélyezze Toxicitás kimutatása és folytassa az új munkahely létrehozásával. Az Amazon Transcribe a háttérben dolgozza fel az átírási feladatot. A munka előrehaladtával várhatóan a státusz a következőre változik BEFEJEZETT amikor a folyamat befejeződött.

Egy átírási feladat eredményeinek áttekintéséhez válassza ki a munkát a munkalistából a megnyitásához. Görgessen le a Átírás előnézete szakaszban az eredmények ellenőrzéséhez Toxicitás lapon. A felhasználói felület színkódolt transzkripciós szegmenseket jelenít meg a toxicitás szintjének jelzésére, amelyet a megbízhatósági pontszám határoz meg. A kijelző testreszabásához használhatja a kapcsolósávokat a Szűrők ablaktáblát. Ezek a sávok lehetővé teszik a küszöbértékek beállítását és a toxicitási kategóriák megfelelő szűrését.

A következő képernyőkép érzékeny vagy mérgező információk jelenléte miatt az átírási szöveg egyes részeit fedi le.

Transzkripciós API toxicitás-észlelési kéréssel

Ebben a részben végigvezetjük Önt egy olyan átírási feladat létrehozásán, amelyen programozási interfészek segítségével tud toxicitást észlelni. Ha a hangfájl még nincs egy S3 tárolóban, töltse fel, hogy biztosítsa az Amazon Transcribe hozzáférését. Hasonlóan egy átírási feladat létrehozásához a konzolon, a feladat meghívásakor a következő paramétereket kell megadnia:

TranscriptionJobName – Adjon meg egy egyedi feladatnevet.
MediaFileUri – Adja meg az audiofájl URI-címét az Amazon S3-on. Az Amazon Transcribe a következő hangformátumokat támogatja: MP3, MP4, WAV, FLAC, AMR, OGG vagy WebM
LanguageCode - Állítva en-US. Jelen pillanatban a Toxicity Detection csak az amerikai angol nyelvet támogatja.
Toxicitási kategóriák – Adja át a ALL értéket, hogy az összes támogatott toxicitás-észlelési kategóriát tartalmazza.

Az alábbiakban példák láthatók egy átírási feladat elindítására, ha a Python3 használatával engedélyezve van a toxicitás-észlelés:

import time
import boto3 transcribe = boto3.client('transcribe', 'us-east-1')
job_name = "toxicity-detection-demo"
job_uri = "s3://my-bucket/my-folder/my-file.wav" # start a transcription job
transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'doc-example-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ToxicityDetection = [{'ToxicityCategories': ['ALL']}]
) # wait for the transcription job to complete
while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

A következő AWS CLI paranccsal meghívhatja ugyanazt az átírási feladatot a toxicitás észlelésével:

aws transcribe start-transcription-job --region us-east-1 --transcription-job-name toxicity-detection-demo --media MediaFileUri=s3://my-bucket/my-folder/my-file.wav --output-bucket-name doc-example-bucket --output-key my-output-files/ --language-code en-US --toxicity-detection ToxicityCategories=ALL

Transzkripciós API toxicitás-észlelési válasszal

Az Amazon Transcribe toxicitás-észlelési JSON-kimenete tartalmazza az átírási eredményeket az eredménymezőben. A toxicitás-észlelés engedélyezése egy extra mezőt ad hozzá toxicityDetection az eredmények mező alatt. toxicityDetection tartalmazza az átírt elemek listáját a következő paraméterekkel:

szöveg – A nyers átírt szöveg
toxicitás – Az észlelés megbízhatósági pontszáma (0 és 1 közötti érték)
kategóriák – Egy megbízhatósági pontszám a toxikus beszéd minden kategóriájához
kezdési idő – Az észlelés kezdőpontja az audiofájlban (másodpercben)
idő vége – Az észlelés végpontja az audiofájlban (másodpercben)

Az alábbi minta a toxicitás-észlelési válasz rövidített mintája, amelyet letölthet a konzolról:

{ "results":{ "transcripts": [...], "items":[...], "toxicityDetection": [ { "text": "A TOXIC TRANSCRIPTION SEGMENT GOES HERE.", "toxicity": 0.8419, "categories": { "PROFANITY": 0.7041, "HATE_SPEECH": 0.0163, "SEXUAL": 0.0097, "INSULT": 0.8532, "VIOLENCE_OR_THREAT": 0.0031, "GRAPHIC": 0.0017, "HARASSMENT_OR_ABUSE": 0.0497 }, "start_time": 16.298, "end_time": 20.35 }, ... ] }, "status": "COMPLETED"
}

Összegzésként

Ebben a bejegyzésben áttekintést adtunk az új Amazon Transcribe Toxicity Detection funkcióról. Azt is leírtuk, hogyan elemezheti a toxicitás-észlelési JSON-kimenetet. További információért tekintse meg az Amazon Transcribe konzolt, és próbálja ki a Toxicity Detection funkcióval rendelkező Transcription API-t.

Az Amazon Transcribe Toxicity Detection már elérhető a következő AWS-régiókban: US East (Ohio), US East (N. Virginia), US West (Oregon), Ázsia-csendes-óceáni (Sydney), Európa (Írország) és Európa (London). Ha többet szeretne megtudni, látogasson el Amazon átirat.

Tudjon meg többet tartalommoderálás az AWS-en és a mi tartalommoderálás ML használati esetek. Tedd meg az első lépést felé a tartalommoderálási műveletek egyszerűsítése az AWS segítségével.

A szerzőről

Lana Zhang az AWS WWSO AI Services csapatának vezető megoldástervezője, a tartalom-moderálás, a számítógépes látás és a természetes nyelvi feldolgozás AI-ra és ML-re szakosodott. Szakértelmével elkötelezte magát az AWS AI/ML megoldások népszerűsítésében és abban, hogy segítse ügyfeleit üzleti megoldásaik átalakításában a különböző iparágakban, beleértve a közösségi médiát, a játékokat, az e-kereskedelmet, valamint a reklámozást és marketinget.

Sumit Kumar az AWS AI Language Services csapatának műszaki vezetője, termékmenedzsere. 10 éves termékmenedzsment tapasztalattal rendelkezik számos területen, és szenvedélyesen rajong az AI/ML-ért. A munkán kívül Sumit szeret utazni, krikettezni és gyepteniszezni.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Autóipar / elektromos járművek, Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
BlockOffsets. A környezetvédelmi ellentételezési tulajdon korszerűsítése. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/flag-harmful-language-in-spoken-conversations-with-amazon-transcribe-toxicity-detection/

Időbélyeg: Július 26, 2023

Időbélyeg: 26. október 2022.

Újra kiadta Platón

Az Amazon Connect és a Lex fejlesztése generatív AI-képességekkel | Amazon webszolgáltatások

Nagyszabású neurális hálózatok képzésének felgyorsítása CPU-kon ThirdAI és AWS Graviton segítségével | Amazon webszolgáltatások

Adjon hozzá társalgási AI-t bármely kapcsolattartó központhoz az Amazon Lex és az Amazon Chime SDK segítségével

Az Amazon SageMaker Autopilot mostantól támogatja az idősoros adatokat

Az Amazon SageMaker Ground Truth Plus új beépített interfészeivel gyorsabban elérheti a termelési szintű adatokat

Hogyan használta Patsnap a GPT-2 következtetést az Amazon SageMakeren alacsony késleltetéssel és költséggel | Amazon webszolgáltatások

Vállalati szintű költségelosztás beállítása ML környezetekhez és munkaterhelésekhez az Amazon SageMaker erőforrás-címkézésével

Telepítsen gépi tanulási következtetési adatrögzítési megoldást az AWS Lambdán

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók