Veebimängu- ja sotsiaalsed kogukonnad pakuvad kasutajatele suhtlemiseks hääl- ja tekstivestluse funktsioone. Kuigi hääl- ja tekstivestlus toetavad sageli sõbralikku nalja, võib see põhjustada ka selliseid probleeme nagu vihakõne, küberkiusamine, ahistamine ja pettused. Tänapäeval usaldavad paljud ettevõtted mürgise sisalduse ülevaatamisel ainult inimmoderaatoritele. Rikkumiste kontrollimine vestluses on aga aeganõudev, veaohtlik ja mastaapne.
Selles postituses tutvustame lahendusi, mis võimaldavad heli- ja tekstivestluse modereerimist kasutades erinevaid AWS-teenuseid, sh Amazoni transkribeerimine, Amazoni mõistmine, Amazonase aluspõhija Amazon OpenSearchi teenus.
Sotsiaalsed platvormid otsivad valmis modereerimislahendust, mida on lihtne käivitada, kuid need nõuavad ka kohandamist erinevate poliitikate haldamiseks. Latentsus ja maksumus on samuti kriitilised tegurid, mida tuleb arvesse võtta. Korraldades toksilisuse klassifikatsiooni suurte keelemudelitega (LLM), kasutades generatiivset AI-d, pakume lahendust, mis tasakaalustab lihtsuse, latentsuse, kulude ja paindlikkuse, et rahuldada erinevaid nõudeid.
Selle postituse näidiskood on saadaval aadressil GitHubi hoidla.
Helivestluse modereerimise töövoog
Helivestluse modereerimise töövoo võib algatada kasutaja, kes teatab teistest mänguplatvormi kasutajatelt eeskirjade rikkumistest, nagu roppused, vihakõne või ahistamine. See kujutab endast passiivset lähenemist heli modereerimisele. Süsteem salvestab kõik helivestlused ilma kohese analüüsita. Kui aruanne on vastu võetud, hangib töövoog seotud helifailid ja käivitab analüüsiprotsessi. Seejärel vaatab inimmoderaator teatatud vestluse üle ja uurib selle sisu, et teha kindlaks, kas see rikub platvormi eeskirju.
Teise võimalusena võib töövoo käivitada ennetavalt. Näiteks sotsiaalses helivestlusruumis saab süsteem salvestada kõik vestlused ja rakendada analüüsi.
Nii passiivne kui ka ennetav lähenemisviis võib käivitada helianalüüsi jaoks järgmise torujuhtme.
Heli modereerimise töövoog hõlmab järgmisi samme.
- Töövoog algab helifaili vastuvõtmisega ja selle salvestamisega a Amazoni lihtne salvestusteenus (Amazon S3) ämber Amazon Transcribe'i jaoks.
- Amazoni transkriptsioon
StartTranscriptionJob
API käivitatakse koos Toksilisuse tuvastamine lubatud. Amazon Transcribe teisendab heli tekstiks, pakkudes lisateavet toksilisuse analüüsi kohta. Lisateavet toksilisuse analüüsi kohta leiate aadressilt Märgistage häälvestlustes kahjulik keel rakendusega Amazon Transscribe Toxicity Detection. - Kui toksilisuse analüüs annab toksilisuse skoori, mis ületab teatud läve (näiteks 50%), võime kasutada Amazon Bedrocki teadmistebaasid et hinnata sõnumit kohandatud poliitikate suhtes, kasutades LLM-e.
- Inimmoderaator saab üksikasjaliku helimodereerimise aruande, mis tõstab esile vestlussegmendid, mida peetakse mürgiseks ja rikuvad eeskirju, võimaldades neil teha teadlikke otsuseid.
Järgmisel ekraanipildil on näidisrakendus, mis kuvab helisegmendi toksilisuse analüüsi. See sisaldab originaalset transkriptsiooni, Amazon Transcribe'i toksilisuse analüüsi tulemusi ja Amazon Bedrocki teadmistebaasi kasutades Amazon Bedrock Anthropic Claude V2 mudeli kaudu läbi viidud analüüsi.
LLM-i analüüs annab rikkumise tulemuse (Y või N) ja selgitab mudeli poliitikarikkumise kohta tehtud otsuse põhjendusi. Lisaks sisaldab teadmistebaas viidatud poliitikadokumente, mida hindamisel kasutatakse, pakkudes moderaatoritele täiendavat konteksti.
Amazoni transkribeerimise toksilisuse tuvastamine
Amazon Transcribe on automaatne kõnetuvastuse (ASR) teenus, mis muudab arendajatel oma rakendustele kõne tekstiks võime lisamise lihtsaks. Heli modereerimise töövoog kasutab Amazon Transcribe Toxicity Detectionit, mis on masinõppe (ML) toega võimekus, mis kasutab heli- ja tekstipõhiseid vihjeid häälepõhise mürgise sisu tuvastamiseks ja klassifitseerimiseks seitsmes kategoorias, sealhulgas seksuaalne ahistamine, vihakõne ja ähvardused. , kuritarvitamine, roppused, solvangud ja graafiline keel. Lisaks teksti analüüsimisele kasutab toksilisuse tuvastamine kõnes toksilise kavatsuse tuvastamiseks kõne näpunäiteid, nagu toonid ja helikõrgus.
Heli modereerimise töövoog aktiveerib LLM-i poliitika hindamise ainult siis, kui toksilisuse analüüs ületab määratud läve. See lähenemisviis vähendab latentsust ja optimeerib kulusid, rakendades valikuliselt LLM-e, filtreerides välja olulise osa liiklusest.
Kasutage kohandatud poliitikate kohandamiseks LLM-i kiiret inseneritööd
Amazon Transcribe'i ja Amazon Comprehendi eelkoolitatud toksilisuse tuvastamise mudelid pakuvad laia toksilisuse taksonoomiat, mida tavaliselt kasutavad sotsiaalsed platvormid kasutajate loodud sisu modereerimiseks heli- ja tekstivormingus. Kuigi need eelkoolitatud mudelid tuvastavad tõhusalt probleeme madala latentsusajaga, võite vajada lahendust teie konkreetse ettevõtte või ärivaldkonna eeskirjade rikkumiste tuvastamiseks, mida eelkoolitatud mudelid üksi ei suuda saavutada.
Lisaks rikkumiste tuvastamine kontekstuaalsetes vestlustes, näiteks tuvastamine laste seksuaalne peibutamine vestluste jaoks, nõuab kohandatavat lahendust, mis hõlmab vestlussõnumite ja väljaspool seda konteksti, nagu kasutaja vanus, sugu ja vestluste ajalugu. Siin saavad LLM-id pakkuda nende nõuete laiendamiseks vajalikku paindlikkust.
Amazon Bedrock on täielikult hallatav teenus, mis pakub valikut juhtivate AI-ettevõtete suure jõudlusega alusmudeleid (FM-e). Need lahendused kasutavad Amazon Bedrocki Anthropic Claude v2, et modereerida heli transkriptsioone ja tekstivestlussõnumeid paindliku viipamalli abil, nagu on kirjeldatud järgmises koodis:
Mall sisaldab kohahoidjaid eeskirja kirjelduse, vestlussõnumi ja lisareeglite jaoks, mis nõuavad modereerimist. Anthropic Claude V2 mudel annab vastused juhiste vormingus (Y või N) koos analüüsiga, mis selgitab, miks sõnum tema arvates rikub eeskirju. See lähenemisviis võimaldab teil määratleda paindlikud modereerimiskategooriad ja sõnastada oma poliitikad inimkeeles.
Traditsiooniline ettevõttesisese klassifitseerimismudeli koolitamise meetod hõlmab tülikaid protsesse, nagu andmete märkimine, koolitus, testimine ja mudeli juurutamine, mis nõuavad andmeteadlaste ja ML-inseneride teadmisi. LLM-id seevastu pakuvad suurt paindlikkust. Ärikasutajad saavad muuta inimkeeles viipasid, mis suurendavad tõhusust ja vähendavad iteratsioonitsükleid ML-mudeli koolitusel.
Amazon Bedrocki teadmistebaasid
Kuigi kiire projekteerimine on tõhus poliitika kohandamiseks, võib pikkade poliitikate ja reeglite sisestamine otse iga sõnumi LLM-i viipadesse lisada latentsust ja suurendada kulusid. Selle probleemi lahendamiseks kasutame Amazon Bedrocki teadmistebaase hallatava taastamise laiendatud genereerimise (RAG) süsteemina. See võimaldab teil poliitikadokumenti paindlikult hallata, võimaldades töövool tuua iga sisendsõnumi jaoks ainult asjakohased poliitikasegmendid. See minimeerib LLM-idele analüüsimiseks saadetavate žetoonide arvu.
Võite kasutada AWS-i juhtimiskonsool et poliitikadokumendid üles laadida S3 ämbrisse ja seejärel indekseerida dokumendid vektorandmebaasi tõhusaks otsimiseks. Järgnev on kontseptuaalne töövoog, mida haldab Amazon Bedrocki teadmistebaas, mis hangib Amazon S3-st dokumendid, jagab teksti tükkideks ja kutsub esile Amazon Bedrock Titan teksti manustamise mudel tekstitükkide teisendamiseks vektoriteks, mis seejärel salvestatakse vektorite andmebaasi.
Selles lahenduses kasutame Amazon OpenSearchi teenus kui vektorite pood. OpenSearch on skaleeritav, paindlik ja laiendatav avatud lähtekoodiga tarkvarakomplekt otsingu-, analüütika-, turvaseire- ja vaatlemisrakenduste jaoks, mis on litsentsitud Apache 2.0 litsentsi alusel. OpenSearch Service on täielikult hallatav teenus, mis muudab OpenSearchi juurutamise, skaleerimise ja haldamise AWS-i pilves lihtsaks.
Pärast dokumendi indekseerimist OpenSearch Service'is saadab heli- ja tekstimodereerimise töövoog vestlussõnumeid, käivitades kohandatud poliitika hindamiseks järgmise päringuvoo.
Protsess sarnaneb käivitamise töövooga. Esiteks teisendatakse tekstsõnum Amazon Bedrock Titan Text Embedding API abil teksti manustamiseks. Neid manuseid kasutatakse seejärel a vektorotsing OpenSearch Service'i andmebaasi vastu, mis on juba dokumentide manustega täidetud. Andmebaas tagastab sisendtekstisõnumile vastavad kõrgeima vastavusskooriga poliitikatükid. Seejärel koostame viibad, mis sisaldavad nii sisendvestlussõnumit kui ka poliitikasegmenti, mis saadetakse hindamiseks Anthropic Claude V2-le. LLM-mudel tagastab viipade juhiste alusel analüüsitulemuse.
Üksikasjalikud juhised selle kohta, kuidas luua uus eksemplar oma poliitikadokumendiga Amazon Bedrocki teadmistebaasis, leiate aadressilt Teabebaasid pakuvad nüüd täielikult hallatud RAG-kogemust Amazon Bedrockis.
Tekstvestluse modereerimise töövoog
Tekstivestluse modereerimise töövoog järgib heli modereerimisega sarnast mustrit, kuid see kasutab Amazon Comprehendi toksilisuse analüüsi, mis on kohandatud teksti modereerimiseks. Näidisrakendus toetab CSV- või TXT-vormingus hulgitekstifailide üleslaadimise liidest ja pakub kiireks testimiseks ühe sõnumiga liidest. Järgmine diagramm illustreerib töövoogu.
Teksti modereerimise töövoog hõlmab järgmisi samme.
- Kasutaja laadib tekstifaili üles S3 ämbrisse.
- Tekstisõnumile rakendatakse Amazon Comprehendi toksilisuse analüüsi.
- Kui toksilisuse analüüs tagastab toksilisuse skoori, mis ületab teatud läve (näiteks 50%), kasutame Amazon Bedrocki teadmistebaasi, et hinnata sõnumit kohandatud poliitikaga, kasutades Anthropic Claude V2 LLM-i.
- Poliitika hindamise aruanne saadetakse inimmoderaatorile.
Amazon Comprehend toksilisuse analüüs
Teksti modereerimise töövoos kasutame tekstisõnumite toksilisuse taseme hindamiseks Amazon Comprehendi toksilisuse analüüsi. Amazon Comprehend on loomuliku keele töötlemise (NLP) teenus, mis kasutab tekstis väärtuslike arusaamade ja seoste avastamiseks ML-i. Amazon Comprehend toksilisuse tuvastamise API määrab tekstisisule üldise toksilisuse skoori, mis jääb vahemikku 0–1, mis näitab selle mürgisuse tõenäosust. Samuti liigitab see teksti järgmistesse kategooriatesse ja annab igaühele usaldusskoori: hate_speech
, graafika, harrassement_or_abuse
, seksuaalne, violence_or_threat
, solvang ja roppused.
Selles teksti modereerimise töövoos mängib Amazon Comprehend toksilisuse analüüs otsustavat rolli, et teha kindlaks, kas sissetulev tekstsõnum sisaldab mürgist sisu. Sarnaselt heli modereerimise töövooga sisaldab see tingimust, et allavoolu LLM-poliitika hindamine aktiveeritakse ainult siis, kui toksilisuse analüüs tagastab eelnevalt määratletud läve ületava skoori. See optimeerimine aitab vähendada üldist latentsust ja LLM-analüüsiga seotud kulusid.
kokkuvõte
Selles postituses tutvustasime lahendusi heli- ja tekstivestluse modereerimiseks, kasutades AWS-i teenuseid, sealhulgas Amazon Transcribe, Amazon Comprehend, Amazon Bedrock ja OpenSearch Service. Need lahendused kasutavad toksilisuse analüüsiks eelkoolitatud mudeleid ja neid juhitakse generatiivsete AI LLM-idega, et saavutada täpsuse, latentsusaja ja kulude optimaalne tasakaal. Samuti annavad need teile võimaluse oma poliitikaid paindlikult määratleda.
Saate kogeda näidisrakendust, järgides juhiseid GitHub repo.
Andmeid autor
Lana Zhang on AWS WWSO AI Services meeskonna vanemlahenduste arhitekt, kes on spetsialiseerunud AI-le ja ML-le sisu modereerimise, arvutinägemise, loomuliku keele töötlemise ja generatiivse AI jaoks. Oma teadmistega on ta pühendunud AWS-i AI/ML-lahenduste reklaamimisele ja klientide abistamisele nende ärilahenduste muutmisel erinevates tööstusharudes, sealhulgas sotsiaalmeedia, mängud, e-kaubandus, meedia, reklaam ja turundus.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/moderate-audio-and-text-chats-using-aws-ai-services-and-llms/
- :on
- :on
- :mitte
- : kus
- 100
- 118
- 14
- 7
- a
- MEIST
- kuritarvitamise
- juurdepääs
- majutada
- konto
- täpsus
- Saavutada
- üle
- aktiveeritud
- lisama
- lisamine
- Täiendavad lisad
- Tooteinfo
- aadress
- reklaam
- vastu
- vanus
- AI
- AI teenused
- AI / ML
- Materjal: BPA ja flataatide vaba plastik
- Lubades
- võimaldab
- üksi
- mööda
- juba
- Ka
- Kuigi
- Amazon
- Amazoni mõistmine
- Amazoni transkribeerimine
- Amazon Web Services
- an
- analüüs
- analytics
- analüüsides
- ja
- Antroopne
- Apache
- API
- app
- taotlus
- rakendused
- rakendatud
- kehtima
- Rakendades
- lähenemine
- lähenemisviisid
- OLEME
- AS
- hinnata
- abistama
- assistent
- abistamine
- seotud
- At
- heli-
- suurendatud
- autor
- Automaatne
- saadaval
- AWS
- Saldo
- saldod
- baas
- põhineb
- BE
- olnud
- algab
- taga
- on
- mõlemad
- Purustamine
- lai
- äri
- kuid
- by
- CAN
- võime
- kategooriad
- kindel
- raske
- vestlus
- kassid
- valik
- klassifikatsioon
- Klassifitseerige
- Cloud
- kood
- tavaliselt
- edastama
- Ühenduste
- Ettevõtted
- ettevõte
- mõista
- arvuti
- Arvuti visioon
- kontseptuaalne
- seisund
- läbi
- usaldus
- Side
- Arvestama
- kaaluda
- arvestades
- sisaldab
- sisu
- kontekst
- kontekstuaalne
- kontrast
- Vestlus
- vestlused
- muutma
- ümber
- Maksma
- kulud
- võiks
- looma
- kriitiline
- otsustav
- tülikas
- Kliendid
- kohandatav
- kohandamine
- kohandatud
- tsüklit
- andmed
- andmebaas
- otsustama
- otsus
- pühendunud
- määratlema
- Kraad
- annab
- juurutada
- kasutuselevõtu
- kirjeldus
- üksikasjalik
- avastama
- Detection
- Määrama
- Arendajad
- skeem
- otse
- väljapanek
- mitu
- dokument
- dokumendid
- ei
- domeen
- alla
- e-kaubandus
- iga
- efektiivsus
- tõhus
- tõhusalt
- kumbki
- kinnistamine
- volitama
- võimaldama
- lubatud
- võimaldab
- Inseneriteadus
- Inseneride
- tõhustatud
- hindama
- hindamine
- näide
- ületab
- ületab
- kogemus
- ekspert
- teadmised
- selgitades
- Selgitab
- laiendama
- tegurid
- fail
- Faile
- filtreerimine
- leidma
- esimene
- Paindlikkus
- paindlik
- paindlikult
- voog
- Järel
- järgneb
- eest
- formaat
- Sihtasutus
- sõbralik
- Alates
- täielikult
- funktsionaalsus
- Pealegi
- mäng
- mängude platvorm
- SUGU
- põlvkond
- generatiivne
- Generatiivne AI
- GRAAFIKA
- kahjulik
- viha
- aitab
- siin
- Suur
- suure jõudlusega
- kõrgeim
- esiletõstmine
- ajalugu
- Kuidas
- Kuidas
- aga
- HTML
- http
- HTTPS
- inim-
- identifitseerima
- identifitseerimiseks
- if
- illustreerib
- Vahetu
- in
- hõlmab
- Kaasa arvatud
- Sissetulev
- Suurendama
- indeks
- indekseeritud
- näitab
- Näitab
- tööstusharudes
- info
- teavitatakse
- algatama
- algatatud
- Algatab
- algatamine
- sisend
- teadmisi
- Näiteks
- juhised
- Solvang
- tahtlus
- Interface
- sisse
- kehtestama
- sisse
- uurides
- kutsutud
- kutsub
- hõlmab
- küsimustes
- IT
- iteratsioon
- ITS
- töö
- jpg
- hoidma
- teadmised
- keel
- suur
- Hilinemine
- viima
- juhtivate
- õppimine
- Tase
- litsents
- Litsentseeritud
- tõenäosus
- LLM
- Madal
- masin
- masinõpe
- tegema
- TEEB
- juhtima
- juhitud
- juhtimine
- juhtiv
- palju
- Turundus
- sobitamine
- mai..
- vahendid
- Meedia
- sõnum
- kirjad
- meetod
- minimeerib
- ML
- mudel
- mudelid
- mõõduka
- modereerimine
- mõõdukus
- muutma
- järelevalve
- rohkem
- peab
- Natural
- Natural Language Processing
- Vajadus
- vaja
- Uus
- nlp
- nüüd
- number
- of
- pakkuma
- Pakkumised
- sageli
- on
- ainult
- avatud
- avatud lähtekoodiga
- töötama
- optimaalselt
- optimeerimine
- Optimeerib
- or
- korraldatud
- orkestreerides
- originaal
- Muu
- välja
- välja toodud
- väljaspool
- üldine
- enda
- passiivne
- Muster
- täitma
- torujuhe
- Pigi
- inimesele
- Platvormid
- Platon
- Platoni andmete intelligentsus
- PlatoData
- mängib
- palun
- Poliitika
- poliitika
- asustatud
- osa
- post
- ettemääratud
- Proaktiivne
- probleeme
- protsess
- Protsessid
- töötlemine
- ROBUS
- Edendamine
- küsib
- anda
- annab
- pakkudes
- päringu
- Kiire
- rag
- alates
- põhjendus
- saadud
- saab
- vastuvõtmine
- tunnustamine
- rekord
- andmed
- vähendama
- Lühendatud
- vähendab
- viitama
- viidatud
- kohta
- seotud
- asjakohane
- lootma
- aru
- Teatatud
- Aruandlus
- esindab
- nõudma
- Nõuded
- Vajab
- Reageerida
- vastuste
- kaasa
- Tulemused
- otsing
- Tulu
- läbi
- Arvustused
- Roll
- ruum
- Eeskiri
- eeskirjade
- ohutu
- ohutus
- proov
- vasta
- skaalautuvia
- Skaala
- petuskeemid
- teadlased
- skoor
- Otsing
- Osa
- turvalisus
- otsima
- segment
- segmendid
- saadab
- vanem
- Saadetud
- teenus
- Teenused
- komplekt
- seitse
- Seksuaalne
- ta
- Näitused
- märkimisväärne
- sarnane
- lihtne
- lihtsus
- sotsiaalmeedia
- Sotsiaalse meedia
- sotsiaalsed platvormid
- tarkvara
- Ainult
- lahendus
- Lahendused
- allikas
- spetsialiseerunud
- konkreetse
- kõne
- Kõnetuvastus
- kõnest tekstiks
- Poolitab
- räägitud
- Sammud
- ladustamine
- salvestada
- ladustatud
- ladustamine
- lihtne
- selline
- komplekt
- toetama
- Toetab
- süsteem
- TAG
- kohandatud
- võtnud
- taksonoomia
- meeskond
- šabloon
- Testimine
- tekst
- et
- .
- oma
- Neile
- SIIS
- Need
- nad
- Mõtleb
- see
- ähvardused
- künnis
- Läbi
- aega võttev
- Titan
- et
- täna
- märgid
- traditsiooniline
- liiklus
- koolitus
- transformeerivate
- vallandada
- vallandas
- käivitamine
- Usalda
- paljastama
- all
- Üleslaadimine
- kasutama
- Kasutatud
- Kasutaja
- Kasutajad
- kasutusalad
- kasutamine
- väärtuslik
- eri
- kontrollimine
- RIKKUMINE
- Rikkumised
- nägemus
- Hääl
- we
- web
- veebiteenused
- millal
- kas
- mis
- kuigi
- miks
- Wikipedia
- will
- koos
- jooksul
- ilma
- sõnad
- töövoog
- sa
- Sinu
- sephyrnet