Online-peli- ja sosiaaliset yhteisöt tarjoavat käyttäjilleen ääni- ja tekstichat-toiminnot. Vaikka ääni- ja tekstikeskustelut tukevat usein ystävällistä pilaa, se voi myös johtaa ongelmiin, kuten vihapuheen, verkkokiusaamiseen, häirintään ja huijauksiin. Nykyään monet yritykset luottavat pelkästään ihmisten valvojiin arvioidakseen myrkyllistä sisältöä. Rikkomusten tarkistaminen chatissa on kuitenkin aikaa vievää, virhealtista ja haastavaa skaalautua.
Tässä viestissä esittelemme ratkaisuja, jotka mahdollistavat ääni- ja tekstikeskustelun moderoinnin käyttämällä erilaisia AWS-palveluita, mukaan lukien Amazonin transkriptio, Amazonin käsitys, Amazonin kallioperäja Amazon OpenSearch-palvelu.
Sosiaaliset alustat etsivät valmiita moderointiratkaisuja, jotka on helppo käynnistää, mutta ne edellyttävät myös räätälöintiä erilaisten käytäntöjen hallintaan. Latenssi ja hinta ovat myös tärkeitä tekijöitä, jotka on otettava huomioon. Järjestämällä myrkyllisyysluokituksen suurilla kielimalleilla (LLM) käyttämällä generatiivista tekoälyä tarjoamme ratkaisun, joka tasapainottaa yksinkertaisuuden, viiveen, kustannusten ja joustavuuden eri vaatimusten täyttämiseksi.
Tämän viestin mallikoodi on saatavilla osoitteessa GitHub-arkisto.
Äänikeskustelun moderoinnin työnkulku
Äänikeskustelun moderoinnin työnkulun voi käynnistää käyttäjä, joka ilmoittaa muista käyttäjistä pelialustalla käytäntörikkomuksista, kuten kiroilusta, vihapuheesta tai häirinnästä. Tämä edustaa passiivista lähestymistapaa äänen moderointiin. Järjestelmä tallentaa kaikki äänikeskustelut ilman välitöntä analysointia. Kun raportti vastaanotetaan, työnkulku hakee liittyvät äänitiedostot ja käynnistää analysointiprosessin. Ihmismoderaattori tarkistaa sitten raportoidun keskustelun ja tutkii sen sisällön määrittääkseen, rikkooko se alustakäytäntöä.
Vaihtoehtoisesti työnkulku voidaan käynnistää ennakoivasti. Esimerkiksi sosiaalisessa äänichat-huoneessa järjestelmä voisi tallentaa kaikki keskustelut ja soveltaa analyyseja.
Sekä passiiviset että ennakoivat lähestymistavat voivat laukaista seuraavan äänianalyysin putken.
Äänen moderoinnin työnkulku sisältää seuraavat vaiheet:
- Työnkulku alkaa äänitiedoston vastaanottamisesta ja tallentamisesta a Amazonin yksinkertainen tallennuspalvelu (Amazon S3) -ämpäri Amazon Transcriben käyttöön.
- Amazonin transkriptio
StartTranscriptionJob
API kutsutaan kanssa Myrkyllisyyden havaitseminen käytössä. Amazon Transcribe muuntaa äänen tekstiksi ja tarjoaa lisätietoja myrkyllisyysanalyysistä. Lisätietoja myrkyllisyysanalyysistä on kohdassa Merkitse haitallinen kieli puhekeskusteluissa Amazon Transcribe Toxicity Detectionin avulla. - Jos myrkyllisyysanalyysi palauttaa myrkyllisyyspistemäärän, joka ylittää tietyn kynnyksen (esimerkiksi 50 %), voimme käyttää Amazon Bedrockin tietokannat arvioida viestiä räätälöityihin käytäntöihin LLM:ien avulla.
- Ihmismoderaattori saa yksityiskohtaisen äänen moderointiraportin, jossa korostetaan myrkyllisiksi katsotut ja käytäntöjen vastaiset keskustelusegmentit, minkä ansiosta he voivat tehdä tietoisen päätöksen.
Seuraavassa kuvakaappauksessa näkyy esimerkkisovellus, joka näyttää äänisegmentin myrkyllisyysanalyysin. Se sisältää alkuperäisen transkription, Amazon Transcriben myrkyllisyysanalyysin tulokset ja Amazon Bedrockin tietokannan avulla Amazon Bedrock Anthropic Claude V2 -mallin kautta suoritetun analyysin.
LLM-analyysi tarjoaa rikkomustuloksen (K tai N) ja selittää mallin sääntörikkomuspäätöksen taustalla olevat syyt. Lisäksi tietokanta sisältää arvioinnissa käytetyt politiikka-asiakirjat, jotka tarjoavat moderaattoreille lisäkontekstia.
Amazon Transcribe Toxicity Detection
Amazon Transcribe on automaattinen puheentunnistuspalvelu (ASR), jonka avulla kehittäjät voivat helposti lisätä sovelluksiinsa puheen tekstiksi -ominaisuuden. Äänen moderoinnin työnkulku käyttää Amazon Transcribe Toxicity Detectionia, joka on koneoppimiseen (ML) perustuva ominaisuus, joka käyttää ääni- ja tekstipohjaisia vihjeitä äänipohjaisen myrkyllisen sisällön tunnistamiseen ja luokitteluun seitsemään kategoriaan, mukaan lukien seksuaalinen häirintä, vihapuhe ja uhkaukset. , väärinkäyttö, kiroilu, loukkaukset ja graafinen kielenkäyttö. Tekstin analysoinnin lisäksi myrkyllisyyden havaitseminen käyttää puheen vihjeitä, kuten ääniä ja äänenkorkeutta, tunnistaakseen myrkyllisen tarkoituksen puheessa.
Äänen moderoinnin työnkulku aktivoi LLM:n käytäntöarvioinnin vain, kun myrkyllisyysanalyysi ylittää asetetun kynnyksen. Tämä lähestymistapa vähentää viivettä ja optimoi kustannukset käyttämällä valikoivasti LLM:itä, suodattaen pois merkittävän osan liikenteestä.
Käytä LLM:n nopeaa suunnittelua mukautettujen käytäntöjen mukauttamiseksi
Amazon Transcriben ja Amazon Comprehendin esiopetetut myrkyllisyyden havaitsemismallit tarjoavat laajan myrkyllisyyden taksonomian, jota sosiaaliset alustat käyttävät yleisesti käyttäjien luoman sisällön valvomiseen ääni- ja tekstimuodoissa. Vaikka nämä esikoulutetut mallit havaitsevat tehokkaasti ongelmat alhaisella viiveellä, saatat tarvita ratkaisun havaitaksesi rikkomukset yrityksesi tai toimialueesi käytäntöihin, joita esikoulutetut mallit eivät yksin pysty saavuttamaan.
Lisäksi rikkomusten havaitseminen kontekstuaalisissa keskusteluissa, kuten tunnistaminen lasten seksuaalista hoitoa keskusteluihin, vaatii muokattavissa olevan ratkaisun, jossa otetaan huomioon chat-viestit ja sen ulkopuolinen konteksti, kuten käyttäjän ikä, sukupuoli ja keskusteluhistoria. Tässä LLM:t voivat tarjota joustavuutta, jota tarvitaan näiden vaatimusten laajentamiseen.
Amazon Bedrock on täysin hallittu palvelu, joka tarjoaa valikoiman korkean suorituskyvyn perustusmalleja (FM) johtavilta tekoälyyrityksiltä. Nämä ratkaisut käyttävät Amazon Bedrockin Anthropic Claude v2:ta äänen transkriptioiden ja tekstiviestien käsittelyyn joustavan kehotemallin avulla, kuten seuraavassa koodissa on kuvattu:
Malli sisältää paikkamerkit käytäntökuvaukselle, chat-viestille ja lisäsäännöille, jotka edellyttävät valvontaa. Anthropic Claude V2 -malli toimittaa vastaukset ohjeissa annetussa muodossa (Y tai N) sekä analyysin, joka selittää, miksi se uskoo viestin rikkovan käytäntöä. Tämän lähestymistavan avulla voit määrittää joustavia moderointiluokkia ja ilmaista käytäntösi ihmiskielellä.
Perinteinen menetelmä talon sisäisen luokitusmallin kouluttamiseen sisältää hankalia prosesseja, kuten tietojen merkitsemistä, koulutusta, testausta ja mallin käyttöönottoa, mikä edellyttää datatieteilijöiden ja ML-insinöörien asiantuntemusta. LLM:t sen sijaan tarjoavat suuren joustavuuden. Yrityskäyttäjät voivat muokata kehotteita ihmiskielellä, mikä parantaa tehokkuutta ja vähentää iteraatiosyklejä ML-mallikoulutuksessa.
Amazon Bedrock -tietokannat
Vaikka nopea suunnittelu on tehokasta käytäntöjen mukauttamisessa, pitkien käytäntöjen ja sääntöjen lisääminen suoraan kunkin viestin LLM-kehotteisiin voi aiheuttaa viivettä ja lisätä kustannuksia. Tämän ratkaisemiseksi käytämme Amazon Bedrock -tietokantoja hallittavana RAG (Retrieval Augmented Generation) -järjestelmänä. Näin voit hallita käytäntöasiakirjaa joustavasti, jolloin työnkulku voi noutaa vain asianmukaiset käytäntösegmentit kullekin syöttöviestille. Tämä minimoi LLM:ille analysoitavaksi lähetettävien tokenien määrän.
Voit käyttää AWS-hallintakonsoli Lataa käytäntöasiakirjat S3-säilöyn ja indeksoi sitten asiakirjat vektoritietokantaan tehokkaan noudon varmistamiseksi. Seuraava on Amazon Bedrock -tietokannan hallinnoima käsitteellinen työnkulku, joka hakee asiakirjoja Amazon S3:sta, jakaa tekstin osiin ja kutsuu Amazon Bedrock Titan -tekstin upotusmalli muuntaa tekstipalat vektoreiksi, jotka sitten tallennetaan vektoritietokantaan.
Tässä ratkaisussa käytämme Amazon OpenSearch-palvelu vektorivarastona. opensearch on skaalautuva, joustava ja laajennettava avoimen lähdekoodin ohjelmistopaketti haku-, analytiikka-, tietoturvan seuranta- ja havainnointisovelluksiin, lisensoitu Apache 2.0 -lisenssillä. OpenSearch Service on täysin hallittu palvelu, jonka avulla OpenSearchin käyttöönotto, skaalaaminen ja käyttö AWS-pilvessä on helppoa.
Kun asiakirja on indeksoitu OpenSearch-palvelussa, äänen ja tekstin moderointityönkulku lähettää chat-viestejä, jotka käynnistävät seuraavan kyselyn kulun mukautettua käytännön arviointia varten.
Prosessi on samanlainen kuin aloitustyönkulku. Ensin tekstiviesti muunnetaan tekstiupotuksiksi Amazon Bedrock Titan Text Embedding API:n avulla. Näitä upotuksia käytetään sitten suorittamaan a vektorihaku OpenSearch Service -tietokantaa vastaan, joka on jo täytetty dokumenttien upotuksilla. Tietokanta palauttaa käytäntöpalat, joilla on korkein vastaavuuspiste, jotka liittyvät syöttötekstiviestiin. Laadimme sitten kehotteet, jotka sisältävät sekä syötetyn chat-viestin että käytäntösegmentin, ja ne lähetetään Anthropic Claude V2:lle arvioitavaksi. LLM-malli palauttaa analyysituloksen kehoteohjeiden perusteella.
Katso yksityiskohtaiset ohjeet uuden ilmentymän luomisesta käytäntöasiakirjallasi Amazon Bedrock -tietokannassa Knowledge Bases tarjoaa nyt täysin hallitun RAG-kokemuksen Amazon Bedrockissa.
Tekstikeskustelun moderoinnin työnkulku
Tekstikeskustelun moderoinnin työnkulku noudattaa samanlaista kaavaa kuin äänen moderointi, mutta se käyttää Amazon Comprehend -toksisuusanalyysiä, joka on räätälöity tekstin moderointiin. Esimerkkisovellus tukee käyttöliittymää joukkotekstitiedostojen lähettämiseen CSV- tai TXT-muodossa ja tarjoaa yhden viestin käyttöliittymän nopeaa testausta varten. Seuraava kaavio havainnollistaa työnkulkua.
Tekstin moderoinnin työnkulku sisältää seuraavat vaiheet:
- Käyttäjä lataa tekstitiedoston S3-ämpäriin.
- Tekstiviestiin sovelletaan Amazon Comprehend -toksisuusanalyysiä.
- Jos myrkyllisyysanalyysi palauttaa myrkyllisyyspistemäärän, joka ylittää tietyn kynnyksen (esimerkiksi 50 %), käytämme Amazon Bedrock -tietokantaa arvioidaksemme viestin mukautettuja käytäntöjä käyttäen Anthropic Claude V2 LLM:n avulla.
- Politiikan arviointiraportti lähetetään ihmismoderaattorille.
Amazon Comprehend myrkyllisyysanalyysi
Tekstin moderointityönkulussa käytämme Amazon Comprehend -toksisuusanalyysiä arvioidaksemme tekstiviestien myrkyllisyystasoa. Amazon Comprehend on luonnollisen kielen käsittelypalvelu (NLP), joka käyttää ML:ää löytääkseen arvokkaita oivalluksia ja yhteyksiä tekstistä. Amazon Comprehend toxicity detection API antaa tekstisisällölle yleisen myrkyllisyyspisteen, joka vaihtelee välillä 0–1, mikä osoittaa sen myrkyllisyyden todennäköisyyden. Se myös luokittelee tekstin seuraaviin luokkiin ja antaa jokaiselle luotettavuuspisteen: hate_speech
, grafiikka, harrassement_or_abuse
, seksuaalinen, violence_or_threat
, loukkaus ja kirous.
Tässä tekstinvalvontatyönkulussa Amazon Comprehend -myrkyllisyysanalyysillä on ratkaiseva rooli sen tunnistamisessa, sisältääkö saapuva tekstiviesti myrkyllistä sisältöä. Samoin kuin äänen moderoinnin työnkulku, se sisältää ehdon aktivoida loppupään LLM-politiikan arviointi vain, kun myrkyllisyysanalyysi palauttaa pisteet, jotka ylittävät ennalta määritetyn kynnyksen. Tämä optimointi auttaa vähentämään kokonaisviivettä ja LLM-analyysiin liittyviä kustannuksia.
Yhteenveto
Tässä viestissä esittelimme ratkaisuja ääni- ja tekstikeskustelun moderointiin AWS-palveluilla, mukaan lukien Amazon Transcribe, Amazon Comprehend, Amazon Bedrock ja OpenSearch Service. Nämä ratkaisut käyttävät esikoulutettuja malleja myrkyllisyysanalyysiin, ja ne on ohjattu generatiivisten AI LLM:ien kanssa optimaalisen tasapainon saavuttamiseksi tarkkuuden, latenssin ja kustannusten suhteen. Ne myös antavat sinulle mahdollisuuden määritellä joustavasti omat politiikkasi.
Voit kokea mallisovelluksen noudattamalla ohjeita GitHub repo.
Kirjailijasta
Lana Zhang on AWS WWSO AI Services -tiimin vanhempi ratkaisuarkkitehti, joka on erikoistunut tekoälyyn ja ML:ään sisällön moderointiin, tietokonenäköön, luonnollisen kielen käsittelyyn ja generatiiviseen tekoälyyn. Asiantuntijuudellaan hän on omistautunut edistämään AWS AI/ML -ratkaisuja ja auttamaan asiakkaita muuttamaan liiketoimintaratkaisujaan eri toimialoilla, mukaan lukien sosiaalinen media, pelit, sähköinen kaupankäynti, media, mainonta ja markkinointi.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/moderate-audio-and-text-chats-using-aws-ai-services-and-llms/
- :on
- :On
- :ei
- :missä
- 100
- 118
- 14
- 7
- a
- Meistä
- hyväksikäyttö
- pääsy
- majoittaa
- Tili
- tarkkuus
- Saavuttaa
- poikki
- aktivoida
- lisätä
- Lisäksi
- lisä-
- lisäinformaatio
- osoite
- mainonta
- vastaan
- ikä
- AI
- Tekoälyn palvelut
- AI / ML
- Kaikki
- Salliminen
- mahdollistaa
- yksin
- pitkin
- jo
- Myös
- Vaikka
- Amazon
- Amazonin käsitys
- Amazonin transkriptio
- Amazon Web Services
- an
- analyysi
- Analytics
- analysointi
- ja
- Antropinen
- Apache
- api
- sovelluksen
- Hakemus
- sovellukset
- sovellettu
- käyttää
- Hakeminen
- lähestymistapa
- lähestymistavat
- OVAT
- AS
- arvioida
- auttaa
- Avustaja
- avustaminen
- liittyvä
- At
- audio-
- täydennetty
- kirjoittaja
- automaattisesti
- saatavissa
- AWS
- Balance
- saldot
- pohja
- perustua
- BE
- ollut
- alkaa
- takana
- ovat
- sekä
- Breaking
- laaja
- liiketoiminta
- mutta
- by
- CAN
- valmiudet
- luokat
- tietty
- haastava
- jutella
- kissat
- valinta
- luokittelu
- luokitella
- pilvi
- koodi
- yleisesti
- tiedottaa
- yhteisöjen
- Yritykset
- yritys
- ymmärtää
- tietokone
- Tietokoneen visio
- käsitteellinen
- ehto
- tehty
- luottamus
- Liitännät
- Harkita
- harkittu
- ottaen huomioon
- sisältää
- pitoisuus
- tausta
- asiayhteyteen
- kontrasti
- Keskustelu
- keskustelut
- muuntaa
- muunnetaan
- Hinta
- kustannukset
- voisi
- luoda
- kriittinen
- ratkaiseva
- hankala
- Asiakkaat
- muokattavissa
- räätälöinnin
- räätälöityjä
- jaksoa
- tiedot
- tietokanta
- päättää
- päätös
- omistautunut
- määritellä
- Aste
- Antaa
- sijoittaa
- käyttöönotto
- kuvaus
- yksityiskohtainen
- havaita
- Detection
- Määrittää
- kehittäjille
- kaavio
- suoraan
- näyttämällä
- useat
- asiakirja
- asiakirjat
- ei
- verkkotunnuksen
- alas
- verkkokaupan
- kukin
- tehokkuus
- tehokas
- tehokkaasti
- myöskään
- upottamisen
- valtuuttaa
- mahdollistaa
- käytössä
- mahdollistaa
- Tekniikka
- Engineers
- tehostettu
- arvioida
- arviointi
- esimerkki
- ylittävät
- ylittää
- experience
- asiantuntija
- asiantuntemus
- selitetään
- selittää
- laajentaa
- tekijät
- filee
- Asiakirjat
- suodatus
- Löytää
- Etunimi
- Joustavuus
- joustava
- joustavasti
- virtaus
- jälkeen
- seuraa
- varten
- muoto
- perusta
- ystävällinen
- alkaen
- täysin
- toiminnallisuus
- Lisäksi
- pelaamista
- pelialusta
- Sukupuoli
- sukupolvi
- generatiivinen
- Generatiivinen AI
- Graafinen
- haitallinen
- viha
- auttaa
- hänen
- Korkea
- suorituskykyinen
- suurin
- korostus
- historia
- Miten
- Miten
- Kuitenkin
- HTML
- http
- HTTPS
- ihmisen
- tunnistaa
- tunnistaminen
- if
- havainnollistaa
- Välitön
- in
- sisältää
- Mukaan lukien
- Saapuva
- Kasvaa
- indeksi
- indeksoitu
- ilmaisee
- ilmaisee
- teollisuuden
- tiedot
- tietoa
- aloittaa
- aloitettu
- Osaa aloittaa
- aloittamista
- panos
- oivalluksia
- esimerkki
- ohjeet
- Loukkaus
- tahallisuus
- liitäntä
- tulee
- esitellä
- käyttöön
- tutkii
- kutsuttuihin
- vedotaan
- liittyy
- kysymykset
- IT
- iteraatio
- SEN
- Job
- jpg
- Pitää
- tuntemus
- Kieli
- suuri
- Viive
- johtaa
- johtava
- oppiminen
- Taso
- Lisenssi
- Licensed
- todennäköisyys
- OTK
- Matala
- kone
- koneoppiminen
- tehdä
- TEE
- hoitaa
- onnistui
- johto
- toimitusjohtaja
- monet
- Marketing
- matching
- Saattaa..
- välineet
- Media
- viesti
- viestien
- menetelmä
- minimoi
- ML
- malli
- mallit
- kohtalainen
- maltillista
- maltillisuus
- muokata
- seuranta
- lisää
- täytyy
- Luonnollinen
- Luonnollinen kielen käsittely
- Tarve
- tarvitaan
- Uusi
- NLP
- nyt
- numero
- of
- kampanja
- Tarjoukset
- usein
- on
- vain
- avata
- avoimen lähdekoodin
- käyttää
- optimaalinen
- optimointi
- Optimismi
- or
- orkestroinut
- orkestrointi
- alkuperäinen
- Muut
- ulos
- hahmoteltu
- ulkopuolella
- yleinen
- oma
- passiivinen
- Kuvio
- Suorittaa
- putki
- Piki
- foorumi
- Platforms
- Platon
- Platonin tietotieto
- PlatonData
- soittaa
- Ole hyvä
- politiikkaa
- politiikka
- asutuilla
- osa
- Kirje
- ennalta
- Ennakoiva
- ongelmia
- prosessi
- Prosessit
- käsittely
- HYVYYS
- Edistäminen
- ohjeita
- toimittaa
- tarjoaa
- tarjoamalla
- kysymys
- nopea
- rätti
- alainen
- perussyyt
- sai
- vastaanottaa
- vastaanottava
- tunnustaminen
- ennätys
- asiakirjat
- vähentää
- Vähentynyt
- vähentää
- katso
- viitattu
- suhteen
- liittyvä
- merkityksellinen
- luottaa
- raportti
- raportoitu
- Raportointi
- edustaa
- edellyttää
- vaatimukset
- Vaatii
- Vastata
- vasteet
- johtua
- tulokset
- haku
- Tuotto
- arviot
- Arvostelut
- Rooli
- Huone
- Sääntö
- säännöt
- turvallista
- Turvallisuus
- näyte
- tyydyttää
- skaalautuva
- Asteikko
- huijauksia
- tutkijat
- pisteet
- Haku
- Osa
- turvallisuus
- etsiä
- segmentti
- segmentit
- lähettää
- vanhempi
- lähetetty
- palvelu
- Palvelut
- setti
- seitsemän
- Seksuaalinen
- hän
- Näytä
- merkittävä
- samankaltainen
- Yksinkertainen
- yksinkertaisuus
- sosiaalinen
- sosiaalinen media
- sosiaaliset alustat
- Tuotteemme
- Yksin
- ratkaisu
- Ratkaisumme
- lähde
- erikoistunut
- erityinen
- puhe
- Puheentunnistus
- puheen tekstiksi
- splits
- puhuttu
- Askeleet
- Levytila
- verkkokaupasta
- tallennettu
- tallentamiseksi
- suora
- niin
- sviitti
- tuki
- Tukee
- järjestelmä
- TAG
- Räätälöity
- otettava
- taksonomia
- joukkue-
- sapluuna
- Testaus
- teksti
- että
- -
- heidän
- Niitä
- sitten
- Nämä
- ne
- ajattelee
- tätä
- uhat
- kynnys
- Kautta
- aikaavievä
- Titaani
- että
- tänään
- tokens
- perinteinen
- liikenne
- koulutus
- muuttamassa
- laukaista
- laukeaa
- liipaisu
- Luottamus
- paljastaa
- varten
- Ladataan
- käyttää
- käytetty
- käyttäjä
- Käyttäjät
- käyttötarkoituksiin
- käyttämällä
- arvokas
- eri
- tarkastaa
- RIKKOMINEN
- rikkomukset
- visio
- Ääni
- we
- verkko
- verkkopalvelut
- kun
- onko
- joka
- vaikka
- miksi
- wikipedia
- tulee
- with
- sisällä
- ilman
- sanoja
- työnkulku
- Voit
- Sinun
- zephyrnet