Hallitse ääni- ja tekstikeskusteluja AWS AI -palveluiden ja LLM:ien avulla

Julkaissut Platon

seuraajia: 0

Online-peli- ja sosiaaliset yhteisöt tarjoavat käyttäjilleen ääni- ja tekstichat-toiminnot. Vaikka ääni- ja tekstikeskustelut tukevat usein ystävällistä pilaa, se voi myös johtaa ongelmiin, kuten vihapuheen, verkkokiusaamiseen, häirintään ja huijauksiin. Nykyään monet yritykset luottavat pelkästään ihmisten valvojiin arvioidakseen myrkyllistä sisältöä. Rikkomusten tarkistaminen chatissa on kuitenkin aikaa vievää, virhealtista ja haastavaa skaalautua.

Tässä viestissä esittelemme ratkaisuja, jotka mahdollistavat ääni- ja tekstikeskustelun moderoinnin käyttämällä erilaisia AWS-palveluita, mukaan lukien Amazonin transkriptio, Amazonin käsitys, Amazonin kallioperäja Amazon OpenSearch-palvelu.

Sosiaaliset alustat etsivät valmiita moderointiratkaisuja, jotka on helppo käynnistää, mutta ne edellyttävät myös räätälöintiä erilaisten käytäntöjen hallintaan. Latenssi ja hinta ovat myös tärkeitä tekijöitä, jotka on otettava huomioon. Järjestämällä myrkyllisyysluokituksen suurilla kielimalleilla (LLM) käyttämällä generatiivista tekoälyä tarjoamme ratkaisun, joka tasapainottaa yksinkertaisuuden, viiveen, kustannusten ja joustavuuden eri vaatimusten täyttämiseksi.

Tämän viestin mallikoodi on saatavilla osoitteessa GitHub-arkisto.

Äänikeskustelun moderoinnin työnkulku

Äänikeskustelun moderoinnin työnkulun voi käynnistää käyttäjä, joka ilmoittaa muista käyttäjistä pelialustalla käytäntörikkomuksista, kuten kiroilusta, vihapuheesta tai häirinnästä. Tämä edustaa passiivista lähestymistapaa äänen moderointiin. Järjestelmä tallentaa kaikki äänikeskustelut ilman välitöntä analysointia. Kun raportti vastaanotetaan, työnkulku hakee liittyvät äänitiedostot ja käynnistää analysointiprosessin. Ihmismoderaattori tarkistaa sitten raportoidun keskustelun ja tutkii sen sisällön määrittääkseen, rikkooko se alustakäytäntöä.

Vaihtoehtoisesti työnkulku voidaan käynnistää ennakoivasti. Esimerkiksi sosiaalisessa äänichat-huoneessa järjestelmä voisi tallentaa kaikki keskustelut ja soveltaa analyyseja.

Sekä passiiviset että ennakoivat lähestymistavat voivat laukaista seuraavan äänianalyysin putken.

Äänen moderoinnin työnkulku sisältää seuraavat vaiheet:

Työnkulku alkaa äänitiedoston vastaanottamisesta ja tallentamisesta a Amazonin yksinkertainen tallennuspalvelu (Amazon S3) -ämpäri Amazon Transcriben käyttöön.
Amazonin transkriptio StartTranscriptionJob API kutsutaan kanssa Myrkyllisyyden havaitseminen käytössä. Amazon Transcribe muuntaa äänen tekstiksi ja tarjoaa lisätietoja myrkyllisyysanalyysistä. Lisätietoja myrkyllisyysanalyysistä on kohdassa Merkitse haitallinen kieli puhekeskusteluissa Amazon Transcribe Toxicity Detectionin avulla.
Jos myrkyllisyysanalyysi palauttaa myrkyllisyyspistemäärän, joka ylittää tietyn kynnyksen (esimerkiksi 50 %), voimme käyttää Amazon Bedrockin tietokannat arvioida viestiä räätälöityihin käytäntöihin LLM:ien avulla.
Ihmismoderaattori saa yksityiskohtaisen äänen moderointiraportin, jossa korostetaan myrkyllisiksi katsotut ja käytäntöjen vastaiset keskustelusegmentit, minkä ansiosta he voivat tehdä tietoisen päätöksen.

Seuraavassa kuvakaappauksessa näkyy esimerkkisovellus, joka näyttää äänisegmentin myrkyllisyysanalyysin. Se sisältää alkuperäisen transkription, Amazon Transcriben myrkyllisyysanalyysin tulokset ja Amazon Bedrockin tietokannan avulla Amazon Bedrock Anthropic Claude V2 -mallin kautta suoritetun analyysin.

LLM-analyysi tarjoaa rikkomustuloksen (K tai N) ja selittää mallin sääntörikkomuspäätöksen taustalla olevat syyt. Lisäksi tietokanta sisältää arvioinnissa käytetyt politiikka-asiakirjat, jotka tarjoavat moderaattoreille lisäkontekstia.

Amazon Transcribe Toxicity Detection

Amazon Transcribe on automaattinen puheentunnistuspalvelu (ASR), jonka avulla kehittäjät voivat helposti lisätä sovelluksiinsa puheen tekstiksi -ominaisuuden. Äänen moderoinnin työnkulku käyttää Amazon Transcribe Toxicity Detectionia, joka on koneoppimiseen (ML) perustuva ominaisuus, joka käyttää ääni- ja tekstipohjaisia vihjeitä äänipohjaisen myrkyllisen sisällön tunnistamiseen ja luokitteluun seitsemään kategoriaan, mukaan lukien seksuaalinen häirintä, vihapuhe ja uhkaukset. , väärinkäyttö, kiroilu, loukkaukset ja graafinen kielenkäyttö. Tekstin analysoinnin lisäksi myrkyllisyyden havaitseminen käyttää puheen vihjeitä, kuten ääniä ja äänenkorkeutta, tunnistaakseen myrkyllisen tarkoituksen puheessa.

Äänen moderoinnin työnkulku aktivoi LLM:n käytäntöarvioinnin vain, kun myrkyllisyysanalyysi ylittää asetetun kynnyksen. Tämä lähestymistapa vähentää viivettä ja optimoi kustannukset käyttämällä valikoivasti LLM:itä, suodattaen pois merkittävän osan liikenteestä.

Käytä LLM:n nopeaa suunnittelua mukautettujen käytäntöjen mukauttamiseksi

Amazon Transcriben ja Amazon Comprehendin esiopetetut myrkyllisyyden havaitsemismallit tarjoavat laajan myrkyllisyyden taksonomian, jota sosiaaliset alustat käyttävät yleisesti käyttäjien luoman sisällön valvomiseen ääni- ja tekstimuodoissa. Vaikka nämä esikoulutetut mallit havaitsevat tehokkaasti ongelmat alhaisella viiveellä, saatat tarvita ratkaisun havaitaksesi rikkomukset yrityksesi tai toimialueesi käytäntöihin, joita esikoulutetut mallit eivät yksin pysty saavuttamaan.

Lisäksi rikkomusten havaitseminen kontekstuaalisissa keskusteluissa, kuten tunnistaminen lasten seksuaalista hoitoa keskusteluihin, vaatii muokattavissa olevan ratkaisun, jossa otetaan huomioon chat-viestit ja sen ulkopuolinen konteksti, kuten käyttäjän ikä, sukupuoli ja keskusteluhistoria. Tässä LLM:t voivat tarjota joustavuutta, jota tarvitaan näiden vaatimusten laajentamiseen.

Amazon Bedrock on täysin hallittu palvelu, joka tarjoaa valikoiman korkean suorituskyvyn perustusmalleja (FM) johtavilta tekoälyyrityksiltä. Nämä ratkaisut käyttävät Amazon Bedrockin Anthropic Claude v2:ta äänen transkriptioiden ja tekstiviestien käsittelyyn joustavan kehotemallin avulla, kuten seuraavassa koodissa on kuvattu:

Human: You are a Trust & Safety expert. Your job is to review user chat message and decide if it violate the policy.
You will find the chat message in <message> tag, and find the policy in the <policy> tag. You can find additional rules in the <rule> tag to assist your decision. 

<policy>{policy}</policy>
<message>{message}</message>
<rule>{rule}</rule>

Does the chat message violate the policy? Please consider and provide your analysis in the <analysis> tag, breaking down each rule in the rule section, and keep and analysis within 100 words. Respond in the <answer> tag with either 'Y' or 'N'. 'Y' indicates that the message violates the policy, while 'N' means the content is safe and does not violate the policy. 

Assistant:

Malli sisältää paikkamerkit käytäntökuvaukselle, chat-viestille ja lisäsäännöille, jotka edellyttävät valvontaa. Anthropic Claude V2 -malli toimittaa vastaukset ohjeissa annetussa muodossa (Y tai N) sekä analyysin, joka selittää, miksi se uskoo viestin rikkovan käytäntöä. Tämän lähestymistavan avulla voit määrittää joustavia moderointiluokkia ja ilmaista käytäntösi ihmiskielellä.

Perinteinen menetelmä talon sisäisen luokitusmallin kouluttamiseen sisältää hankalia prosesseja, kuten tietojen merkitsemistä, koulutusta, testausta ja mallin käyttöönottoa, mikä edellyttää datatieteilijöiden ja ML-insinöörien asiantuntemusta. LLM:t sen sijaan tarjoavat suuren joustavuuden. Yrityskäyttäjät voivat muokata kehotteita ihmiskielellä, mikä parantaa tehokkuutta ja vähentää iteraatiosyklejä ML-mallikoulutuksessa.

Amazon Bedrock -tietokannat

Vaikka nopea suunnittelu on tehokasta käytäntöjen mukauttamisessa, pitkien käytäntöjen ja sääntöjen lisääminen suoraan kunkin viestin LLM-kehotteisiin voi aiheuttaa viivettä ja lisätä kustannuksia. Tämän ratkaisemiseksi käytämme Amazon Bedrock -tietokantoja hallittavana RAG (Retrieval Augmented Generation) -järjestelmänä. Näin voit hallita käytäntöasiakirjaa joustavasti, jolloin työnkulku voi noutaa vain asianmukaiset käytäntösegmentit kullekin syöttöviestille. Tämä minimoi LLM:ille analysoitavaksi lähetettävien tokenien määrän.

Voit käyttää AWS-hallintakonsoli Lataa käytäntöasiakirjat S3-säilöyn ja indeksoi sitten asiakirjat vektoritietokantaan tehokkaan noudon varmistamiseksi. Seuraava on Amazon Bedrock -tietokannan hallinnoima käsitteellinen työnkulku, joka hakee asiakirjoja Amazon S3:sta, jakaa tekstin osiin ja kutsuu Amazon Bedrock Titan -tekstin upotusmalli muuntaa tekstipalat vektoreiksi, jotka sitten tallennetaan vektoritietokantaan.

Tässä ratkaisussa käytämme Amazon OpenSearch-palvelu vektorivarastona. opensearch on skaalautuva, joustava ja laajennettava avoimen lähdekoodin ohjelmistopaketti haku-, analytiikka-, tietoturvan seuranta- ja havainnointisovelluksiin, lisensoitu Apache 2.0 -lisenssillä. OpenSearch Service on täysin hallittu palvelu, jonka avulla OpenSearchin käyttöönotto, skaalaaminen ja käyttö AWS-pilvessä on helppoa.

Kun asiakirja on indeksoitu OpenSearch-palvelussa, äänen ja tekstin moderointityönkulku lähettää chat-viestejä, jotka käynnistävät seuraavan kyselyn kulun mukautettua käytännön arviointia varten.

Prosessi on samanlainen kuin aloitustyönkulku. Ensin tekstiviesti muunnetaan tekstiupotuksiksi Amazon Bedrock Titan Text Embedding API:n avulla. Näitä upotuksia käytetään sitten suorittamaan a vektorihaku OpenSearch Service -tietokantaa vastaan, joka on jo täytetty dokumenttien upotuksilla. Tietokanta palauttaa käytäntöpalat, joilla on korkein vastaavuuspiste, jotka liittyvät syöttötekstiviestiin. Laadimme sitten kehotteet, jotka sisältävät sekä syötetyn chat-viestin että käytäntösegmentin, ja ne lähetetään Anthropic Claude V2:lle arvioitavaksi. LLM-malli palauttaa analyysituloksen kehoteohjeiden perusteella.

Katso yksityiskohtaiset ohjeet uuden ilmentymän luomisesta käytäntöasiakirjallasi Amazon Bedrock -tietokannassa Knowledge Bases tarjoaa nyt täysin hallitun RAG-kokemuksen Amazon Bedrockissa.

Tekstikeskustelun moderoinnin työnkulku

Tekstikeskustelun moderoinnin työnkulku noudattaa samanlaista kaavaa kuin äänen moderointi, mutta se käyttää Amazon Comprehend -toksisuusanalyysiä, joka on räätälöity tekstin moderointiin. Esimerkkisovellus tukee käyttöliittymää joukkotekstitiedostojen lähettämiseen CSV- tai TXT-muodossa ja tarjoaa yhden viestin käyttöliittymän nopeaa testausta varten. Seuraava kaavio havainnollistaa työnkulkua.

Tekstin moderoinnin työnkulku sisältää seuraavat vaiheet:

Käyttäjä lataa tekstitiedoston S3-ämpäriin.
Tekstiviestiin sovelletaan Amazon Comprehend -toksisuusanalyysiä.
Jos myrkyllisyysanalyysi palauttaa myrkyllisyyspistemäärän, joka ylittää tietyn kynnyksen (esimerkiksi 50 %), käytämme Amazon Bedrock -tietokantaa arvioidaksemme viestin mukautettuja käytäntöjä käyttäen Anthropic Claude V2 LLM:n avulla.
Politiikan arviointiraportti lähetetään ihmismoderaattorille.

Amazon Comprehend myrkyllisyysanalyysi

Tekstin moderointityönkulussa käytämme Amazon Comprehend -toksisuusanalyysiä arvioidaksemme tekstiviestien myrkyllisyystasoa. Amazon Comprehend on luonnollisen kielen käsittelypalvelu (NLP), joka käyttää ML:ää löytääkseen arvokkaita oivalluksia ja yhteyksiä tekstistä. Amazon Comprehend toxicity detection API antaa tekstisisällölle yleisen myrkyllisyyspisteen, joka vaihtelee välillä 0–1, mikä osoittaa sen myrkyllisyyden todennäköisyyden. Se myös luokittelee tekstin seuraaviin luokkiin ja antaa jokaiselle luotettavuuspisteen: hate_speech, grafiikka, harrassement_or_abuse, seksuaalinen, violence_or_threat, loukkaus ja kirous.

Tässä tekstinvalvontatyönkulussa Amazon Comprehend -myrkyllisyysanalyysillä on ratkaiseva rooli sen tunnistamisessa, sisältääkö saapuva tekstiviesti myrkyllistä sisältöä. Samoin kuin äänen moderoinnin työnkulku, se sisältää ehdon aktivoida loppupään LLM-politiikan arviointi vain, kun myrkyllisyysanalyysi palauttaa pisteet, jotka ylittävät ennalta määritetyn kynnyksen. Tämä optimointi auttaa vähentämään kokonaisviivettä ja LLM-analyysiin liittyviä kustannuksia.

Yhteenveto

Tässä viestissä esittelimme ratkaisuja ääni- ja tekstikeskustelun moderointiin AWS-palveluilla, mukaan lukien Amazon Transcribe, Amazon Comprehend, Amazon Bedrock ja OpenSearch Service. Nämä ratkaisut käyttävät esikoulutettuja malleja myrkyllisyysanalyysiin, ja ne on ohjattu generatiivisten AI LLM:ien kanssa optimaalisen tasapainon saavuttamiseksi tarkkuuden, latenssin ja kustannusten suhteen. Ne myös antavat sinulle mahdollisuuden määritellä joustavasti omat politiikkasi.

Voit kokea mallisovelluksen noudattamalla ohjeita GitHub repo.

Kirjailijasta

Lana Zhang on AWS WWSO AI Services -tiimin vanhempi ratkaisuarkkitehti, joka on erikoistunut tekoälyyn ja ML:ään sisällön moderointiin, tietokonenäköön, luonnollisen kielen käsittelyyn ja generatiiviseen tekoälyyn. Asiantuntijuudellaan hän on omistautunut edistämään AWS AI/ML -ratkaisuja ja auttamaan asiakkaita muuttamaan liiketoimintaratkaisujaan eri toimialoilla, mukaan lukien sosiaalinen media, pelit, sähköinen kaupankäynti, media, mainonta ja markkinointi.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/moderate-audio-and-text-chats-using-aws-ai-services-and-llms/

Aikaleima: Maaliskuussa 13, 2024

Aikaleima: Lokakuu 19, 2023

Julkaissut Platon

University of San Francisco Data Science Conference 2023 Datathon yhteistyössä AWS:n ja Amazon SageMaker Studio Labin kanssa | Amazon Web Services

Paranna mallikoulutuksesi hintatehokkuutta käyttämällä Amazon SageMakerin heterogeenisia klustereita

Luo rokotusten vahvistusratkaisu Amazon Textract |:n Queries-ominaisuuden avulla Amazon Web Services

Skaalaa koulutus ja päättele tuhansia ML-malleja Amazon SageMakerin avulla Amazon Web Services

PGA TOURin generatiivisen AI-virtuaaliassistentin matka konseptista kehitykseen prototyyppiin | Amazon Web Services

Kuinka Mantium saavuttaa matalan latenssin GPT-J-päätelmän DeepSpeedillä Amazon SageMakerissa

Amazon Rekognition esittelee Streaming Video Events -toiminnon tarjotakseen reaaliaikaisia hälytyksiä suorista videostriimista

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili