Hangos és szöveges csevegések mérséklése AWS AI-szolgáltatások és LLM-ek segítségével

Újra kiadta Platón

Követő: 0

Az online szerencsejáték- és közösségi közösségek hangos és szöveges csevegési funkciót kínálnak felhasználóik kommunikációjához. Bár a hangos és szöveges csevegés gyakran támogatja a barátságos viccelődést, olyan problémákhoz is vezethet, mint a gyűlöletbeszéd, az internetes zaklatás, a zaklatás és a csalások. Manapság sok vállalat kizárólag emberi moderátorokra hagyatkozik a mérgező tartalom felülvizsgálatában. A megsértések csevegésben történő ellenőrzése azonban időigényes, hibás, és nagy kihívást jelent.

Ebben a bejegyzésben olyan megoldásokat mutatunk be, amelyek lehetővé teszik az audio- és szöveges csevegés moderálását különféle AWS-szolgáltatások használatával, beleértve a Amazon átirat, Amazon Comprehend, Amazon alapkőzetés Amazon OpenSearch szolgáltatás.

A közösségi platformok olyan kész moderációs megoldást keresnek, amelyet egyszerű kezdeményezni, de testreszabást is igényelnek a különféle irányelvek kezeléséhez. A késleltetés és a költségek szintén kritikus tényezők, amelyeket figyelembe kell venni. A generatív mesterséges intelligencia segítségével nagy nyelvi modellekkel (LLM) végzett toxicitási osztályozás összehangolásával olyan megoldást kínálunk, amely egyensúlyban tartja az egyszerűséget, a késleltetést, a költségeket és a rugalmasságot, hogy megfeleljen a különféle követelményeknek.

A bejegyzés mintakódja itt érhető el GitHub tárház.

Audiocsevegés moderálási munkafolyamata

Az audiocsevegés-moderálási munkafolyamatot úgy indíthatja el, hogy a felhasználó bejelent más felhasználókat egy játékplatformon az irányelvek megsértése, például káromkodás, gyűlöletbeszéd vagy zaklatás miatt. Ez a hang moderálásának passzív megközelítését képviseli. A rendszer azonnali elemzés nélkül rögzít minden hangbeszélgetést. Amikor jelentés érkezik, a munkafolyamat lekéri a kapcsolódó hangfájlokat, és elindítja az elemzési folyamatot. Ezután egy emberi moderátor áttekinti a jelentett beszélgetést, és megvizsgálja annak tartalmát, hogy megállapítsa, sérti-e a platformszabályzatot.

Alternatív megoldásként a munkafolyamat proaktívan is elindítható. Például egy közösségi audio chatszobában a rendszer minden beszélgetést rögzíthet és elemzést alkalmazhat.

Mind a passzív, mind a proaktív megközelítések kiválthatják a következő folyamatot az audioelemzéshez.

A hangmoderálási munkafolyamat a következő lépéseket tartalmazza:

A munkafolyamat a hangfájl fogadásával és a a Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör az Amazon Transcribe eléréséhez.
Az Amazon Transcribe StartTranscriptionJob Az API meghívva ezzel Toxicitás kimutatása engedélyezve van. Az Amazon Transcribe a hangot szöveggé alakítja, és további információkat nyújt a toxicitáselemzésről. A toxikológiai elemzéssel kapcsolatos további információkért lásd: Jelölje meg a káros nyelvet a beszélt beszélgetésekben az Amazon Transcribe Toxicity Detection segítségével.
Ha a toxicitási elemzés egy bizonyos küszöbértéket (például 50%-ot) meghaladó toxicitási pontszámot ad vissza, használhatjuk Tudásbázisok az Amazon Bedrock számára hogy értékelje az üzenetet az LLM-eket használó testreszabott szabályzatokhoz képest.
Az emberi moderátor részletes hangmoderálási jelentést kap, amely kiemeli a mérgezőnek ítélt és az irányelveket sértő beszélgetési szegmenseket, így megalapozott döntést hozhat.

A következő képernyőképen egy minta alkalmazás látható, amely egy hangszegmens toxicitási elemzését mutatja. Tartalmazza az eredeti átírást, az Amazon Transcribe toxicitás-elemzés eredményeit, valamint az Amazon Bedrock tudásbázis segítségével az Amazon Bedrock Anthropic Claude V2 modelljén keresztül végzett elemzést.

Az LLM-elemzés szabálysértési eredményt ad (I vagy N), és elmagyarázza a modell irányelvsértésre vonatkozó döntésének indokait. Ezenkívül a tudásbázis tartalmazza az értékelés során felhasznált hivatkozott szakpolitikai dokumentumokat is, amelyek további kontextust biztosítanak a moderátoroknak.

Amazon átírási toxicitás észlelése

Az Amazon Transcribe egy automatikus beszédfelismerő (ASR) szolgáltatás, amely egyszerűvé teszi a fejlesztők számára, hogy beszéd-szövegké alakítási képességet adjanak alkalmazásaikhoz. A hangmoderálási munkafolyamat az Amazon Transcribe Toxicity Detection-t használja, amely egy gépi tanulás (ML) alapú képesség, amely hang- és szövegalapú jelzéseket használ a hangalapú mérgező tartalom azonosítására és osztályozására hét kategóriában, beleértve a szexuális zaklatást, gyűlöletbeszédet és fenyegetést. , visszaélések, káromkodások, sértések és durva nyelvezet. A szövegelemzésen túl a Toxicity Detection beszédjeleket, például hangokat és hangmagasságot használ a beszéd mérgező szándékának azonosítására.

A hangmoderálási munkafolyamat csak akkor aktiválja az LLM házirend-értékelését, ha a toxicitáselemzés túllép egy beállított küszöbértéket. Ez a megközelítés csökkenti a késleltetést és optimalizálja a költségeket az LLM-ek szelektív alkalmazásával, kiszűrve a forgalom jelentős részét.

Használja az LLM azonnali tervezést a testreszabott házirendek megvalósításához

Az Amazon Transcribe és az Amazon Comprehend előre betanított Toxicity Detection modelljei széles toxicitási taxonómiát biztosítanak, amelyet a közösségi platformok gyakran használnak a felhasználók által audio és szöveges formátumú tartalmak moderálására. Bár ezek az előre betanított modellek hatékonyan észlelik a problémákat alacsony késleltetés mellett, megoldásra lehet szüksége az adott vállalati vagy üzleti tartományi irányelvek megsértésének észleléséhez, amit az előre betanított modellek önmagukban nem tudnak elérni.

Ezen túlmenően a jogsértések észlelése a kontextuális beszélgetésekben, például az azonosítás gyermek szexuális ápolása A beszélgetésekhez olyan testreszabható megoldásra van szükség, amely magában foglalja a csevegési üzenetek és azon kívüli kontextus figyelembevételét, például a felhasználó életkorát, nemét és beszélgetési előzményeit. Ez az a hely, ahol az LLM-ek biztosítják a szükséges rugalmasságot e követelmények kiterjesztéséhez.

Az Amazon Bedrock egy teljesen felügyelt szolgáltatás, amely a vezető mesterséges intelligencia-cégek nagy teljesítményű alapozómodelljeiből (FM-ek) kínál választékot. Ezek a megoldások az Amazon Bedrock Anthropic Claude v2-jét használják a hangátiratok és a szöveges csevegőüzenetek moderálására egy rugalmas prompt sablon segítségével, amint azt a következő kód vázolja:

Human: You are a Trust & Safety expert. Your job is to review user chat message and decide if it violate the policy.
You will find the chat message in <message> tag, and find the policy in the <policy> tag. You can find additional rules in the <rule> tag to assist your decision. 

<policy>{policy}</policy>
<message>{message}</message>
<rule>{rule}</rule>

Does the chat message violate the policy? Please consider and provide your analysis in the <analysis> tag, breaking down each rule in the rule section, and keep and analysis within 100 words. Respond in the <answer> tag with either 'Y' or 'N'. 'Y' indicates that the message violates the policy, while 'N' means the content is safe and does not violate the policy. 

Assistant:

A sablon helyőrzőket tartalmaz a házirend leírásához, a csevegési üzenethez és további, moderálást igénylő szabályokhoz. Az Anthropic Claude V2 modell válaszokat ad az utasításoknak megfelelő formátumban (I vagy N), valamint egy elemzést, amely elmagyarázza, miért gondolja, hogy az üzenet sérti az irányelvet. Ez a megközelítés lehetővé teszi rugalmas moderálási kategóriák meghatározását és az irányelvek emberi nyelven történő megfogalmazását.

A házon belüli osztályozási modell betanításának hagyományos módszere olyan nehézkes folyamatokat foglal magában, mint például az adatok feljegyzése, képzése, tesztelése és modellbevezetése, amelyek adattudósok és ML mérnökök szakértelmét igénylik. Ezzel szemben az LLM-ek nagyfokú rugalmasságot kínálnak. Az üzleti felhasználók emberi nyelven módosíthatják a promptokat, ami növeli a hatékonyságot és csökkenti az iterációs ciklusokat az ML modell képzésében.

Amazon Bedrock tudásbázisok

Bár az azonnali tervezés hatékony a házirendek testreszabásához, a hosszadalmas házirendek és szabályok közvetlenül az egyes üzenetekhez tartozó LLM-kérdésekbe való beillesztése késleltetést és költségnövekedést okozhat. Ennek megoldására az Amazon Bedrock tudásbázisait használjuk felügyelt Retrieval Augmented Generation (RAG) rendszerként. Ez lehetővé teszi a házirend-dokumentum rugalmas kezelését, lehetővé téve a munkafolyamat számára, hogy minden egyes bemeneti üzenethez csak a vonatkozó irányelvszegmenseket kérje le. Ez minimalizálja az LLM-eknek elemzésre küldött tokenek számát.

Használhatja a AWS felügyeleti konzol a házirend-dokumentumok feltöltése egy S3 tárolóba, majd a dokumentumok vektoradatbázisba való indexelése a hatékony visszakeresés érdekében. A következő egy koncepcionális munkafolyamat, amelyet egy Amazon Bedrock tudásbázis kezel, amely lekéri az Amazon S3-ból dokumentumokat, darabokra bontja a szöveget, és meghívja a Amazon Bedrock Titan szövegbeágyazási modell a szövegdarabokat vektorokká alakítani, amelyeket aztán a vektoradatbázisban tárolnak.

Ebben a megoldásban használjuk Amazon OpenSearch szolgáltatás mint a vektortár. OpenSearch egy méretezhető, rugalmas és bővíthető nyílt forráskódú szoftvercsomag keresési, elemzési, biztonsági megfigyelési és megfigyelési alkalmazásokhoz, az Apache 2.0 licenc alatt. Az OpenSearch Service egy teljesen felügyelt szolgáltatás, amely egyszerűvé teszi az OpenSearch AWS felhőben történő telepítését, méretezését és működtetését.

Miután a dokumentumot indexelték az OpenSearch szolgáltatásban, a hang- és szövegmoderálási munkafolyamat csevegési üzeneteket küld, amelyek a következő lekérdezési folyamatot indítják el a testreszabott házirend-értékeléshez.

A folyamat hasonló az indítási munkafolyamathoz. Először a szöveges üzenetet szövegbeágyazásokká alakítják át az Amazon Bedrock Titan Text Embedding API segítségével. Ezeket a beágyazásokat azután a vektoros keresés az OpenSearch Service adatbázissal szemben, amelyet már feltöltöttek dokumentumbeágyazással. Az adatbázis a bemeneti szöveges üzenetre vonatkozó legmagasabb egyezési pontszámmal rendelkező házirend-darabokat adja vissza. Ezután promptokat állítunk össze, amelyek mind a bemeneti csevegési üzenetet, mind a házirend-szegmenst tartalmazzák, amelyeket kiértékelés céljából elküldünk az Anthropic Claude V2-nek. Az LLM modell a prompt utasítások alapján elemzési eredményt ad vissza.

Ha részletes útmutatást szeretne kapni arról, hogyan hozhat létre új példányt a házirend-dokumentummal az Amazon Bedrock tudásbázisában, tekintse meg a következőt: A Knowledge Bases mostantól teljes körűen felügyelt RAG-tapasztalatot biztosít az Amazon Bedrock területén.

Szöveges csevegés moderálási munkafolyamata

A szöveges csevegés moderálása a hangmoderáláshoz hasonló mintát követ, de az Amazon Comprehend toxicitáselemzést használja, amely szövegmoderálásra van szabva. A példaalkalmazás támogatja a tömeges szöveges fájlok CSV vagy TXT formátumú feltöltésének felületét, és egy üzenetes felületet biztosít a gyors teszteléshez. A következő diagram a munkafolyamatot mutatja be.

A szövegmoderálási munkafolyamat a következő lépéseket tartalmazza:

A felhasználó feltölt egy szöveges fájlt egy S3 vödörbe.
Az Amazon Comprehend toxicitáselemzést alkalmazza a szöveges üzenetre.
Ha a toxicitási elemzés egy bizonyos küszöbértéket (például 50%-ot) meghaladó toxicitási pontszámot ad vissza, akkor az Amazon Bedrock tudásbázisát használva értékeljük ki az üzenetet az Anthropic Claude V2 LLM segítségével, testreszabott irányelvek alapján.
Az irányelveket értékelő jelentést elküldik a humán moderátornak.

Amazon Comprehend toxicitási elemzés

A szövegmoderálási munkafolyamatban Amazon Comprehend toxicitáselemzést használunk a szöveges üzenetek toxicitási szintjének felmérésére. Az Amazon Comprehend egy természetes nyelvi feldolgozó (NLP) szolgáltatás, amely az ML segítségével értékes betekintést és összefüggéseket tár fel a szövegben. Az Amazon Comprehend toxicitás-észlelési API általános toxicitási pontszámot rendel a szöveges tartalomhoz, 0 és 1 között, jelezve annak valószínűségét, hogy mérgező. Ezenkívül a szöveget a következő kategóriákba sorolja, és mindegyikhez megbízhatósági pontszámot ad: hate_speech, grafika, harrassement_or_abuse, szexuális, violence_or_threat, sértés és káromkodás.

Ebben a szövegmoderálási munkafolyamatban az Amazon Comprehend toxicitáselemzése döntő szerepet játszik annak meghatározásában, hogy a bejövő szöveges üzenet tartalmaz-e mérgező tartalmat. A hangmoderálási munkafolyamathoz hasonlóan ez egy olyan feltételt tartalmaz, amely csak akkor aktiválja a downstream LLM-házirend-értékelést, ha a toxicitáselemzés egy előre meghatározott küszöbértéket meghaladó pontszámot ad vissza. Ez az optimalizálás segít csökkenteni a teljes késleltetést és az LLM elemzéssel kapcsolatos költségeket.

Összegzésként

Ebben a bejegyzésben megoldásokat mutattunk be az audio- és szöveges csevegés moderálására az AWS-szolgáltatások használatával, beleértve az Amazon Transcribe-t, az Amazon Comprehend-et, az Amazon Bedrock-ot és az OpenSearch Service-t. Ezek a megoldások előre betanított modelleket használnak a toxicitáselemzéshez, és generatív mesterséges intelligencia LLM-ekkel vannak összehangolva a pontosság, késleltetés és költség optimális egyensúlyának elérése érdekében. Arra is felhatalmazzák Önt, hogy rugalmasan határozza meg saját irányelveit.

A minta alkalmazást a következő utasítások követésével próbálhatja ki GitHub repo.

A szerzőről

Lana Zhang az AWS WWSO AI Services csapatának vezető megoldástervezője, a tartalom-moderálás, a számítógépes látás, a természetes nyelvi feldolgozás és a generatív mesterségesintelligencia AI-ra és ML-re szakosodott. Szakértelmével elkötelezte magát az AWS AI/ML megoldások népszerűsítésében és abban, hogy segítse ügyfeleit üzleti megoldásaik átalakításában a különböző iparágakban, beleértve a közösségi médiát, a játékokat, az e-kereskedelmet, a médiát, a reklámozást és a marketinget.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/moderate-audio-and-text-chats-using-aws-ai-services-and-llms/

Időbélyeg: Március 13, 2024

Időbélyeg: 7. március 2023.

Újra kiadta Platón

Intelligens keresés az Alfresco tartalomban az Amazon Kendra segítségével

Gyorsítsa fel az ML fejlesztést a SageMaker Feature Store és az Apache Iceberg offline bolttömörítés segítségével

A Meta Llama 3 modellek már elérhetőek az Amazon SageMaker JumpStart | Amazon webszolgáltatások

Tegye személyre keresési eredményeit az Amazon Personalize és az Amazon OpenSearch szolgáltatás integrációjával | Amazon webszolgáltatások

Engedélyezze az intelligens döntéshozatalt az Amazon SageMaker Canvas és az Amazon QuickSight segítségével

Teljesítményre vonatkozó ajánlások és keresés IMDb tudásgráf segítségével – 2. rész

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók