Content Moderation Design Patterns With AWS Managed AI Services

Ponovno objavil Platon

Spremljevalci: 0

Uporabniško ustvarjena vsebina (UGC) eksponentno raste, prav tako pa tudi zahteve in stroški za ohranjanje varnosti in skladnosti vsebine in spletnih skupnosti. Sodobne spletne in mobilne platforme spodbujajo podjetja in spodbujajo sodelovanje uporabnikov prek družabnih funkcij, od startupov do velikih organizacij. Člani spletne skupnosti pričakujejo varne in vključujoče izkušnje, kjer lahko prosto uporabljajo in prispevajo slike, videe, besedilo in zvok. Zaradi vedno večjega obsega, raznolikosti in kompleksnosti UGC je tradicionalne poteke dela za človeško moderiranje težko prilagoditi, da bi zaščitili uporabnike. Te omejitve silijo stranke v neučinkovite, drage in reaktivne procese ublažitve, ki nosijo nepotrebno tveganje za uporabnike in podjetje. Rezultat je slaba, škodljiva in nevključujoča izkušnja skupnosti, ki odvrača uporabnike, kar negativno vpliva na skupnost in poslovne cilje.

Rešitev so razširljivi poteki dela za moderiranje vsebine, ki temeljijo na tehnologijah umetne inteligence (AI), strojnega učenja (ML), globokega učenja (DL) in obdelave naravnega jezika (NLP). Ti konstrukti prevajajo, prepisujejo, prepoznavajo, zaznavajo, maskirajo, redigirajo in strateško vnašajo človeški talent v delovni tok moderiranja, da izvedejo dejanja, ki so potrebna za varnost in angažiranost uporabnikov, hkrati pa povečajo natančnost in učinkovitost postopka ter znižajo operativne stroške.

Ta objava prikazuje, kako zgraditi potek dela za moderiranje vsebine z uporabo storitev AI AWS. Če želite izvedeti več o poslovnih potrebah, vplivu in zmanjšanju stroškov, ki jih samodejno moderiranje vsebine prinaša v družbene medije, igre na srečo, e-trgovino in oglaševalsko industrijo, glejte Uporabite storitve AWS AI za avtomatizacijo moderiranja in skladnosti vsebine.

Pregled rešitev

Za izvajanje teh delovnih tokov ne potrebujete strokovnega znanja o ML in lahko te vzorce prilagodite svojim posebnim poslovnim potrebam! AWS zagotavlja te zmožnosti prek popolnoma upravljanih storitev, ki odpravljajo operativno zapletenost in nediferencirano dvigovanje težkih predmetov, in brez skupine za podatkovno znanost.

V tej objavi prikazujemo, kako učinkovito moderirati prostore, kjer stranke razpravljajo in ocenjujejo izdelke z uporabo besedila, zvoka, slik, videa in celo datotek PDF. Naslednji diagram ponazarja arhitekturo rešitve.

Predpogoji

Ti vzorci privzeto prikazujejo metodologijo brez strežnika, kjer plačate samo tisto, kar uporabite. Še naprej plačujete za računalniške vire, kot je npr AWS Fargate zabojniki in skladiščenje, kot npr Preprosta storitev shranjevanja Amazon (Amazon S3), dokler teh virov ne izbrišete. Obravnavane storitve umetne inteligence AWS prav tako sledijo modelu določanja cen porabe na operacijo.

Neprodukcijska okolja lahko testirajo vsakega od teh vzorcev znotraj brezplačne stopnje, ob predpostavki, da je vaš račun upravičen.

Zmerno golo besedilo

Najprej morate implementirati moderiranje vsebine za golo besedilo. Ta postopek služi kot osnova za bolj izpopolnjene vrste medijev in vključuje dva koraka na visoki ravni:

Prevedi besedilo.
Analizirajte besedilo.

Globalne stranke želijo sodelovati s socialnimi platformami v svojem maternem jeziku. Izpolnjevanje tega pričakovanja lahko dodatno zaplete, saj morajo oblikovalske ekipe sestaviti potek dela ali korake za vsak jezik. Namesto tega lahko uporabite Amazon prevod za pretvorbo besedila v več kot 70 jezikov in različic v več kot 15 regijah. Ta zmožnost vam omogoča, da napišete pravila analize za posamezen jezik in uporabite ta pravila v globalni spletni skupnosti.

Amazon Translate je nevronska strojna prevajalska storitev, ki zagotavlja hitro, visokokakovostno, cenovno dostopno in prilagodljivo jezikovno prevajanje. Lahko ga vključite v svoje poteke dela, da zaznate prevladujoči jezik in prevesti besedilo. Naslednji diagram prikazuje potek dela.

Stroj stanja za normalizacijo besedila

API-ji delujejo na naslednji način:

O DetectDominantLanguage API določa prevladujoči jezik vhodnega besedila. Za seznam jezikov, ki jih Amazon Comprehend lahko zazna, glejte Prevladujoči jezik.
O TranslateText API prevede vhodno besedilo iz izvornega jezika v ciljni jezik z možnostjo maskiranje kletvic. Za seznam razpoložljivih jezikov in jezikovnih kod glejte Podprti jeziki in jezikovne kode.
O StartExecution in StartSyncExecution API-ji zaženejo Korak funkcije AWS državni stroj.

Nato lahko uporabite NLP za odkrivanje povezav v besedilu, kot je odkrivanje ključnih besednih zvez, analiza razpoloženja in odkrivanje osebno določljivih informacij (PII). Amazonsko razumevanje API-ji izločijo te dragocene vpoglede in jih posredujejo obdelovalcem funkcij po meri.

Zagon teh upravljavcev notri AWS Lambda funkcije elastično prilagaja vašo kodo, ne da bi razmišljali o strežnikih ali gručah. Lahko pa obdelate vpoglede iz storitve Amazon Comprehend z vzorci arhitekture mikrostoritev. Ne glede na čas izvajanja se vaša koda osredotoča na uporabo rezultatov in ne na razčlenjevanje besedila.

Naslednji diagram prikazuje potek dela.

Državni stroj za moderiranje besedila

Lambda funkcije delujejo z naslednjimi API-ji:

O DetectEntities API odkriva in združuje imena predmetov iz resničnega sveta, kot so ljudje in kraji v besedilu. Uporabite lahko besedišče po meri, da popravite neustrezne in poslovno specifične vrste entitet.
O DetectSentiment API prepozna celotno razpoloženje besedila kot pozitivno, negativno ali nevtralno. Klasifikatorje po meri lahko usposobite za prepoznavanje zanimivih situacij, specifičnih za panogo, in izluščite konceptualni pomen besedila.
O DetectPIIEntities API prepozna PID v vašem besedilu, kot je naslov, številka bančnega računa ali telefonska številka. Izhod vsebuje vrsto subjekta PII in njegovo ustrezno lokacijo.

Zmerne zvočne datoteke

Če želite moderirati zvočne datoteke, morate datoteko prepisati v besedilo in jo nato analizirati. Ta postopek ima dve različici, odvisno od tega, ali obdelujete posamezne datoteke (sinhrono) ali zvočne tokove v živo (asinhrono). Sinhroni delovni tokovi so idealni za paketno obdelavo, pri čemer klicatelj prejme en popoln odgovor. Nasprotno pa zvočni tokovi zahtevajo periodično vzorčenje z več rezultati prepisa.

Amazonski prepis je storitev samodejnega prepoznavanja govora, ki uporablja modele ML za pretvorbo zvoka v besedilo. Lahko ga integrirate v sinhrone poteke dela z začetek dela prepisa in občasno poizvedovanje o statusu delovnega mesta. Ko je opravilo končano, lahko analizirate rezultat s potekom dela za moderiranje navadnega besedila iz prejšnjega koraka.

Naslednji diagram prikazuje potek dela.

Stalni stroj za prepisovanje zvočnih datotek

API-ji delujejo na naslednji način:

O StartTranscriptionJob API zažene asinhrono opravilo za prepis govora v besedilo.
O GetTranscriptionJob API vrne informacije o opravilu prepisa. Za ogled statusa opravila preverite TranscriptionJobStatus polje. Če je statusna lastnost COMPLETED, rezultate najdete na lokaciji, navedeni v TranscriptFileUri polje. Če omogočite urejanje vsebine, se redigirani prepis prikaže v RedactedTranscriptFileUri.

Zvočni tokovi v živo potrebujejo drugačen vzorec, ki podpira model dostave v realnem času. Pretakanje lahko vključuje vnaprej posnete medije, kot so filmi, glasba in poddaje, ter medije v realnem času, kot so oddaje novic v živo. Zvočne dele lahko prepišete takoj z uporabo Pretakanje Amazon Transscribe prek protokolov HTTP/2 in WebSockets. Ko objavite del v storitvi, prejmete enega ali več predmeti rezultata prepisa opisovanje delnih in popolnih transkripcijskih segmentov. Segmenti, ki zahtevajo moderiranje, lahko znova uporabijo potek dela z navadnim besedilom iz prejšnjega razdelka. Naslednji diagram prikazuje ta postopek.

Diagram poteka za moderiranje zvočnih tokov v realnem času

O StartStreamingTranscription API zažene dvosmerni tok HTTP/2, kjer se zvok pretaka v Amazon Transcribe in pretaka rezultate prepisa v vašo aplikacijo.

Zmerne slike in fotografije

Moderiranje slik zahteva odkrivanje neprimerne, neželene ali žaljive vsebine, ki vsebuje goloto, sugestivnost, nasilje in druge kategorije iz vsebine slik in fotografij.

Amazonsko ponovno vžiganje vam omogoča, da poenostavite ali avtomatizirate svoje poteke dela za moderiranje slik in videoposnetkov, ne da bi potrebovali strokovno znanje o ML. Amazon Rekognition vrne hierarhično taksonomijo oznak, povezanih z moderiranjem. Te informacije olajšajo definiranje podrobnih poslovnih pravil glede na vaše standarde in prakse, varnost uporabnikov in smernice za skladnost. Za uporabo teh zmogljivosti niso potrebne izkušnje z ML. Amazon Rekognition lahko zazna in prebere besedilo na sliki ter vrne omejevalne okvirje za vsako najdeno besedo. Amazon Rekognition podpira zaznavanje besedila, napisanega v angleščini, arabščini, ruščini, nemščini, francoščini, italijanščini, portugalščini in španščini!

Strojna predvidevanja lahko uporabite za popolno avtomatizacijo določenih nalog moderiranja. Ta zmožnost omogoča človeškim moderatorjem, da se osredotočijo na delo višjega reda. Poleg tega lahko Amazon Rekognition hitro pregleda milijone slik ali tisoče videoposnetkov z uporabo ML in označi podnabor sredstev, ki zahtevajo nadaljnje ukrepanje. Vnaprejšnje filtriranje pomaga zagotoviti celovito, a stroškovno učinkovito moderiranje, hkrati pa zmanjša količino vsebine, ki jo moderirajo človeške ekipe.

Naslednji diagram prikazuje potek dela.

Državni stroj za moderiranje slik

API-ji delujejo na naslednji način:

O DetectModerationLabels API zazna nevarno vsebino v določenih slikah v formatu JPEG ali PNG. Uporabite DetectModerationLabels za moderiranje slik glede na vaše zahteve. Morda boste na primer želeli filtrirati slike, ki vsebujejo goloto, ne pa slik, ki vsebujejo sugestivno vsebino.
O DetectText API zazna besedilo v vhodni sliki in ga pretvori v strojno berljivo besedilo.

Zmerno obogateni dokumenti

Nato lahko uporabite Amazonovo besedilo za ekstrahiranje ročno napisanega besedila in podatkov iz skeniranih dokumentov. Ta proces se začne s priklicem StartDocumentAnalysis dejanje za razčlenjevanje datotek Microsoft Word in Adobe PDF. Napredek dela lahko spremljate z GetDocumentAnalysis ukrepanje.

Rezultat analize določa vsako nepokrito stran, odstavek, tabelo in par ključ-vrednost v dokumentu. Na primer, predpostavimo, da mora ponudnik zdravstvenih storitev prikriti imena pacientov samo v polju za opis zahtevka. V tem primeru lahko poročilo o analizi deluje inteligentni cevovodi za obdelavo dokumentov ki moderirajo in redigirajo specifično podatkovno polje. Naslednji diagram prikazuje cevovod.

Državni stroj za moderiranje dokumentov z obogatenim besedilom

API-ji delujejo na naslednji način:

O StartDocumentAnalysis API zažene asinhrono analizo vhodnega dokumenta za razmerja med zaznanimi elementi, kot so pari ključ-vrednost, tabele in izbirni elementi
O GetDocumentAnalysis API dobi rezultate za asinhrono operacijo Amazon Texttract, ki analizira besedilo v dokumentu

Zmerni videoposnetki

Standardni pristop k moderiranju video vsebin je s postopkom vzorčenja okvirjev. V številnih primerih uporabe ni treba preverjati vsakega okvirja in zadostuje, da ga izberete vsakih 15–30 sekund. Vzorčeni video okvirji lahko znova uporabijo stanje stroj za moderiranje slik iz prejšnjega razdelka. Podobno lahko obstoječi postopek moderiranja zvoka podpira zvočno vsebino datoteke. Naslednji diagram ponazarja ta potek dela.

Stanje stroj za moderiranje video datotek

O sklicujejo API izvaja funkcijo Lambda in sinhrono čaka na odgovor.

Recimo, da je medijska datoteka celoten film z več prizori. V tem primeru lahko uporabite Amazon Rekognition Segment API, sestavljen API za zaznavanje tehničnih znakov ali zaznavanje strelov. Nato lahko uporabite te časovne zamike za vzporedno obdelavo vsakega segmenta s prejšnjim vzorcem moderiranja videa, kot je prikazano v naslednjem diagramu.

Državni stroj za moderiranje dokumentov z obogatenim besedilom

API-ji delujejo na naslednji način:

O StartSegmentationDetection API zažene asinhrono zaznavanje zaznavanja segmentov v shranjenem videu
O GetSegmentationDetection API dobi rezultate zaznavanja segmentov analize Amazon Rekognition Video, ki jo je začel API StartSegmentDetection

Za ekstrahiranje posameznih sličic iz filma ni treba večkrat pridobiti predmeta iz Amazona S3. Naivna rešitev vključuje branje videa v spomin in paginiranje do konca. Ta vzorec je idealen za kratke posnetke in kjer ocene niso časovno občutljive.

Druga strategija vključuje premikanje datoteke enkrat v Elastični datotečni sistem Amazon (Amazon EFS), popolnoma upravljan, razširljiv, skupni datotečni sistem za druge storitve AWS, kot je Lambda. z Amazon EFS za Lambda, lahko podatke učinkovito porazdelite med klice funkcij. Vsak priklic učinkovito obravnava majhen kos, s čimer sprosti potencial za množično vzporedno obdelavo in hitrejše čase obdelave.

Čiščenje

Ko preizkusite metode v tej objavi, morate izbrisati vso vsebino v vedrih S3, da se izognete prihodnjim stroškom. Če ste implementirali te vzorce s predvidenimi računalniškimi viri, kot je Amazonski elastični računalniški oblak (Amazon EC2) oz Amazonska storitev za kontejnerje z elastiko (Amazon ECS), morate ustaviti te primere, da se izognete nadaljnjim bremenitvam.

zaključek

Vsebina, ki jo ustvarijo uporabniki, in njena vrednost za organizacije iger, družbenih medijev, e-trgovine ter finančnih in zdravstvenih storitev bo še naprej rasla. Kljub temu morajo startupi in velike organizacije ustvariti učinkovite postopke moderiranja, da zaščitijo uporabnike, informacije in podjetje ter hkrati znižajo operativne stroške. Ta rešitev prikazuje, kako vam lahko tehnologije AI, ML in NLP učinkovito pomagajo moderirati vsebino v velikem obsegu. Storitve umetne inteligence AWS lahko prilagodite svojim potrebam po moderiranju! Te popolnoma upravljane zmogljivosti odpravljajo operativne kompleksnosti. Ta prilagodljivost strateško vključuje kontekstualne vpoglede in človeški talent v vaše procese moderiranja.

Za dodatne informacije, vire in za brezplačen začetek obiščite Domača stran za moderiranje vsebine AWS.

O avtorjih

Nate Bachmeier je višji arhitekt rešitev AWS, ki nomadsko raziskuje New York, eno integracijo v oblak naenkrat. Specializiran je za selitev in posodobitev aplikacij. Poleg tega je Nate redni študent in ima dva otroka.

Ram Pathangi je arhitekt rešitev pri Amazon Web Services na območju zaliva San Francisco. Pomagal je strankam v kmetijstvu, zavarovalništvu, bančništvu, maloprodaji, zdravstvu in znanosti o življenju, gostinstvu in visokotehnoloških vertikalah pri uspešnem vodenju podjetij v oblaku AWS. Specializiran je za baze podatkov, analitiko in strojno učenje.

Roop Bains je arhitekt rešitev pri AWS, ki se osredotoča na AI/ML. Strastno želi pomagati strankam pri inovacijah in doseganju njihovih poslovnih ciljev z uporabo umetne inteligence in strojnega učenja. V prostem času Roop uživa v branju in pohodništvu.

Časovni žig: Maj 9, 2022

Časovni žig: Julij 25, 2023

Ponovno objavil Platon

Omogočite inteligentno odločanje z Amazon SageMaker Canvas in Amazon QuickSight

Integrirajte ServiceNow s klepetalnim botom Amazon Lex za obdelavo vstopnic

Izboljšajte sklepanje z več skoki v LLM z učenjem iz bogatih človeških povratnih informacij

Razmestite BLOOM-176B in OPT-30B na Amazon SageMaker z velikimi vsebniki za globoko učenje in DeepSpeed inference

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun