Innholdsmoderering designmønstre med AWS Managed AI Services

Publisert av Platon

Følgere: 0

Brukergenerert innhold (UGC) vokser eksponentielt, så vel som kravene og kostnadene for å holde innhold og nettsamfunn trygge og kompatible. Moderne nett- og mobilplattformer gir energi til bedrifter og driver brukerengasjement gjennom sosiale funksjoner, fra oppstart til store organisasjoner. Medlemmer av nettsamfunnet forventer trygge og inkluderende opplevelser der de fritt kan konsumere og bidra med bilder, videoer, tekst og lyd. Det stadig økende volumet, variasjonen og kompleksiteten til UGC gjør tradisjonelle arbeidsflyter for menneskelig moderering utfordrende å skalere for å beskytte brukere. Disse begrensningene tvinger kunder inn i ineffektive, dyre og reaktive avbøtende prosesser som innebærer en unødvendig risiko for brukere og virksomheten. Resultatet er en dårlig, skadelig og ikke-inkluderende fellesskapsopplevelse som frakobler brukere, og påvirker fellesskapet og forretningsmålene negativt.

Løsningen er skalerbare arbeidsflyter for innholdsmoderering som er avhengige av kunstig intelligens (AI), maskinlæring (ML), dyp læring (DL) og naturlig språkbehandling (NLP) teknologier. Disse konstruksjonene oversetter, transkriberer, gjenkjenner, oppdager, maskerer, redigerer og bringer menneskelig talent inn i arbeidsflyten for moderering, for å utføre handlingene som trengs for å holde brukere trygge og engasjerte, samtidig som nøyaktigheten og prosesseffektiviteten økes, og driftskostnadene reduseres.

Dette innlegget vurderer hvordan du bygger arbeidsflyter for innholdsmoderering ved å bruke AWS AI-tjenester. For å lære mer om forretningsbehov, innvirkning og kostnadsreduksjoner som automatisert innholdsmoderering fører til sosiale medier, spill, e-handel og reklameindustri, se Bruk AWS AI-tjenester for å automatisere innholdsmoderering og overholdelse.

Løsningsoversikt

Du trenger ikke ekspertise i ML for å implementere disse arbeidsflytene og kan skreddersy disse mønstrene til dine spesifikke forretningsbehov! AWS leverer disse egenskapene gjennom fullt administrerte tjenester som fjerner operasjonell kompleksitet og udifferensierte tunge løft, og uten et datavitenskapsteam.

I dette innlegget viser vi hvordan du effektivt kan moderere områder der kunder diskuterer og anmelder produkter ved hjelp av tekst, lyd, bilder, video og til og med PDF-filer. Følgende diagram illustrerer løsningsarkitekturen.

Forutsetninger

Som standard demonstrerer disse mønstrene en serverløs metodikk, der du kun betaler for det du bruker. Du fortsetter å betale for dataressursene, som f.eks AWS Fargate beholdere, og lagring, som f.eks Amazon enkel lagringstjeneste (Amazon S3), til du sletter disse ressursene. De omtalte AWS AI-tjenestene følger også en prismodell for forbruk per operasjon.

Ikke-produksjonsmiljøer kan teste hvert av disse mønstrene innenfor Free Tier, forutsatt at kontoen din er kvalifisert.

Moderat ren tekst

Først må du implementere innholdsmoderering for ren tekst. Denne prosedyren fungerer som grunnlaget for mer sofistikerte medietyper og innebærer to trinn på høyt nivå:

Oversett teksten.
Analyser teksten.

Globale kunder ønsker å samarbeide med sosiale plattformer på sitt morsmål. Å oppfylle denne forventningen kan legge til kompleksitet fordi designteam må konstruere en arbeidsflyt eller trinn for hvert språk. I stedet kan du bruke Amazon Oversett å konvertere tekst til over 70 språk og varianter i over 15 regioner. Denne funksjonen lar deg skrive analyseregler for ett enkelt språk og bruke disse reglene på tvers av det globale nettsamfunnet.

Amazon Translate er en nevrale maskinoversettelsestjeneste som leverer rask, høykvalitets, rimelig og tilpassbar språkoversettelse. Du kan integrere det i arbeidsflytene dine for å oppdage det dominerende språket og oversette teksten. Følgende diagram illustrerer arbeidsflyten.

Statsmaskin for normalisering av tekst

API-ene fungerer som følger:

De DetectDominantLanguage API bestemmer det dominerende språket for inndatateksten. For en liste over språk som Amazon Comprehend kan oppdage, se Dominerende språk.
De Oversett tekst API oversetter inndatatekst fra kildespråket til målspråket med valgfritt banning maskering. For en liste over tilgjengelige språk og språkkoder, se Støttede språk og språkkoder.
De StartExecution og StartSyncExecution API-er starter en AWS trinnfunksjoner statsmaskin.

Deretter kan du bruke NLP til å avdekke sammenhenger i tekst, som å oppdage nøkkelsetninger, analysere følelser og oppdage personlig identifiserbar informasjon (PII). Amazon Comprehend API-er trekker ut denne verdifulle innsikten og overfører den til tilpassede funksjonsbehandlere.

Kjører de behandlerne inn AWS Lambda funksjoner skalerer koden din elastisk uten å tenke på servere eller klynger. Alternativt kan du behandle innsikt fra Amazon Comprehend med mikrotjenester arkitekturmønstre. Uansett kjøretid, fokuserer koden din på å bruke resultatene, ikke å analysere tekst.

Følgende diagram illustrerer arbeidsflyten.

Statsmaskin for moderering av tekst

Lambda-funksjoner samhandler med følgende APIer:

De OppdagEntiteter API oppdager og grupperer navnene på objekter fra den virkelige verden, for eksempel personer og steder i teksten. Du kan bruke et tilpasset vokabular for å fjerne upassende og forretningsspesifikke enhetstyper.
De Oppdag Sentiment API identifiserer den generelle følelsen av teksten som positiv, negativ eller nøytral. Du kan trene tilpassede klassifiserere til å gjenkjenne de bransjespesifikke situasjonene av interesse og trekke ut tekstens konseptuelle betydning.
De DetectPIIEntities API identifiserer PII i teksten din, for eksempel adresse, bankkontonummer eller telefonnummer. Utdataene inneholder typen PII-enhet og dens tilsvarende plassering.

Moderer lydfiler

For å moderere lydfiler må du transkribere filen til tekst og deretter analysere den. Denne prosessen har to varianter avhengig av om du behandler individuelle filer (synkron) eller live lydstrømmer (asynkron). Synkrone arbeidsflyter er ideelle for batchbehandling, der den som ringer mottar ett komplett svar. Derimot krever lydstrømmer periodisk prøvetaking med flere transkripsjonsresultater.

Amazon Transcribe er en automatisk talegjenkjenningstjeneste som bruker ML-modeller for å konvertere lyd til tekst. Du kan integrere den i synkrone arbeidsflyter ved å starte en transkripsjonsjobb og med jevne mellomrom spørre om jobbens status. Etter at jobben er fullført, kan du analysere utdataene ved å bruke arbeidsflyten for ren tekstmoderering fra forrige trinn.

Følgende diagram illustrerer arbeidsflyten.

Statsmaskin for å transkribere lydfiler

API-ene fungerer som følger:

De Start TranskripsjonJob API starter en asynkron jobb for å transkribere tale til tekst.
De Få transkripsjonsjobb API returnerer informasjon om en transkripsjonsjobb. For å se statusen til jobben, sjekk TranscriptionJobStatus felt. Hvis statusegenskapen er COMPLETED, kan du finne resultatene på stedet spesifisert i TranscriptFileUri felt. Hvis du aktiverer innholdsredigering, vises det redigerte transkripsjonen i RedactedTranscriptFileUri.

Live lydstrømmer trenger et annet mønster som støtter en sanntidsleveringsmodell. Streaming kan inkludere forhåndsinnspilte medier, for eksempel filmer, musikk og podcaster, og sanntidsmedier, for eksempel direktesendinger av nyhetssendinger. Du kan transkribere lydbiter øyeblikkelig ved å bruke Amazon Transkriber strømming over HTTP/2- og WebSockets-protokoller. Etter å ha lagt ut en del til tjenesten, mottar du en eller flere transkripsjonsresultatobjekter som beskriver de delvise og komplette transkripsjonssegmentene. Segmenter som krever moderering kan gjenbruke ren tekst arbeidsflyten fra forrige seksjon. Følgende diagram illustrerer denne prosessen.

Flytdiagram for moderering av lydstrømmer i sanntid

De StartStreamingTranscription API starter en toveis HTTP/2-strøm der lyd strømmer til Amazon Transcribe, og streamer transkripsjonsresultatene til applikasjonen din.

Moderer bilder og bilder

Moderering av bilder krever oppdagelse av upassende, uønsket eller støtende innhold som inneholder nakenhet, suggestivitet, vold og andre kategorier fra bilder og bildeinnhold.

Amazon-anerkjennelse lar deg strømlinjeforme eller automatisere arbeidsflyten for bilde- og videomoderering uten å kreve ML-ekspertise. Amazon Rekognition returnerer en hierarkisk taksonomi av moderasjonsrelaterte etiketter. Denne informasjonen gjør det enkelt å definere detaljerte forretningsregler i henhold til dine standarder og praksis, brukersikkerhet og retningslinjer for samsvar. ML-erfaring er ikke nødvendig for å bruke disse egenskapene. Amazon Rekognition kan oppdage og lese teksten i et bilde og returnere avgrensende bokser for hvert ord som er funnet. Amazon Rekognition støtter tekstgjenkjenning skrevet på engelsk, arabisk, russisk, tysk, fransk, italiensk, portugisisk og spansk!

Du kan bruke maskinspådommene til å automatisere spesifikke modereringsoppgaver fullstendig. Denne funksjonen gjør det mulig for menneskelige moderatorer å fokusere på arbeid av høyere orden. I tillegg kan Amazon Rekognition raskt se gjennom millioner av bilder eller tusenvis av videoer ved hjelp av ML og flagge undergruppen av eiendeler som krever ytterligere handling. Forhåndsfiltrering bidrar til å gi omfattende, men kostnadseffektiv modereringsdekning, samtidig som den reduserer mengden innhold som menneskelige team modererer.

Følgende diagram illustrerer arbeidsflyten.

Statsmaskin for moderering av bilder

API-ene fungerer som følger:

De DetectModerationLabels API oppdager usikkert innhold i spesifiserte JPEG- eller PNG-formaterte bilder. Bruk DetectModerationLabels til å moderere bilder avhengig av dine behov. Det kan for eksempel være lurt å filtrere bilder som inneholder nakenhet, men ikke bilder som inneholder suggestivt innhold.
De Oppdag tekst API oppdager tekst i inndatabildet og konverterer den til maskinlesbar tekst.

Moderat rik tekstdokumenter

Deretter kan du bruke amazontekst for å trekke ut håndskrevet tekst og data fra skannede dokumenter. Denne prosessen begynner med å påkalle Start Dokumentanalyse handling for å analysere Microsoft Word- og Adobe PDF-filer. Du kan overvåke jobbens fremdrift med Få dokumentanalyse handling.

Analyseresultatet spesifiserer hver avdekket side, avsnitt, tabell og nøkkelverdi-par i dokumentet. Anta for eksempel at en helsepersonell må maskere pasientnavn bare i feltet for kravbeskrivelse. I så fall kan analyserapporten makt intelligente dokumentbehandlingsrørledninger som modererer og redigerer det spesifikke datafeltet. Følgende diagram illustrerer rørledningen.

Statsmaskin for moderering av rike tekstdokumenter

API-ene fungerer som følger:

De Start Dokumentanalyse API starter den asynkrone analysen av et inndatadokument for relasjoner mellom oppdagede elementer som nøkkelverdi-par, tabeller og utvalgselementer
De Få dokumentanalyse API får resultatene for en Amazon Textract asynkron operasjon som analyserer tekst i et dokument

Moderer videoer

En standard tilnærming til moderering av videoinnhold er gjennom en frame sampling prosedyre. Mange brukstilfeller trenger ikke å sjekke hver ramme, og å velge en hvert 15.–30. sekund er tilstrekkelig. Samplede videorammer kan gjenbruke tilstandsmaskinen til å moderere bilder fra forrige seksjon. På samme måte kan den eksisterende prosessen for å moderere lyd støtte filens hørbare innhold. Følgende diagram illustrerer denne arbeidsflyten.

Statsmaskin for moderering av videofiler

De påberope API kjører en Lambda-funksjon og venter synkront på svaret.

Anta at mediefilen er en hel film med flere scener. I så fall kan du bruke Amazon Rekognition Segment API, et sammensatt API for å oppdage tekniske signaler eller skudddeteksjon. Deretter kan du bruke disse tidsforskyvningene til å parallellbehandle hvert segment med det forrige videomodereringsmønsteret, som vist i følgende diagram.

Statsmaskin for moderering av rike tekstdokumenter

API-ene fungerer som følger:

De StartSegmentationDetection API starter asynkron deteksjon av segmentdeteksjon i en lagret video
De GetSegmentationDetection API får segmentdeteksjonsresultatene fra en Amazon Rekognition Video-analyse startet av StartSegmentDetection API

Å trekke ut individuelle bilder fra filmen krever ikke å hente objektet fra Amazon S3 flere ganger. En naiv løsning innebærer å lese videoen inn i minnet og paginere til slutten. Dette mønsteret er ideelt for korte klipp og der vurderinger ikke er tidssensitive.

En annen strategi innebærer å flytte filen én gang til Amazon elastisk filsystem (Amazon EFS), et fullt administrert, skalerbart, delt filsystem for andre AWS-tjenester, for eksempel Lambda. Med Amazon EFS for Lambda, kan du effektivt distribuere data på tvers av funksjonsanrop. Hver påkalling håndterer effektivt en liten del, og låser opp potensialet for massiv parallell behandling og raskere behandlingstider.

Rydd opp

Etter at du har eksperimentert med metodene i dette innlegget, bør du slette alt innhold i S3-bøtter for å unngå fremtidige kostnader. Hvis du implementerte disse mønstrene med klargjorte dataressurser som Amazon Elastic Compute Cloud (Amazon EC2) eller Amazon Elastic Container Service (Amazon ECS), bør du stoppe disse tilfellene for å unngå ytterligere kostnader.

konklusjonen

Brukergenerert innhold og dets verdi for spill, sosiale medier, e-handel og finans- og helsetjenester vil fortsette å vokse. Likevel må startups og store organisasjoner lage effektive modereringsprosesser for å beskytte brukere, informasjon og virksomheten, samtidig som driftskostnadene reduseres. Denne løsningen viser hvordan AI-, ML- og NLP-teknologier effektivt kan hjelpe deg med å moderere innhold i stor skala. Du kan tilpasse AWS AI-tjenester for å møte dine spesifikke moderasjonsbehov! Disse fullt administrerte egenskapene fjerner operasjonelle kompleksiteter. Denne fleksibiliteten integrerer kontekstuell innsikt og menneskelig talent strategisk i modereringsprosessene dine.

For ytterligere informasjon, ressurser og for å komme i gang gratis i dag, besøk Hjemmeside for AWS innholdsmoderering.

Om forfatterne

Nate Bachmeier er en AWS Senior Solutions Architect som nomadisk utforsker New York, én skyintegrasjon om gangen. Han spesialiserer seg på migrering og modernisering av applikasjoner. I tillegg til dette er Nate en fulltidsstudent og har to barn.

Ram Pathangi er en løsningsarkitekt hos Amazon Web Services i San Francisco Bay Area. Han har hjulpet kunder innen landbruk, forsikring, bank, detaljhandel, helsevesen og biovitenskap, gjestfrihet og høyteknologiske vertikaler med å drive virksomheten sin med suksess på AWS Cloud. Han spesialiserer seg på databaser, analyse og maskinlæring.

Roop Bains er løsningsarkitekt hos AWS med fokus på AI/ML. Han er lidenskapelig opptatt av å hjelpe kunder med å innovere og nå sine forretningsmål ved hjelp av kunstig intelligens og maskinlæring. På fritiden liker Roop å lese og gå på tur.

Tidstempel: Kan 9, 2022

Tidstempel: September 11, 2023

Publisert av Platon

Automatiser prognosene dine for tidsserier i Snowflake ved å bruke Amazon Forecast

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn