Designmönster för innehållsmoderering med AWS-hanterade AI-tjänster

Återutgiven av Platon

anhängare: 0

Användargenererat innehåll (UGC) växer exponentiellt, liksom kraven och kostnaderna för att hålla innehåll och onlinegemenskaper säkra och kompatibla. Moderna webb- och mobilplattformar ger bränsle till företag och driver användarengagemang genom sociala funktioner, från nystartade företag till stora organisationer. Medlemmar på nätet förväntar sig säkra och inkluderande upplevelser där de fritt kan konsumera och bidra med bilder, videor, text och ljud. Den ständigt ökande volymen, variationen och komplexiteten hos UGC gör traditionella arbetsflöden för mänsklig moderering utmanande att skala för att skydda användarna. Dessa begränsningar tvingar kunder in i ineffektiva, dyra och reaktiva begränsningsprocesser som medför en onödig risk för användarna och verksamheten. Resultatet är en dålig, skadlig och icke-inkluderande gemenskapsupplevelse som frigör användare, vilket negativt påverkar gemenskaps- och affärsmål.

Lösningen är skalbara arbetsflöden för innehållsmoderering som är beroende av artificiell intelligens (AI), maskininlärning (ML), djupinlärning (DL) och naturlig språkbehandling (NLP). Dessa konstruktioner översätter, transkriberar, känner igen, upptäcker, maskerar, redigerar och tar strategiskt med mänsklig talang i modereringsarbetsflödet, för att utföra de åtgärder som behövs för att hålla användarna säkra och engagerade samtidigt som noggrannheten och processeffektiviteten ökar och driftskostnaderna sänks.

Det här inlägget granskar hur man bygger arbetsflöden för innehållsmoderering med AWS AI-tjänster. För att lära dig mer om affärsbehov, inverkan och kostnadsminskningar som automatiserad innehållsmoderering ger sociala medier, spel, e-handel och reklamindustrier, se Använd AWS AI-tjänster för att automatisera innehållsmoderering och efterlevnad.

Lösningsöversikt

Du behöver ingen expertis inom ML för att implementera dessa arbetsflöden och kan skräddarsy dessa mönster efter dina specifika affärsbehov! AWS levererar dessa funktioner genom fullt hanterade tjänster som tar bort operativ komplexitet och odifferentierade tunga lyft, och utan ett datavetenskapsteam.

I det här inlägget visar vi hur man effektivt modererar utrymmen där kunder diskuterar och recenserar produkter med hjälp av text, ljud, bilder, video och till och med PDF-filer. Följande diagram illustrerar lösningsarkitekturen.

Förutsättningar

Som standard visar dessa mönster en serverlös metodik, där du bara betalar för det du använder. Du fortsätter att betala för beräkningsresurserna, som t.ex AWS Fargate behållare, och förvaring, som t.ex Amazon enkel lagringstjänst (Amazon S3), tills du tar bort dessa resurser. De diskuterade AWS AI-tjänsterna följer också en konsumtionsprismodell per operation.

Icke-produktionsmiljöer kan testa vart och ett av dessa mönster inom Free Tier, förutsatt att ditt konto är kvalificerat.

Måttlig vanlig text

Först måste du implementera innehållsmoderering för vanlig text. Denna procedur fungerar som grunden för mer sofistikerade mediatyper och innefattar två steg på hög nivå:

Översätt texten.
Analysera texten.

Globala kunder vill samarbeta med sociala plattformar på sitt modersmål. Att uppfylla dessa förväntningar kan öka komplexiteten eftersom designteam måste konstruera ett arbetsflöde eller steg för varje språk. Istället kan du använda Amazon Translate att konvertera text till över 70 språk och varianter i över 15 regioner. Denna funktion gör det möjligt för dig att skriva analysregler för ett enda språk och tillämpa dessa regler i hela den globala onlinegemenskapen.

Amazon Translate är en neural maskinöversättningstjänst som levererar snabb, högkvalitativ, prisvärd och anpassningsbar språköversättning. Du kan integrera det i dina arbetsflöden för att upptäcka det dominerande språket och Översätt texten. Följande diagram illustrerar arbetsflödet.

Statsmaskin för normalisering av text

API:erna fungerar enligt följande:

Smakämnen DetectDominantLanguage API bestämmer det dominerande språket för inmatningstexten. För en lista över språk som Amazon Comprehend kan upptäcka, se Dominerande språk.
Smakämnen Översätt text API översätter inmatningstext från källspråket till målspråket med valfritt svordomsmaskering. För en lista över tillgängliga språk och språkkoder, se Språk och språkkoder som stöds.
Smakämnen StartExecution och StartSyncExecution API:er startar en AWS stegfunktioner statsmaskin.

Därefter kan du använda NLP för att avslöja samband i text, som att upptäcka nyckelfraser, analysera känslor och upptäcka personligt identifierbar information (PII). Amazon Comprehend API:er extraherar dessa värdefulla insikter och skickar dem till anpassade funktionshanterare.

Kör in de hanterarna AWS Lambda funktioner skalar din kod elastiskt utan att tänka på servrar eller kluster. Alternativt kan du bearbeta insikter från Amazon Comprehend med mikrotjänsters arkitekturmönster. Oavsett körtid fokuserar din kod på att använda resultaten, inte att analysera text.

Följande diagram illustrerar arbetsflödet.

Statsmaskin för moderering av text

Lambdafunktioner interagerar med följande API:er:

Smakämnen DetekteraEntiteter API upptäcker och grupperar namnen på verkliga objekt som människor och platser i texten. Du kan använda en anpassad vokabulär för att redigera olämpliga och affärsspecifika enhetstyper.
Smakämnen Upptäck sentiment API identifierar den övergripande känslan av texten som positiv, negativ eller neutral. Du kan träna anpassade klassificerare för att känna igen branschspecifika situationer av intresse och extrahera textens konceptuella betydelse.
Smakämnen DetectPIIEntities API identifierar PII i din text, till exempel adress, bankkontonummer eller telefonnummer. Utdatan innehåller typen av PII-enhet och dess motsvarande plats.

Moderera ljudfiler

För att moderera ljudfiler måste du transkribera filen till text och sedan analysera den. Denna process har två varianter beroende på om du bearbetar enskilda filer (synkront) eller liveljudströmmar (asynkront). Synkrona arbetsflöden är idealiska för batchbearbetning, där den som ringer får ett komplett svar. Däremot kräver ljudströmmar periodisk sampling med flera transkriptionsresultat.

Amazon Transcribe är en automatisk taligenkänningstjänst som använder ML-modeller för att konvertera ljud till text. Du kan integrera det i synkrona arbetsflöden genom att påbörjar ett transkriptionsjobb och periodvis frågar efter jobbets status. När jobbet är klart kan du analysera resultatet med hjälp av arbetsflödet för moderering av vanlig text från föregående steg.

Följande diagram illustrerar arbetsflödet.

Statsmaskin för att transkribera ljudfiler

API:erna fungerar enligt följande:

Smakämnen Starta TranscriptionJob API startar ett asynkront jobb för att transkribera tal till text.
Smakämnen GetTranscriptionJob API returnerar information om ett transkriptionsjobb. För att se status för jobbet, kontrollera TranscriptionJobStatus fält. Om statusegenskapen är COMPLETED, kan du hitta resultaten på den plats som anges i TranscriptFileUri fält. Om du aktiverar innehållsredigering visas det redigerade transkriptet i RedactedTranscriptFileUri.

Liveljudströmmar behöver ett annat mönster som stöder en realtidsleveransmodell. Streaming kan inkludera förinspelade media, som filmer, musik och poddsändningar, och realtidsmedia, som livesändningar av nyheter. Du kan transkribera ljudbitar omedelbart med hjälp av Streaming från Amazon Transcribe över HTTP/2- och WebSockets-protokollen. Efter att ha lagt upp en bit till tjänsten får du en eller flera transkriptionsresultatobjekt som beskriver de partiella och fullständiga transkriptionssegmenten. Segment som kräver moderering kan återanvända vanlig text arbetsflödet från föregående avsnitt. Följande diagram illustrerar denna process.

Flödesdiagram för moderering av ljudströmmar i realtid

Smakämnen StartStreamingTranscription API startar en dubbelriktad HTTP/2-ström där ljud strömmar till Amazon Transcribe och strömmar transkriptionsresultaten till din applikation.

Moderera bilder och foton

Moderering av bilder kräver att man upptäcker olämpligt, oönskat eller stötande innehåll som innehåller nakenhet, suggestivitet, våld och andra kategorier från bilder och fotoinnehåll.

Amazon-erkännande gör det möjligt för dig att effektivisera eller automatisera dina arbetsflöden för bild- och videomoderering utan att kräva ML-expertis. Amazon Rekognition returnerar en hierarkisk taxonomi av modereringsrelaterade etiketter. Denna information gör det enkelt att definiera detaljerade affärsregler enligt dina standarder och praxis, användarsäkerhet och riktlinjer för efterlevnad. ML-erfarenhet krävs inte för att använda dessa funktioner. Amazon Rekognition kan upptäcka och läsa texten i en bild och returnera begränsningsrutor för varje hittat ord. Amazon Rekognition stöder textidentifiering skriven på engelska, arabiska, ryska, tyska, franska, italienska, portugisiska och spanska!

Du kan använda maskinförutsägelserna för att helt automatisera specifika modereringsuppgifter. Denna förmåga gör det möjligt för mänskliga moderatorer att fokusera på arbete av högre ordning. Dessutom kan Amazon Rekognition snabbt granska miljontals bilder eller tusentals videor med hjälp av ML och flagga den delmängd av tillgångar som kräver ytterligare åtgärder. Förfiltrering hjälper till att tillhandahålla omfattande men kostnadseffektiv modereringstäckning samtidigt som den minskar mängden innehåll som mänskliga team modererar.

Följande diagram illustrerar arbetsflödet.

Statsmaskin för att moderera bilder

API:erna fungerar enligt följande:

Smakämnen DetectModerationLabels API upptäcker osäkert innehåll i specificerade JPEG- eller PNG-formaterade bilder. Använd DetectModerationLabels för att moderera bilder beroende på dina krav. Du kanske till exempel vill filtrera bilder som innehåller nakenhet men inte bilder som innehåller suggestivt innehåll.
Smakämnen Detektera text API upptäcker text i inmatningsbilden och konverterar den till maskinläsbar text.

Måttlig rik textdokument

Därefter kan du använda amazontext för att extrahera handskriven text och data från skannade dokument. Denna process börjar med att anropa Starta Dokumentanalys åtgärd för att analysera Microsoft Word- och Adobe PDF-filer. Du kan övervaka jobbets framsteg med GetDocumentAnalysis handling.

Analysresultatet specificerar varje avslöjad sida, stycke, tabell och nyckel-värdepar i dokumentet. Anta till exempel att en vårdgivare måste maskera patientnamn endast i anspråksbeskrivningsfältet. I så fall kan analysrapporten driva intelligenta pipelines för dokumentbehandling som modererar och redigerar det specifika datafältet. Följande diagram illustrerar pipelinen.

Statsmaskin för moderering av rich text-dokument

API:erna fungerar enligt följande:

Smakämnen Starta Dokumentanalys API startar den asynkrona analysen av ett indatadokument för relationer mellan upptäckta objekt som nyckel-värdepar, tabeller och urvalselement
Smakämnen GetDocumentAnalysis API får resultaten för en Amazon Textract asynkron operation som analyserar text i ett dokument

Moderera videor

En standardmetod för moderering av videoinnehåll är genom ett ramsamplingsförfarande. Många användningsfall behöver inte kontrollera varje bildruta, och det räcker att välja en var 15–30:e sekund. Samplade videorutor kan återanvända tillståndsmaskinen för att moderera bilder från föregående avsnitt. På samma sätt kan den befintliga processen för att moderera ljud stödja filens ljudinnehåll. Följande diagram illustrerar detta arbetsflöde.

Statsmaskin för moderering av videofiler

Smakämnen åberopa API kör en Lambda-funktion och väntar synkront på svaret.

Anta att mediafilen är en hel film med flera scener. I så fall kan du använda Amazon Rekognition Segment API, ett sammansatt API för att detektera tekniska signaler eller skottdetektering. Därefter kan du använda dessa tidsförskjutningar för att parallellbearbeta varje segment med det föregående videomodereringsmönstret, som visas i följande diagram.

Statsmaskin för moderering av rich text-dokument

API:erna fungerar enligt följande:

Smakämnen Starta SegmentationDetection API startar asynkron detektering av segmentdetektering i en lagrad video
Smakämnen GetSegmentationDetection API får segmentdetekteringsresultaten från en Amazon Rekognition Video-analys som startas av StartSegmentDetection API

Att extrahera enskilda bildrutor från filmen kräver inte att objektet hämtas från Amazon S3 flera gånger. En naiv lösning innebär att läsa in videon i minnet och paginera till slutet. Detta mönster är idealiskt för korta klipp och där bedömningar inte är tidskänsliga.

En annan strategi innebär att flytta filen en gång till Amazon Elastic File System (Amazon EFS), ett fullt hanterat, skalbart, delat filsystem för andra AWS-tjänster, som Lambda. Med Amazon EFS för Lambda, kan du effektivt distribuera data över funktionsanrop. Varje anrop hanterar effektivt en liten bit, vilket frigör potentialen för massiv parallell bearbetning och snabbare bearbetningstider.

Städa upp

Efter att du experimenterat med metoderna i det här inlägget bör du ta bort allt innehåll i S3-hinkar för att undvika framtida kostnader. Om du implementerade dessa mönster med tillhandahållna beräkningsresurser som Amazon Elastic Compute Cloud (Amazon EC2) eller Amazon Elastic Container Service (Amazon ECS), bör du stoppa dessa instanser för att undvika ytterligare avgifter.

Slutsats

Användargenererat innehåll och dess värde för spel, sociala medier, e-handel och finansiella och hälsovårdsorganisationer kommer att fortsätta att växa. Fortfarande måste nystartade företag och stora organisationer skapa effektiva modereringsprocesser för att skydda användare, information och verksamheten, samtidigt som de sänker driftskostnaderna. Den här lösningen visar hur AI-, ML- och NLP-tekniker effektivt kan hjälpa dig att moderera innehåll i stor skala. Du kan anpassa AWS AI-tjänster för att möta dina specifika modereringsbehov! Dessa helt hanterade funktioner tar bort operativa komplexiteter. Den flexibiliteten integrerar strategiskt kontextuella insikter och mänsklig talang i dina modereringsprocesser.

För ytterligare information, resurser och för att komma igång gratis idag, besök Hemsida för AWS innehållsmoderering.

Om författarna

Nate Bachmeier är en AWS Senior Solutions Architect som nomadiskt utforskar New York, en molnintegration i taget. Han är specialiserad på att migrera och modernisera applikationer. Förutom detta är Nate en heltidsstudent och har två barn.

Ram Pathangi är en lösningsarkitekt på Amazon Web Services i San Francisco Bay Area. Han har hjälpt kunder inom jordbruk, försäkring, bank, detaljhandel, hälsovård och biovetenskap, gästfrihet och högteknologiska vertikaler att driva sina företag framgångsrikt på AWS Cloud. Han är specialiserad på databaser, analys och maskininlärning.

Roop Bains är lösningsarkitekt på AWS med fokus på AI/ML. Han brinner för att hjälpa kunder att förnya sig och uppnå sina affärsmål med hjälp av artificiell intelligens och maskininlärning. På fritiden tycker Roop om att läsa och vandra.

Tidsstämpel: Maj 9, 2022

Tidsstämpel: Juli 25, 2023

Återutgiven av Platon

Möjliggör intelligent beslutsfattande med Amazon SageMaker Canvas och Amazon QuickSight

Integrera ServiceNow med Amazon Lex chatbot för ärendehantering

Förbättra multi-hop-resonemang i LLM:er genom att lära av rik mänsklig feedback

Distribuera BLOOM-176B och OPT-30B på Amazon SageMaker med stor modellinferens Deep Learning Containers och DeepSpeed

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto