Modelli di progettazione per la moderazione dei contenuti con servizi di intelligenza artificiale gestiti da AWS

Ripubblicato da Platone

Seguaci: 0

I contenuti generati dagli utenti (UGC) crescono in modo esponenziale, così come i requisiti e i costi per mantenere i contenuti e le comunità online sicuri e conformi. Le moderne piattaforme web e mobili alimentano le aziende e promuovono il coinvolgimento degli utenti attraverso le funzionalità social, dalle startup alle grandi organizzazioni. I membri della comunità online si aspettano esperienze sicure e inclusive in cui possono consumare e contribuire liberamente con immagini, video, testo e audio. Il volume, la varietà e la complessità sempre crescenti di UGC rendono i tradizionali flussi di lavoro di moderazione umana difficili da scalare per proteggere gli utenti. Queste limitazioni costringono i clienti a processi di mitigazione inefficienti, costosi e reattivi che comportano un rischio non necessario per gli utenti e l'azienda. Il risultato è un'esperienza di comunità povera, dannosa e non inclusiva che disimpegna gli utenti, con un impatto negativo sulla comunità e sugli obiettivi aziendali.

La soluzione è costituita da flussi di lavoro di moderazione dei contenuti scalabili che si basano su tecnologie di intelligenza artificiale (AI), machine learning (ML), deep learning (DL) ed elaborazione del linguaggio naturale (NLP). Questi costrutti traducono, trascrivono, riconoscono, rilevano, mascherano, redigono e portano strategicamente il talento umano nel flusso di lavoro di moderazione, per eseguire le azioni necessarie per mantenere gli utenti al sicuro e coinvolti, aumentando la precisione e l'efficienza dei processi e riducendo i costi operativi.

Questo post esamina come creare flussi di lavoro di moderazione dei contenuti utilizzando i servizi di intelligenza artificiale di AWS. Per ulteriori informazioni sulle esigenze aziendali, l'impatto e le riduzioni dei costi che la moderazione automatizzata dei contenuti offre ai settori dei social media, dei giochi, dell'e-commerce e della pubblicità, vedere Utilizza i servizi di intelligenza artificiale di AWS per automatizzare la moderazione e la conformità dei contenuti.

Panoramica della soluzione

Non hai bisogno di esperienza in ML per implementare questi flussi di lavoro e puoi adattare questi modelli alle tue esigenze aziendali specifiche! AWS offre queste capacità attraverso servizi completamente gestiti che rimuovono la complessità operativa e il sollevamento di carichi pesanti indifferenziati e senza un team di data science.

In questo post, dimostriamo come moderare in modo efficiente gli spazi in cui i clienti discutono e recensiscono i prodotti utilizzando testo, audio, immagini, video e persino file PDF. Il diagramma seguente illustra l'architettura della soluzione.

Prerequisiti

Per impostazione predefinita, questi modelli dimostrano una metodologia serverless, in cui paghi solo per ciò che usi. Continui a pagare per le risorse di calcolo, ad esempio AWS Fargate contenitori e stoccaggio, come Servizio di archiviazione semplice Amazon (Amazon S3), finché non elimini tali risorse. Anche i servizi AWS AI discussi seguono un modello di prezzo a consumo per operazione.

Gli ambienti non di produzione possono testare ciascuno di questi modelli all'interno del piano gratuito, presupponendo l'idoneità del tuo account.

Testo normale moderato

Innanzitutto, è necessario implementare la moderazione dei contenuti per il testo normale. Questa procedura funge da base per tipi di media più sofisticati e comporta due passaggi di alto livello:

Tradurre il testo.
Analizza il testo.

I clienti globali vogliono collaborare con le piattaforme social nella loro lingua madre. Soddisfare questa aspettativa può aggiungere complessità perché i team di progettazione devono creare un flusso di lavoro o passaggi per ciascuna lingua. Invece, puoi usare Amazon Traduttore per convertire il testo in oltre 70 lingue e varianti in oltre 15 regioni. Questa funzionalità consente di scrivere regole di analisi per una singola lingua e di applicare tali regole nella comunità online globale.

Amazon Translate è un servizio di traduzione automatica neurale che offre traduzioni linguistiche veloci, di alta qualità, convenienti e personalizzabili. Puoi integrarlo nei tuoi flussi di lavoro per rilevare la lingua dominante e tradurre il testo. Il diagramma seguente illustra il flusso di lavoro.

Macchina a stati per normalizzare il testo

Le API funzionano come segue:

I Rileva lingua dominante L'API determina la lingua dominante del testo di input. Per un elenco delle lingue che Amazon Comprehend può rilevare, vedere Lingua dominante.
I Traduci testo L'API traduce il testo di input dalla lingua di origine alla lingua di destinazione con optional mascheramento di volgarità. Per un elenco delle lingue disponibili e dei codici lingua, vedere Lingue e codici lingua supportati.
I Avvia esecuzione ed Avvia l'esecuzione di sincronizzazione Le API avviano un Funzioni AWS Step macchina a stati.

Successivamente, puoi utilizzare la NLP per scoprire connessioni nel testo, come scoprire frasi chiave, analizzare i sentimenti e rilevare informazioni di identificazione personale (PII). Amazon Comprehend Le API estraggono queste preziose informazioni e le passano a gestori di funzioni personalizzati.

Far funzionare quei gestori all'interno AWS Lambda functions ridimensiona in modo elastico il tuo codice senza pensare a server o cluster. In alternativa, puoi elaborare approfondimenti da Amazon Comprehend con modelli di architettura dei microservizi. Indipendentemente dal runtime, il codice si concentra sull'utilizzo dei risultati, non sull'analisi del testo.

Il diagramma seguente illustra il flusso di lavoro.

Macchina a stati per moderare il testo

Le funzioni Lambda interagiscono con le seguenti API:

I Rileva entità L'API rileva e raggruppa i nomi di oggetti del mondo reale come persone e luoghi nel testo. Puoi utilizzare un vocabolario personalizzato per oscurare tipi di entità inappropriati e specifici dell'attività.
I Rileva sentimento L'API identifica il sentimento generale del testo come positivo, negativo o neutro. Puoi addestrare classificatori personalizzati per riconoscere le situazioni di interesse specifiche del settore ed estrarre il significato concettuale del testo.
I Rileva PIIEntities L'API identifica le PII nel tuo testo, come indirizzo, numero di conto bancario o numero di telefono. L'output contiene il tipo di entità PII e la sua posizione corrispondente.

File audio moderati

Per moderare i file audio, devi trascrivere il file in testo e quindi analizzarlo. Questo processo ha due varianti a seconda che tu stia elaborando singoli file (sincroni) o flussi audio live (asincroni). I flussi di lavoro sincroni sono ideali per l'elaborazione batch, con il chiamante che riceve una risposta completa. Al contrario, i flussi audio richiedono un campionamento periodico con più risultati di trascrizione.

Amazon Transcribe è un servizio di riconoscimento vocale automatico che utilizza i modelli ML per convertire l'audio in testo. Puoi integrarlo in flussi di lavoro sincroni tramite iniziare un lavoro di trascrizione e periodicamente interrogare lo stato del lavoro. Al termine del lavoro, è possibile analizzare l'output utilizzando il flusso di lavoro di moderazione del testo normale del passaggio precedente.

Il diagramma seguente illustra il flusso di lavoro.

Macchina a stati per la trascrizione di file audio

Le API funzionano come segue:

I InizioTrascrizioneLavoro L'API avvia un processo asincrono per trascrivere il parlato in testo.
I OttieniTrascrizioneLavoro L'API restituisce informazioni su un processo di trascrizione. Per vedere lo stato del lavoro, controllare il TranscriptionJobStatus campo. Se la proprietà dello stato è COMPLETED, puoi trovare i risultati nella posizione specificata in TranscriptFileUri campo. Se abiliti la redazione del contenuto, la trascrizione redatta viene visualizzata in RedactedTranscriptFileUri.

I flussi audio dal vivo necessitano di un modello diverso che supporti un modello di consegna in tempo reale. Lo streaming può includere contenuti multimediali preregistrati, come film, musica e podcast, e contenuti multimediali in tempo reale, come trasmissioni di notizie in diretta. Puoi trascrivere blocchi audio istantaneamente utilizzando Amazon Trascrivi in streaming sui protocolli HTTP/2 e WebSocket. Dopo aver pubblicato un pezzo nel servizio, ne ricevi uno o più oggetti risultato della trascrizione descrivere i segmenti di trascrizione parziale e completa. I segmenti che richiedono moderazione possono riutilizzare il flusso di lavoro in testo normale della sezione precedente. Il diagramma seguente illustra questo processo.

Diagramma di flusso per moderare i flussi audio in tempo reale

I Avvia la trascrizione in streaming L'API avvia un flusso HTTP/2 bidirezionale in cui l'audio viene inviato ad Amazon Transcribe, trasmettendo i risultati della trascrizione alla tua applicazione.

Immagini e foto moderate

La moderazione delle immagini richiede il rilevamento di contenuti inappropriati, indesiderati o offensivi contenenti nudità, suggestioni, violenza e altre categorie da immagini e foto.

Rekognition di Amazon ti consente di semplificare o automatizzare i flussi di lavoro di moderazione di immagini e video senza richiedere competenze ML. Amazon Rekognition restituisce una tassonomia gerarchica di etichette relative alla moderazione. Queste informazioni semplificano la definizione di regole aziendali dettagliate in base agli standard e alle pratiche, alla sicurezza degli utenti e alle linee guida di conformità. L'esperienza di ML non è richiesta per utilizzare queste funzionalità. Amazon Rekognition è in grado di rilevare e leggere il testo in un'immagine e restituire riquadri di delimitazione per ogni parola trovata. Amazon Rekognition supporta il rilevamento del testo scritto in inglese, arabo, russo, tedesco, francese, italiano, portoghese e spagnolo!

È possibile utilizzare le previsioni della macchina per automatizzare completamente attività di moderazione specifiche. Questa capacità consente ai moderatori umani di concentrarsi sul lavoro di ordine superiore. Inoltre, Amazon Rekognition può rivedere rapidamente milioni di immagini o migliaia di video utilizzando ML e contrassegnare il sottoinsieme di risorse che richiedono ulteriori azioni. Il prefiltro aiuta a fornire una copertura di moderazione completa ma conveniente, riducendo al contempo la quantità di contenuti moderati dai team umani.

Il diagramma seguente illustra il flusso di lavoro.

Macchina a stati per moderare le immagini

Le API funzionano come segue:

I Rileva etichette di moderazione L'API rileva il contenuto non sicuro nelle immagini formattate JPEG o PNG specificate. Utilizzare DetectModerationLabels per moderare le immagini in base alle proprie esigenze. Ad esempio, potresti voler filtrare le immagini che contengono nudità ma non le immagini che contengono contenuti allusivi.
I RilevaTesto L'API rileva il testo nell'immagine di input e lo converte in testo leggibile dalla macchina.

Documenti RTF moderati

Successivamente, puoi usare Testo Amazon per estrarre testo e dati scritti a mano da documenti scansionati. Questo processo inizia con l'invocazione del Avviare l'analisi del documento azione per analizzare i file Microsoft Word e Adobe PDF. È possibile monitorare l'avanzamento del lavoro con il Ottieni analisi documenti azione.

Il risultato dell'analisi specifica ogni pagina, paragrafo, tabella e coppia chiave-valore scoperti nel documento. Ad esempio, supponiamo che un operatore sanitario debba mascherare i nomi dei pazienti solo nel campo della descrizione della richiesta. In tal caso, il rapporto di analisi può essere alimentato pipeline di elaborazione documenti intelligenti che moderano e redigono il campo dati specifico. Il diagramma seguente illustra la pipeline.

Macchina a stati per la moderazione di documenti RTF

Le API funzionano come segue:

I Avviare l'analisi del documento L'API avvia l'analisi asincrona di un documento di input per le relazioni tra elementi rilevati come coppie chiave-valore, tabelle ed elementi di selezione
I Ottieni analisi documenti L'API ottiene i risultati per un'operazione asincrona Amazon Textract che analizza il testo in un documento

Video moderati

Un approccio standard alla moderazione dei contenuti video è attraverso una procedura di campionamento dei fotogrammi. In molti casi d'uso non è necessario controllare ogni fotogramma ed è sufficiente selezionarne uno ogni 15-30 secondi. I fotogrammi video campionati possono riutilizzare la macchina a stati per moderare le immagini della sezione precedente. Allo stesso modo, il processo esistente per moderare l'audio può supportare il contenuto udibile del file. Il diagramma seguente illustra questo flusso di lavoro.

Macchina a stati per moderare i file video

I invocare L'API esegue una funzione Lambda e attende la risposta in modo sincrono.

Supponiamo che il file multimediale sia un intero film con più scene. In tal caso, puoi utilizzare il API del segmento Amazon Recognition, un'API composita per il rilevamento di segnali tecnici o il rilevamento di colpi. Successivamente, puoi utilizzare questi offset di tempo per elaborare in parallelo ogni segmento con il modello di moderazione video precedente, come mostrato nel diagramma seguente.

Macchina a stati per la moderazione di documenti RTF

Le API funzionano come segue:

I Avvia il rilevamento della segmentazione L'API avvia il rilevamento asincrono del rilevamento del segmento in un video archiviato
I Ottieni Rilevamento segmentazione L'API ottiene i risultati del rilevamento del segmento di un'analisi Amazon Rekognition Video avviata dall'API StartSegmentDetection

L'estrazione di singoli fotogrammi dal film non richiede il recupero dell'oggetto da Amazon S3 più volte. Una soluzione ingenua prevede la lettura del video nella memoria e l'impaginazione fino alla fine. Questo modello è ideale per brevi clip e dove le valutazioni non sono sensibili al tempo.

Un'altra strategia prevede lo spostamento del file una volta in File system elastico Amazon (Amazon EFS), un file system completamente gestito, scalabile e condiviso per altri servizi AWS, come Lambda. Insieme a Amazon EFS per Lambda, puoi distribuire in modo efficiente i dati tra le chiamate di funzione. Ogni invocazione gestisce in modo efficiente una piccola parte, sbloccando il potenziale per un'elaborazione massicciamente parallela e tempi di elaborazione più rapidi.

ripulire

Dopo aver sperimentato i metodi in questo post, dovresti eliminare qualsiasi contenuto nei bucket S3 per evitare costi futuri. Se hai implementato questi modelli con risorse di calcolo fornite come Cloud di calcolo elastico di Amazon (Amazon EC2) o Servizio di container elastici Amazon (Amazon ECS), dovresti interrompere tali istanze per evitare ulteriori addebiti.

Conclusione

I contenuti generati dagli utenti e il loro valore per le organizzazioni di giochi, social media, e-commerce e servizi finanziari e sanitari continueranno a crescere. Tuttavia, le startup e le grandi organizzazioni devono creare processi di moderazione efficienti per proteggere utenti, informazioni e business, riducendo al contempo i costi operativi. Questa soluzione dimostra come le tecnologie AI, ML e NLP possono aiutarti a moderare i contenuti su larga scala in modo efficiente. Puoi personalizzare i servizi di intelligenza artificiale di AWS per soddisfare le tue esigenze di moderazione specifiche! Queste funzionalità completamente gestite eliminano le complessità operative. Questa flessibilità integra strategicamente le intuizioni contestuali e il talento umano nei tuoi processi di moderazione.

Per ulteriori informazioni, risorse e per iniziare gratuitamente oggi, visita il Home page di moderazione dei contenuti di AWS.

Informazioni sugli autori

Nate Bachmeier è un AWS Senior Solutions Architect che esplora nomadicamente New York, un'integrazione cloud alla volta. È specializzato nella migrazione e nella modernizzazione delle applicazioni. Oltre a questo, Nate è uno studente a tempo pieno e ha due figli.

Ram Pathangi è Solutions Architect presso Amazon Web Services nella Baia di San Francisco. Ha aiutato i clienti nei settori verticale dell'agricoltura, delle assicurazioni, delle banche, della vendita al dettaglio, della sanità e delle scienze della vita, dell'ospitalità e dell'alta tecnologia a gestire con successo le loro attività sul cloud AWS. È specializzato in database, analisi e machine learning.

Roop Bagni è un Solutions Architect presso AWS che si occupa di AI/ML. È appassionato di aiutare i clienti a innovare e raggiungere i loro obiettivi di business utilizzando l'intelligenza artificiale e l'apprendimento automatico. Nel tempo libero, Roop ama leggere e fare escursioni.