Come decidere tra l'immagine di Amazon Rekognition e l'API video per la moderazione video

Ripubblicato da Platone

Seguaci: 0

Quasi l'80% dei contenuti Web odierni è generato dagli utenti, creando un diluvio di contenuti che le organizzazioni faticano ad analizzare con processi esclusivamente umani. La disponibilità di informazioni sui consumatori li aiuta a prendere decisioni, dall'acquisto di un nuovo paio di jeans alla concessione di mutui per la casa. In un recente sondaggio, il 79% dei consumatori ha dichiarato di affidarsi più che mai a video, commenti e recensioni degli utenti e il 78% di loro ha affermato che i marchi sono responsabili della moderazione di tali contenuti. Il 40% ha affermato che si ritirerebbe da un marchio dopo una singola esposizione a contenuti tossici.

Rekognition di Amazon ha due set di API che ti aiutano a moderare immagini o video per mantenere le comunità digitali sicure e coinvolte.

Un approccio per moderare i video consiste nel modellare i dati video come un campione di fotogrammi di immagini e utilizzare modelli di moderazione del contenuto delle immagini per elaborare i fotogrammi singolarmente. Questo approccio consente il riutilizzo di modelli basati su immagini. Alcuni clienti hanno chiesto se potevano utilizzare questo approccio per moderare i video campionando i frame delle immagini e inviandoli all'API di moderazione delle immagini di Amazon Rekognition. Sono curiosi di sapere come questa soluzione si confronta con l'API di moderazione video di Amazon Rekognition.

Ti consigliamo di utilizzare l'API di moderazione video di Amazon Rekognition per moderare i contenuti video. È progettato e ottimizzato per la moderazione video, offrendo prestazioni migliori e costi inferiori. Tuttavia, ci sono casi d'uso specifici in cui la soluzione API immagine è ottimale.

Questo post confronta le due soluzioni di moderazione video in termini di accuratezza, costo, prestazioni e complessità dell'architettura per aiutarti a scegliere la soluzione migliore per il tuo caso d'uso.

Modera i video utilizzando l'API di moderazione video

Il riconoscimento amazzonico API di moderazione dei contenuti video è la soluzione standard utilizzata per rilevare contenuti inappropriati o indesiderati nei video. Funziona come un'operazione asincrona sui contenuti video archiviati in un file Servizio di archiviazione semplice Amazon (Amazon S3) secchio. I risultati dell'analisi vengono restituiti come un array di etichette di moderazione insieme a un punteggio di affidabilità e un timestamp che indica quando è stata rilevata l'etichetta.

L'API di moderazione dei contenuti video utilizza lo stesso modello di machine learning (ML) per la moderazione delle immagini. L'output viene filtrato per risultati falsi positivi rumorosi. Il flusso di lavoro è ottimizzato per la latenza parallelizzando operazioni come decodifica, estrazione di frame e inferenza.

Il diagramma seguente mostra i passaggi logici di come utilizzare l'API di moderazione video di Amazon Rekognition per moderare i video.

Diagramma dell'API video per la moderazione dei contenuti di Rekognition

I passi sono come segue:

Carica i video in un bucket S3.
Chiama l'API di moderazione video in un file AWS Lambda funzione (o script personalizzato in sede) con la posizione del file video come parametro. L'API gestisce il lavoro pesante di decodifica video, campionamento e inferenza. È possibile implementare una logica heartbeat per controllare lo stato del processo di moderazione fino al completamento oppure utilizzare Servizio di notifica semplice Amazon (Amazon SNS) per implementare un modello basato sugli eventi. Per i dettagli sull'API di moderazione video, fare riferimento a quanto segue Notebook Jupyter per esempi dettagliati.
Archivia il risultato della moderazione come file in un bucket o database S3.

Modera i video utilizzando l'API di moderazione delle immagini

Invece di utilizzare l'API di moderazione dei contenuti video, alcuni clienti scelgono di campionare in modo indipendente i fotogrammi dai video e rilevare i contenuti inappropriati inviando le immagini ad Amazon Rekognition Rileva etichette di moderazione API. I risultati delle immagini vengono restituiti in tempo reale con etichette per contenuti inappropriati o contenuti offensivi insieme a un punteggio di affidabilità.

Il diagramma seguente mostra i passaggi logici della soluzione API immagine.

Rekognition Content Moderation Diagramma di campionamento dell'immagine video
I passi sono come segue:

1. Utilizzare un'applicazione o uno script personalizzato come orchestratore, dal caricamento del video al file system locale.
2. Decodifica il video.
3. Campionare i fotogrammi dell'immagine dal video a un intervallo scelto, ad esempio due fotogrammi al secondo. Quindi scorrere tutte le immagini per:

3.a. Invia ogni fotogramma dell'immagine all'API di moderazione dell'immagine.
3.b. Memorizza i risultati della moderazione in un file o in un database.

Confronta questo con la soluzione API video, che richiede una funzione Lambda leggera per orchestrare le chiamate API. La soluzione di campionamento delle immagini richiede un uso intensivo della CPU e richiede più risorse di calcolo. Puoi ospitare l'applicazione utilizzando servizi AWS come Lambda, Servizio di container elastici Amazon (Amazon ECS), Servizio Amazon Elastic Kubernetes (Amazon EKS), AWS Fargate, o Cloud di calcolo elastico di Amazon (Amazon EC2).

Set di dati di valutazione

Per valutare entrambe le soluzioni, utilizziamo un set di dati campione composto da 200 video di breve durata. I video vanno da 10 secondi a 45 minuti. Il 60% dei video dura meno di 2 minuti. Questo set di dati di esempio viene usato per testare le metriche di prestazioni, costi e accuratezza per entrambe le soluzioni. I risultati confrontano la soluzione di campionamento dell'API delle immagini di Amazon Rekognition con la soluzione dell'API dei video.

Per testare la soluzione API immagine, utilizziamo librerie open source (ffmpeg ed OpenCV) per campionare le immagini a una frequenza di due fotogrammi al secondo (un fotogramma ogni 500 millisecondi). Questa frequenza imita la frequenza di campionamento utilizzata dall'API di moderazione dei contenuti video. Ogni immagine viene inviata all'API di moderazione del contenuto dell'immagine per generare etichette.

Per testare la soluzione di campionamento video, inviamo i video direttamente all'API di moderazione dei contenuti video per generare etichette.

Riepilogo dei risultati

Ci concentriamo sui seguenti risultati chiave:

Precisione – Entrambe le soluzioni offrono una precisione simile (percentuali di falsi positivi e falsi negativi) utilizzando la stessa frequenza di campionamento di due fotogrammi al secondo
Costo – La soluzione di campionamento API immagine è più costosa della soluzione API video utilizzando la stessa frequenza di campionamento di due fotogrammi al secondo
- Il costo della soluzione di campionamento API immagine può essere ridotto campionando un minor numero di fotogrammi al secondo
Prestazione – In media, l'API video ha un tempo di elaborazione più rapido del 425% rispetto alla soluzione API immagine per il set di dati di esempio
- La soluzione Image API offre prestazioni migliori in situazioni con un elevato intervallo di campionamento dei fotogrammi e su video inferiori a 90 secondi
Complessità dell'architettura – La soluzione API video ha una complessità architettonica bassa, mentre la soluzione di campionamento API immagine ha una complessità architettonica media

Precisione

Abbiamo testato entrambe le soluzioni utilizzando il set di campioni e la stessa frequenza di campionamento di due fotogrammi al secondo. I risultati hanno dimostrato che entrambe le soluzioni forniscono un rapporto tra falsi positivi e veri positivi simile. Questo risultato è previsto perché sotto il cofano, Amazon Rekognition utilizza lo stesso modello ML sia per le API di moderazione video che per le immagini.

Per ulteriori informazioni sulle metriche per la valutazione della moderazione dei contenuti, fare riferimento a Metriche per la valutazione della moderazione dei contenuti in Amazon Rekognition e altri servizi di moderazione dei contenuti.

Costo

L'analisi dei costi dimostra che la soluzione API immagine è più costosa della soluzione API video se si utilizza la stessa frequenza di campionamento di due fotogrammi al secondo. La soluzione API immagine può essere più conveniente se riduci il numero di fotogrammi campionati al secondo.

I due fattori principali che incidono sul costo di una soluzione di moderazione dei contenuti sono i costi dell'API di Amazon Rekognition e i costi di calcolo. Il prezzo predefinito per l'API di moderazione dei contenuti video è $ 0.10 al minuto e $ 0.001 per immagine per l'API di moderazione dei contenuti immagine. Un video di 60 secondi produce 120 fotogrammi utilizzando una frequenza di due fotogrammi al secondo. L'API video costa $ 0.10 per moderare un video di 60 secondi, mentre l'API immagine costa $ 0.120.

Il calcolo del prezzo si basa sul prezzo ufficiale nella regione us-east-1 al momento della stesura di questo post. Per ulteriori informazioni, fare riferimento a Prezzi di Amazon Rekognition.

L'analisi dei costi esamina il costo totale per generare etichette di moderazione dei contenuti per i 200 video nel set campione. I calcoli si basano sui prezzi us-east-1. Se utilizzi un'altra regione, modifica i parametri con i prezzi per tale regione. I 200 video contengono 4271.39 minuti di contenuto e generano 512,567 fotogrammi di immagini a una frequenza di campionamento di due fotogrammi al secondo.

Questo confronto non considera altri costi, come lo storage di Amazon S3. Utilizziamo Lambda come esempio per calcolare il costo di calcolo di AWS. I costi di calcolo tengono conto del numero di richieste a Lambda e Funzioni AWS Step per eseguire l'analisi. L'impostazione della memoria/CPU di Lambda è stimata in base alle specifiche di Amazon EC2. Questa stima dei costi utilizza una richiesta Lambda di 2 GB e 15 secondi per chiamata API immagine. Le funzioni Lambda hanno un limite massimo di timeout di chiamata di XNUMX minuti. Per i video più lunghi, l'utente potrebbe dover implementare la logica di iterazione utilizzando Step Functions per ridurre il numero di frame elaborati per chiamata Lambda. Le impostazioni effettive di Lambda e i modelli di costo possono variare a seconda delle tue esigenze. Si consiglia di testare la soluzione end-to-end per una stima dei costi più accurata.

La tabella seguente riassume i costi.

Tipologia	Costi di riconoscimento di Amazon	Calcola i costi	Costo totale
Soluzione API video	$427.14	$0 (Livello gratuito)	$427.14
Soluzione API immagine: due fotogrammi al secondo	$512.57	$164.23	$676.80
Soluzione API immagine: un fotogramma al secondo	$256.28	$82.12	$338.40

Prestazione

In media, la soluzione API video ha un tempo di elaborazione quattro volte più veloce rispetto alla soluzione API immagine. La soluzione Image API offre prestazioni migliori in situazioni con un elevato intervallo di campionamento dei fotogrammi e su video di durata inferiore a 90 secondi.

Questa analisi misura le prestazioni come tempo medio di elaborazione in secondi per video. Esamina il tempo totale e medio necessario per generare etichette di moderazione dei contenuti per i 200 video nel set campione. Il tempo di elaborazione viene misurato dal caricamento del video all'output del risultato e include ogni fase del processo di campionamento dell'immagine e dell'API video.

La soluzione API video ha un tempo di elaborazione medio di 35.2 secondi per video per il set campione. Questo viene confrontato con la soluzione API immagine con un tempo di elaborazione medio di 156.24 secondi per video per il set campione. In media, l'API video è quattro volte più veloce della soluzione API immagine. La tabella seguente riassume questi risultati.

Tipologia	Tempo medio di elaborazione (tutti i video)	Tempo medio di elaborazione (video inferiori a 1.5 minuti)
Soluzione API video	35.2 secondi	24.05 secondi
Soluzione API immagine: due fotogrammi al secondo	156.24 secondi	8.45 secondi
Synhydrid	425%	-185%

L'API dell'immagine ha prestazioni migliori rispetto all'API del video quando il video dura meno di 90 secondi. Questo perché l'API video ha una coda che gestisce le attività che ha un lead time. L'API dell'immagine può anche funzionare meglio se si dispone di una frequenza di campionamento inferiore. L'aumento dell'intervallo dei fotogrammi a oltre 5 secondi può ridurre il tempo di elaborazione di 6-10 volte. È importante notare che l'aumento degli intervalli introduce il rischio di mancata identificazione di contenuto inappropriato tra campioni di frame.

Complessità dell'architettura

La soluzione API video ha una bassa complessità dell'architettura. Puoi configurare una pipeline senza server o eseguire uno script per recuperare i risultati della moderazione dei contenuti. Amazon Rekognition gestisce il calcolo pesante e l'inferenza. L'applicazione che orchestra le API di Amazon Rekognition può essere ospitata su una macchina leggera.

La soluzione API immagine ha una complessità dell'architettura media. La logica dell'applicazione deve orchestrare passaggi aggiuntivi per archiviare i video sull'unità locale, eseguire l'elaborazione delle immagini per acquisire i fotogrammi e chiamare l'API dell'immagine. Il server che ospita l'applicazione richiede una maggiore capacità di calcolo per supportare l'elaborazione locale delle immagini. Per la valutazione, abbiamo lanciato un'istanza EC2 con 4 vCPU e 8 GB di RAM per supportare due thread paralleli. Requisiti di calcolo più elevati possono comportare un sovraccarico operativo aggiuntivo.

Casi d'uso ottimali per la soluzione API immagine

La soluzione Image API è ideale per tre casi d'uso specifici durante l'elaborazione dei video.

Il primo è lo streaming video in tempo reale. È possibile acquisire fotogrammi di immagini da un flusso video in diretta e inviare le immagini all'API di moderazione delle immagini.

Il secondo caso d'uso è la moderazione dei contenuti con un requisito di bassa frequenza di campionamento dei fotogrammi. La soluzione Image API è più economica e performante se si campionano i fotogrammi a bassa frequenza. È importante notare che ci sarà un compromesso tra costo e accuratezza. Il campionamento dei frame a una frequenza inferiore può aumentare il rischio di frame mancanti con contenuti inappropriati.

Il terzo caso d'uso riguarda il rilevamento tempestivo di contenuti inappropriati nei video. La soluzione Image API è flessibile e consente di interrompere l'elaborazione e contrassegnare il video in anticipo, risparmiando tempo e denaro.

Conclusione

L'API di moderazione video è ideale per la maggior parte dei casi d'uso di moderazione video. È più conveniente e performante rispetto alla soluzione API immagine quando si campionano fotogrammi a una frequenza come due fotogrammi al secondo. Inoltre, ha una bassa complessità architettonica e ridotti requisiti generali operativi.

La tabella seguente riassume i nostri risultati per aiutarti a massimizzare l'utilizzo delle API di immagini e video di Amazon Rekognition per i tuoi casi d'uso di moderazione video specifici. Sebbene questi risultati siano medie ottenute durante i test e da alcuni dei nostri clienti, dovrebbero darti idee per bilanciare l'uso di ciascuna API.

.	Soluzione API video	Soluzione API immagine
Precisione	Stessa precisione	.
Costo	Riduzione dei costi utilizzando l'intervallo di campionamento dell'immagine predefinito	Costo inferiore se si riduce il numero di fotogrammi campionati al secondo (precisione sacrificata)
Prestazione	Più veloce per i video più lunghi di 90 secondi	Più veloce per i video inferiori a 90 secondi
Complessità architettonica	Bassa complessità	Complessità media

La moderazione dei contenuti di Amazon Rekognition può non solo aiutare la tua azienda a proteggere e mantenere i clienti al sicuro e coinvolti, ma anche contribuire ai tuoi continui sforzi per massimizzare il ritorno sull'investimento nella moderazione dei contenuti. Impara di più riguardo Moderazione dei contenuti su AWS e il nostro Casi d'uso di Content Moderation ML.

Circa gli autori

Autore - Lana Zhang Lana Zhang è Sr. Solutions Architect presso il team AWS WWSO AI Services, con esperienza in AI e ML per la moderazione dei contenuti e la visione artificiale. È appassionata di promuovere i servizi di intelligenza artificiale di AWS e aiutare i clienti a trasformare le loro soluzioni aziendali.

Autore - Brigit Brown Brigida Marrone è un architetto di soluzioni presso Amazon Web Services. Brigit è appassionata nell'aiutare i clienti a trovare soluzioni innovative a complesse sfide aziendali utilizzando l'apprendimento automatico e l'intelligenza artificiale. Le sue principali aree di approfondimento sono l'elaborazione del linguaggio naturale e la moderazione dei contenuti.