Etichettatura della maschera di segmentazione con pochi clic in Amazon SageMaker Ground Truth Plus

Etichettatura della maschera di segmentazione con pochi clic in Amazon SageMaker Ground Truth Plus

Amazon SageMaker Ground Truth Plus è un servizio di etichettatura dei dati gestito che semplifica l'etichettatura dei dati per le applicazioni di machine learning (ML). Un caso d'uso comune è la segmentazione semantica, che è una tecnica ML di visione artificiale che comporta l'assegnazione di etichette di classe a singoli pixel in un'immagine. Ad esempio, nei fotogrammi video acquisiti da un veicolo in movimento, le etichette di classe possono includere veicoli, pedoni, strade, segnali stradali, edifici o sfondi. Fornisce una comprensione ad alta precisione delle posizioni di diversi oggetti nell'immagine ed è spesso utilizzato per costruire sistemi di percezione per veicoli autonomi o robotica. Per costruire un modello ML per la segmentazione semantica, è prima necessario etichettare un grande volume di dati a livello di pixel. Questo processo di etichettatura è complesso. Richiede etichettatori esperti e molto tempo: alcune immagini possono richiedere fino a 2 ore o più per un'etichettatura accurata!

Nel 2019, abbiamo rilasciato uno strumento di etichettatura interattivo basato su ML chiamato Auto-segment for Ground Truth che consente di creare rapidamente e facilmente maschere di segmentazione di alta qualità. Per ulteriori informazioni, vedere Strumento di segmentazione automatica. Questa funzione funziona consentendo di fare clic sui "punti estremi" in alto, a sinistra, in basso e a destra di un oggetto. Un modello ML in esecuzione in background ingerirà questo input dell'utente e restituirà una maschera di segmentazione di alta qualità che viene immediatamente visualizzata nello strumento di etichettatura Ground Truth. Tuttavia, questa funzione ti consente solo di posizionare quattro clic. In alcuni casi, la maschera generata da ML potrebbe inavvertitamente perdere alcune parti di un'immagine, ad esempio attorno al contorno dell'oggetto dove i bordi sono indistinti o dove il colore, la saturazione o le ombre si fondono con l'ambiente circostante.

Punto di clic estremo con un numero flessibile di clic correttivi

Ora abbiamo migliorato lo strumento per consentire ulteriori clic dei punti di confine, che fornisce feedback in tempo reale al modello ML. Ciò consente di creare una maschera di segmentazione più accurata. Nell'esempio seguente, il risultato della segmentazione iniziale non è accurato a causa dei limiti deboli vicino all'ombra. È importante sottolineare che questo strumento funziona in una modalità che consente il feedback in tempo reale, non richiede di specificare tutti i punti contemporaneamente. Invece, puoi prima fare quattro clic del mouse, che attiveranno il modello ML per produrre una maschera di segmentazione. Quindi puoi ispezionare questa maschera, individuare eventuali imprecisioni potenziali e successivamente inserire ulteriori clic appropriati per "spingere" il modello nel risultato corretto.

Etichettatura con maschera di segmentazione con pochi clic in Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Il nostro precedente strumento di etichettatura ti permetteva di posizionare esattamente quattro clic del mouse (punti rossi). Il risultato della segmentazione iniziale (area ombreggiata in rosso) non è preciso a causa dei limiti deboli vicino all'ombra (in basso a sinistra della maschera rossa).

Con il nostro strumento di etichettatura potenziato, l'utente fa di nuovo quattro clic del mouse (punti rossi nella figura in alto). Quindi hai l'opportunità di ispezionare la maschera di segmentazione risultante (area ombreggiata in rosso nella figura in alto). È possibile effettuare ulteriori clic del mouse (punti verdi nella figura in basso) per fare in modo che il modello rifinisca la maschera (area rossa ombreggiata nella figura in basso).

Etichettatura con maschera di segmentazione con pochi clic in Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Rispetto alla versione originale dello strumento, la versione migliorata fornisce un risultato migliore quando gli oggetti sono deformabili, non convessi e variano in forma e aspetto.

Abbiamo simulato le prestazioni di questo strumento migliorato sui dati campione eseguendo prima lo strumento di base (con solo quattro clic estremi) per generare una maschera di segmentazione e valutato la sua intersezione media su unione (mIoU), una misura comune di accuratezza per le maschere di segmentazione. Quindi abbiamo applicato clic correttivi simulati e valutato il miglioramento in mIoU dopo ogni clic simulato. La tabella seguente riassume questi risultati. La prima riga mostra il mIoU e la seconda riga mostra l'errore (che è dato dal 100% meno il mIoU). Con soli cinque clic aggiuntivi del mouse, possiamo ridurre l'errore del 9% per questa attività!

. . Numero di clic correttivi .
. Linea di base 1 2 3 4 5
milioniU 72.72 76.56 77.62 78.89 80.57 81.73
Errore 27% 23% 22% 21% 19% 18%

Integrazione con Ground Truth e profilazione delle prestazioni

Per integrare questo modello con Ground Truth, seguiamo un modello di architettura standard come mostrato nel diagramma seguente. Innanzitutto, costruiamo il modello ML in un'immagine Docker e lo distribuiamo in Registro dei contenitori Amazon Elastic (Amazon ECR), un registro di container Docker completamente gestito che semplifica l'archiviazione, la condivisione e la distribuzione di immagini di container. Usando il SageMaker Toolkit di inferenza nella creazione dell'immagine Docker ci consente di utilizzare facilmente le best practice per la pubblicazione di modelli e ottenere un'inferenza a bassa latenza. Creiamo quindi un file Amazon Sage Maker endpoint in tempo reale per ospitare il modello. Introduciamo un AWS Lambda fungere da proxy davanti all'endpoint SageMaker per offrire vari tipi di trasformazione dei dati. Infine usiamo Gateway API Amazon come un modo per integrarsi con il nostro front-end, l'applicazione di etichettatura Ground Truth, per fornire un'autenticazione sicura al nostro back-end.

Etichettatura con maschera di segmentazione con pochi clic in Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Puoi seguire questo modello generico per i tuoi casi d'uso per strumenti ML appositamente creati e integrarli con interfacce utente di attività Ground Truth personalizzate. Per ulteriori informazioni, fare riferimento a Crea un flusso di lavoro personalizzato per l'etichettatura dei dati con Amazon SageMaker Ground Truth.

Dopo aver eseguito il provisioning di questa architettura e aver distribuito il nostro modello utilizzando il Kit di sviluppo cloud AWS (AWS CDK), abbiamo valutato le caratteristiche di latenza del nostro modello con diversi tipi di istanza SageMaker. Questo è molto semplice da fare perché utilizziamo gli endpoint di inferenza in tempo reale SageMaker per servire il nostro modello. Gli endpoint di inferenza in tempo reale di SageMaker si integrano perfettamente con Amazon Cloud Watch ed emettere metriche come l'utilizzo della memoria e la latenza del modello senza alcuna configurazione richiesta (vedi Metriche di chiamata dell'endpoint SageMaker per ulteriori dettagli).

Nella figura seguente, mostriamo la metrica ModelLatency emessa in modo nativo dagli endpoint di inferenza in tempo reale di SageMaker. Possiamo facilmente utilizzare varie funzioni matematiche metriche in CloudWatch per mostrare i percentili di latenza, come la latenza p50 o p90.

Etichettatura con maschera di segmentazione con pochi clic in Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

La tabella seguente riassume questi risultati per il nostro strumento avanzato di clic estremi per la segmentazione semantica per tre tipi di istanza: p2.xlarge, p3.2xlarge e g4dn.xlarge. Sebbene l'istanza p3.2xlarge fornisca la latenza più bassa, l'istanza g4dn.xlarge offre il miglior rapporto costo/prestazioni. L'istanza g4dn.xlarge è solo l'8% più lenta (35 millisecondi) rispetto all'istanza p3.2xlarge, ma è l'81% meno costosa su base oraria rispetto all'istanza p3.2xlarge (vedi Prezzi di Amazon SageMaker per maggiori dettagli sui tipi di istanza SageMaker e sui prezzi).

Tipo di istanza SageMaker p90 Latenza (ms)
1 p2.xgrande 751
2 p3.2xgrande 424
3 g4dn.xlarge 459

Conclusione

In questo post, abbiamo introdotto un'estensione alla funzione di segmentazione automatica Ground Truth per le attività di annotazione della segmentazione semantica. Mentre la versione originale dello strumento ti consente di fare esattamente quattro clic del mouse, che attivano un modello per fornire una maschera di segmentazione di alta qualità, l'estensione ti consente di fare clic correttivi e quindi aggiornare e guidare il modello ML per fare previsioni migliori. Abbiamo anche presentato un modello architetturale di base che puoi utilizzare per distribuire e integrare strumenti interattivi nelle interfacce utente di etichettatura di Ground Truth. Infine, abbiamo riassunto la latenza del modello e mostrato come l'uso degli endpoint di inferenza in tempo reale di SageMaker semplifichi il monitoraggio delle prestazioni del modello.

Per saperne di più su come questo strumento può ridurre i costi di etichettatura e aumentare la precisione, visita Etichettatura dei dati di Amazon SageMaker per avviare una consultazione oggi.


Circa gli autori

Etichettatura con maschera di segmentazione con pochi clic in Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Jonathan Buck è un Software Engineer presso Amazon Web Services che lavora all'intersezione tra machine learning e sistemi distribuiti. Il suo lavoro prevede la produzione di modelli di apprendimento automatico e lo sviluppo di nuove applicazioni software basate sull'apprendimento automatico per mettere le ultime funzionalità nelle mani dei clienti.

Etichettatura con maschera di segmentazione con pochi clic in Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Li Erran Li è il responsabile della scienza applicata presso i servizi humain-in-the-loop, AWS AI, Amazon. I suoi interessi di ricerca sono il deep learning 3D e l'apprendimento della rappresentazione della visione e del linguaggio. In precedenza è stato scienziato senior presso Alexa AI, capo del machine learning presso Scale AI e capo scienziato presso Pony.ai. Prima di allora, era con il team di percezione di Uber ATG e il team della piattaforma di apprendimento automatico di Uber lavorando sull'apprendimento automatico per la guida autonoma, sui sistemi di apprendimento automatico e sulle iniziative strategiche dell'IA. Ha iniziato la sua carriera presso i Bell Labs ed è stato professore a contratto presso la Columbia University. Ha co-insegnato tutorial presso ICML'17 e ICCV'19 e ha co-organizzato diversi workshop presso NeurIPS, ICML, CVPR, ICCV sull'apprendimento automatico per la guida autonoma, la visione 3D e la robotica, i sistemi di apprendimento automatico e l'apprendimento automatico avverso. Ha un dottorato di ricerca in informatica presso la Cornell University. È ACM Fellow e IEEE Fellow.

Timestamp:

Di più da Apprendimento automatico di AWS