Rotulagem de máscara de segmentação com poucos cliques no Amazon SageMaker Ground Truth Plus

Rotulagem de máscara de segmentação com poucos cliques no Amazon SageMaker Ground Truth Plus

Amazon SageMaker Ground Truth Plus é um serviço de rotulagem de dados gerenciados que facilita a rotulagem de dados para aplicativos de aprendizado de máquina (ML). Um caso de uso comum é a segmentação semântica, que é uma técnica de ML de visão computacional que envolve a atribuição de rótulos de classe a pixels individuais em uma imagem. Por exemplo, em quadros de vídeo capturados por um veículo em movimento, os rótulos de classe podem incluir veículos, pedestres, estradas, semáforos, prédios ou planos de fundo. Ele fornece uma compreensão de alta precisão das localizações de diferentes objetos na imagem e é frequentemente usado para construir sistemas de percepção para veículos autônomos ou robótica. Para construir um modelo de ML para segmentação semântica, primeiro é necessário rotular um grande volume de dados no nível do pixel. Este processo de rotulagem é complexo. Requer rotuladoras habilidosas e tempo significativo - algumas imagens podem levar até 2 horas ou mais para serem rotuladas com precisão!

Em 2019, lançamos uma ferramenta de rotulagem interativa baseada em ML chamada Auto-segment for Ground Truth que permite criar máscaras de segmentação de alta qualidade de forma rápida e fácil. Para mais informações, veja Ferramenta de Auto-Segmentação. Esse recurso funciona permitindo que você clique nos "pontos extremos" superior, esquerdo, inferior e direito de um objeto. Um modelo de ML executado em segundo plano ingerirá essa entrada do usuário e retornará uma máscara de segmentação de alta qualidade que renderiza imediatamente na ferramenta de rotulagem do Ground Truth. No entanto, esse recurso permite apenas quatro cliques. Em certos casos, a máscara gerada por ML pode perder inadvertidamente certas partes de uma imagem, como ao redor do limite do objeto, onde as bordas são indistintas ou onde a cor, a saturação ou as sombras se misturam com o ambiente.

Clique de ponto extremo com um número flexível de cliques corretivos

Agora aprimoramos a ferramenta para permitir cliques extras de pontos de limite, o que fornece feedback em tempo real ao modelo de ML. Isso permite que você crie uma máscara de segmentação mais precisa. No exemplo a seguir, o resultado da segmentação inicial não é preciso devido aos limites fracos próximos à sombra. É importante ressaltar que essa ferramenta opera em um modo que permite feedback em tempo real - não exige que você especifique todos os pontos de uma vez. Em vez disso, você pode primeiro fazer quatro cliques do mouse, o que acionará o modelo de ML para produzir uma máscara de segmentação. Em seguida, você pode inspecionar essa máscara, localizar possíveis imprecisões e, subsequentemente, fazer cliques adicionais conforme apropriado para “empurrar” o modelo para o resultado correto.

Rotulagem de máscara de segmentação com poucos cliques no Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Nossa ferramenta de rotulagem anterior permitia que você colocasse exatamente quatro cliques do mouse (pontos vermelhos). O resultado da segmentação inicial (área sombreada em vermelho) não é preciso devido aos limites fracos perto da sombra (parte inferior esquerda da máscara vermelha).

Com nossa ferramenta de rotulagem aprimorada, o usuário novamente primeiro faz quatro cliques do mouse (pontos vermelhos na figura superior). Então você tem a oportunidade de inspecionar a máscara de segmentação resultante (área sombreada em vermelho na figura superior). Você pode fazer cliques adicionais do mouse (pontos verdes na figura inferior) para fazer com que o modelo refine a máscara (área vermelha sombreada na figura inferior).

Rotulagem de máscara de segmentação com poucos cliques no Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Em comparação com a versão original da ferramenta, a versão aprimorada fornece um resultado aprimorado quando os objetos são deformáveis, não convexos e variam em forma e aparência.

Simulamos o desempenho dessa ferramenta aprimorada em dados de amostra executando primeiro a ferramenta de linha de base (com apenas quatro cliques extremos) para gerar uma máscara de segmentação e avaliamos sua média Intersection over Union (mIoU), uma medida comum de precisão para máscaras de segmentação. Em seguida, aplicamos cliques corretivos simulados e avaliamos a melhora no mIoU após cada clique simulado. A tabela a seguir resume esses resultados. A primeira linha mostra o mIoU e a segunda linha mostra o erro (que é dado por 100% menos o mIoU). Com apenas cinco cliques adicionais no mouse, podemos reduzir o erro em 9% para esta tarefa!

. . Número de cliques corretivos .
. Linha de Base 1 2 3 4 5
miU 72.72 76.56 77.62 78.89 80.57 81.73
erro 27% 23% 22% 21% 19% 18%

Integração com Ground Truth e perfil de desempenho

Para integrar esse modelo com o Ground Truth, seguimos um padrão de arquitetura padrão conforme mostrado no diagrama a seguir. Primeiro, construímos o modelo de ML em uma imagem do Docker e a implantamos para Registro do Amazon Elastic Container (Amazon ECR), um registro de contêiner Docker totalmente gerenciado que facilita o armazenamento, o compartilhamento e a implantação de imagens de contêiner. Usando o Kit de ferramentas de inferência do SageMaker na construção da imagem do Docker nos permite usar facilmente as melhores práticas para servir o modelo e obter inferência de baixa latência. Criamos então um Amazon Sage Maker endpoint em tempo real para hospedar o modelo. Nós introduzimos um AWS Lambda funcionar como um proxy na frente do terminal SageMaker para oferecer vários tipos de transformação de dados. Finalmente, usamos Gateway de API da Amazon como uma forma de integração com nosso front-end, o aplicativo de rotulagem Ground Truth, para fornecer autenticação segura ao nosso back-end.

Rotulagem de máscara de segmentação com poucos cliques no Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Você pode seguir esse padrão genérico para seus próprios casos de uso para ferramentas de ML criadas especificamente e para integrá-las a UIs de tarefas personalizadas do Ground Truth. Para mais informações, consulte Crie um fluxo de trabalho de rotulagem de dados personalizado com Amazon SageMaker Ground Truth.

Depois de provisionar essa arquitetura e implantar nosso modelo usando o Kit de desenvolvimento em nuvem da AWS (AWS CDK), avaliamos as características de latência de nosso modelo com diferentes tipos de instância do SageMaker. Isso é muito simples de fazer porque usamos os endpoints de inferência em tempo real do SageMaker para servir nosso modelo. Os endpoints de inferência em tempo real do SageMaker integram-se perfeitamente com Amazon CloudWatch e emita métricas como utilização de memória e latência de modelo sem configuração necessária (consulte Métricas de invocação de endpoint do SageMaker para mais detalhes).

Na figura a seguir, mostramos a métrica ModelLatency emitida nativamente pelos endpoints de inferência em tempo real do SageMaker. Podemos facilmente usar várias funções matemáticas de métrica no CloudWatch para mostrar percentis de latência, como latência p50 ou p90.

Rotulagem de máscara de segmentação com poucos cliques no Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

A tabela a seguir resume esses resultados para nossa ferramenta aprimorada de clique extremo para segmentação semântica para três tipos de instância: p2.xlarge, p3.2xlarge e g4dn.xlarge. Embora a instância p3.2xlarge forneça a latência mais baixa, a instância g4dn.xlarge oferece a melhor relação custo-desempenho. A instância g4dn.xlarge é apenas 8% mais lenta (35 milissegundos) do que a instância p3.2xlarge, mas é 81% mais barata por hora do que a p3.2xlarge (consulte Preços do Amazon SageMaker para obter mais detalhes sobre os tipos de instância e preços do SageMaker).

Tipo de instância do SageMaker p90 Latência (ms)
1 p2.xlarg 751
2 p3.2xgrande 424
3 g4dn.xlarge 459

Conclusão

Nesta postagem, apresentamos uma extensão para o recurso de segmentação automática do Ground Truth para tarefas de anotação de segmentação semântica. Considerando que a versão original da ferramenta permite fazer exatamente quatro cliques do mouse, o que aciona um modelo para fornecer uma máscara de segmentação de alta qualidade, a extensão permite fazer cliques corretivos e, assim, atualizar e orientar o modelo de ML para fazer melhores previsões. Também apresentamos um padrão de arquitetura básico que você pode usar para implantar e integrar ferramentas interativas nas IUs de rotulagem do Ground Truth. Por fim, resumimos a latência do modelo e mostramos como o uso dos endpoints de inferência em tempo real do SageMaker facilita o monitoramento do desempenho do modelo.

Para saber mais sobre como essa ferramenta pode reduzir o custo de rotulagem e aumentar a precisão, visite Rotulagem de dados do Amazon SageMaker para iniciar uma consulta hoje.


Sobre os autores

Rotulagem de máscara de segmentação com poucos cliques no Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Jonathan Buck é um engenheiro de software da Amazon Web Services que trabalha na interseção de aprendizado de máquina e sistemas distribuídos. Seu trabalho envolve a produção de modelos de aprendizado de máquina e o desenvolvimento de novos aplicativos de software alimentados por aprendizado de máquina para colocar os recursos mais recentes nas mãos dos clientes.

Rotulagem de máscara de segmentação com poucos cliques no Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Li Erran Li é o gerente de ciência aplicada nos serviços humain-in-the-loop, AWS AI, Amazon. Seus interesses de pesquisa são aprendizado profundo em 3D e aprendizado de representação de visão e linguagem. Anteriormente, ele foi cientista sênior da Alexa AI, chefe de aprendizado de máquina da Scale AI e cientista-chefe da Pony.ai. Antes disso, ele estava com a equipe de percepção da Uber ATG e a equipe de plataforma de aprendizado de máquina da Uber trabalhando em aprendizado de máquina para direção autônoma, sistemas de aprendizado de máquina e iniciativas estratégicas de IA. Ele começou sua carreira no Bell Labs e foi professor adjunto na Universidade de Columbia. Ele co-lecionou tutoriais no ICML'17 e ICCV'19, e co-organizou vários workshops no NeurIPS, ICML, CVPR, ICCV sobre aprendizado de máquina para direção autônoma, visão 3D e robótica, sistemas de aprendizado de máquina e aprendizado de máquina adversário. Ele tem um PhD em ciência da computação na Cornell University. É Fellow da ACM e Fellow do IEEE.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS