Crie um pipeline de aprendizado ativo para anotação automática de imagens com serviços AWS

Republicado por Platão

seguidores: 0

Esta postagem do blog foi escrita em co-autoria com Caroline Chung da Veoneer.

A Veoneer é uma empresa global de eletrônica automotiva e líder mundial em sistemas de segurança eletrônica automotiva. Eles oferecem os melhores sistemas de controle de retenção da categoria e entregaram mais de 1 bilhão de unidades de controle eletrônico e sensores de colisão para fabricantes de automóveis em todo o mundo. A empresa continua a desenvolver uma história de 70 anos de desenvolvimento de segurança automotiva, especializando-se em hardware e sistemas de ponta que previnem incidentes de trânsito e mitigam acidentes.

O sensoriamento automotivo na cabine (ICS) é um espaço emergente que usa uma combinação de vários tipos de sensores, como câmeras e radar, e algoritmos baseados em inteligência artificial (IA) e aprendizado de máquina (ML) para aumentar a segurança e melhorar a experiência de pilotagem. Construir tal sistema pode ser uma tarefa complexa. Os desenvolvedores precisam anotar manualmente grandes volumes de imagens para fins de treinamento e teste. Isso consome muito tempo e muitos recursos. O tempo de resposta para tal tarefa é de várias semanas. Além disso, as empresas têm de lidar com questões como rótulos inconsistentes devido a erros humanos.

A AWS está focada em ajudar você a aumentar a velocidade de desenvolvimento e reduzir os custos de construção desses sistemas por meio de análises avançadas como ML. Nossa visão é usar ML para anotações automatizadas, permitindo o retreinamento de modelos de segurança e garantindo métricas de desempenho consistentes e confiáveis. Neste post, compartilhamos como, ao colaborar com a Organização Mundial de Especialistas da Amazon e o Centro de inovação de IA generativa, desenvolvemos um pipeline de aprendizado ativo para caixas delimitadoras de cabeça de imagem na cabine e anotação de pontos-chave. A solução reduz os custos em mais de 90%, acelera o processo de anotação de semanas para horas em termos de tempo de resposta e permite a reutilização para tarefas semelhantes de rotulagem de dados de ML.

Visão geral da solução

A aprendizagem ativa é uma abordagem de ML que envolve um processo iterativo de seleção e anotação dos dados mais informativos para treinar um modelo. Dado um pequeno conjunto de dados rotulados e um grande conjunto de dados não rotulados, a aprendizagem ativa melhora o desempenho do modelo, reduz o esforço de rotulagem e integra a experiência humana para obter resultados robustos. Nesta postagem, construímos um pipeline de aprendizagem ativo para anotações de imagens com serviços AWS.

O diagrama a seguir demonstra a estrutura geral do nosso pipeline de aprendizagem ativa. O pipeline de rotulagem obtém imagens de um Serviço de armazenamento simples da Amazon (Amazon S3) e gera imagens anotadas com a cooperação de modelos de ML e experiência humana. O pipeline de treinamento pré-processa os dados e os utiliza para treinar modelos de ML. O modelo inicial é configurado e treinado em um pequeno conjunto de dados rotulados manualmente e será usado no pipeline de rotulagem. O pipeline de rotulagem e o pipeline de treinamento podem ser iterados gradualmente com mais dados rotulados para melhorar o desempenho do modelo.

Fluxo de trabalho de etiquetagem automática

No pipeline de rotulagem, um Notificação de eventos do Amazon S3 é invocado quando um novo lote de imagens chega ao bucket Unlabeled Datastore S3, ativando o pipeline de rotulagem. O modelo produz os resultados da inferência nas novas imagens. Uma função de julgamento personalizada seleciona partes dos dados com base na pontuação de confiança da inferência ou em outras funções definidas pelo usuário. Esses dados, com seus resultados de inferência, são enviados para um trabalho de rotulagem humana em Verdade no solo do Amazon SageMaker criado pelo pipeline. O processo de rotulagem humana ajuda a anotar os dados, e os resultados modificados são combinados com os dados anotados automaticamente restantes, que podem ser usados posteriormente pelo pipeline de treinamento.

O retreinamento do modelo acontece no pipeline de treinamento, onde usamos o conjunto de dados que contém os dados rotulados por humanos para retreinar o modelo. Um arquivo manifesto é produzido para descrever onde os arquivos são armazenados, e o mesmo modelo inicial é treinado novamente nos novos dados. Após o novo treinamento, o novo modelo substitui o modelo inicial e a próxima iteração do pipeline de aprendizagem ativo é iniciada.

Implantação de modelo

Tanto o pipeline de rotulagem quanto o pipeline de treinamento são implantados em AWS Code Pipeline. AWS CodeBuild instâncias são usadas para implementação, que é flexível e rápida para uma pequena quantidade de dados. Quando a velocidade é necessária, usamos Amazon Sage Maker endpoints baseados na instância da GPU para alocar mais recursos para dar suporte e acelerar o processo.

O pipeline de retreinamento do modelo pode ser invocado quando há um novo conjunto de dados ou quando o desempenho do modelo precisa de melhorias. Uma tarefa crítica no pipeline de retreinamento é ter o sistema de controle de versão tanto para os dados de treinamento quanto para o modelo. Embora os serviços da AWS, como Reconhecimento da Amazônia possuem o recurso de controle de versão integrado, que torna o pipeline fácil de implementar; modelos personalizados exigem registro de metadados ou ferramentas adicionais de controle de versão.

Todo o fluxo de trabalho é implementado usando o Kit de desenvolvimento em nuvem da AWS (AWS CDK) para criar os componentes necessários da AWS, incluindo o seguinte:

Duas funções para trabalhos CodePipeline e SageMaker
Dois trabalhos do CodePipeline, que orquestram o fluxo de trabalho
Dois buckets S3 para os artefatos de código dos pipelines
Um bucket S3 para rotular o manifesto do trabalho, conjuntos de dados e modelos
Pré-processamento e pós-processamento AWS Lambda funções para os trabalhos de rotulagem do SageMaker Ground Truth

As pilhas AWS CDK são altamente modularizadas e reutilizáveis em diferentes tarefas. O treinamento, o código de inferência e o modelo SageMaker Ground Truth podem ser substituídos por qualquer cenário de aprendizagem ativo semelhante.

Treinamento de modelo

O treinamento do modelo inclui duas tarefas: anotação de caixa delimitadora de cabeça e anotação de pontos-chave humanos. Apresentamos ambos nesta seção.

Anotação da caixa delimitadora de cabeçalho

A anotação da caixa delimitadora da cabeça é uma tarefa para prever a localização de uma caixa delimitadora da cabeça humana em uma imagem. Usamos um Rótulos personalizados do Amazon Rekognition modelo para anotações de caixa delimitadora de cabeçalho. A seguir caderno de amostra fornece um tutorial passo a passo sobre como treinar um modelo Rekognition Custom Labels por meio do SageMaker.

Primeiro precisamos preparar os dados para iniciar o treinamento. Geramos um arquivo de manifesto para o treinamento e um arquivo de manifesto para o conjunto de dados de teste. Um arquivo de manifesto contém vários itens, cada um deles para uma imagem. A seguir está um exemplo de arquivo de manifesto, que inclui o caminho da imagem, tamanho e informações de anotação:

{
    "source-ref": "s3://mlsl-sandox/rekognition_images/train/IMS_00000_00_000_000_R2_1900_01_01_00000_compressed_front_tof_amp_000.jpeg",
    "bounding-box-attribute-name": {
        "image_size": [{
                "width": 640,
                "height": 480,
                "depth": 3
            }
        ],
        "annotations": [{
                "class_id": 1,
                "top": 189,
                "left": 209,
                "width": 97,
                "height": 121
            }
        ]
    },
    "bounding-box-attribute-name-metadata": {
        "objects": [{
                "confidence": 1
            }
        ],
        "class-map": {
            "1": "Head"
        },
        "type": "groundtruth/object-detection",
        "human-annotated": "yes",
        "creation-date": "2023-04-07T20:04:42",
        "job-name": "testjob"
    }
}

Usando os arquivos de manifesto, podemos carregar conjuntos de dados em um modelo Rekognition Custom Labels para treinamento e teste. Iteramos o modelo com diferentes quantidades de dados de treinamento e o testamos nas mesmas 239 imagens não vistas. Neste teste, o mAP_50 a pontuação aumentou de 0.33 com 114 imagens de treinamento para 0.95 com 957 imagens de treinamento. A captura de tela a seguir mostra as métricas de desempenho do modelo final do Rekognition Custom Labels, que produz ótimo desempenho em termos de pontuação F1, precisão e recall.

Crie um pipeline de aprendizagem ativo para anotação automática de imagens com serviços AWS | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Testamos ainda mais o modelo em um conjunto de dados retido que possui 1,128 imagens. O modelo prevê consistentemente previsões precisas da caixa delimitadora nos dados não vistos, produzindo um alto mAP_50 de 94.9%. O exemplo a seguir mostra uma imagem anotada automaticamente com uma caixa delimitadora de cabeçalho.

Crie um pipeline de aprendizagem ativo para anotação automática de imagens com serviços AWS | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Anotação de pontos-chave

A anotação de pontos-chave produz localizações de pontos-chave, incluindo olhos, ouvidos, nariz, boca, pescoço, ombros, cotovelos, pulsos, quadris e tornozelos. Além da previsão da localização, a visibilidade de cada ponto é necessária para prever esta tarefa específica, para a qual projetamos um novo método.

Para anotação de pontos-chave, usamos um Modelo Yolo 8 Pose no SageMaker como modelo inicial. Primeiro preparamos os dados para treinamento, incluindo a geração de arquivos de rótulos e um arquivo de configuração .yaml seguindo os requisitos do Yolo. Após preparar os dados, treinamos o modelo e salvamos os artefatos, incluindo o arquivo de pesos do modelo. Com o arquivo de pesos do modelo treinado, podemos anotar as novas imagens.

Na fase de treinamento, todos os pontos rotulados com localizações, incluindo pontos visíveis e pontos ocluídos, são utilizados para treinamento. Portanto, este modelo fornece por padrão a localização e a confiança da previsão. Na figura a seguir, um grande limite de confiança (limiar principal) próximo a 0.6 é capaz de dividir os pontos que estão visíveis ou ocluídos versus fora dos pontos de vista da câmera. No entanto, os pontos ocluídos e os pontos visíveis não são separados pela confiança, o que significa que a confiança prevista não é útil para prever a visibilidade.

Crie um pipeline de aprendizagem ativo para anotação automática de imagens com serviços AWS | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Para obter a previsão de visibilidade, introduzimos um modelo adicional treinado no conjunto de dados contendo apenas pontos visíveis, excluindo pontos ocluídos e fora dos pontos de vista da câmera. A figura a seguir mostra a distribuição de pontos com diferentes visibilidades. Pontos visíveis e outros pontos podem ser separados no modelo adicional. Podemos usar um limite (limite adicional) próximo a 0.6 para obter os pontos visíveis. Ao combinar esses dois modelos, projetamos um método para prever a localização e a visibilidade.

Crie um pipeline de aprendizagem ativo para anotação automática de imagens com serviços AWS | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Um ponto-chave é primeiro previsto pelo modelo principal com localização e confiança principal, depois obtemos a previsão de confiança adicional do modelo adicional. Sua visibilidade é então classificada da seguinte forma:

Visível, se a sua confiança principal for maior que o seu limite principal e a sua confiança adicional for maior que o limite adicional
Ocluído, se sua confiança principal for maior que seu limite principal e sua confiança adicional for menor ou igual ao limite adicional
Fora da revisão da câmera, caso contrário

Um exemplo de anotação de pontos-chave é demonstrado na imagem a seguir, onde as marcas sólidas são pontos visíveis e as marcas vazias são pontos ocluídos. Fora dos pontos de revisão da câmera não são mostrados.

Crie um pipeline de aprendizagem ativo para anotação automática de imagens com serviços AWS | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Com base no padrão OKS definição no conjunto de dados MS-COCO, nosso método é capaz de atingir mAP_50 de 98.4% no conjunto de dados de teste não visto. Em termos de visibilidade, o método produz uma precisão de classificação de 79.2% no mesmo conjunto de dados.

Rotulagem e reciclagem humana

Embora os modelos obtenham ótimo desempenho em dados de teste, ainda existem possibilidades de cometer erros em novos dados do mundo real. A rotulagem humana é o processo para corrigir esses erros para melhorar o desempenho do modelo por meio de retreinamento. Projetamos uma função de julgamento que combinou o valor de confiança gerado pelos modelos de ML para a saída de todas as caixas delimitadoras ou pontos-chave. Utilizamos a pontuação final para identificar esses erros e as imagens mal rotuladas resultantes, que precisam ser enviadas para o processo de rotulagem humana.

Além de imagens mal rotuladas, uma pequena porção de imagens é escolhida aleatoriamente para rotulagem humana. Essas imagens rotuladas por humanos são adicionadas à versão atual do conjunto de treinamento para retreinamento, melhorando o desempenho do modelo e a precisão geral da anotação.

Na implementação, usamos o SageMaker Ground Truth para o rotulagem humana processo. SageMaker Ground Truth fornece uma interface de usuário fácil de usar e intuitiva para rotulagem de dados. A captura de tela a seguir demonstra um trabalho de rotulagem do SageMaker Ground Truth para anotação de caixa delimitadora de cabeçalho.

Crie um pipeline de aprendizagem ativo para anotação automática de imagens com serviços AWS | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

A captura de tela a seguir demonstra um trabalho de rotulagem do SageMaker Ground Truth para anotação de pontos-chave.

Crie um pipeline de aprendizagem ativo para anotação automática de imagens com serviços AWS | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Custo, velocidade e reutilização

Custo e rapidez são as principais vantagens de usar nossa solução em comparação à rotulagem humana, conforme mostrado nas tabelas a seguir. Usamos essas tabelas para representar as economias de custos e acelerações de velocidade. Usando a instância acelerada do GPU SageMaker ml.g4dn.xlarge, o custo de treinamento e inferência para toda a vida em 100,000 imagens é 99% menor que o custo da rotulagem humana, enquanto a velocidade é 10–10,000 vezes mais rápida do que a rotulagem humana, dependendo do tarefa.

A primeira tabela resume as métricas de desempenho de custos.

Modelo	mAP_50 baseado em 1,128 imagens de teste	Custo de treinamento com base em 100,000 imagens	Custo de inferência com base em 100,000 imagens	Redução de custos em comparação com anotação humana	Tempo de inferência baseado em 100,000 imagens	Aceleração do tempo em comparação com a anotação humana
Caixa delimitadora da cabeça de reconhecimento	0.949	$4	$22	99% menos	5.5 hora	dias
Pontos-chave do Yolo	0.984	$27.20	* $ 10	99.9% menos	minutos	semanas

A tabela a seguir resume as métricas de desempenho.

Tarefa de anotação	mAP_50 (%)	Custo de treinamento ($)	Custo de inferência ($)	Tempo de inferência
Caixa Delimitadora de Cabeça	94.9	4	22	5.5 horas
Pontos chave	98.4	27	10	5 minutos

Além disso, nossa solução oferece capacidade de reutilização para tarefas semelhantes. Desenvolvimentos de percepção de câmera para outros sistemas, como sistema avançado de assistência ao motorista (ADAS) e sistemas na cabine, também podem adotar nossa solução.

Resumo

Nesta postagem, mostramos como construir um pipeline de aprendizagem ativo para anotação automática de imagens na cabine utilizando serviços AWS. Demonstramos o poder do ML, que permite automatizar e agilizar o processo de anotação, e a flexibilidade da estrutura que usa modelos suportados pelos serviços da AWS ou personalizados no SageMaker. Com Amazon S3, SageMaker, Lambda e SageMaker Ground Truth, você pode simplificar o armazenamento, a anotação, o treinamento e a implantação de dados e obter capacidade de reutilização e, ao mesmo tempo, reduzir significativamente os custos. Ao implementar esta solução, as empresas automotivas podem se tornar mais ágeis e econômicas usando análises avançadas baseadas em ML, como anotação automatizada de imagens.

Comece hoje e desbloqueie o poder do Serviços da AWS e aprendizado de máquina para seus casos de uso de detecção automotiva na cabine!

Sobre os autores

Yan Xiang Yu é cientista aplicado no Amazon Generative AI Innovation Center. Com mais de 9 anos de experiência na construção de soluções de IA e aprendizado de máquina para aplicações industriais, ele é especialista em IA generativa, visão computacional e modelagem de séries temporais.

Tianyi Mao é Cientista Aplicado da AWS baseado na área de Chicago. Ele tem mais de 5 anos de experiência na construção de soluções de aprendizado de máquina e aprendizado profundo e se concentra em visão computacional e aprendizado por reforço com feedback humano. Ele gosta de trabalhar com clientes para entender seus desafios e resolvê-los criando soluções inovadoras usando serviços da AWS.

Yan Ru Xiao é cientista aplicado no Amazon Generative AI Innovation Center, onde cria soluções de IA/ML para problemas de negócios do mundo real dos clientes. Ele trabalhou em diversas áreas, incluindo manufatura, energia e agricultura. Yanru obteve seu Ph.D. em Ciência da Computação pela Old Dominion University.

Paul George é um líder de produto talentoso com mais de 15 anos de experiência em tecnologias automotivas. Ele é especialista em liderar equipes de gerenciamento de produtos, estratégia, Go-to-Market e engenharia de sistemas. Ele incubou e lançou vários novos produtos de detecção e percepção em todo o mundo. Na AWS, ele lidera a estratégia e a entrada no mercado de cargas de trabalho de veículos autônomos.

Caroline Chung é gerente de engenharia na Veoneer (adquirida pela Magna International), ela tem mais de 14 anos de experiência no desenvolvimento de sistemas de detecção e percepção. Atualmente, ela lidera programas de pré-desenvolvimento de detecção interna na Magna International, gerenciando uma equipe de engenheiros de visão computacional e cientistas de dados.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/build-an-active-learning-pipeline-for-automatic-annotation-of-images-with-aws-services/

Carimbo de hora: 10 de abril de 2024

Carimbo de hora: 9 fevereiro de 2022

Republicado por Platão

Melhorando a estabilidade e a flexibilidade dos pipelines de ML na Amazon Packaging Innovation com o Amazon SageMaker Pipelines

ML automatizado, escalável e econômico na AWS: detectando samambaias arbóreas australianas invasoras em florestas havaianas

Aumente o desempenho do modelo de ML e reduza o tempo de treinamento usando algoritmos integrados do Amazon SageMaker com modelos pré-treinados

Importe dados de mais de 40 fontes de dados para machine learning sem código com o Amazon SageMaker Canvas

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta