Os dados sintéticos podem oferecer melhorias reais de desempenho no aprendizado de máquina PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Dados sintéticos podem oferecer melhorias reais de desempenho em aprendizado de máquina

O reconhecimento de ações melhorou dramaticamente com conjuntos de dados de vídeo em grande escala. No entanto, estes conjuntos de dados são acompanhados por questões relacionadas com custos de curadoria, privacidade, ética, preconceito e direitos de autor. Então, MIT os cientistas estão recorrendo a conjuntos de dados sintéticos.

Eles são feitos por um computador que usa modelos 3D de cenas, objetos e humanos para produzir rapidamente muitos clipes variados de ações específicas – sem os possíveis problemas de direitos autorais ou preocupações éticas que acompanham os dados reais.

Os dados sintéticos são tão bons quanto os dados reais?

Uma equipe de cientistas do MIT, do MIT-IBM Watson AI Lab e da Universidade de Boston procurou responder a essa pergunta. Eles criaram um conjunto de dados sintético de 150,000 mil videoclipes que representavam uma variedade de ações humanas e treinaram aprendizado de máquina modelos usando este conjunto de dados. Eles então exibiram seis conjuntos de dados de filmes retirados do mundo real para esses modelos para testar até que ponto eles conseguiam captar as ações nessas gravações.

Os cientistas descobriram que os modelos treinados sinteticamente tiveram um desempenho ainda melhor do que os modelos treinados em dados reais para vídeos com menos objetos de fundo.

Esta descoberta pode ajudar no uso de conjuntos de dados sintéticos por cientistas para auxiliar os modelos no desempenho mais preciso de tarefas reais. Para reduzir algumas das preocupações éticas, de privacidade e de direitos de autor associadas à utilização de conjuntos de dados reais, também pode ajudar os investigadores a determinar quais as aplicações de aprendizagem automática mais adequadas para o treino com dados sintéticos.

Rogerio Feris, cientista principal e gerente do MIT-IBM Watson AI Lab disse: “O objetivo final da nossa pesquisa é substituir o pré-treinamento de dados reais pelo pré-treinamento de dados sintéticos. Há um custo na criação de uma ação em dados sintéticos, mas uma vez feito isso, você pode gerar imagens ou vídeos ilimitados alterando a pose, a iluminação, etc. Essa é a beleza dos dados sintéticos.”

Os cientistas começaram compilando um novo Pré-treinamento e Transferência de Ação Sintética (SynAPT), usando três conjuntos de dados publicamente disponíveis de videoclipes sintéticos que capturaram ações humanas. Contém quase 150 categorias de ação, com 1,000 videoclipes por categoria.

Três modelos de aprendizado de máquina foram pré-treinados para reconhecer as ações usando o conjunto de dados após sua criação. O pré-treinamento é o processo de ensinar uma tarefa a um modelo antes de ensiná-lo outra. O modelo pré-treinado pode usar os parâmetros que já aprendeu para ajudá-lo a aprender uma nova tarefa com um novo conjunto de dados de forma mais rápida e eficiente. Isso é modelado a partir de como as pessoas aprendem, que é reutilizar informações passadas quando sabemos algo novo. O modelo pré-treinado foi testado usando seis conjuntos de dados de videoclipes reais, cada um capturando classes de ações diferentes daquelas nos dados de treinamento.

Foi surpreendente para os cientistas ver que todos os três modelos sintéticos superaram os modelos treinados com videoclipes reais em quatro dos seis conjuntos de dados. Sua precisão foi maior para conjuntos de dados que continham videoclipes com “baixa tendência de cena-objeto”. Isso significa que o modelo não pode reconhecer a ação olhando para o fundo ou outros objetos na cena – ele deve focar na ação em si.

Feris disse: “Em vídeos com baixo viés cena-objeto, a dinâmica temporal das ações é mais importante do que a aparência dos objetos ou do fundo, e isso parece ser bem capturado com dados sintéticos.”

“Alta polarização cena-objeto pode funcionar como um obstáculo. O modelo pode classificar incorretamente uma ação olhando para um objeto e não para a ação em si. Isso pode confundir o modelo.”

O coautor Rameswar Panda, membro da equipe de pesquisa do MIT-IBM Watson AI Lab, disse: “Com base nesses resultados, os pesquisadores querem incluir mais classes de ação e plataformas adicionais de vídeo sintético em trabalhos futuros, criando eventualmente um catálogo de modelos que foram pré-treinados usando dados sintéticos.”

“Queremos construir modelos que tenham desempenho muito semelhante ou até melhor do que os modelos existentes na literatura, mas sem estar vinculados a nenhum desses preconceitos ou preocupações de segurança.”

Sooyoung Jin, coautor e pós-doutorado do CSAIL, disse: “Eles também querem aliar seu trabalho a pesquisas que buscam gerar vídeos sintéticos mais precisos e realistas, o que poderá potencializar o desempenho dos modelos.”

“Usamos conjuntos de dados sintéticos para evitar problemas de privacidade ou preconceitos contextuais ou sociais, mas o que o modelo aprende? Aprende algo imparcial?

Co-autor Samarth Mishra, estudante de pós-graduação na Universidade de Boston (BU), dito“Apesar de haver um custo menor para a obtenção de dados sintéticos bem anotados, atualmente não temos um conjunto de dados com escala para rivalizar com os maiores conjuntos de dados anotados com vídeos reais. Ao discutir os diferentes custos e preocupações com vídeos reais e mostrar a eficácia dos dados sintéticos, esperamos motivar esforços nesta direção.”

Jornal de referência:

  1. Ei, o que Kim et al. Quão transferíveis são as representações de vídeo baseadas em dados sintéticos? Papel

Carimbo de hora:

Mais de Explorador de tecnologia