O que são dados sintéticos? Seus tipos, casos de uso e aplicativos para aprendizado de máquina e privacidade

Republicado por Platão

seguidores: 0

O campo de Data Science e Machine Learning está crescendo a cada dia. Como novos modelos e algoritmos estão sendo propostos com o tempo, esses novos algoritmos e modelos precisam de dados enormes para treinamento e teste. Os modelos de Deep Learning estão ganhando tanta popularidade hoje em dia, e esses modelos também são famintos por dados. A obtenção de uma quantidade tão grande de dados no contexto das diferentes declarações do problema é um processo hediondo, demorado e caro. Os dados são coletados de cenários da vida real, o que aumenta as responsabilidades de segurança e as preocupações com a privacidade. A maioria dos dados é privada e protegida por leis e regulamentos de privacidade, o que impede o compartilhamento e a movimentação de dados entre organizações ou, às vezes, entre diferentes departamentos de uma única organização, resultando no atraso de experimentos e testes de produtos. Então surge a pergunta como esse problema pode ser resolvido? Como os dados podem se tornar mais acessíveis e abertos sem levantar preocupações sobre a privacidade de alguém?

A solução para este problema é algo conhecido como Dados sintéticos.

Então, o que são dados sintéticos?

Por definição, os dados sintéticos são gerados artificialmente ou algoritmicamente e se assemelham muito à estrutura e propriedade subjacentes dos dados reais. Se os dados sintetizados forem bons, é indistinguível dos dados reais.

Quantos tipos diferentes de dados sintéticos podem existir?

A resposta a esta pergunta é muito aberta, pois os dados podem assumir várias formas, mas principalmente temos

dados de texto
Dados de áudio ou visuais (por exemplo, Imagens, vídeos e áudio)
Dados tabulares

Casos de uso de dados sintéticos para aprendizado de máquina

Discutiremos apenas os casos de uso de apenas três tipos de dados sintéticos, conforme mencionado acima.

Uso de dados de texto sintético para treinar modelos NLP

Os dados sintéticos têm aplicações no campo do processamento de linguagem natural. Por exemplo, a equipe Alexa AI da Amazon usa dados sintéticos para concluir o conjunto de treinamento para seu sistema NLU (compreensão de linguagem natural). Ele fornece a eles uma base sólida para treinar novos idiomas sem dados existentes ou suficientes de interação com o consumidor.

Usando dados sintéticos para treinar algoritmos de visão

Vamos discutir um caso de uso generalizado aqui. Suponha que queremos desenvolver um algoritmo para detectar ou contar o número de rostos em uma imagem. Podemos usar uma GAN ou alguma outra rede generativa para gerar rostos humanos realistas, ou seja, rostos que não existem no mundo real, para treinar o modelo. Outra vantagem é que podemos gerar quantos dados quisermos desses algoritmos sem violar a privacidade de ninguém. Mas não podemos usar dados reais, pois contêm rostos de alguns indivíduos, portanto, algumas políticas de privacidade restringem o uso desses dados.

Outro caso de uso é o aprendizado por reforço em um ambiente simulado. Suponha que queremos testar um braço robótico projetado para pegar um objeto e colocá-lo em uma caixa. Um algoritmo de aprendizado por reforço é projetado para essa finalidade. Precisamos fazer experimentos para testá-lo porque é assim que o algoritmo de aprendizado por reforço aprende. A configuração de um experimento em um cenário da vida real é bastante cara e demorada, limitando o número de diferentes experimentos que podemos realizar. Mas se fizermos os experimentos no ambiente simulado, a configuração do experimento é relativamente barata, pois não exigirá um protótipo de braço robótico.

Usos de dados tabulares

Dados sintéticos tabulares são dados gerados artificialmente que imitam dados do mundo real armazenados em tabelas. Esses dados são estruturados em linhas e colunas. Essas tabelas podem conter quaisquer dados, como uma lista de reprodução de música. Para cada música, seu reprodutor de música mantém várias informações: nome, cantor, duração, gênero e assim por diante. Também pode ser um registro financeiro, como transações bancárias, preços de ações, etc.

Dados tabulares sintéticos relacionados a transações bancárias são usados para treinar modelos e projetar algoritmos para detectar transações fraudulentas. Dados de preços de ações do passado podem ser usados para treinar e testar modelos para prever preços futuros de ações.

Uma das vantagens significativas de usar dados sintéticos no aprendizado de máquina é que o desenvolvedor tem controle sobre os dados; ele pode fazer alterações nos dados de acordo com a necessidade de testar qualquer ideia e experimentá-la. Enquanto isso, um desenvolvedor pode testar o modelo em dados sintetizados e dar uma ideia muito clara de como o modelo funcionará em dados da vida real. Se um desenvolvedor quiser experimentar um modelo e esperar por dados reais, a aquisição de dados pode levar semanas ou até meses. Assim, atrasando o desenvolvimento e inovação da tecnologia.

Agora estamos prontos para discutir como os dados sintéticos ajudam a resolver os problemas relacionados à privacidade de dados.

Muitos setores dependem dos dados gerados por seus clientes para inovação e desenvolvimento, mas esses dados contêm informações de identificação pessoal (PII) e as leis de privacidade regulam estritamente o processamento de tais dados. Por exemplo, o Regulamento Geral de Proteção de Dados (GDPR) proíbe usos que não foram explicitamente consentidos quando a organização coletou os dados.‍ Como os dados sintéticos se assemelham muito à estrutura subjacente dos dados reais e, ao mesmo tempo, garantem que nenhum indivíduo presente nos dados reais pode ser reidentificado a partir dos dados sintéticos. Como resultado, o processamento e compartilhamento de dados sintéticos têm muito menos regulamentações, resultando em desenvolvimentos e inovações mais rápidos e fácil acesso aos dados.

Conclusão

Os dados sintéticos têm muitas vantagens significativas. Ele dá aos desenvolvedores de ML controle sobre os experimentos e aumenta a velocidade de desenvolvimento, pois os dados agora estão mais acessíveis. Ele promove a colaboração em uma escala maior, pois os dados podem ser compartilhados livremente. Além disso, os dados sintéticos garantem a proteção da privacidade dos indivíduos dos dados reais.

Vinha

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar é estagiário de consultoria na MarktechPost. Atualmente, ele está cursando seu bacharelado no Instituto Indiano de Tecnologia (IIT), Kanpur. Ele é um entusiasta do Machine Learning. Ele é apaixonado por pesquisa e pelos avanços mais recentes em Deep Learning, Visão Computacional e áreas afins.

<!–

Carimbo de hora: 12 de novembro de 2022 14 de novembro de 2022