¿Qué son los datos sintéticos? Sus tipos, casos de uso y aplicaciones para el aprendizaje automático y la privacidad

Reeditado por Platón

seguidores: 0

El campo de la ciencia de datos y el aprendizaje automático crece día a día. A medida que se van proponiendo nuevos modelos y algoritmos, estos nuevos algoritmos y modelos necesitan una enorme cantidad de datos para su entrenamiento y prueba. Los modelos de aprendizaje profundo están ganando mucha popularidad hoy en día y esos modelos también consumen mucha información. Obtener una cantidad tan enorme de datos en el contexto de los diferentes enunciados del problema es un proceso bastante espantoso, lento y costoso. Los datos se recopilan de escenarios de la vida real, lo que plantea responsabilidades de seguridad y preocupaciones de privacidad. La mayoría de los datos son privados y están protegidos por leyes y regulaciones de privacidad, lo que dificulta el intercambio y el movimiento de datos entre organizaciones o, a veces, entre diferentes departamentos de una sola organización, lo que resulta en retrasos en los experimentos y pruebas de productos. Entonces surge la pregunta ¿cómo se puede solucionar este problema? ¿Cómo se pueden hacer los datos más accesibles y abiertos sin generar preocupaciones sobre la privacidad de alguien?

La solución a este problema es algo conocido como Datos sintéticos.

Entonces, ¿qué son los datos sintéticos?

Por definición, los datos sintéticos se generan de forma artificial o algorítmica y se parecen mucho a la estructura y propiedad subyacentes de los datos reales. Si los datos sintetizados son buenos, no se pueden distinguir de los datos reales.

¿Cuántos tipos diferentes de datos sintéticos puede haber?

La respuesta a esta pregunta es muy abierta, ya que los datos pueden tomar muchas formas, pero principalmente tenemos

Datos de texto
Datos de audio o visuales (por ejemplo, Imágenes, vídeos y audio.)
Datos tabulados

Casos de uso de datos sintéticos para el aprendizaje automático

Solo discutiremos los casos de uso de tres tipos de datos sintéticos, como se mencionó anteriormente.

Uso de datos de texto sintéticos para entrenar modelos de PNL.

Los datos sintéticos tienen aplicaciones en el campo del procesamiento del lenguaje natural. Por ejemplo, el equipo de Alexa AI en Amazon utiliza datos sintéticos para finalizar el conjunto de entrenamiento para su sistema NLU (comprensión del lenguaje natural). Les proporciona una base sólida para aprender nuevos idiomas sin contar con datos suficientes o existentes sobre la interacción con el consumidor.

Uso de datos sintéticos para entrenar algoritmos de visión.

Analicemos aquí un caso de uso generalizado. Supongamos que queremos desarrollar un algoritmo para detectar o contar el número de caras en una imagen. Podemos usar una GAN o alguna otra red generativa para generar rostros humanos realistas, es decir, rostros que no existen en el mundo real, para entrenar el modelo. Otra ventaja es que podemos generar tantos datos como queramos a partir de estos algoritmos sin violar la privacidad de nadie. Pero no podemos utilizar datos reales ya que contienen los rostros de algunas personas, por lo que algunas políticas de privacidad restringen el uso de esos datos.

Otro caso de uso es realizar aprendizaje por refuerzo en un entorno simulado. Supongamos que queremos probar un brazo robótico diseñado para agarrar un objeto y colocarlo en una caja. Para ello se diseña un algoritmo de aprendizaje por refuerzo. Necesitamos hacer experimentos para probarlo porque así es como aprende el algoritmo de aprendizaje por refuerzo. Configurar un experimento en un escenario de la vida real es bastante costoso y requiere mucho tiempo, lo que limita la cantidad de experimentos diferentes que podemos realizar. Pero si hacemos los experimentos en un entorno simulado, entonces configurar el experimento es relativamente económico ya que no requerirá un prototipo de brazo robótico.

Usos de los datos tabulares

Los datos sintéticos tabulares son datos generados artificialmente que imitan datos del mundo real almacenados en tablas. Estos datos están estructurados en filas y columnas. Estas tablas pueden contener cualquier dato, como una lista de reproducción de música. Para cada canción, su reproductor de música mantiene una gran cantidad de información: su nombre, el cantante, su duración, su género, etc. También puede ser un registro financiero como transacciones bancarias, precios de acciones, etc.

Los datos tabulares sintéticos relacionados con transacciones bancarias se utilizan para entrenar modelos y diseñar algoritmos para detectar transacciones fraudulentas. Los datos de precios de acciones del pasado se pueden utilizar para entrenar y probar modelos para predecir precios futuros de acciones.

Una de las ventajas importantes de utilizar datos sintéticos en el aprendizaje automático es que el desarrollador tiene control sobre los datos; puede realizar cambios en los datos según sea necesario para probar cualquier idea y experimentar con ella. Mientras tanto, un desarrollador puede probar el modelo con datos sintetizados y le dará una idea muy clara de cómo funcionará el modelo con datos de la vida real. Si un desarrollador quiere probar un modelo y espera datos reales, adquirirlos puede llevar semanas o incluso meses. De ahí que se retrase el desarrollo y la innovación de la tecnología.

Ahora estamos listos para discutir cómo los datos sintéticos ayudan a resolver los problemas relacionados con la privacidad de los datos.

Muchas industrias dependen de los datos generados por sus clientes para la innovación y el desarrollo, pero esos datos contienen información de identificación personal (PII) y las leyes de privacidad regulan estrictamente el procesamiento de dichos datos. Por ejemplo, el Reglamento General de Protección de Datos (GDPR) prohíbe los usos que no hayan sido consentidos explícitamente cuando la organización recopiló los datos. Como los datos sintéticos se parecen mucho a la estructura subyacente de los datos reales y, al mismo tiempo, garantiza que no El individuo presente en los datos reales puede volver a identificarse a partir de los datos sintéticos. Como resultado, el procesamiento y el intercambio de datos sintéticos tienen muchas menos regulaciones, lo que resulta en desarrollos e innovaciones más rápidos y un fácil acceso a los datos.

Conclusión

Los datos sintéticos tienen muchas ventajas importantes. Les brinda a los desarrolladores de ML control sobre los experimentos y aumenta la velocidad de desarrollo ya que los datos ahora son más accesibles. Promueve la colaboración a mayor escala, ya que los datos se pueden compartir libremente. Además, los datos sintéticos garantizan proteger la privacidad de las personas de los datos reales.

viñeta

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en el Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en Deep Learning, Computer Vision y campos relacionados.

<!–

Sello de tiempo: 12 de noviembre.14 de noviembre.