Cómo la IA generativa interrumpirá todo en la década actual

Muchos se sorprenderán

Imagen del autor con Difusión Estable

In En los últimos meses, sistemas de inteligencia artificial como Midjourney, DALL-E, Stable Diffusion, LaMDA y PaLM han logrado grandes avances en dominios aparentemente tan diversos como la generación de imágenes y texto. Las capacidades de estos sistemas son impresionantes: producen imágenes muy sugerentes, crean textos de venta efectivos para publicidad y mucho, mucho más, todo a partir de meras “indicaciones” que describen lo que el usuario quiere obtener.

Todo esto se hace con IA Generativa.

"IA generativa" se refiere a sistemas impulsados ​​por redes neuronales profundas que implementan Modelos de lenguaje grande (LLM) para Para crear algún tipo de contenido. Aquí digo "crear", lo que significa que no es una copia de algo que ya existe, no en un sentido filosófico (¿qué es una "creación" de todos modos?).

En este nuevo mundo feliz están surgiendo grandes empresas, como Jaspe, que ofrece la generación tanto de textos de venta como de imágenes para publicidad: Jasper tiene ahora una valoración de más de mil millones de dólares y se ha convertido de la noche a la mañana en un unicornio.

La primera plataforma de IA generativa que realmente hizo mella fue GPT-3, ¡lanzada hace apenas un par de años! Después de eso, ha aparecido una sucesión de lanzamientos de varios jugadores en el campo (OpenAI, Google, StableDiffusion, Google, DeepMind y otros) a un ritmo vertiginoso, hasta el punto de que es difícil mantenerse actualizado.

Pero más allá de lo divertido y fantástico que es pasar un tiempo con Midjourney para crear imágenes a partir de nuestras indicaciones, muchos entusiastas de la tecnología luchan por entender esta ola de IA generativa.

¿Es la IA generativa una tendencia sólida o es sólo una moda pasajera?

Voy por “tendencia sólida”porque transformará miles de actividades profesionales y de ocio en el ámbito de esta década. Permítanme comenzar con un ejemplo.

Soy un gran fanático del tenis (al menos en el sentido televisivo). Pero los partidos de tenis en vivo tardan horas en terminar y tengo otras actividades e intereses, por lo que suelo recurrir a ver repeticiones o simplemente videos destacados con los 4 minutos más entretenidos de un partido.

¿Pero qué pasa si en lugar de un vídeo de 4 minutos quiero uno de 10 o 15 minutos? ¿O si quiero incluir todos los puntos en los desempates? Actualmente no tengo suerte.

Ahora ponte a trabajar con Generative-IA: un generador de vídeos deportivos de Generative IA crearía un vídeo solo para ti de acuerdo con las especificaciones que usted puso informalmente en un mensaje de texto como el siguiente:

"Vídeo de unos 15 minutos con los puntos más entretenidos del partido Rafa Nadal vs. Tommy Paul en Paris Bercy 2022, incluyendo desempates completos si los hubiera, así como cada punto de break convertido"

Eso es todo. Obtienes un enlace con tu video personalizado, diferente de un video visto por cualquier otra persona en el mundo. Y este servicio de vídeo sería tan viable económicamente como DALL-E y Midjourney.

La investigación es diferente de la innovación. El primero tiene que ver con los resultados originales publicados, y el segundo tiene más que ver con encontrar cómo construir un negocio a partir de esos resultados: a la innovación no le importa la originalidad sino el crecimiento, la defensa, el retorno de la inversión, etc.

A menudo las cosas se vuelven confusas porque las investigaciones las realizan empresas como Google, que en principio están ahí para obtener ganancias, pero entienden que su negocio es de alta tecnología y la tecnología no es alta sin investigación. De modo que se involucran en la financiación de la investigación, además de acercarse al mundo académico (muchos de sus mejores investigadores fueron contratados en el mundo académico). Como investigador, hace algunos años me invitaron a una cumbre de profesores en su sede de Mountain View y me alojaron en una suite del hotel Four Seasons: ¡lo que sea necesario para causar una buena impresión en la comunidad académica!

Pero incluso si podría ser difícil –e incluso artificial– hacer una distinción clara entre investigación e innovación, la diferencia es crucial aquí porque, en el caso de la IA generativa, ambas serán desarrolladas por diferentes actores y estarán asociadas. con dos capas diferentes en la pila de software –como señalado por J. Currier:

  1. La capa de software inferior es la Modelo de aprendizaje profundo, creado en torno a implementaciones de modelos de lenguajes grandes (LLM) o representación interna equivalente. Los modelos proporcionan la base a partir de la cual se pueden desarrollar aplicaciones.
  2. La capa superior de software es la solicitud en línea. uno, que se basa en el modelo de aprendizaje profundo para realizar una tarea específica, por ejemplo, generar una imagen a partir de un mensaje de texto.

Esta arquitectura de dos capas impulsará una nueva era de innovación acelerada porque una vez que la capa inferior sea desarrollada por empresas muy grandes como Google, OpenAI y otras, las empresas más pequeñas proporcionarán la capa de aplicación, lo que les dará, por supuesto, una parte de sus ganancias. al proveedor de la capa inferior.

Actualmente, la capa inferior se ha mejorado rápidamente y, a menudo, se ha distribuido junto con una aplicación encima. Por ejemplo, LaMDA y PaLM ofrecen capacidades de diálogo listas para usar, mientras que DALL-E y Midjourney ofrecen servicios de visualización rápida de imágenes. Pero pronto, la proliferación de alternativas de código abierto para la capa inferior permitirá desarrollar sólo la capa de aplicación superior y conectarla a una capa inferior ya disponible. Es más fácil decirlo que hacerlo, por supuesto, pero el hecho es que la capa inferior es órdenes de magnitud más compleja que la superior.

Yo diría que la IA generativa impregnará casi todos los conocimientos, trabajos y actividades de ocio. porque proporcionará herramientas para eliminar la complejidad de actividades que antes eran difíciles y porque puede proporcionar un nivel completamente nuevo de personalización que yo llamaría "personalización generativa".

Puedes ver lo que es "personalización generativa" en el ejemplo de video deportivo anterior: cada usuario recibe un video destacado nuevo y único en lugar de solo una selección entre dos o tres opciones.

Es difícil exagerar el impacto acumulativo de todas las aplicaciones de IA Generativa:

  1. La creación gráfica sencilla ya está al alcance de los no profesionales con herramientas como DALL-E, Midjourney y Stable Diffusion, al menos para fines utilitarios simples como obtener una imagen de encabezado para esta publicación. Antes de este año, no podía dibujar mis propias imágenes y los expertos en blogs me desaconsejaban perder el tiempo en el diseño gráfico de mis propias historias.
  2. Los usuarios de edición de fotografías no necesitarán soportar una dura curva de aprendizaje para dominar el complejo conjunto de herramientas de Photoshop o Affinity Photo (yo uso este último y es tan complejo que tengo que consultar los tutoriales de YouTube para aprender a realizar la mayoría de los ajustes). Con la IA generativa, los usuarios simplemente le pedirán al software que realice una transformación determinada y ¡listo! La imagen se arreglará. Si Adobe no logra ofrecer IA generativa con sus herramientas, se verán interrumpidos por nuevas empresas que las ofrezcan y seguirán el camino de Blockbuster.
  3. Las herramientas de presentación como PowerPoint, en lugar de simplemente proporcionar plantillas como lo hacen ahora, generarán y ajustarán presentaciones completas de nivel profesional a partir de ideas esbozadas. Actualmente, la diferencia entre presentaciones profesionales y amateurs es enorme; ya no será así.
  4. La redacción de textos será un proceso muy mejorado por las herramientas de IA generativa. Muchas formas de escritura ya están recibiendo ayuda de herramientas sofisticadas como Grammarly, pero la IA generativa brindará a los escritores un nivel de ayuda cualitativamente nuevo al, por ejemplo, generar una primera versión completa de un blog. La escritura será un proceso colaborativo entre los humanos y la herramienta de inteligencia artificial.
  5. Cualquier software destinado a un usuario final deberá ser sencillo de utilizar con mensajes de texto o de voz. Los manuales de usuario y los vídeos instructivos serán cosa del pasado, y tan pronto como los usuarios se acostumbren a la nueva forma sencilla de utilizar el software, todo tendrá que ofrecerlo para seguir siendo relevante.
  6. El aprendizaje de idiomas se realizará principalmente con la ayuda de asistentes de voz, que estarán impulsados ​​por (lo has adivinado bien) IA generativa. Los asistentes de voz, que actuarán como entrenadores personales de lenguaje, utilizarán sus increíbles capacidades de diálogo en lenguaje natural, vistas por primera vez en sistemas como LaMDA de Google, para guiar al estudiante de lenguaje humano con el fin de adquirir vocabulario y expresiones, mejorar la pronunciación, etc. Los asistentes de voz no son una fantasía futurista, simplemente tienen sentido económico a partir de ahora.
  7. Incluso los productos de hardware (como los automóviles) tendrán sistemas de ayuda basados ​​en diálogos de IA generativa. ¿Has intentado realizar una operación compleja como ajustar la pantalla en los coches modernos? No es fácil, te lo puedo asegurar. En lugar de profundizar en manuales complejos, simplemente le pedirá al asistente de voz que obtenga instrucciones o que realice los ajustes directamente.

Muchas profesiones se transformarán hasta quedar irreconocibles. Los diseñadores gráficos ya sienten el dolor de esta disrupción. Profesiones enteras desaparecerán y se crearán otras. Las empresas poderosas quebrarán y las nuevas se volverán dominantes, dependiendo de qué tan bien manejen la disrupción tecnológica provocada por la IA generativa.

Y todo esto sucederá dentro de esta década.

Puede que me equivoque, pero me parece que era difícil, incluso para los expertos en tecnología experimentados, pronosticar las enormes capacidades de los actuales generadores de imágenes y texto: hace unos años no era evidente que enormes modelos y conjuntos de entrenamiento pudieran funcionar. conducen a capacidades cualitativamente diferentes.

Me atrevería a decir que fue un hallazgo afortunado, casi aleatorio. Pero ahora que contamos con herramientas generativas, las puertas están abiertas para empresas innovadoras que desarrollarán aplicación tras aplicación a un ritmo rápido: es más que nada una cuestión de descubrir qué se puede mejorar radicalmente y encontrar el modelo de negocio adecuado para hacer un negocio a partir de una idea de IA generativa.

Hace unos años, parecía que otras tendencias tecnológicas, como los coches autónomos, la realidad virtual o la cadena de bloques, pronto tomarían el control, pero la tecnología de conducción autónoma se ha visto limitada por obstáculos legislativos, la cadena de bloques se vio afectada por la crisis económica y la realidad virtual. La adopción está limitada por los altos costos del hardware. La IA generativa, en cambio, aún no está limitada por la legislación (oye, pulir una presentación de PowerPoint o generar un vídeo deportivo no es una cuestión de vida o muerte) y no necesita que el usuario compre hardware costoso.

Y no pensábamos que las actividades creativas iban a verse interrumpidas tan pronto. Pero lo fueron.

Estamos entrando en tiempos nuevos y a veces extraños, donde la creatividad humana se mezcla con las nuevas capacidades de las máquinas hasta el punto de que es difícil distinguirlas. Como J. Currier Señala:

“Hoy y durante los próximos años, esto resultará sorprendente y, en muchos sentidos, aterrador. Porque esos momentos creativos en los que pasas de cero a ideas iniciales siempre se han sentido tan singularmente humanos, porque han sido muy misteriosos”.

Cómo la IA generativa alterará todo en la década actual Republicado desde la fuente https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 a través de https://towardsdatascience.com/feed

<!–

->

Sello de tiempo:

Mas de Consultores Blockchain