Como a IA generativa irá revolucionar tudo na década atual

Muitos ficarão surpresos

Imagem do autor com difusão estável

In Nos últimos meses, sistemas de IA como Midjourney, DALL-E, Stable Diffusion, LaMDA e PaLM fizeram grandes avanços em domínios aparentemente tão diversos como geração de imagens e texto. As capacidades destes sistemas são impressionantes: produzem imagens altamente sugestivas, criam textos de venda eficazes para publicidade e muito, muito mais – tudo a partir de meros “instruções” que descrevem o que o utilizador pretende obter.

Tudo isso é feito com IA Generativa.

“IA generativa” refere-se a sistemas alimentados por redes neurais profundas que implementam Modelos de linguagem grandes (LLM) para crio algum tipo de conteúdo. Aqui eu digo “criar”, significando que não é uma cópia de algo já existente, não no sentido filosófico (afinal, o que é uma “criação”?).

Grandes novas empresas estão a emergir neste admirável mundo novo, como Jasper, que oferece a geração de textos para venda e também de imagens para publicidade: Jasper agora tem uma avaliação de mais de um bilhão de dólares, tornando-se um unicórnio da noite para o dia.

A primeira plataforma de IA generativa a realmente causar impacto foi o GPT-3 – lançado há apenas alguns anos! Depois disso, uma sucessão de lançamentos de vários players da área (OpenAI, Google, StableDiffusion, Google, DeepMind e outros) apareceu em um ritmo alucinante, tanto que é difícil se manter atualizado.

Mas, além de quão divertido e fantástico é passar algum tempo com Midjourney para criar imagens a partir de nossos prompts, muitos entusiastas da tecnologia lutam para entender essa onda de IA generativa.

A IA generativa é uma tendência sólida ou é apenas uma moda passageira?

Eu vou para “tendência sólida” porque transformará milhares de atividades profissionais e de lazer no âmbito desta década. Deixe-me começar com um exemplo.

Sou um grande fã de tênis (pelo menos no sentido da TV). Mas as partidas de tênis ao vivo levam horas para terminar, e tenho outras atividades e interesses, então costumo recorrer a assistir replays ou apenas destacar vídeos com os 4 minutos mais divertidos de uma partida.

Mas e se em vez de um vídeo de 4 minutos eu quiser um de 10 ou 15 minutos? Ou se eu quiser incluir todos os pontos do desempate? Atualmente estou sem sorte.

Agora coloque seu chapéu Generative-IA em ação: um gerador de vídeo esportivo Generative IA criaria um vídeo apenas para você de acordo com as especificações que você colocou informalmente em um prompt de texto como o seguinte:

"Vídeo de cerca de 15 minutos com os pontos mais divertidos da partida Rafa Nadal x Tommy Paul em Paris Bercy 2022, incluindo desempates completos, se houver, bem como todos os breakpoints convertidos"

É isso. Você recebe um link com seu vídeo personalizado, diferente de um vídeo assistido por qualquer outra pessoa no mundo. E este serviço de vídeo seria tão economicamente viável quanto o DALL-E e o Midjourney.

Pesquisa é diferente de inovação. A primeira preocupa-se com os resultados originais publicados, e a segunda tem mais a ver com descobrir como construir um negócio a partir desses resultados: a inovação não se preocupa com a originalidade, mas com o crescimento, a defensabilidade, o retorno do investimento, etc.

Muitas vezes as coisas ficam confusas porque a investigação é feita por empresas como a Google, que em princípio estão lá para obter lucro – mas compreendem que o seu negócio é de alta tecnologia, e a tecnologia não é alta sem pesquisa. Assim, envolvem-se no financiamento da investigação, bem como na aproximação ao meio académico – muitos dos seus principais investigadores foram contratados no meio académico. Como pesquisador, fui convidado para um encontro de docentes na sede deles, em Mountain View, há alguns anos, e me hospedaram em uma suíte do hotel Four Seasons – o que for preciso para causar uma boa impressão na comunidade acadêmica!

Mas mesmo que possa ser difícil – e até artificial – fazer uma distinção clara entre investigação e inovação, a diferença é crucial aqui porque, no caso da IA ​​Generativa, as duas serão desenvolvidas por diferentes intervenientes e estarão associadas com duas camadas diferentes na pilha de software – como apontado por J. Currier:

  1. A camada inferior de software é a Modelo de aprendizagem profunda, construído em torno de implementações de Large Language Models (LLM) ou representação interna equivalente. Os modelos fornecem o bloco de construção básico a partir do qual os aplicativos podem ser desenvolvidos.
  2. A camada superior de software é a Formulário on line um, que se baseia no modelo de Deep Learning para realizar uma tarefa específica, por exemplo, gerar uma imagem de um prompt de texto.

Esta arquitetura de duas camadas alimentará uma nova era de inovação acelerada porque, uma vez que a camada inferior for desenvolvida por empresas muito grandes como Google, OpenAI e outras, as empresas mais pequenas fornecerão a camada de aplicação – dando, claro, uma parte dos seus lucros. para o provedor da camada inferior.

Atualmente, a camada inferior foi rapidamente melhorada – e muitas vezes foi distribuída junto com um aplicativo na parte superior. Por exemplo, LaMDA e PaLM oferecem recursos de diálogo prontos para uso, enquanto DALL-E e Midjourney oferecem serviços de prompt de imagem. Mas em breve, a proliferação de alternativas de código aberto para a camada inferior tornará possível desenvolver apenas a camada superior de aplicação e conectá-la a uma camada inferior já disponível. É claro que é mais fácil falar do que fazer, mas o fato é que a camada inferior é muito mais complexa do que a camada superior.

Eu diria que IA generativa permeará quase todas as atividades de conhecimento, trabalho e lazer porque fornecerá ferramentas para eliminar a complexidade de atividades anteriormente difíceis e porque poderá fornecer um nível totalmente novo de personalização que eu chamaria de “personalização generativa”.

Você pode ver o que é “personalização generativa” no exemplo de vídeo de esportes acima: cada usuário recebe um vídeo de destaques totalmente novo e exclusivo, em vez de apenas uma seleção entre duas ou três opções.

É difícil exagerar o impacto cumulativo de todas as aplicações de IA generativa:

  1. A criação gráfica fácil já está ao alcance de não profissionais com ferramentas como DALL-E, Midjourney e Stable Diffusion, pelo menos para fins utilitários simples, como obter uma imagem de cabeçalho para este post. Antes deste ano, eu era completamente incapaz de desenhar minhas próprias imagens, e os especialistas em blogs desaconselhavam perder tempo com design gráfico para suas próprias histórias.
  2. Os usuários de edição de fotos não precisarão passar por uma difícil curva de aprendizado para dominar o intrincado conjunto de ferramentas do Photoshop ou do Affinity Photo (eu uso o último e é tão complexo que preciso consultar os tutoriais do YouTube para aprender como fazer a maioria dos ajustes). Com a IA generativa, os usuários apenas pedirão ao software para realizar uma determinada transformação e pronto! A imagem será corrigida. Se a Adobe não conseguir fornecer IA generativa com suas ferramentas, ela será interrompida por novas startups que as oferecem e seguirá o caminho da Blockbuster.
  3. Ferramentas de apresentação como o PowerPoint, em vez de apenas fornecer modelos como fazem agora, irão gerar e ajustar apresentações inteiras de nível profissional a partir de ideias gerais. Atualmente a diferença entre apresentações profissionais e amadoras é enorme – não será mais o caso.
  4. A escrita de texto será um processo altamente aprimorado pelas ferramentas de IA generativa. Muitas formas de escrita já estão recebendo ajuda de ferramentas sofisticadas como Grammarly, mas a IA generativa dará aos escritores um nível de ajuda qualitativamente novo, por exemplo, gerando uma primeira versão completa de um blog. A escrita será um processo colaborativo entre os humanos e a ferramenta de IA.
  5. Qualquer software destinado ao usuário final deverá ser simples de usar, com instruções de texto ou voz. Os manuais do usuário e os vídeos instrutivos serão coisa do passado e, assim que os usuários se acostumarem com a nova forma simples de usar o software, tudo terá a oferecer para permanecer relevante.
  6. O aprendizado de idiomas será feito principalmente com a ajuda de assistentes de voz, que serão alimentados por – você adivinhou certo – IA generativa. Os assistentes de voz, que atuarão como treinadores pessoais de idiomas, usarão seus incríveis recursos de diálogo em linguagem natural, vistos pela primeira vez em sistemas como o LaMDA do Google, para orientar o aluno que aprende línguas humanas a adquirir vocabulário e expressões, melhorar a pronúncia, etc. assistentes de voz não são uma fantasia futurística – apenas fazem sentido do ponto de vista econômico a partir de agora.
  7. Até mesmo produtos de hardware (como carros) terão sistemas de ajuda baseados em diálogos de IA generativa. Você já tentou realizar uma operação complexa como ajustar a tela em carros modernos? Não é fácil, posso te garantir. Em vez de se aprofundar em manuais complexos, você apenas pedirá ao assistente de voz para obter instruções ou fazer os ajustes diretamente.

Muitas profissões serão transformadas de forma irreconhecível. Os designers gráficos já sentem a dor dessa ruptura. Profissões inteiras desaparecerão e outras serão criadas. Empresas poderosas irão à falência e novas empresas tornar-se-ão dominantes, dependendo de quão bem lidarem com a disrupção tecnológica provocada pela IA Generativa.

E tudo isso acontecerá nesta década.

Posso estar errado, mas parece-me que era difícil, mesmo para especialistas experientes em tecnologia, prever as enormes capacidades dos actuais geradores de imagens e texto: não era evidente há alguns anos que enormes modelos e conjuntos de treino seriam levar a capacidades qualitativamente diferentes.

Eu chegaria ao ponto de dizer que foi uma descoberta feliz, quase aleatória. Mas agora que temos ferramentas generativas, as portas estão abertas para empresas inovadoras que desenvolverão aplicação após aplicação em ritmo acelerado: é principalmente uma questão de descobrir o que pode ser melhorado radicalmente e encontrar o modelo de negócios adequado para fazer negócios a partir de uma ideia de IA generativa.

Há alguns anos, parecia que outras tendências tecnológicas, como carros autônomos, VR ou blockchain, logo assumiriam o controle, mas a tecnologia de direção autônoma foi limitada por obstáculos legislativos, o blockchain foi atingido pela crise econômica e a VR a adoção é limitada pelos altos custos de hardware. A IA generativa, por outro lado, ainda não está limitada pela legislação (ei, aperfeiçoar uma apresentação em PowerPoint ou gerar um vídeo esportivo não é uma questão de vida ou morte) e não precisa de hardware caro para ser comprado pelo usuário.

E não pensávamos que as atividades criativas seriam interrompidas tão cedo. Mas eles eram.

Estamos a entrar em tempos novos e por vezes estranhos, onde a criatividade humana se mistura com as novas capacidades das máquinas a tal ponto que é difícil distinguir entre elas. Como J. Currier aponta:

“Hoje e nos próximos anos, isso será surpreendente e, em muitos aspectos, assustador. Porque aqueles momentos criativos em que você vai do zero às ideias iniciais sempre pareceram tão exclusivamente humanos, porque foram tão misteriosos.”

Como a IA generativa irá perturbar tudo na década atual Republicado da fonte https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 via https://towardsdatascience.com/feed

<!–

->

Carimbo de hora:

Mais de Consultores Blockchain