Meta lança IA generativa para fazer música e sons

Meta lança IA generativa para fazer música e sons

Meta lança IA generativa para fazer música, parece PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

A Meta lançou na quarta-feira o AudioCraft, um conjunto de três modelos de IA capazes de criar som automaticamente a partir de descrições de texto.

À medida que os modelos de IA generativos que recebem instruções escritas e as transformam em imagens ou mais texto continuam a amadurecer, os cientistas da computação estão procurando criar outras formas de mídia usando o aprendizado de máquina.

O áudio é difícil para os sistemas de IA, especialmente a música, pois o software precisa aprender a produzir padrões coerentes ao longo de alguns minutos e ser criativo o suficiente para gerar algo cativante ou agradável de ouvir.

“Uma faixa de música típica de alguns minutos amostrada a 44.1 kHz (que é a qualidade padrão das gravações de música) consiste em milhões de intervalos de tempo”, explicou o Team Meta. Ou seja, um modelo de geração de áudio precisa produzir muitos dados para construir uma trilha amigável ao ser humano.

“Em comparação, modelos generativos baseados em texto como Llama e Llama 2 são alimentados com texto processado como subpalavras que representam apenas alguns milhares de intervalos de tempo por amostra.”

A gigante do Facebook prevê que as pessoas usem o AudioCraft para experimentar fazer sons gerados por computador sem ter que aprender a tocar nenhum instrumento. O kit de ferramentas é composto por três modelos: MusicGen, AudioGen e EnCodec. 

MusicGen foi treinado em 20,000 horas de gravações, de propriedade ou licenciadas pela Meta, juntamente com suas descrições de texto correspondentes. AudioGen está mais focado em gerar efeitos sonoros do que em música, e foi treinado em dados públicos. Por fim, o EnCodec é descrito como um codec neural com perdas que pode compactar e descompactar sinais de áudio com alta fidelidade.

A Meta disse que era AudioCraft de “código aberto”, e é até certo ponto. O software necessário para criar e treinar os modelos e executar a inferência está disponível sob uma licença MIT de código aberto. O código pode ser usado em aplicativos gratuitos (como em liberdade e cerveja grátis) e comerciais, bem como em projetos de pesquisa.

Dito isso, os pesos do modelo não são de código aberto. Eles são compartilhados sob uma licença Creative Commons que proíbe especificamente o uso comercial. Como vimos com lhama 2, sempre que o Meta falar sobre coisas de código aberto, verifique as letras miúdas.

MusicGen e AudioGen geram sons a partir de um prompt de texto de entrada. Você pode ouvir clipes curtos criados a partir das descrições “assobiando com o vento soprando” e “faixa de dança pop com melodias cativantes, percussão tropical e ritmos animados, perfeitos para a praia” no Meta's AudioCraft página de destino, aqui

Os efeitos sonoros curtos são realistas, embora os musicais não sejam ótimos em nossa opinião. Eles soam como jingles repetitivos e genéricos para músicas de espera ruins ou músicas de elevador, em vez de singles de sucesso. 

Pesquisadores da Meta disseram que AudioGen – descrito em profundidade aqui – foi treinado convertendo áudio bruto em uma sequência de tokens e reconstruindo a entrada transformando-os novamente em áudio de alta fidelidade. Um modelo de linguagem mapeia trechos do prompt de texto de entrada para os tokens de áudio para aprender a correlação entre palavras e sons. Gerador de música foi treinado usando um processo semelhante em amostras de música em vez de efeitos sonoros. 

“Em vez de manter o trabalho como uma caixa preta impenetrável, ser aberto sobre como desenvolvemos esses modelos e garantir que sejam fáceis de usar - sejam pesquisadores ou a comunidade musical como um todo - ajuda as pessoas a entender o que esses modelos podem fazer, entender o que eles não podem fazer e ter poderes para realmente usá-los”, argumentou a Equipe Meta.

“No futuro, a IA generativa pode ajudar as pessoas a melhorar muito o tempo de iteração, permitindo que obtenham feedback mais rapidamente durante os estágios iniciais de prototipagem e caixa cinza - sejam eles um grande desenvolvedor construindo mundos para o metaverso, um músico (amador, profissional ou caso contrário) trabalhando em sua próxima composição, ou um pequeno ou médio empresário procurando melhorar seus ativos criativos.

Você pode buscar o código AudioCraft SUA PARTICIPAÇÃO FAZ A DIFERENÇAe experimente o MusicGen SUA PARTICIPAÇÃO FAZ A DIFERENÇA e experimente. ®

Carimbo de hora:

Mais de O registro