O drama LLaMA como modelo de mega linguagem do Meta vaza

Drama de LLaMA como vazamento de modelo de megalinguagem do Meta

Drama LLaMA enquanto o modelo de megalinguagem do Meta vaza PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O LLaMA, o mais recente modelo de linguagem grande da Meta, vazou online e está disponível para download, apesar das aparentes tentativas de limitar o acesso apenas para fins de pesquisa.

O dono do Facebook anunciou em fevereiro, estava lançando o modelo de forma limitada para selecionar acadêmicos, tipos de governo e empresas para jogar em meio a temores chamadas poderia ser mal utilizado. Mas a informação quer ser gratuita, ou pelo menos algumas pessoas querem que seja, e a criação de Meta encontrou seu caminho online de qualquer maneira, começando com um vazamento de torrent.

Os grandes modelos de linguagem de previsão de sentenças, que geram passagens de texto a partir de prompts de entrada, evoluíram constantemente, desde a conclusão automática da escrita até os chatbots capazes de executar tarefas quando solicitados usando linguagem natural.

Especialistas alertaram que essa tecnologia pode ser usada para automatizar a fabricação de grandes quantidades de notícias falsas, spam, e-mails de phishing, desinformação, incitamento, etc., nos próximos anos. As organizações que constroem esses modelos geralmente mantêm o software em sigilo, atrás de APIs ou lançam versões ou demonstrações limitadas. 

“Ainda há mais pesquisas que precisam ser feitas para abordar os riscos de viés, comentários tóxicos e alucinações em grandes modelos de linguagem”, Meta dito semana passada.

“Como outros modelos, o LLaMA compartilha desses desafios. Como modelo básico, o LLaMA foi projetado para ser versátil e pode ser aplicado a muitos casos de uso diferentes, em comparação com um modelo ajustado para uma tarefa específica.

“Para manter a integridade e evitar o uso indevido, estamos lançando nosso modelo sob uma licença não comercial focada em casos de uso de pesquisa. O acesso ao modelo será concedido caso a caso a pesquisadores acadêmicos; os afiliados a organizações governamentais, da sociedade civil e acadêmicas; e laboratórios de pesquisa da indústria em todo o mundo.”

Guia de instruções

Mas os esforços da Meta para controlar o acesso ao LLaMA parecem ter sido em vão, ou pelo menos é o que parece. Pouco depois de compartilhar o modelo com boffins selecionados, da indústria e da sociedade civil, alguém no 4Chan postou detalhes sobre como obter todo o modelo por meio de compartilhamento de arquivos ponto a ponto e, eventualmente, instruções sobre como baixar tudo foram publicados no GitHub.

Como sempre, tenha cuidado ao buscar coisas como esta de torrents, caso alguém tenha escondido algo nefasto lá. O modelo de 65 bilhões de parâmetros ocupa cerca de 220 GB de espaço em disco.

As cópias do LLaMA disponíveis via GitHub parecem ser legítimas, observamos. Shawn Presser, um engenheiro de IA que escreveu as instruções de download no site de compartilhamento de código da Microsoft, nos mostrou capturas de tela dele gerando com sucesso o texto do modelo. Ele acredita que um pesquisador que teve acesso ao modelo da Meta o vazou, levando a uma distribuição talvez mais ampla do que o esperado.

Ligue seus mecanismos de teoria da conspiração.

Presser considera que liberar o modelo livremente sem ressalvas é melhor do que apenas limitá-lo a acadêmicos aprovados. “Acho que o bom vai superar o ruim, pelo menos dez vezes. Provavelmente mais perto de 100x ”, disse ele O registro

Treinar e executar grandes modelos de linguagem de última geração é caro, em geral; apenas as organizações que têm acesso a pilhas de GPUs e outras infraestruturas estão em posição de construí-las, ajustá-las e testá-las. Pesquisadores de IA da Meta construiu o LLaMA para ser menor, tornando-o mais compacto do que os modelos comerciais atuais e, portanto, mais acessível para acadêmicos e desenvolvedores sem orçamentos de TI nada triviais. 

Os gurus de aprendizado de máquina da Meta afirmaram que seu sistema superou o GPT-3 da OpenAI e é tão bom quanto outros grandes modelos de linguagem, como o PaLM de 540 bilhões de parâmetros do Google ou o Chinchilla de 70 bilhões de parâmetros do DeepMind. O tamanho menor significa que deve ser mais fácil de usar para cientistas que têm menos recursos computacionais. E sim, há uma infinidade de modelos de linguagem de todas as formas e tamanhos; é mais do que apenas OpenAI e Facebook.

O LLaMA ainda requer centenas de gigabytes de armazenamento e uma quantidade decente de computação para conduzi-lo. Colocar o modelo em funcionamento também não é simples, a menos que você esteja acostumado a lidar com sistemas desse tipo, e redirecioná-lo para atividades mais nefastas também exigirá mais conhecimento técnico. Apesar do vazamento do modelo, a Meta disse que continuará a compartilhar o LLaMA apenas com pesquisadores selecionados. 

Acreditamos que a atual estratégia de lançamento nos permite equilibrar responsabilidade e abertura

“É objetivo da Meta compartilhar modelos de IA de última geração com membros da comunidade de pesquisa para nos ajudar a avaliar e melhorar esses modelos”, disse um porta-voz O registro.

“O LLaMA foi compartilhado para fins de pesquisa, consistente com a forma como compartilhamos modelos de linguagem grandes anteriores. Embora o modelo não seja acessível a todos e alguns tenham tentado contornar o processo de aprovação, acreditamos que a atual estratégia de lançamento nos permite equilibrar responsabilidade e abertura”.

Em outras palavras, o grupo do Facebook mantém sua abordagem para distribuir sua tecnologia.

As recentes tentativas da Meta de lançar grandes modelos de linguagem não correram bem. No ano passado, seu falador BlenderBot foi criticado por espalhar desinformação e visões anti-semitas. Galactica, projetado para resumir o conhecimento científico, foi afastado três dias depois de ter sido lançado por gerar conteúdo falso e racista. ®

Carimbo de hora:

Mais de O registro