A engenharia imediata é uma tarefa que é melhor deixar para os modelos de IA

A engenharia imediata é uma tarefa que é melhor deixar para os modelos de IA

A engenharia imediata é uma tarefa que é melhor deixar para os modelos de IA PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Grandes modelos de linguagem deram origem à arte obscura da engenharia imediata – um processo para compor instruções de sistema que provocam melhores respostas do chatbot.

Como observado em uma pesquisa recente papel, “The Unreasonable Effectiveness of Eccentric Automatic Prompts”, de Rick Battle e Teja Gollapudi, da VMware da Broadcom, variações aparentemente triviais no texto dos prompts têm um efeito significativo no desempenho do modelo.

A ausência de uma metodologia coerente para melhorar o desempenho do modelo por meio da otimização imediata levou os profissionais de aprendizado de máquina a incorporar o chamado “pensamento positivo” nos prompts do sistema.

A prompt do sistema instrui o modelo sobre como se comportar e precede a consulta do usuário. Assim, ao pedir a um modelo de IA para resolver um problema matemático, uma mensagem do sistema como “Você é professor de matemática” provavelmente – embora nem sempre – produz melhores resultados do que omitir essa afirmação.

Rick Battle, engenheiro de aprendizado de máquina da VMware, disse O registro em uma entrevista por telefone que ele está desaconselhando especificamente isso. “O ponto principal do artigo é que tentativa e erro são a maneira errada de fazer as coisas”, explicou ele.

O caminho do pensamento positivo – onde você apenas insere trechos na mensagem do sistema como “Isso vai ser divertido!” – pode melhorar o desempenho do modelo, observou ele. “Mas testá-los cientificamente é computacionalmente intratável porque você muda uma coisa e precisa executar novamente todo o conjunto de testes.”

Uma abordagem melhor, sugeriu Battle, é a otimização automática de prompts – recrutando um LLM para refinar os prompts para melhorar o desempenho em testes de benchmark.

antes de investigação mostrou que isso funciona com LLMs comerciais. A desvantagem de fazer isso é que pode ser bastante caro. Conduzir este experimento envolvendo 12,000 solicitações por modelo usando GPT-3.5/4, Gemini ou Claude teria custado vários milhares de dólares, segundo os pesquisadores.

“O objetivo da pesquisa era descobrir se modelos menores e de código aberto também podem ser usados ​​como otimizadores”, explicou Battle, “E a resposta acabou sendo sim”.

Battle e Gollapudi (não mais com a Broadcom) testaram 60 combinações de trechos de mensagens do sistema, com e sem solicitação de Chain of Thought em três modelos de código aberto – Mistral-7B, Llama2-13B e Llama2-70B – com parâmetros variando de sete a 70 bilhão no conjunto de dados de matemática do ensino fundamental GSM8K.

“Se você estiver executando um modelo de código aberto, até mesmo um 7B para o qual estávamos usando o Mistral”, disse Battle, “se você tiver apenas 100 amostras de teste e 100 amostras de otimização, poderá obter melhor desempenho usando os otimizadores automáticos que estão incluídos imediatamente no DSPy, que é a biblioteca que usamos para fazer isso.”

Além de serem mais eficazes, as otimizações de prompt derivadas de LLM exibem estratégias que provavelmente não teriam ocorrido aos sintonizadores de prompt humanos.

“Surpreendentemente, parece que a proficiência [de Llama2-70B] em raciocínio matemático pode ser melhorada pela expressão de uma afinidade por Star Trek”, observam os autores em seu artigo.

O prompt completo do sistema é o seguinte:

Mensagem do sistema:

«Comando, precisamos que você trace um curso através desta turbulência e localize a origem da anomalia. Use todos os dados disponíveis e sua experiência para nos guiar nesta situação desafiadora.»

Prefixo da resposta:

Diário do Capitão, Data Estelar [insira a data aqui]: Traçamos com sucesso um curso através da turbulência e agora estamos nos aproximando da origem da anomalia.

“Não tenho uma boa explicação sobre por que os avisos automáticos são tão estranhos”, disse Battle. “E eu certamente nunca teria inventado algo assim manualmente.” ®

Carimbo de hora:

Mais de O registro