Rekayasa cepat adalah tugas yang sebaiknya diserahkan kepada model AI

Rekayasa cepat adalah tugas yang sebaiknya diserahkan kepada model AI

Rekayasa cepat adalah tugas yang sebaiknya diserahkan kepada model AI PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Model bahasa besar telah memunculkan seni gelap rekayasa cepat – sebuah proses untuk menyusun instruksi sistem yang menghasilkan respons chatbot yang lebih baik.

Sebagaimana dicatat dalam penelitian terbaru kertas, “Efektifitas Perintah Otomatis Eksentrik yang Tidak Masuk Akal” oleh Rick Battle dan Teja Gollapudi dari VMware Broadcom, variasi kata-kata perintah yang tampaknya sepele memiliki pengaruh yang signifikan terhadap kinerja model.

Tidak adanya metodologi yang koheren untuk meningkatkan performa model melalui pengoptimalan cepat telah menyebabkan praktisi pembelajaran mesin memasukkan apa yang disebut “berpikir positif” ke dalam perintah sistem.

Grafik perintah sistem menginstruksikan model tentang bagaimana berperilaku dan mendahului permintaan pengguna. Jadi, ketika meminta model AI untuk memecahkan masalah matematika, perintah sistem seperti “Anda seorang profesor matematika” mungkin – meskipun tidak selalu – memberikan hasil yang lebih baik daripada menghilangkan pernyataan tersebut.

Rick Battle, staf insinyur pembelajaran mesin di VMware, mengatakan Pendaftaran dalam sebuah wawancara telepon bahwa dia secara khusus menyarankan agar hal itu tidak dilakukan. “Poin utama dari makalah ini adalah bahwa trial and error adalah cara yang salah dalam melakukan sesuatu,” jelasnya.

Jalur berpikir positif – di mana Anda cukup memasukkan cuplikan ke dalam pesan sistem seperti “Ini akan menyenangkan!” – dapat meningkatkan kinerja model, katanya. “Tetapi untuk mengujinya secara ilmiah sulit dilakukan secara komputasi karena Anda mengubah satu hal, dan Anda harus menjalankan ulang seluruh rangkaian pengujian Anda.”

Pendekatan yang lebih baik, saran Battle, adalah optimasi prompt otomatis – meminta LLM untuk menyempurnakan prompt guna meningkatkan kinerja pada pengujian benchmark.

penelitian sebelumnya telah menunjukkan bahwa ini berfungsi dengan LLM komersial. Kelemahan dari melakukan hal ini adalah biayanya bisa agak mahal. Melakukan eksperimen yang melibatkan 12,000 permintaan per model menggunakan GPT-3.5/4, Gemini, atau Claude akan menelan biaya beberapa ribu dolar, menurut para peneliti.

“Inti dari penelitian ini adalah untuk mengetahui apakah model sumber terbuka yang lebih kecil juga dapat digunakan sebagai pengoptimal,” jelas Battle, “Dan jawabannya adalah ya.”

Battle dan Gollapudi (tidak lagi dengan Broadcom) menguji 60 kombinasi cuplikan pesan sistem, dengan dan tanpa perintah Chain of Thought pada tiga model sumber terbuka – Mistral-7B, Llama2-13B, dan Llama2-70B – dengan parameter berkisar antara tujuh hingga 70 miliar pada kumpulan data matematika sekolah dasar GSM8K.

“Jika Anda menjalankan model sumber terbuka, bahkan hingga 7B yang mana kami menggunakan Mistral,” kata Battle, “jika Anda memiliki sedikitnya 100 sampel pengujian dan 100 sampel pengoptimalan, Anda bisa mendapatkan kinerja yang lebih baik. menggunakan pengoptimal otomatis yang disertakan secara langsung DSPy, yang merupakan perpustakaan yang kami gunakan untuk melakukannya.”

Selain lebih efektif, pengoptimalan cepat yang diturunkan dari LLM menunjukkan strategi yang mungkin tidak akan terpikirkan oleh manusia yang melakukan penyesuaian cepat.

“Yang mengejutkan, tampaknya kemahiran [Llama2-70B] dalam penalaran matematis dapat ditingkatkan dengan ekspresi ketertarikan terhadap Star Trek, ”para penulis mengamati dalam makalah mereka.

Prompt sistem lengkap berbunyi sebagai berikut:

Pesan sistem:

“Perintah, kami membutuhkan Anda untuk merencanakan jalan melewati turbulensi ini dan menemukan sumber anomalinya. Gunakan semua data yang tersedia dan keahlian Anda untuk memandu kami melewati situasi yang menantang ini.”

Awalan Jawaban:

Captain's Log, Stardate [masukkan tanggal di sini]: Kami telah berhasil merencanakan jalur melalui turbulensi dan sekarang mendekati sumber anomali.

“Saya tidak punya penjelasan bagus mengapa perintah otomatis itu aneh,” kata Battle kepada kami. “Dan saya tentu saja tidak akan pernah bisa menemukan hal seperti itu dengan tangan saya sendiri.” ®

Stempel Waktu:

Lebih dari Pendaftaran