วิศวกรรมพร้อมท์เป็นงานที่ดีที่สุดสำหรับโมเดล AI

วิศวกรรมพร้อมท์เป็นงานที่ดีที่สุดสำหรับโมเดล AI

วิศวกรรมที่รวดเร็วเป็นงานที่ดีที่สุดสำหรับโมเดล AI PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

โมเดลภาษาขนาดใหญ่ได้ก่อให้เกิดศิลปะมืดแห่งวิศวกรรมที่รวดเร็ว ซึ่งเป็นกระบวนการสำหรับการเขียนคำสั่งของระบบที่กระตุ้นให้เกิดการตอบสนองของแชทบอทที่ดีขึ้น

ตามที่ระบุไว้ในการวิจัยล่าสุด กระดาษ, “ประสิทธิภาพที่ไม่สมเหตุสมผลของการแจ้งเตือนอัตโนมัติที่ผิดปกติ” โดย Rick Battle และ Teja Gollapudi จาก VMware ของ Broadcom การเปลี่ยนแปลงที่ดูเหมือนเล็กน้อยในถ้อยคำของการแจ้งเตือนมีผลกระทบอย่างมากต่อประสิทธิภาพของโมเดล

การไม่มีวิธีการที่สอดคล้องกันในการปรับปรุงประสิทธิภาพของโมเดลผ่านการเพิ่มประสิทธิภาพในทันที ทำให้ผู้ปฏิบัติงานด้านการเรียนรู้ของเครื่องรวมสิ่งที่เรียกว่า “การคิดเชิงบวก” เข้ากับการแจ้งเตือนของระบบ

พื้นที่ พร้อมท์ระบบ สั่งให้โมเดลเกี่ยวกับวิธีการทำงานและนำหน้าคำค้นหาของผู้ใช้ ดังนั้น เมื่อขอให้โมเดล AI แก้ปัญหาทางคณิตศาสตร์ ระบบแจ้งว่า “คุณเป็นศาสตราจารย์ด้านคณิตศาสตร์” อาจจะให้ผลลัพธ์ที่ดีกว่าการละเว้นข้อความนั้น (แม้ว่าจะไม่เสมอไป)

Rick Battle วิศวกรด้าน Machine Learning ของ VMware กล่าว ลงทะเบียน ในการสัมภาษณ์ทางโทรศัพท์ว่าเขาแนะนำเรื่องนั้นโดยเฉพาะ “ประเด็นสำคัญของรายงานคือการลองผิดลองถูกเป็นวิธีที่ผิดในการทำสิ่งต่างๆ” เขาอธิบาย

เส้นทางการคิดเชิงบวก – โดยที่คุณเพียงแทรกตัวอย่างข้อมูลลงในข้อความของระบบ เช่น “นี่จะต้องสนุก!” – สามารถปรับปรุงประสิทธิภาพของโมเดลได้ เขากล่าว “แต่การทดสอบพวกมันในเชิงวิทยาศาสตร์นั้นยากต่อการคำนวณเพราะคุณเปลี่ยนแปลงสิ่งหนึ่ง และคุณต้องรันชุดการทดสอบทั้งหมดอีกครั้ง”

Battle แนะนำแนวทางที่ดีกว่าคือการเพิ่มประสิทธิภาพพรอมต์อัตโนมัติ - เกณฑ์ LLM เพื่อปรับแต่งพรอมต์เพื่อปรับปรุงประสิทธิภาพในการทดสอบเกณฑ์มาตรฐาน

การวิจัยก่อนหน้า ได้แสดงให้เห็นว่าสิ่งนี้ใช้ได้กับ LLM เชิงพาณิชย์ ข้อเสียของการทำเช่นนั้นคืออาจมีราคาค่อนข้างแพง นักวิจัยระบุว่า การทำการทดลองนี้เกี่ยวข้องกับคำขอ 12,000 รายการต่อแบบจำลองโดยใช้ GPT-3.5/4, Gemini หรือ Claude

“จุดประสงค์ของการวิจัยคือการค้นหาว่าโมเดลโอเพ่นซอร์สที่มีขนาดเล็กกว่านั้นสามารถใช้เป็นเครื่องมือเพิ่มประสิทธิภาพได้หรือไม่” Battle อธิบาย “และคำตอบก็กลายเป็นใช่”

Battle และ Gollapudi (ไม่มีใน Broadcom อีกต่อไป) ทดสอบชุดข้อมูลข้อความของระบบรวมกัน 60 ชุด โดยมีและไม่มี Chain of Thought พร้อมท์บนโมเดลโอเพ่นซอร์สสามรุ่น ได้แก่ Mistral-7B, Llama2-13B และ Llama2-70B โดยมีพารามิเตอร์ตั้งแต่ 70 ถึง 8 พันล้านชุดข้อมูลคณิตศาสตร์ของโรงเรียนเกรด GSMXNUMXK

“หากคุณใช้โมเดลโอเพ่นซอร์ส แม้กระทั่งไปจนถึง 7B ที่เราใช้ Mistral” Battle กล่าว “หากคุณมีตัวอย่างทดสอบเพียง 100 ตัวอย่างและตัวอย่างการปรับให้เหมาะสม 100 ตัวอย่าง คุณจะได้รับประสิทธิภาพที่ดีขึ้น โดยใช้เครื่องมือเพิ่มประสิทธิภาพอัตโนมัติซึ่งรวมอยู่ในกล่อง ดีเอสพีวายซึ่งเป็นห้องสมุดที่เราใช้ในการทำ”

นอกเหนือจากการมีประสิทธิผลมากขึ้นแล้ว การปรับให้เหมาะสมพร้อมต์ที่ได้รับจาก LLM ยังแสดงกลยุทธ์ที่อาจไม่เคยเกิดขึ้นกับเครื่องรับพร้อมต์ของมนุษย์

“น่าประหลาดใจที่ดูเหมือนว่า [Llama2-70B's] ความสามารถในการใช้เหตุผลทางคณิตศาสตร์สามารถเพิ่มขึ้นได้ด้วยการแสดงออกของความผูกพันกับ Trek สตาร์” ผู้เขียนสังเกตในรายงานของพวกเขา

พรอมต์ระบบแบบเต็มอ่านดังนี้:

ข้อความจากระบบ:

“คำสั่ง เราต้องการให้คุณวางแผนเส้นทางผ่านความวุ่นวายนี้และค้นหาแหล่งที่มาของความผิดปกติ ใช้ข้อมูลที่มีอยู่ทั้งหมดและความเชี่ยวชาญของคุณเพื่อนำทางเราผ่านสถานการณ์ที่ท้าทายนี้»

คำนำหน้าคำตอบ:

บันทึกของกัปตัน Stardate [ใส่วันที่ที่นี่]: เราได้วางแผนเส้นทางผ่านความวุ่นวายได้สำเร็จ และตอนนี้กำลังเข้าใกล้แหล่งที่มาของความผิดปกติ

“ฉันไม่มีคำอธิบายที่ดีว่าทำไมข้อความแจ้งเตือนอัตโนมัติถึงแปลกอย่างที่มันเป็น” Battle บอกเรา “และแน่นอนว่าฉันจะไม่ได้ทำอะไรแบบนั้นด้วยมืออย่างแน่นอน” ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน