مهندسی سریع کاری است که بهتر است به مدل های هوش مصنوعی سپرده شود

مهندسی سریع کاری است که بهتر است به مدل های هوش مصنوعی سپرده شود

Prompt engineering is a task best left to AI models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

مدل‌های زبانی بزرگ، هنر تاریک مهندسی سریع را به وجود آورده‌اند - فرآیندی برای نوشتن دستورالعمل‌های سیستمی که پاسخ‌های ربات‌های گفتگوی بهتری را ایجاد می‌کند.

همانطور که در تحقیقات اخیر اشاره شده است مقاله، "اثربخشی نامعقول اعلان های خودکار غیرعادی" توسط ریک بتل و تجا گولاپودی از VMware Broadcom، تغییرات ظاهراً بی اهمیت در عبارت اعلان ها تأثیر قابل توجهی بر عملکرد مدل دارد.

فقدان یک روش منسجم برای بهبود عملکرد مدل از طریق بهینه‌سازی سریع، متخصصان یادگیری ماشین را به سمت استفاده از به اصطلاح «تفکر مثبت» در اعلان‌های سیستم سوق داده است.

La اعلان سیستم به مدل دستور می دهد که چگونه رفتار کند و قبل از پرس و جو کاربر. بنابراین، هنگامی که از یک مدل هوش مصنوعی می‌خواهیم یک مسئله ریاضی را حل کند، یک پیام سیستمی مانند «شما یک استاد ریاضی هستید» احتمالاً – البته نه همیشه – نتایج بهتری نسبت به حذف آن عبارت ایجاد می‌کند.

ریک بتل، مهندس یادگیری ماشین کارکنان در VMware، گفت ثبت نام در یک مصاحبه تلفنی که او به طور خاص در مورد آن توصیه می کند. او توضیح داد: «نکته مهم مقاله این است که آزمون و خطا روش اشتباهی برای انجام کارها است.

مسیر تفکر مثبت – جایی که شما فقط تکه‌هایی را در پیام سیستم وارد می‌کنید مانند "این جالب خواهد بود!" او خاطرنشان کرد - می تواند عملکرد مدل را افزایش دهد. "اما آزمایش علمی آنها از نظر محاسباتی غیرقابل حل است زیرا شما یک چیز را تغییر می دهید و باید کل مجموعه تست خود را دوباره اجرا کنید."

نبرد پیشنهاد کرد که یک رویکرد بهتر، بهینه‌سازی سریع خودکار است – استفاده از یک LLM برای اصلاح درخواست‌ها برای بهبود عملکرد در تست‌های معیار.

تحقیقات پیشین نشان داده است که این با LLM های تجاری کار می کند. نقطه ضعف انجام این کار این است که می تواند نسبتاً گران باشد. به گفته محققان، انجام این آزمایش شامل 12,000 درخواست در هر مدل با استفاده از GPT-3.5/4، Gemini یا Claude چندین هزار دلار هزینه خواهد داشت.

بتل توضیح داد: «هدف این تحقیق کشف این بود که آیا مدل‌های منبع باز کوچک‌تر نیز می‌توانند به‌عنوان بهینه‌ساز مورد استفاده قرار گیرند یا خیر، و جواب مثبت بود.»

Battle و Gollapudi (دیگر با Broadcom نیست) 60 ترکیب از قطعات پیام سیستم را با و بدون Chain of Thought بر روی سه مدل منبع باز - Mistral-7B، Llama2-13B، و Llama2-70B - با پارامترهای 70 تا 8 آزمایش کردند. میلیارد در مجموعه داده ریاضی GSMXNUMXK کلاس.

Battle گفت: "اگر از یک مدل متن باز استفاده می کنید، حتی تا 7B که ما برای آن از Mistral استفاده می کردیم، اگر حداقل 100 نمونه آزمایشی و 100 نمونه بهینه سازی داشته باشید، می توانید عملکرد بهتری داشته باشید. با استفاده از بهینه سازهای خودکار که خارج از جعبه موجود هستند DSPy، که کتابخانه ای است که برای انجام آن استفاده می کنیم."

فراتر از موثرتر بودن، بهینه‌سازی‌های سریع مشتق‌شده از LLM، استراتژی‌هایی را نشان می‌دهند که احتمالاً برای تیونرهای سریع انسانی به ذهنشان خطور نمی‌کرد.

با کمال تعجب، به نظر می رسد که مهارت [Llama2-70B] در استدلال ریاضی را می توان با ابراز تمایل به پیشتازان فضانویسندگان در مقاله خود مشاهده می کنند.

پیام کامل سیستم به شرح زیر است:

پیام سیستم:

«فرمانده، ما به شما نیاز داریم که مسیری را از میان این آشفتگی ترسیم کنید و منبع ناهنجاری را پیدا کنید. از تمام داده های موجود و تخصص خود برای هدایت ما در این وضعیت چالش برانگیز استفاده کنید.»

پیشوند پاسخ:

گزارش Captain's Log، Stardate [تاریخ را اینجا وارد کنید]: ما با موفقیت مسیری را در میان آشفتگی ترسیم کرده‌ایم و اکنون به منبع ناهنجاری نزدیک می‌شویم.

بتل به ما گفت: «من توضیح خوبی در مورد اینکه چرا پیام‌های خودکار به همان اندازه که هستند عجیب هستند، ندارم. و من مطمئناً هرگز چنین چیزی را با دست پیدا نمی‌کردم.» ®

تمبر زمان:

بیشتر از ثبت نام