مصاحبه تواناییهای مدلهای زبان بزرگ تجاری برای حل مشکلات برنامهنویسی رقابتی را میتوان با هدایت دقیق فرآیندهای آن از طریق مهندسی سریع هوشمندانه به طور قابل توجهی افزایش داد.
برای نشان دادن این موضوع، Codium AI مستقر در اسرائیل، AlphaCodium و منتشر شد نرم افزار در GitHub این ماه. AlphaCodium به خودی خود یک مدل زبان بزرگ نیست. در عوض، این روشی است که توانایی حل مسئله ابزارهای مولد هوش مصنوعی مانند GPT-4 را با استفاده از چیزی که ایتامار فریدمن، مدیر اجرایی آن «مهندسی جریان» مینامد، بهبود میبخشد.
ابتدا یک سوال برنامه نویسی به مدل زبان بزرگ زیرین داده می شود و از آن خواسته می شود تا مشکل را توصیف و خلاصه کند. سپس آن اطلاعات راهنمایی می کند که چگونه باید شروع به حل مشکل کند. AlphaCodium چیزهایی را تعریف می کند، مانند ورودی ها و خروجی ها در هنگام ارائه راه حل. همه اینها به زبان طبیعی مشخص شده است.
سپس مدل شروع به تولید کدی میکند که با مشخصاتی که توضیح داده شد، همسو میشود. مسابقات برنامه نویسی که از مدعیان درخواست می کنند تا برای مشخصات کدنویسی کنند، معمولاً آزمایش هایی را ارائه می دهند که نشان می دهد یک اسکریپت باید چه خروجی برای یک ورودی داده شود. AlphaCodium تعداد بیشتری از این موارد تست را تولید می کند و سپس با راه حل های ممکن اجرا می شود تا بررسی کند که آیا کد مطابق انتظار کار می کند یا خیر.
اگر نتواند با هیچ یک از خروجی های تعریف شده در هر یک از تست ها مطابقت داشته باشد، مدل راه حل های مختلفی تولید می کند تا زمانی که تمام تست ها را با موفقیت پشت سر بگذارند یا شکست بخورند. هنگامی که کد آن کامپایل نمی شود یا اشتباه است، ممکن است خطا ایجاد شود.
می توانید مراحل مختلف فرآیند مهندسی جریان را در نمودار زیر مشاهده کنید. این تا حد زیادی به یک مرحله پیش پردازش تقسیم می شود، جایی که سیستم مشکل را به زبان طبیعی تجزیه و تحلیل می کند، و یک مرحله تکرار کد، که در آن راه حل های ممکن را در برابر تست های عمومی و تولید شده توسط هوش مصنوعی اجرا می کند.
فریدمن گفت: «ما مشکل را نمیگیریم و به سراغ مدل میرویم و به آن میگوییم: «هی، لطفا راهحل نهایی را ایجاد کنید». ثبت نام. ما از مدل میخواهیم که لطفاً این مشکل را در نقاط گلوله دوباره تعریف کند.» ساده کردن آن و تقسیم کردن چیزها به تکهها، تولید کد بعدی برای بخشهای مختلف الگوریتم را برای مدل آسانتر میکند.
اساساً، مهندسی جریان روشی است که فرآیند حل مسئله مدل را با تقسیم آن به مراحل کاملاً تعریف شده هدایت می کند. به ما گفته میشود که «کد تولید شده را به توابع فرعی کوچک، با نامها و عملکردهای معنیدار تقسیم کند»، منجر به باگهای کمتری میشود و تست و رفع کد را آسانتر میکند.
فریدمن افزود: «ما اساساً 95 درصد از زمان خود را صرف مهندسی جریان کردیم و فقط 5 درصد را در مهندسی سریع صرف کردیم و دستورات را برای هر [مرحله] تغییر ندادیم».
مهندسان شرکت Codium عملکرد مدل خود را بر روی صدها مشکل مورد استفاده در تأیید و تست بخشهای مجموعه داده CodeForces که دو سال پیش توسط Google DeepMind گردآوری شده بود، آزمایش کردند. آنها ادعا می کنند که AlphaCodium در حل مشکلات کدنویسی بهتر از مدل های AlphaCode و AlphaCode2 Google DeepMind بوده است.
در نتایج گزارش شده در یک arXiv مقاله [PDF]، AlphaCodium قادر به پاسخ صحیح به 44 درصد از سؤالات در مقایسه با 24 درصد AlphaCode بود، در حالی که تنها پنج راه حل در مقایسه با ده راه حل انتخابی AlphaCode برای 107 مسئله اعتبار سنجی ایجاد کرد. جالب اینجاست که وقتی نوبت به حل 165 مسئله تست با AlphaCodium 29 درصد در مقایسه با AlphaCode 28 درصد رسید، شکاف کاهش یافت.
AlphaCode ده راه حل امیدوار کننده را از بین ده ها هزار یا صدها هزار اسکریپت ممکن که تولید می کند انتخاب می کند - اجرای آن را از نظر محاسباتی فشرده می کند.
فریدمن گفت: «ما بیشتر روی کل جریان آزمایش تمرکز کردیم. برای [گوگل]، آنها کار زیادی روی نسل انجام دادند. آنها سعی میکنند صدها گزینه دیگر را تولید کنند و ما راهحلهای بسیار کمی تولید میکنیم، اما آنها را به خوبی آزمایش میکنیم تا به بهبود کد کمک کنند.»
او افزود که AlphaCodium کمی بهتر از آخرین مدل AlphaCode2 Google DeepMind است که 10,000 برابر کارآمدتر از AlphaCode قبلی است.
فریدمن گفت که او مطمئن است که عملکرد AlphaCodium به دلیل نشت داده ها نیست، جایی که مدل زیربنایی روی همان مشکلات آموزش دیده و آزمایش شده است. نسخه GPT-4 که AlphaCodium را تامین می کند تا سپتامبر 2021 بر روی متن خراشیده شده از اینترنت آموزش داده شده بود، در حالی که مشکلاتی که سیستم خود را روی آن آزمایش کرد از مجموعه داده های CodeForces فوق الذکر گرفته شده بود که خیلی دیرتر منتشر شد.
با این حال، یک مقایسه سیب به سیب بهتر که فرآیند مهندسی جریان را ارزیابی میکند، به توانایی GPT-4 برای حل همان سوالات با و بدون استفاده از AlphaCodium است. GPT-4 ساده قدیمی تنها میتوانست به ترتیب به 19 و 12 درصد از مشکلات در مجموعههای تست و اعتبارسنجی پاسخ صحیح دهد، در مقایسه با نوع 44 و 29 درصدی نسخههای AlphaCodium.
به طور خلاصه، به نظر میرسد که اجرای یک خط لوله دقیق که دادههای اضافی را برای راهنمایی نحوه تولید کد و بهبود فرآیند آزمایش ایجاد میکند، میتواند مؤثرتر از تلاش برای آموزش یک مدل زبان بزرگ از ابتدا باشد.
Codium اخیرا ابزار جدیدی را برای پشتیبانی از توسعه دهندگان پایتون منتشر کرده است، که اکنون می توانند AlphaCodium را برای حل مستقیم مشکل کدگذاری در IDE خود فراخوانی کنند. میتونی باهاش بازی کنی اینجا. ®
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://go.theregister.com/feed/www.theregister.com/2024/02/19/codium_ai_interview/
- : دارد
- :است
- :نه
- :جایی که
- $UP
- 10
- 12
- 19
- 2021
- 24
- 28
- 29
- 7
- a
- توانایی
- توانایی
- قادر
- دقت
- اضافه
- اضافی
- در برابر
- پیش
- AI
- الگوریتم
- تراز می کند
- معرفی
- an
- تجزیه و تحلیل
- و
- پاسخ
- هر
- ظاهر می شود
- با استفاده از
- بوجود می آیند
- AS
- پرسیدن
- خواهان
- ارزیابی می کند
- At
- مستقر
- اساسا
- BE
- بوده
- شروع
- آغاز می شود
- در زیر
- بهتر
- بیت
- تقویت شده
- شکستن
- پهن
- اشکالات
- ساخته
- اما
- by
- صدا
- تماس ها
- آمد
- CAN
- دقیق
- Осторожно
- موارد
- مدیر عامل شرکت
- تغییر دادن
- بررسی
- برگزیده
- ادعا
- CO
- رمز
- برنامه نویسی
- آینده
- تجاری
- مقایسه
- مقایسه
- مسابقات
- رقابتی
- وارد
- از نظر محاسباتی
- مطمئن
- به درستی
- میتوانست
- داده ها
- نشت اطلاعات
- مجموعه داده ها
- Deepmind
- مشخص
- تعریف می کند
- نشان دادن
- توصیف
- شرح داده شده
- توسعه دهندگان
- نمودار
- DID
- مختلف
- مستقیما
- تقسیم
- ندارد
- دان
- دو
- هر
- آسان تر
- موثر
- موثر
- مهندسی
- تمام
- خطاهای
- انتظار می رود
- نتواند
- تغذیه
- کمی از
- کمتر
- نهایی
- پنج
- رفع
- جریان
- متمرکز شده است
- برای
- از جانب
- قابلیت
- شکاف
- تولید می کنند
- تولید
- تولید می کند
- مولد
- نسل
- مولد
- هوش مصنوعی مولد
- GitHub
- داده
- Go
- گوگل
- راهنمایی
- راهنما
- راهنمایی
- he
- چگونه
- اما
- HTTPS
- صدها نفر
- if
- اجرای
- بهبود
- بهبود
- را بهبود می بخشد
- in
- اطلاعات
- ورودی
- ورودی
- در عوض
- اینترنت
- به
- نیست
- اسرائيل
- IT
- تکرار
- ITS
- JPG
- تنها
- برچسب
- زبان
- بزرگ
- تا حد زیادی
- بعد
- آخرین
- منجر می شود
- نشت
- پسندیدن
- به دنبال
- باعث می شود
- ساخت
- مدیریت
- مسابقه
- معنی دار
- روش
- مدل
- مدل
- ماه
- بیش
- کارآمدتر
- اکثر
- بسیار
- نام
- طبیعی
- جدید
- اکنون
- of
- قدیمی
- on
- فقط
- گزینه
- or
- دیگر
- ما
- خارج
- تولید
- خروجی
- بخش
- عبور
- برای
- در صد
- کارایی
- فاز
- خط لوله
- ساده
- افلاطون
- هوش داده افلاطون
- PlatoData
- بازی
- لطفا
- نقطه
- ممکن
- برق
- سلف، اسبق، جد
- مشکل
- حل مسئله
- مشکلات
- روش
- روند
- فرآیندهای
- برنامه نويسي
- امید بخش
- پرسیدن
- ارائه
- عمومی
- پــایتــون
- سوال
- سوالات
- RE
- واقعا
- تازه
- تعریف مجدد
- منتشر شد
- گزارش
- به ترتیب
- نتایج
- دویدن
- اجرا می شود
- s
- سعید
- همان
- خراش
- خط
- اسکریپت
- دیدن
- سپتامبر
- تنظیم
- مجموعه
- کوتاه
- باید
- نمایش
- به طور قابل توجهی
- ساده
- کوچک
- So
- نرم افزار
- راه حل
- مزایا
- حل
- حل کردن
- مشخصات
- مشخص شده
- صرف
- انشعاب
- صحنه
- وضعیت هنر
- گام
- مراحل
- خلاصه کردن
- پشتیبانی
- سیستم
- گرفتن
- صورت گرفته
- گفتن
- ده
- ده ها
- قوانین و مقررات
- آزمون
- آزمایش
- تست
- تست
- متن
- نسبت به
- که
- La
- شان
- آنها
- سپس
- اینها
- آنها
- اشیاء
- این
- کسانی که
- اگر چه؟
- هزاران نفر
- از طریق
- زمان
- به
- گفته شده
- ابزار
- ابزار
- قطار
- آموزش دیده
- امتحان
- تلاش
- دو
- به طور معمول
- اساسی
- تا
- استفاده
- با استفاده از
- اعتبار سنجی
- نوع دیگر
- تایید
- نسخه
- بسیار
- بود
- we
- خوب
- به خوبی تعریف شده است
- بود
- چی
- چه زمانی
- در حالیکه
- در حین
- WHO
- با
- بدون
- مهاجرت کاری
- کارگر
- اشتباه
- سال
- شما
- زفیرنت