How Q4 Inc. Used Amazon Bedrock, RAG, And SQLDatabaseChain To Address Numerical And Structured Dataset Challenges Building Their Q&A Chatbot

بازنشر افلاطون

دنبال: 0

این پست با همکاری استانیسلاو یشچنکو از Q4 Inc نوشته شده است.

شرکت‌ها به عنوان یک رویکرد اصلی برای ساخت ربات‌های پرسش و پاسخ به بازیابی نسل افزوده (RAG) روی می‌آورند. ما همچنان شاهد چالش های نوظهور ناشی از ماهیت مجموعه ای از مجموعه داده های موجود هستیم. این مجموعه داده‌ها اغلب ترکیبی از داده‌های عددی و متنی هستند که در مواقعی ساختار یافته، بدون ساختار یا نیمه ساختار یافته هستند.

شرکت Q4 نیاز به رسیدگی به برخی از این چالش‌ها در یکی از موارد استفاده از هوش مصنوعی که بر روی AWS ساخته شده است. در این پست، یک مورد استفاده از ربات پرسش و پاسخ که Q4 پیاده‌سازی کرده است، چالش‌هایی که مجموعه داده‌های عددی و ساختار یافته ارائه کرده‌اند، و اینکه Q4 چگونه به این نتیجه رسید که استفاده از SQL ممکن است راه‌حل مناسبی باشد را مورد بحث قرار می‌دهیم. در نهایت، نگاهی دقیق تر به نحوه استفاده تیم Q4 می اندازیم بستر آمازون و SQLDatabaseChain برای پیاده سازی راه حل مبتنی بر RAG با تولید SQL.

از نمای کلی مورد استفاده کنید

Q4 Inc. که مقر آن در تورنتو است و دفاتری در نیویورک و لندن دارد، یک پلتفرم پیشرو در دسترسی به بازار سرمایه است که نحوه ارتباط، ارتباط و تعامل ناشران، سرمایه گذاران و فروشندگان را به طور موثر با یکدیگر تغییر می دهد. پلتفرم Q4 تعاملات را در بازارهای سرمایه از طریق محصولات وب سایت IR، راه حل های رویدادهای مجازی، تجزیه و تحلیل تعامل، روابط با سرمایه گذار مدیریت ارتباط با مشتری (CRM)، تجزیه و تحلیل سهامداران و بازار، نظارت و ابزارهای ESG تسهیل می کند.

در چشم‌انداز مالی سریع و مبتنی بر داده‌های امروزی، افسران روابط با سرمایه‌گذاران (IROs) نقش مهمی در تقویت ارتباط بین یک شرکت و سهامداران، تحلیل‌گران و سرمایه‌گذاران بازی می‌کنند. IROها به عنوان بخشی از وظایف روزانه خود مجموعه داده های متنوعی از جمله CRM، سوابق مالکیت و داده های بازار سهام را تجزیه و تحلیل می کنند. مجموع این داده ها برای تولید گزارش های مالی، تعیین اهداف روابط سرمایه گذار و مدیریت ارتباط با سرمایه گذاران موجود و بالقوه استفاده می شود.

برای پاسخگویی به تقاضای رو به رشد برای بازیابی کارآمد و پویا، Q4 هدف خود را ایجاد یک ابزار پرسش و پاسخ ربات چت بود که روشی بصری و ساده را برای IROها برای دسترسی به اطلاعات لازم در قالبی کاربرپسند فراهم می کرد.

هدف نهایی ایجاد یک ربات چت بود که به طور یکپارچه داده‌های در دسترس عموم را همراه با داده‌های اختصاصی Q4 مشتری اختصاصی یکپارچه کند و در عین حال بالاترین سطح امنیت و حریم خصوصی داده‌ها را حفظ کند. در مورد عملکرد، هدف حفظ زمان پاسخ پرس و جو چند ثانیه برای اطمینان از تجربه مثبت برای کاربران نهایی بود.

بازارهای مالی یک صنعت تنظیم شده با سهام بالا است. ارائه اطلاعات نادرست یا قدیمی می تواند بر اعتماد سرمایه گذاران و سهامداران، علاوه بر سایر خطرات احتمالی حفظ حریم خصوصی داده ها، تأثیر بگذارد. Q4 با درک صنعت و الزامات، حریم خصوصی داده ها و دقت پاسخ را به عنوان اصول راهنمای خود در ارزیابی هر راه حلی قبل از عرضه به بازار تعیین می کند.

برای اثبات مفهوم، Q4 تصمیم گرفت از مجموعه داده مالکیت مالی استفاده کند. مجموعه داده شامل نقاط داده سری زمانی است که نشان دهنده تعداد دارایی های متعلق به آنها است. تاریخچه معاملات بین موسسات سرمایه گذاری، افراد و شرکت های دولتی؛ و بسیاری از عناصر دیگر

از آنجا که Q4 می خواست اطمینان حاصل کند که می تواند تمام الزامات عملکردی و غیر عملکردی را که مورد بحث قرار دادیم برآورده کند، این پروژه همچنین باید از نظر تجاری امکان پذیر بماند. این امر در طول فرآیند تصمیم گیری در مورد رویکرد، معماری، انتخاب فناوری و عناصر خاص راه حل رعایت شد.

آزمایش و چالش ها

از ابتدا مشخص بود که برای درک یک سوال زبان انسانی و ایجاد پاسخ های دقیق، Q4 باید از مدل های زبان بزرگ (LLMs) استفاده کند.

در زیر برخی از آزمایش‌هایی که توسط تیم انجام شد، همراه با چالش‌های شناسایی‌شده و درس‌های آموخته شده است:

قبل از آموزش – Q4 پیچیدگی و چالش‌هایی را که با پیش‌آموزش یک LLM با استفاده از مجموعه داده‌های خودش پیش می‌آید، درک کرد. به سرعت مشخص شد که این رویکرد با بسیاری از مراحل غیر پیش پا افتاده مانند پیش پردازش داده ها، آموزش و ارزیابی منابع فشرده است. علاوه بر تلاشی که انجام می شود، هزینه زیادی نیز خواهد داشت. با در نظر گرفتن ماهیت مجموعه داده سری زمانی، Q4 همچنین متوجه شد که باید به طور مداوم با ورود داده‌های جدید، پیش‌آموزش افزایشی را انجام دهد. این امر مستلزم یک تیم بین رشته‌ای اختصاصی با تخصص در علم داده، یادگیری ماشین و دامنه است. دانش
تنظیم دقیق - تنظیم دقیق یک مدل فونداسیون از پیش آموزش دیده (FM) با استفاده از چندین نمونه برچسب دار. این رویکرد موفقیت اولیه را نشان داد، اما در بسیاری از موارد، توهم مدل یک چالش بود. این مدل برای درک نشانه‌های زمینه‌ای متفاوت تلاش کرد و نتایج نادرستی را ارائه داد.
RAG با جستجوی معنایی - RAG معمولی با جستجوی معنایی آخرین مرحله قبل از انتقال به تولید SQL بود. این تیم با استفاده از جستجو، جستجوی معنایی، و جاسازی‌ها برای استخراج متن آزمایش کردند. در طول آزمایش جاسازی، مجموعه داده به جاسازی ها تبدیل شد، در یک پایگاه داده برداری ذخیره شد، و سپس با جاسازی های سوال مطابقت داده شد تا زمینه استخراج شود. پس زمینه بازیابی شده در هر یک از سه آزمایش برای تقویت اعلان اصلی به عنوان ورودی به LLM استفاده شد. این رویکرد برای محتوای مبتنی بر متن، که در آن داده ها از زبان طبیعی با کلمات، جملات و پاراگراف ها تشکیل شده است، به خوبی کار می کند. با توجه به ماهیت مجموعه داده Q4 که عمدتاً داده های مالی شامل اعداد، تراکنش های مالی، قیمت سهام و تاریخ است، نتایج در هر سه مورد کمتر از حد مطلوب بود. حتی هنگام استفاده از تعبیه‌ها، جاسازی‌های ایجاد شده از اعداد با رتبه‌بندی شباهت مشکل داشتند و در بسیاری از موارد منجر به بازیابی اطلاعات نادرست می‌شد.

نتیجه گیری Q4: تولید SQL مسیر پیش رو است

با توجه به چالش‌هایی که با استفاده از روش RAG مرسوم وجود داشت، تیم شروع به بررسی تولید SQL کرد. ایده این بود که از LLM برای تولید یک عبارت SQL از سوال کاربر استفاده شود که به زبان طبیعی به LLM ارائه شده است. سپس کوئری ایجاد شده در مقابل پایگاه داده اجرا می شود تا زمینه مربوطه را واکشی کند. در نهایت از متن برای تقویت اعلان ورودی برای مرحله خلاصه سازی استفاده می شود.

فرضیه Q4 این بود که برای به دست آوردن یادآوری بالاتر برای مرحله بازیابی، به طور خاص برای مجموعه داده های عددی، آنها باید ابتدا SQL را از سؤال کاربر تولید کنند. اعتقاد بر این بود که این نه تنها دقت را افزایش می دهد، بلکه زمینه را در حوزه کسب و کار برای یک سوال مشخص حفظ می کند. برای تولید پرس و جو، و برای تولید SQL دقیق، Q4 باید LLM را کاملاً از ساختار مجموعه داده خود آگاه کند. این به معنای درخواست ضروری برای شامل طرح‌واره پایگاه داده، چند ردیف داده نمونه، و توضیحات فیلد قابل خواندن توسط انسان برای فیلدهایی بود که درک آنها آسان نیست.

بر اساس آزمایشات اولیه، این روش نتایج بسیار خوبی را نشان داد. LLM مجهز به تمام اطلاعات لازم قادر به تولید SQL صحیح بود که سپس برای بازیابی متن صحیح در مقابل پایگاه داده اجرا شد. پس از آزمایش این ایده، Q4 به این نتیجه رسید که تولید SQL راهی برای رسیدگی به چالش‌های استخراج زمینه برای مجموعه داده خاص خود است.

بیایید با توصیف رویکرد کلی راه حل شروع کنیم، آن را به اجزای آن تقسیم کنیم و سپس قطعات را کنار هم قرار دهیم.

بررسی اجمالی راه حل

LLMها مدلهای بزرگی با میلیاردها پارامتر هستند که با استفاده از مقادیر بسیار زیاد داده از منابع مختلف از قبل آموزش داده شده اند. با توجه به گستردگی مجموعه داده های آموزشی، انتظار می رود LLM ها دانش عمومی در حوزه های مختلف داشته باشند. LLM ها همچنین به دلیل توانایی های استدلالی خود شناخته می شوند که از مدلی به مدل دیگر متفاوت است. این رفتار عمومی را می‌توان با بهینه‌سازی بیشتر مدل پایه با استفاده از داده‌های پیش‌آموزشی اضافی مخصوص دامنه یا با تنظیم دقیق با استفاده از داده‌های برچسب‌گذاری شده، برای یک حوزه یا صنعت خاص بهینه کرد. با توجه به زمینه، ابرداده و دستورالعمل های مناسب، یک LLM با هدف عمومی که به خوبی انتخاب شده است می تواند SQL با کیفیت خوبی تولید کند تا زمانی که به زمینه خاص دامنه مناسب دسترسی داشته باشد.

در مورد استفاده Q4، ما با ترجمه سوال مشتری به SQL شروع می کنیم. ما این کار را با ترکیب سوال کاربر، طرح پایگاه داده، چند ردیف نمونه پایگاه داده و دستورالعمل های دقیق به عنوان یک اعلان به LLM برای تولید SQL انجام می دهیم. پس از داشتن SQL، در صورت لزوم می توانیم یک مرحله اعتبار سنجی را اجرا کنیم. هنگامی که از کیفیت SQL راضی هستیم، پرس و جو را در مقابل پایگاه داده اجرا می کنیم تا زمینه مربوطه را که برای مرحله زیر نیاز داریم، بازیابی کنیم. اکنون که زمینه مربوطه را داریم، می‌توانیم سؤال اصلی کاربر، متن بازیابی شده و مجموعه‌ای از دستورالعمل‌ها را به LLM ارسال کنیم تا پاسخ خلاصه‌شده نهایی را ایجاد کنیم. هدف آخرین مرحله این است که LLM نتایج را خلاصه کند و یک پاسخ متنی و دقیق ارائه دهد که می تواند سپس به کاربر منتقل شود.

انتخاب LLM مورد استفاده در هر مرحله از فرآیند به شدت بر دقت، هزینه و عملکرد تأثیر می گذارد. انتخاب یک پلتفرم یا فناوری که به شما امکان تغییر بین LLM ها را در یک مورد استفاده مشابه (چند سفر LLM برای کارهای مختلف) یا در موارد استفاده مختلف بدهد، می تواند در بهینه سازی کیفیت خروجی، تأخیر و هزینه مفید باشد. . در ادامه این پست به انتخاب رشته LLM می پردازیم.

بلوک های سازنده راه حل

اکنون که رویکرد را در سطح بالایی برجسته کرده‌ایم، بیایید به جزئیات بپردازیم و از بلوک‌های سازنده راه‌حل شروع کنیم.

بستر آمازون

Amazon Bedrock یک سرویس کاملاً مدیریت شده است که انتخابی از FM های با کارایی بالا را از شرکت های پیشرو از جمله AI21 Labs، Anthropic، Cohere، Meta، Stability AI و Amazon ارائه می دهد. Amazon Bedrock همچنین مجموعه گسترده ای از ابزارها را ارائه می دهد که برای ساخت برنامه های کاربردی هوش مصنوعی، ساده سازی فرآیند توسعه و حفظ حریم خصوصی و امنیت مورد نیاز است. علاوه بر این، با Amazon Bedrock می‌توانید از میان گزینه‌های مختلف FM انتخاب کنید، و می‌توانید مدل‌ها را به‌طور خصوصی با استفاده از داده‌های خود تنظیم کنید تا پاسخ‌های مدل‌ها را با نیازهای مورد استفاده خود هماهنگ کنید. Amazon Bedrock کاملاً بدون سرور است و هیچ زیرساخت اساسی برای مدیریت دسترسی گسترده به مدل‌های موجود از طریق یک API واحد ندارد. در نهایت، Amazon Bedrock از چندین الزام امنیتی و حفظ حریم خصوصی، از جمله واجد شرایط بودن HIPAA و انطباق با GDPR پشتیبانی می کند.

در راه حل Q4، ما از Amazon Bedrock به عنوان یک بلوک سازنده مدل بدون سرور، مبتنی بر API و چند پایه استفاده می کنیم. از آنجایی که ما قصد داریم چندین سفر به LLM در یک مورد استفاده انجام دهیم، بر اساس نوع کار، می‌توانیم مدلی را انتخاب کنیم که برای یک کار خاص بهینه‌ترین مدل باشد، خواه تولید SQL، اعتبارسنجی یا خلاصه‌سازی باشد.

LangChain

LangChain یک چارچوب متن باز یکپارچه سازی و ارکستراسیون با مجموعه ای از ماژول های از پیش ساخته شده (I/O، بازیابی، زنجیره ها و عوامل) است که می توانید از آنها برای ادغام و هماهنگی وظایف بین FM ها، منابع داده و ابزارها استفاده کنید. این چارچوب ساخت برنامه‌های هوش مصنوعی مولد را تسهیل می‌کند که نیاز به هماهنگی چندین مرحله برای تولید خروجی مورد نظر دارند، بدون اینکه نیازی به نوشتن کد از ابتدا باشد. LangChain از Amazon Bedrock به عنوان یک API مدل چند پایه پشتیبانی می کند.

به ویژه در مورد استفاده Q4، ما از LangChain برای هماهنگی و هماهنگی وظایف در گردش کار خود، از جمله اتصال به منابع داده و LLMها استفاده می کنیم. این رویکرد کد ما را ساده کرده است زیرا می توانیم از ماژول های LangChain موجود استفاده کنیم.

SQLDatabaseChain

SQLDatabaseChain یک زنجیره LangChain است که می تواند از langchain_experimental وارد شود. SLDatabaseChain ایجاد، پیاده سازی و اجرای پرس و جوهای SQL را با استفاده از تبدیل و پیاده سازی موثر متن به SQL آسان می کند.

در مورد استفاده ما، ما از SQLDatabaseChain در نسل SQL استفاده می کنیم که تعاملات بین پایگاه داده و LLM را ساده و هماهنگ می کند.

مجموعه داده

مجموعه داده های ساخت یافته ما می تواند در پایگاه داده SQL، دریاچه داده یا انبار داده قرار داشته باشد تا زمانی که از SQL پشتیبانی کنیم. در راه حل ما، می توانیم از هر نوع مجموعه داده با پشتیبانی SQL استفاده کنیم. این باید از راه حل انتزاع شود و به هیچ وجه نباید راه حل را تغییر دهد.

جزئیات پیاده سازی

اکنون که رویکرد راه‌حل، اجزای راه‌حل، انتخاب فناوری و ابزارها را بررسی کرده‌ایم، می‌توانیم قطعات را کنار هم قرار دهیم. نمودار زیر راه حل انتها به انتها را برجسته می کند.

معماری راه حل پایان به انتها

بیایید جزئیات پیاده سازی و جریان فرآیند را مرور کنیم.

پرس و جوی SQL را ایجاد کنید

برای ساده سازی کدنویسی، از چارچوب های موجود استفاده می کنیم. ما از LangChain به عنوان یک چارچوب ارکستراسیون استفاده می کنیم. ما با مرحله ورودی شروع می کنیم، جایی که سؤال کاربر را به زبان طبیعی دریافت می کنیم.

در این مرحله اول، این ورودی را می گیریم و یک SQL معادل تولید می کنیم که می توانیم آن را در مقابل پایگاه داده برای استخراج متن اجرا کنیم. برای تولید SQL، از SQLDatabaseChain استفاده می کنیم که برای دسترسی به LLM مورد نظر ما به Amazon Bedrock متکی است. با Amazon Bedrock، با استفاده از یک API واحد، به تعدادی از LLM های اساسی دسترسی پیدا می کنیم و می توانیم برای هر سفر LLM که انجام می دهیم، مورد مناسب را انتخاب کنیم. ابتدا با پایگاه داده ارتباط برقرار می کنیم و طرح جدول مورد نیاز را به همراه چند ردیف نمونه از جداولی که قصد استفاده از آن را داریم بازیابی می کنیم.

در آزمایش خود، دریافتیم که 2 تا 5 ردیف از داده های جدول برای ارائه اطلاعات کافی به مدل بدون اضافه کردن سربار بیش از حد غیر ضروری کافی است. سه ردیف برای ارائه زمینه کافی بود، بدون اینکه مدل را با ورودی بیش از حد تحت تأثیر قرار دهد. در مورد استفاده ما، با آنتروپیک شروع کردیم کلود V2. این مدل به دلیل استدلال پیشرفته‌اش و پاسخ‌های متنی واضح زمانی که زمینه و دستورالعمل‌های مناسب ارائه شود، شناخته می‌شود. به‌عنوان بخشی از دستورالعمل‌ها، می‌توانیم جزئیات روشن‌تر بیشتری را به LLM اضافه کنیم. برای مثال می توانیم آن ستون را توصیف کنیم Comp_NAME مخفف نام شرکت است. اکنون می‌توانیم با ترکیب سؤال کاربر، طرح پایگاه داده، سه ردیف نمونه از جدولی که قصد استفاده از آن را داریم، و مجموعه‌ای از دستورالعمل‌ها برای تولید SQL مورد نیاز در قالب SQL تمیز بدون نظر یا اضافات، درخواست را بسازیم.

تمام عناصر ورودی ترکیب شده به عنوان اعلان ورودی مدل در نظر گرفته می شوند. یک اعلان ورودی به خوبی مهندسی شده که بر اساس نحو ترجیحی مدل تنظیم شده است، هم بر کیفیت و هم عملکرد خروجی تأثیر می گذارد. انتخاب مدل برای استفاده برای یک کار خاص نیز مهم است، نه تنها به این دلیل که کیفیت خروجی را تحت تاثیر قرار می دهد، بلکه به این دلیل که پیامدهای هزینه و عملکرد دارد.

انتخاب مدل و مهندسی سریع و بهینه‌سازی را بعداً در این پست مورد بحث قرار می‌دهیم، اما شایان ذکر است که برای مرحله تولید پرس و جو، متوجه شدیم که Claude Instant می‌تواند نتایج قابل مقایسه تولید کند، به خصوص زمانی که سؤال کاربر به خوبی بیان شده باشد و آنقدر پیچیده نباشد. با این حال، Claude V2 حتی با ورودی پیچیده تر و غیرمستقیم کاربر، نتایج بهتری به دست آورد. آموختیم که اگرچه در برخی موارد کلود فوری ممکن است دقت کافی را در زمان تاخیر و نقطه قیمت بهتر ارائه دهد، مورد ما برای تولید پرس و جو برای Claude V2 مناسب تر بود.

پرس و جوی SQL را تأیید کنید

گام بعدی ما این است که تأیید کنیم که LLM با موفقیت نحو پرس و جوی درستی را ایجاد کرده است و اینکه پرس و جو با در نظر گرفتن طرحواره های پایگاه داده و ردیف های مثال ارائه شده مفهومی متنی دارد. برای این مرحله راستی‌آزمایی، می‌توانیم به اعتبارسنجی پرس و جوی بومی در SQLDatabaseChain برگردیم، یا می‌توانیم سفر دومی به LLM شامل درخواست ایجاد شده به همراه دستورالعمل اعتبارسنجی انجام دهیم.

اگر از یک LLM برای مرحله اعتبار سنجی استفاده کنیم، می توانیم از LLM مشابه قبلی (کلود V2) یا یک LLM کوچکتر و کارآمدتر برای یک کار ساده تر، مانند Claude Instant استفاده کنیم. از آنجایی که ما از Amazon Bedrock استفاده می کنیم، این باید یک تنظیم بسیار ساده باشد. با استفاده از همان API، می‌توانیم نام مدل را در فراخوانی API خود تغییر دهیم، که این تغییر را انجام می‌دهد. توجه به این نکته مهم است که در بیشتر موارد، یک LLM کوچکتر می‌تواند کارایی بهتری را هم از نظر هزینه و هم از نظر تأخیر ارائه دهد و باید در نظر گرفته شود - تا زمانی که دقت مورد نظر را به دست آورید. در مورد ما، آزمایش ثابت کرد که پرس و جو ایجاد شده به طور مداوم دقیق و با نحو مناسب است. با دانستن این موضوع، توانستیم از این مرحله اعتبار سنجی صرفه جویی کنیم و در تأخیر و هزینه صرفه جویی کنیم.

پرس و جوی SQL را اجرا کنید

اکنون که کوئری تایید شده SQL را داریم، می‌توانیم کوئری SQL را در مقابل پایگاه داده اجرا کنیم و زمینه مربوطه را بازیابی کنیم. این باید یک گام مستقیم باشد.

ما زمینه تولید شده را می گیریم، آن را به LLM انتخابی خود همراه با سؤال اولیه کاربر و برخی دستورالعمل ها ارائه می دهیم و از مدل می خواهیم که یک خلاصه متنی و واضح ایجاد کند. سپس خلاصه تولید شده را به عنوان پاسخی به سوال اولیه به کاربر ارائه می کنیم که همگی با زمینه استخراج شده از مجموعه داده ما همسو هستند.

برای LLM درگیر در مرحله خلاصه‌سازی، می‌توانیم از Titan Text Express یا Claude Instant استفاده کنیم. هر دو گزینه های خوبی برای کار خلاصه سازی ارائه می دهند.

یکپارچه سازی برنامه

قابلیت چت بات پرسش و پاسخ یکی از خدمات هوش مصنوعی Q4 است. برای اطمینان از ماژولار بودن و مقیاس‌پذیری، Q4 سرویس‌های هوش مصنوعی را به‌عنوان ریزسرویس‌هایی ایجاد می‌کند که از طریق APIها برای برنامه‌های Q4 قابل دسترسی هستند. این رویکرد مبتنی بر API یکپارچه‌سازی یکپارچه با اکوسیستم پلتفرم Q4 را امکان‌پذیر می‌کند و افشای قابلیت‌های سرویس‌های هوش مصنوعی را در مجموعه کامل برنامه‌های پلتفرم تسهیل می‌کند.

هدف اصلی خدمات هوش مصنوعی ارائه قابلیت های ساده برای بازیابی داده ها از هر منبع داده عمومی یا اختصاصی با استفاده از زبان طبیعی به عنوان ورودی است. علاوه بر این، سرویس‌های هوش مصنوعی لایه‌های انتزاعی دیگری را برای اطمینان از برآورده شدن الزامات کاربردی و غیرعملکردی، مانند حریم خصوصی و امنیت داده‌ها، ارائه می‌کنند. نمودار زیر مفهوم یکپارچه سازی را نشان می دهد.

تصویر یکپارچه سازی برنامه

چالش های پیاده سازی

علاوه بر چالش‌های ارائه‌شده توسط ماهیت مجموعه داده‌های عددی ساختاریافته که قبلاً در مورد آن بحث کردیم، Q4 با تعدادی دیگر از چالش‌های پیاده‌سازی روبه‌رو بود که باید به آنها رسیدگی می‌شد.

انتخاب و عملکرد LLM

انتخاب LLM مناسب برای کار بسیار مهم است زیرا به طور مستقیم بر کیفیت خروجی و همچنین عملکرد (تاخیر رفت و برگشت) تأثیر می گذارد. در اینجا عواملی وجود دارد که در فرآیند انتخاب رشته LLM نقش دارند:

نوع LLM - نحوه معماری FM ها و داده های اولیه که مدل از قبل بر روی آنها آموزش دیده است، نوع وظایفی را که LLM در آنها خوب است و چقدر خوب خواهد بود، تعیین می کند. به عنوان مثال، یک متن LLM در تولید و خلاصه سازی متن خوب است، در حالی که یک مدل متن به تصویر یا تصویر به متن بیشتر به سمت تجزیه و تحلیل تصویر و وظایف تولید می رود.
اندازه LLM - اندازه FM با تعداد پارامترهای مدل یک مدل خاص اندازه گیری می شود، معمولاً برای LLM های مدرن به میلیاردها می رسد. به طور معمول، هر چه مدل بزرگتر باشد، آموزش اولیه یا تنظیم دقیق بعدی گرانتر است. از سوی دیگر، به طور کلی، برای همان معماری مدل، هر چه مدل بزرگتر باشد، انتظار داریم که در انجام نوع کاری که برای آن طراحی شده است هوشمندتر باشد.
عملکرد LLM – به طور معمول، هر چه مدل بزرگتر باشد، زمان بیشتری برای تولید خروجی طول می‌کشد، با فرض اینکه از پارامترهای محاسباتی و ورودی/خروجی یکسانی (اعلان و اندازه خروجی) استفاده می‌کنید. علاوه بر این، برای همان اندازه مدل، عملکرد به شدت تحت تأثیر میزان بهینه‌سازی درخواست شما، اندازه نشانه‌های ورودی/خروجی و وضوح و نحو اعلان است. یک درخواست خوب مهندسی شده، همراه با اندازه توکن I/O بهینه شده، می تواند زمان پاسخگویی مدل را بهبود بخشد.

بنابراین، هنگام بهینه سازی کار خود، بهترین شیوه های زیر را در نظر بگیرید:

مدلی را انتخاب کنید که برای کار مورد نظر مناسب باشد
کوچکترین اندازه مدلی را انتخاب کنید که بتواند دقت مورد نظر شما را ایجاد کند
ساختار سریع خود را بهینه کنید و تا حد امکان با دستورالعمل ها به گونه ای مشخص باشید که مدل به راحتی قابل درک باشد.
از کوچکترین اعلان ورودی استفاده کنید که می تواند دستورالعمل و زمینه کافی برای تولید سطح دقت مورد نظر شما ارائه دهد.
اندازه خروجی را به کوچکترین اندازه ای که می تواند برای شما معنادار باشد و نیازهای خروجی شما را برآورده کند، محدود کنید

با در نظر گرفتن عوامل انتخاب مدل و بهینه‌سازی عملکرد، ما برای بهینه‌سازی استفاده از تولید SQL خود دست به کار شدیم. پس از چند آزمایش، متوجه شدیم که به شرط داشتن زمینه و دستورالعمل‌های مناسب، Claude Instant با همان داده‌های سریع، کیفیت SQL قابل مقایسه با Claude V2 را با عملکرد و قیمت بسیار بهتر تولید می‌کند. این زمانی درست است که ورودی کاربر ماهیت مستقیم‌تر و ساده‌تری داشته باشد. برای ورودی پیچیده تر، Claude V2 برای ایجاد دقت مطلوب ضروری بود.

اعمال همان منطق در کار خلاصه‌سازی ما را به این نتیجه رساند که استفاده از Claude Instant یا Titan Text Express دقت مورد نیاز را در نقطه عملکرد بسیار بهتری نسبت به مدل بزرگ‌تری مانند Claude V2 ایجاد می‌کند. همانطور که قبلاً در مورد آن صحبت کردیم، Titan Text Expressed نیز قیمت و عملکرد بهتری ارائه داد.

چالش ارکستراسیون

ما متوجه شدیم که قبل از اینکه بتوانیم یک پاسخ خروجی معنادار برای سؤال کاربر دریافت کنیم، چیزهای زیادی برای هماهنگی وجود دارد. همانطور که در نمای کلی راه حل نشان داده شده است، این فرآیند شامل چندین سفر پایگاه داده و چندین سفر LLM است که در هم تنیده شده اند. اگر می‌خواستیم از ابتدا بسازیم، باید سرمایه‌گذاری قابل توجهی در حمل‌ونقل سنگین غیرمتمایز انجام می‌دادیم تا کد اولیه را آماده کنیم. ما به سرعت به استفاده از LangChain به عنوان یک چارچوب ارکستراسیون، بهره گیری از قدرت جامعه منبع باز و استفاده مجدد از ماژول های موجود بدون اختراع مجدد چرخ پرداختیم.

چالش SQL

ما همچنین متوجه شدیم که تولید SQL به سادگی مکانیسم‌های استخراج زمینه مانند جستجوی معنایی یا استفاده از تعبیه‌ها نیست. ابتدا باید طرح پایگاه داده و چند ردیف نمونه را دریافت کنیم تا در اعلان ما به LLM اضافه شود. همچنین مرحله اعتبار سنجی SQL وجود دارد، جایی که ما نیاز به تعامل با پایگاه داده و LLM داشتیم. SQLDatabaseChain انتخاب آشکار ابزار بود. از آنجا که بخشی از LangChain است، تطبیق آن ساده بود، و اکنون می‌توانیم تولید SQL و تأیید را با کمک زنجیره مدیریت کنیم و میزان کاری را که باید انجام می‌دادیم به حداقل برسانیم.

چالش های عملکردی

با استفاده از Claude V2 و پس از مهندسی سریع (که در بخش بعدی به آن خواهیم پرداخت) توانستیم SQL با کیفیت بالا تولید کنیم. با در نظر گرفتن کیفیت SQL تولید شده، ما شروع کردیم به بررسی این که مرحله اعتبارسنجی واقعاً چقدر ارزش اضافه می کند. پس از تجزیه و تحلیل بیشتر نتایج، مشخص شد که کیفیت SQL تولید شده به طور مداوم دقیق است، به نحوی که هزینه/فایده اضافه کردن مرحله اعتبارسنجی SQL نامطلوب است. ما در نهایت مرحله اعتبارسنجی SQL را بدون تأثیر منفی بر کیفیت خروجی حذف کردیم و زمان رفت و برگشت اعتبارسنجی SQL را کاهش دادیم.

علاوه بر بهینه‌سازی برای یک LLM با هزینه و کارآمدتر برای مرحله خلاصه‌سازی، ما توانستیم از Titan Text Express برای دستیابی به عملکرد بهتر و بازدهی بهتر استفاده کنیم.

بهینه سازی عملکرد بیشتر شامل تنظیم دقیق فرآیند تولید پرس و جو با استفاده از تکنیک های مهندسی سریع کارآمد است. به‌جای ارائه تعداد زیادی نشانه، تمرکز بر روی ارائه کمترین مقدار نشانه‌های ورودی، در نحو مناسبی بود که مدل برای درک آن آموزش دیده است، و با مجموعه حداقل و در عین حال بهینه دستورالعمل‌ها. این موضوع را در بخش بعدی بیشتر مورد بحث قرار می‌دهیم - این موضوع مهمی است که نه تنها در اینجا بلکه در موارد استفاده دیگر نیز قابل استفاده است.

مهندسی و بهینه سازی سریع

در صورت استفاده از تکنیک‌های مهندسی سریع، می‌توانید Claude را در Amazon Bedrock برای موارد مختلف استفاده تجاری تنظیم کنید. کلود عمدتاً به عنوان یک دستیار مکالمه ای عمل می کند که از قالب انسان/دستیار استفاده می کند. کلود برای پر کردن متن برای نقش دستیار آموزش دیده است. با توجه به دستورالعمل‌ها و تکمیل‌های سریع مورد نظر، می‌توانیم درخواست‌های خود را برای کلود با استفاده از چندین تکنیک بهینه کنیم.

ما با یک الگوی سریع قالب‌بندی شده مناسب شروع می‌کنیم که تکمیل معتبری را ارائه می‌دهد، سپس می‌توانیم پاسخ‌ها را با آزمایش‌هایی با مجموعه‌های مختلف ورودی که نماینده داده‌های دنیای واقعی هستند، بیشتر بهینه کنیم. توصیه می شود هنگام توسعه یک الگوی سریع، ورودی های زیادی دریافت کنید. همچنین می توانید از مجموعه های جداگانه داده های توسعه سریع و داده های آزمایشی استفاده کنید.

راه دیگر برای بهینه سازی پاسخ کلود آزمایش و تکرار با افزودن قوانین، دستورالعمل ها و بهینه سازی های مفید. از این بهینه‌سازی‌ها، می‌توانید انواع مختلفی از تکمیل‌ها را مشاهده کنید، مثلاً به کلود بگویید «نمی‌دانم» برای جلوگیری از توهم، فکر کردن گام به گام، استفاده از زنجیره‌بندی سریع، دادن فضا برای «فکر کردن» در حالی که پاسخ‌ها را ایجاد می‌کند. ، و دوبار بررسی برای درک و دقت.

بیایید از وظیفه تولید پرس و جو خود استفاده کنیم و در مورد برخی از تکنیک هایی که برای بهینه سازی درخواست خود استفاده کرده ایم بحث کنیم. چند عنصر اصلی وجود داشت که برای تلاش‌های تولید پرس‌وجو مفید بود:

استفاده از نحو مناسب انسان/دستیار
استفاده از تگ های XML (کلود به تگ های XML احترام می گذارد و آنها را درک می کند)
افزودن دستورالعمل های واضح برای مدل برای جلوگیری از توهم

مثال عمومی زیر نشان می‌دهد که چگونه از نحو انسان/دستیار استفاده کردیم، تگ‌های XML را اعمال کردیم و دستورالعمل‌هایی را اضافه کردیم تا خروجی را به SQL محدود کنیم و به مدل دستور دهیم اگر نتواند SQL مربوطه را تولید کند، بگوید «متاسفم، نمی‌توانم کمک کنم». . از تگ‌های XML برای قاب‌بندی دستورالعمل‌ها، نکات اضافی، طرح‌واره پایگاه داده، توضیحات جدول اضافی و ردیف‌های مثال استفاده می‌شود.

"""Human: You are a SQL expert.
You are tasked to generate a SQL statement from the instruction provided. <instructions>
Understanding the input question, referencing the database schema, and reviewing
example rows, generate a SQL statement that represents the question.
</instructions> <database_schema> "here you can include your table schemas
</database_schema> <table_description> "Comp-Nam" stands for Company Name "Own-Hist" stand for Ownership history
</table_description> <example_rows> "here you can insert 2-5 sample database rows"
</example_rows> <question>
{input}
</question> <additional_hints>
In your response provide only SQL with no additional comments.
The SQL has to follow the proper database schema.
If the question is unrelated to the database or if you are
unable to generate relevant SQL,
say "sorry, I am unable to help".
Do not make up an answer
Do not answer with anything other than SQL
</additional_hints> Assistant: """

راه حل نهایی کار

پس از اینکه به تمام چالش‌های شناسایی‌شده در طول اثبات مفهوم پرداختیم، همه الزامات راه‌حل را برآورده کردیم. Q4 از کیفیت SQL تولید شده توسط LLM راضی بود. این امر برای کارهای ساده ای که فقط به یک بند WHERE برای فیلتر کردن داده ها نیاز دارند و همچنین برای کارهای پیچیده تری که نیاز به تجمیع های مبتنی بر زمینه با GROUP BY و توابع ریاضی دارند صادق است. تأخیر انتها به انتها راه حل کلی در حدی بود که برای موارد استفاده قابل قبول تعریف شده بود - ثانیه های تک رقمی. این همه به لطف انتخاب یک LLM بهینه در هر مرحله، مهندسی سریع مناسب، حذف مرحله تأیید SQL، و استفاده از یک LLM کارآمد برای مرحله خلاصه سازی (Titan Text Express یا Claude Instant) بود.

شایان ذکر است که استفاده از Amazon Bedrock به عنوان یک سرویس کاملاً مدیریت شده و امکان دسترسی به مجموعه ای از LLM ها از طریق همان API، امکان آزمایش و سوئیچ بدون درز بین LLM ها را با تغییر نام مدل در فراخوانی API فراهم می کند. با این سطح از انعطاف‌پذیری، Q4 می‌توانست کارآمدترین LLM را برای هر تماس LLM بر اساس ماهیت کار، اعم از تولید پرس و جو، تأیید صحت یا خلاصه‌سازی انتخاب کند.

نتیجه

هیچ راه حلی وجود ندارد که مناسب همه موارد استفاده باشد. در رویکرد RAG، کیفیت خروجی به شدت به ارائه زمینه مناسب بستگی دارد. استخراج زمینه مناسب کلیدی است و هر مجموعه داده با ویژگی های منحصر به فرد خود متفاوت است.

در این پست، ما نشان دادیم که برای مجموعه داده‌های عددی و ساختار یافته، استفاده از SQL برای استخراج زمینه مورد استفاده برای تقویت می‌تواند به نتایج مطلوب‌تری منجر شود. ما همچنین نشان دادیم که چارچوب‌هایی مانند LangChain می‌توانند تلاش کدنویسی را به حداقل برسانند. علاوه بر این، ما در مورد نیاز به جابجایی بین LLM ها در یک مورد استفاده به منظور دستیابی به بهینه ترین دقت، عملکرد و هزینه بحث کردیم. در نهایت، ما نشان دادیم که Amazon Bedrock، بدون سرور و دارای انواع LLM در زیر کاپوت، چگونه انعطاف‌پذیری مورد نیاز برای ساخت برنامه‌های کاربردی ایمن، کارآمد و بهینه‌سازی هزینه را با کمترین میزان باربری فراهم می‌کند.

سفر خود را به سمت ساختن برنامه های کاربردی با قابلیت هوش مصنوعی با شناسایی یک مورد استفاده با ارزش برای کسب و کار خود آغاز کنید. همانطور که تیم Q4 آموخته است، تولید SQL می تواند یک تغییر دهنده بازی در ساخت برنامه های هوشمند باشد که با ذخیره داده های شما یکپارچه می شوند و پتانسیل درآمد را باز می کنند.

درباره نویسندگان

تامر سلیمان یک معمار ارشد راه حل در AWS است. او به مشتریان مستقل نرم افزار فروشنده (ISV) کمک می کند تا در AWS نوآوری کنند، بسازند و مقیاس کنند. او بیش از دو دهه تجربه صنعتی در زمینه مشاوره، آموزش و خدمات حرفه ای دارد. او یک مخترع چند اختراع با سه پتنت اعطا شده است و تجربه‌اش در حوزه‌های فناوری متعدد از جمله مخابرات، شبکه، یکپارچه‌سازی برنامه‌ها، هوش مصنوعی/ML و استقرار ابری را در بر می‌گیرد. او در شبکه AWS تخصص دارد و اشتیاق عمیقی به تکیه ماشینی، هوش مصنوعی و هوش مصنوعی مولد دارد.

مانی خانوجه یک رهبر فناوری – متخصصان هوش مصنوعی مولد، نویسنده کتاب – یادگیری ماشین کاربردی و محاسبات با عملکرد بالا در AWS، و عضو هیئت مدیره بنیاد آموزش زنان در تولید است. او پروژه های یادگیری ماشینی (ML) را در حوزه های مختلف مانند بینایی کامپیوتر، پردازش زبان طبیعی و هوش مصنوعی مولد رهبری می کند. او به مشتریان کمک می کند تا مدل های بزرگ یادگیری ماشین را در مقیاس بسازند، آموزش دهند و به کار گیرند. او در کنفرانس های داخلی و خارجی مانند re:Invent، Women in Manufacturing West، وبینارهای یوتیوب و GHC 23 صحبت می کند. او در اوقات فراغت خود دوست دارد برای دویدن طولانی در کنار ساحل برود.

استانیسلاو یشچنکو او یک معمار نرم افزار در Q4 Inc. است. او بیش از یک دهه تجربه صنعتی در توسعه نرم افزار و معماری سیستم دارد. پس زمینه‌های متنوع او مانند سرپرست فنی و توسعه‌دهنده ارشد Full Stack، کمک‌های او را در پیشبرد نوآوری پلتفرم Q4 تقویت می‌کند. استانیسلاو به هدایت نوآوری های فنی و شکل دادن به راه حل های استراتژیک در این زمینه اختصاص دارد.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/how-q4-inc-used-amazon-bedrock-rag-and-sqldatabasechain-to-address-numerical-and-structured-dataset-challenges-building-their-qa-chatbot/

تمبر زمان: دسامبر 6، 2023

تمبر زمان: مار 18، 2022

بازنشر افلاطون

چندین مدل یادگیری عمیق را روی GPU با نقاط پایانی چند مدل Amazon SageMaker اجرا کنید

با توییتر، Amazon SageMaker و Hugging Face یک سیستم هشدار بی‌درنگ مبتنی بر اخبار بسازید.

با یادگیری از بازخورد غنی انسان، استدلال چند هاپ را در LLMها بهبود بخشید

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب