قرار دادن LLM ها به تولید از طریق پایگاه های داده برداری

قرار دادن LLM ها به تولید از طریق پایگاه های داده برداری

قرار دادن LLM ها به تولید از طریق پایگاه داده برداری PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

ماه گذشته MongoDB پیش‌نمایش عمومی خود از جستجوی برداری را در میان به‌روزرسانی‌های پلتفرم توسعه‌دهنده پایگاه داده Atlas خود به عنوان سرویس اعلام کرد. این حرکت به این معنی است که پایگاه داده اسناد MongoDB به Cassandra، PostgreSQL و SingleStore در میان سیستم‌هایی که از ویژگی‌های مشابه پشتیبانی می‌کنند می‌پیوندد، زیرا علاقه به قرار دادن مدل‌های زبان بزرگ (LLM) در تولید افزایش می‌یابد.

LLM ها در شش ماه گذشته سر و صدای زیادی دریافت کرده اند، به طوری که GPT 4.0 OpenAI سهم بزرگی از زمان پخش رسانه ها را جذب کرده است. ایده این است که مقداری معنا استخراج کنیم - در قالب پاسخ به سؤال زبان طبیعی از مجموعه ای از متن. روابط بین کلمات، جملات و سایر واحدهای متنی به صورت بردارهای چند بعدی نمایش داده می شوند (گاهی اوقات به صدها بعد می رسند)، که سپس برای یافتن محتمل ترین ارتباط حل می شوند.

با پیش بینی رونق در این شکل از تجزیه و تحلیل متن و سایر داده ها، گروهی از فروشندگان پایگاه های داده تخصصی را با معماری هایی که به طور خاص برای این کار طراحی شده اند، توسعه داده اند. سوال این است که آیا بهتر است از یک پایگاه داده استفاده کنیم یا از ویژگی‌های جدید سیستمی که قبلاً برای توسعه‌دهندگان و شرکت‌ها آشنا بوده‌اند، با یک خانه مشخص شده در پشته فناوری استفاده کنیم.

با این حال، MongoDB استدلال می‌کند که پایگاه‌های اطلاعاتی تک منظوره برای موارد استفاده مانند فروشگاه‌های برداری اغلب به پشته‌های فناوری موجود متصل می‌شوند و بنابراین منجر به پیچیدگی اداری بیشتر و زمان طولانی‌تری برای ارزش‌گذاری می‌شوند. این رویکرد همچنین توسعه دهندگان را ملزم به یادگیری یک سیستم جدید می کرد.

صحبت به ثبت نامبن فلست، رهبر مدیریت محصول برای جستجوی برداری، گفت وکتورهای با ابعاد بالا را می توان در اسناد JSON که MongoDB پیرامون آن طراحی شده است، ذخیره کرد.

او گفت: «درج این بردارهای با ابعاد بالا در اسناد خود کاملاً ساده است. همانطور که به دنبال افزودن جستجوی معنایی به عنوان یک قابلیت به برنامه خود هستید و موارد استفاده جدید دیگر در مورد LLM ها و ربات های چت به وجود می آیند، [می توانید] همان داده هایی را که در استقرار MongoDB خود ذخیره می کردید، بگیرید. شما می توانید آن را جاسازی کنید یا بردار کنید و آن بردار را به اسناد جداگانه اضافه کنید و سپس یک نمایه روی آن ایجاد کنید. سپس تمام پیچیدگی‌های پشت صحنه را از نظر داشتن آن شاخص و پشتیبانی از آن پرسش‌ها مدیریت می‌کنیم.»

سایر پایگاه‌های داده توسعه‌دهنده محبوب از جمله سیستم متن‌باز رابطه‌ای PostgreSQL و فروشگاه با ستون گسترده Cassandra از ویژگی‌های مشابه پشتیبانی می‌کنند. Pgvector یک پسوند برداری منبع باز برای جستجوی شباهت برای PostgreSQL است. از آنجایی که در جاسازی‌های برداری می‌توانید از ابزارهای هوش مصنوعی برای گرفتن روابط بین اشیا (نمایش‌های برداری) استفاده کنید، همچنین می‌توانید شباهت‌های بین آنها را به روشی به‌راحتی قابل محاسبه و مقیاس‌پذیر شناسایی کنید. مطابق به ارائه دهنده خدمات پایگاه داده Aiven.

ویژگی‌های Cassandra در سرویس پایگاه داده DataStax Astra موجود است و در اواخر امسال در Cassandra 5.0 منبع باز گنجانده شده است. پاتریک مک‌فادین، رابط Apache Cassandra و روابط توسعه‌دهنده در DataStax، به او گفت. ثبت نام: «چند استارت آپ جدید با ساختن پایگاه داده جستجوی برداری تخصصی، کسب و کاری ایجاد کرده اند. با این حال، این رویکرد محدود از سایر داده‌های مهم در بار کاری هوش مصنوعی جلوگیری می‌کند. این استارت آپ ها یک عملکرد واحد را در پیش گرفته اند و سعی کرده اند آن را به یک محصول جداگانه تبدیل کنند.

«در حالی که جستجوی برداری زمانی یک نیاز صنعت طاقچه بود، این محصولات جدید فقط با آن نیازهای خاص مطابقت دارند. امروزه، از آنجایی که جستجوی برداری به یک نیاز رایج تبدیل شده است، پایگاه های داده اصلی از جستجوی برداری به عنوان یک ویژگی برای توسعه دهندگان خود استفاده می کنند.

اما برای متخصصان، مسئله مقیاس و عملکرد است، نه راحتی توسعه‌دهنده، که تقاضای مستمر برای رویکرد آنها را تضمین می‌کند.

Pinecone که توسط تیم پشت آمازون Sagemaker ساخته شده است، طراحی شده است تا به مهندسان یادگیری ماشین اجازه دهد تا در کاتالوگ‌های جاسازی‌ها، نمایش‌های برداری پیوسته متغیرهای جداگانه اساسی برای الگوریتم‌های رایج ML جستجو کنند. در ماه آوریل، ۱۰۰ میلیون دلار بودجه سری B جمع آوری کرد که در نتیجه ارزش تخمینی آن ۷۵۰ میلیون دلار بود.

صحبت به ثبت نامElan Dekel گفت که اگرچه هر پایگاه داده احتمالاً نوعی پشتیبانی برداری را در آینده نزدیک ارائه می دهد، اما ممکن است موثرترین رویکرد برای همه موارد استفاده نباشد.

او گفت: «اگر مورد استفاده شما نسبتاً کوچک است، احتمالاً [یک سیستم هدف عمومی] کافی است. اما در یک نقطه، متوجه خواهید شد که در حال شکستن محدودیت‌های معماری موجود هستید. هنگامی که می خواهید به یک مقیاس تولید واقعی دست پیدا کنید، مقاوم سازی راه حل های موجود به این معنی است که هزینه برای به دست آوردن این عملکرد منفجر می شود.

«اگر کیس استفاده شما نسبتاً کوچک است، یا به عملکرد اهمیتی نمی دهید، خوب خواهید بود. مانند این موارد استفاده در سطح میانی وجود خواهد داشت که می توانید با خوشحالی ادامه دهید، اما با رسیدن به مقیاس تولید واقعی، شروع به رسیدن به محدودیت های سیستم های موجود خواهید کرد. اگر عملکرد بالا، پشتیبانی از سیستم‌های مقیاس بالا را می‌خواهید و آن را کارآمد و با هزینه معقول می‌خواهید، در نهایت متوجه خواهید شد که به یک پایگاه داده هدفمند نیاز دارید.»

پیتر زایتسف، کارشناس عملکرد MySQL و بنیانگذار شرکت خدمات پایگاه داده Percona، گفت که هیچ پاسخ واحدی برای این معضل وجود نخواهد داشت.

او گفت: «اغلب، در مراحل اولیه، چندین فناوری وجود دارد که با رویکردها، ویژگی‌ها و تمرکز کمی متفاوت در بازار ظاهر می‌شوند و زمان می‌برد تا بازار تثبیت شود.» ثبت نام.

در پایان، من انتظار دارم استاندارد SQL شامل مواردی برای پشتیبانی از برنامه‌های جستجوی برداری باشد و ما در پایگاه‌های داده‌های مختلف موجود، اعم از رابطه‌ای، سندی و غیره، چند پسوند منحصربه‌فرد خواهیم داشت. در کنار اینها، ما بین سه تا پنج پایگاه داده برداری با هدف ویژه خواهیم داشت که 95 درصد از بازار پایگاه داده برداری با هدف ویژه را کنترل می کنند.

در میان سیستم های پایگاه داده برداری تخصصی، Pinecone توسط Weaviate، Qdrant، Milvus و Vespa ملحق شده است.

نوئل یوهانا، veep و تحلیلگر اصلی Forrester Research، گفت که او بازخورد مثبتی از سازمان‌هایی می‌شنود که از این سیستم‌ها استفاده می‌کنند، که به کنترل دسترسی، در دسترس بودن بالا، تغییر شکل، بهینه‌سازی پرس و جو، مدیریت منابع، مقیاس‌پذیری، همزمانی و جستجوهای داده سریع کمک می‌کند که به پشتیبانی کمک می‌کنند. LLMs.

با این حال، آشنایی با توسعه‌دهندگان می‌تواند به سمت اکثر پایگاه‌های داده‌ای که از تحلیل برداری پشتیبانی می‌کنند، جذاب باشد.

در حالی که پایگاه‌های داده برداری بومی با عملکرد و مقیاس بهتر برجسته می‌شوند، احتمالاً شاهد خواهیم بود که سازمان‌هایی نیز از پایگاه‌های داده سنتی با قابلیت‌های برداری استفاده می‌کنند که به داده‌های یکپارچه‌تر شامل سیستم‌های ثبت، سیستم‌های تعامل و داده‌های برداری برای ارائه برنامه‌های بسیار غنی‌تر LLM نیاز دارند. با کدگذاری کمتر.»

اولین پوستر ماشین تبلیغاتی OpenAI فعلی LLM در اوایل امسال حدود 29 میلیارد دلار ارزش داشت زیرا سرمایه گذاری 300 میلیون دلاری را استنشاق کرد. اگر برنامه های تجاری چیزی شبیه به این علاقه را منعکس کنند، بهترین پایگاه های داده پشتیبانی برای مدتی خشمگین خواهند شد. ®

تمبر زمان:

بیشتر از ثبت نام