ماه گذشته MongoDB پیشنمایش عمومی خود از جستجوی برداری را در میان بهروزرسانیهای پلتفرم توسعهدهنده پایگاه داده Atlas خود به عنوان سرویس اعلام کرد. این حرکت به این معنی است که پایگاه داده اسناد MongoDB به Cassandra، PostgreSQL و SingleStore در میان سیستمهایی که از ویژگیهای مشابه پشتیبانی میکنند میپیوندد، زیرا علاقه به قرار دادن مدلهای زبان بزرگ (LLM) در تولید افزایش مییابد.
LLM ها در شش ماه گذشته سر و صدای زیادی دریافت کرده اند، به طوری که GPT 4.0 OpenAI سهم بزرگی از زمان پخش رسانه ها را جذب کرده است. ایده این است که مقداری معنا استخراج کنیم - در قالب پاسخ به سؤال زبان طبیعی از مجموعه ای از متن. روابط بین کلمات، جملات و سایر واحدهای متنی به صورت بردارهای چند بعدی نمایش داده می شوند (گاهی اوقات به صدها بعد می رسند)، که سپس برای یافتن محتمل ترین ارتباط حل می شوند.
با پیش بینی رونق در این شکل از تجزیه و تحلیل متن و سایر داده ها، گروهی از فروشندگان پایگاه های داده تخصصی را با معماری هایی که به طور خاص برای این کار طراحی شده اند، توسعه داده اند. سوال این است که آیا بهتر است از یک پایگاه داده استفاده کنیم یا از ویژگیهای جدید سیستمی که قبلاً برای توسعهدهندگان و شرکتها آشنا بودهاند، با یک خانه مشخص شده در پشته فناوری استفاده کنیم.
با این حال، MongoDB استدلال میکند که پایگاههای اطلاعاتی تک منظوره برای موارد استفاده مانند فروشگاههای برداری اغلب به پشتههای فناوری موجود متصل میشوند و بنابراین منجر به پیچیدگی اداری بیشتر و زمان طولانیتری برای ارزشگذاری میشوند. این رویکرد همچنین توسعه دهندگان را ملزم به یادگیری یک سیستم جدید می کرد.
صحبت به ثبت نامبن فلست، رهبر مدیریت محصول برای جستجوی برداری، گفت وکتورهای با ابعاد بالا را می توان در اسناد JSON که MongoDB پیرامون آن طراحی شده است، ذخیره کرد.
او گفت: «درج این بردارهای با ابعاد بالا در اسناد خود کاملاً ساده است. همانطور که به دنبال افزودن جستجوی معنایی به عنوان یک قابلیت به برنامه خود هستید و موارد استفاده جدید دیگر در مورد LLM ها و ربات های چت به وجود می آیند، [می توانید] همان داده هایی را که در استقرار MongoDB خود ذخیره می کردید، بگیرید. شما می توانید آن را جاسازی کنید یا بردار کنید و آن بردار را به اسناد جداگانه اضافه کنید و سپس یک نمایه روی آن ایجاد کنید. سپس تمام پیچیدگیهای پشت صحنه را از نظر داشتن آن شاخص و پشتیبانی از آن پرسشها مدیریت میکنیم.»
سایر پایگاههای داده توسعهدهنده محبوب از جمله سیستم متنباز رابطهای PostgreSQL و فروشگاه با ستون گسترده Cassandra از ویژگیهای مشابه پشتیبانی میکنند. Pgvector یک پسوند برداری منبع باز برای جستجوی شباهت برای PostgreSQL است. از آنجایی که در جاسازیهای برداری میتوانید از ابزارهای هوش مصنوعی برای گرفتن روابط بین اشیا (نمایشهای برداری) استفاده کنید، همچنین میتوانید شباهتهای بین آنها را به روشی بهراحتی قابل محاسبه و مقیاسپذیر شناسایی کنید. مطابق به ارائه دهنده خدمات پایگاه داده Aiven.
ویژگیهای Cassandra در سرویس پایگاه داده DataStax Astra موجود است و در اواخر امسال در Cassandra 5.0 منبع باز گنجانده شده است. پاتریک مکفادین، رابط Apache Cassandra و روابط توسعهدهنده در DataStax، به او گفت. ثبت نام: «چند استارت آپ جدید با ساختن پایگاه داده جستجوی برداری تخصصی، کسب و کاری ایجاد کرده اند. با این حال، این رویکرد محدود از سایر دادههای مهم در بار کاری هوش مصنوعی جلوگیری میکند. این استارت آپ ها یک عملکرد واحد را در پیش گرفته اند و سعی کرده اند آن را به یک محصول جداگانه تبدیل کنند.
«در حالی که جستجوی برداری زمانی یک نیاز صنعت طاقچه بود، این محصولات جدید فقط با آن نیازهای خاص مطابقت دارند. امروزه، از آنجایی که جستجوی برداری به یک نیاز رایج تبدیل شده است، پایگاه های داده اصلی از جستجوی برداری به عنوان یک ویژگی برای توسعه دهندگان خود استفاده می کنند.
اما برای متخصصان، مسئله مقیاس و عملکرد است، نه راحتی توسعهدهنده، که تقاضای مستمر برای رویکرد آنها را تضمین میکند.
Pinecone که توسط تیم پشت آمازون Sagemaker ساخته شده است، طراحی شده است تا به مهندسان یادگیری ماشین اجازه دهد تا در کاتالوگهای جاسازیها، نمایشهای برداری پیوسته متغیرهای جداگانه اساسی برای الگوریتمهای رایج ML جستجو کنند. در ماه آوریل، ۱۰۰ میلیون دلار بودجه سری B جمع آوری کرد که در نتیجه ارزش تخمینی آن ۷۵۰ میلیون دلار بود.
صحبت به ثبت نامElan Dekel گفت که اگرچه هر پایگاه داده احتمالاً نوعی پشتیبانی برداری را در آینده نزدیک ارائه می دهد، اما ممکن است موثرترین رویکرد برای همه موارد استفاده نباشد.
او گفت: «اگر مورد استفاده شما نسبتاً کوچک است، احتمالاً [یک سیستم هدف عمومی] کافی است. اما در یک نقطه، متوجه خواهید شد که در حال شکستن محدودیتهای معماری موجود هستید. هنگامی که می خواهید به یک مقیاس تولید واقعی دست پیدا کنید، مقاوم سازی راه حل های موجود به این معنی است که هزینه برای به دست آوردن این عملکرد منفجر می شود.
«اگر کیس استفاده شما نسبتاً کوچک است، یا به عملکرد اهمیتی نمی دهید، خوب خواهید بود. مانند این موارد استفاده در سطح میانی وجود خواهد داشت که می توانید با خوشحالی ادامه دهید، اما با رسیدن به مقیاس تولید واقعی، شروع به رسیدن به محدودیت های سیستم های موجود خواهید کرد. اگر عملکرد بالا، پشتیبانی از سیستمهای مقیاس بالا را میخواهید و آن را کارآمد و با هزینه معقول میخواهید، در نهایت متوجه خواهید شد که به یک پایگاه داده هدفمند نیاز دارید.»
پیتر زایتسف، کارشناس عملکرد MySQL و بنیانگذار شرکت خدمات پایگاه داده Percona، گفت که هیچ پاسخ واحدی برای این معضل وجود نخواهد داشت.
او گفت: «اغلب، در مراحل اولیه، چندین فناوری وجود دارد که با رویکردها، ویژگیها و تمرکز کمی متفاوت در بازار ظاهر میشوند و زمان میبرد تا بازار تثبیت شود.» ثبت نام.
در پایان، من انتظار دارم استاندارد SQL شامل مواردی برای پشتیبانی از برنامههای جستجوی برداری باشد و ما در پایگاههای دادههای مختلف موجود، اعم از رابطهای، سندی و غیره، چند پسوند منحصربهفرد خواهیم داشت. در کنار اینها، ما بین سه تا پنج پایگاه داده برداری با هدف ویژه خواهیم داشت که 95 درصد از بازار پایگاه داده برداری با هدف ویژه را کنترل می کنند.
در میان سیستم های پایگاه داده برداری تخصصی، Pinecone توسط Weaviate، Qdrant، Milvus و Vespa ملحق شده است.
نوئل یوهانا، veep و تحلیلگر اصلی Forrester Research، گفت که او بازخورد مثبتی از سازمانهایی میشنود که از این سیستمها استفاده میکنند، که به کنترل دسترسی، در دسترس بودن بالا، تغییر شکل، بهینهسازی پرس و جو، مدیریت منابع، مقیاسپذیری، همزمانی و جستجوهای داده سریع کمک میکند که به پشتیبانی کمک میکنند. LLMs.
با این حال، آشنایی با توسعهدهندگان میتواند به سمت اکثر پایگاههای دادهای که از تحلیل برداری پشتیبانی میکنند، جذاب باشد.
در حالی که پایگاههای داده برداری بومی با عملکرد و مقیاس بهتر برجسته میشوند، احتمالاً شاهد خواهیم بود که سازمانهایی نیز از پایگاههای داده سنتی با قابلیتهای برداری استفاده میکنند که به دادههای یکپارچهتر شامل سیستمهای ثبت، سیستمهای تعامل و دادههای برداری برای ارائه برنامههای بسیار غنیتر LLM نیاز دارند. با کدگذاری کمتر.»
اولین پوستر ماشین تبلیغاتی OpenAI فعلی LLM در اوایل امسال حدود 29 میلیارد دلار ارزش داشت زیرا سرمایه گذاری 300 میلیون دلاری را استنشاق کرد. اگر برنامه های تجاری چیزی شبیه به این علاقه را منعکس کنند، بهترین پایگاه های داده پشتیبانی برای مدتی خشمگین خواهند شد. ®
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. خودرو / خودروهای الکتریکی، کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- BlockOffsets. نوسازی مالکیت افست زیست محیطی. دسترسی به اینجا.
- منبع: https://go.theregister.com/feed/www.theregister.com/2023/07/11/vector_databases/
- : دارد
- :است
- :نه
- :جایی که
- 100 میلیون دلار
- $UP
- 7
- a
- قادر
- درباره ما
- دسترسی
- اضافه کردن
- اداری
- AI
- اعتبار
- الگوریتم
- معرفی
- اجازه دادن
- در کنار
- قبلا
- همچنین
- آمازون
- آمازون SageMaker
- در میان
- an
- تحلیل
- روانکاو
- و
- اعلام کرد
- پاسخ
- هر چیزی
- آپاچی
- ظاهر شدن
- کاربرد
- برنامه های کاربردی
- روش
- رویکردها
- آوریل
- معماری
- هستند
- استدلال می کند
- بوجود می آیند
- دور و بر
- AS
- انجمن
- ASTRA
- At
- تلاش
- دسترس پذیری
- در دسترس
- BE
- شدن
- پشت سر
- پشت صحنه
- در توی
- بهترین
- بهتر
- میان
- بیلیون
- رونق
- رباتها
- شکستن
- کسب و کار
- برنامه های تجاری
- اما
- by
- CAN
- قابلیت های
- قابلیت
- ضبط
- اهميت دادن
- مورد
- موارد
- کودک
- CO
- برنامه نویسی
- مشترک
- شرکت
- پیچیدگی
- شامل
- ساخت
- ادامه دادن
- مداوم
- مداوم
- کنترل
- کنترل
- راحتی
- هزینه
- میتوانست
- ایجاد
- ایجاد شده
- بسیار سخت
- جاری
- داده ها
- پایگاه داده
- پایگاه های داده
- مقدار
- ارائه
- تقاضا
- گسترش
- طراحی
- توسعه
- توسعه دهنده
- توسعه دهندگان
- مختلف
- ابعاد
- سند
- اسناد و مدارک
- دان
- قرعه کشی
- پیش از آن
- در اوایل
- مرحله اولیه
- به آسانی
- موثر
- موثر
- جاسازی کردن
- پایان
- نامزدی
- مورد تأیید
- کافی
- اطمینان حاصل شود
- شرکت
- تاسیس
- برآورد
- هر
- موجود
- انتظار
- کارشناس
- گسترش
- ضمیمهها
- عصاره
- آشنا
- آشنایی
- FAST
- ویژگی
- امکانات
- باز خورد
- پیدا کردن
- پایان
- مناسب
- تمرکز
- برای
- فرم
- فورستر
- موسس
- از جانب
- تابع
- اساسی
- بودجه
- آینده
- سوالات عمومی
- دریافت کنید
- رفتن
- بزرگ
- بیشتر
- گروه
- آیا
- داشتن
- he
- شنوایی
- کمک
- زیاد
- اصابت
- صفحه اصلی
- اما
- HTTPS
- صدها نفر
- هیپ
- i
- اندیشه
- شناسایی
- if
- in
- شامل
- از جمله
- گنجاندن
- گنجاندن
- شاخص
- فرد
- صنعت
- داخل
- یکپارچه
- علاقه
- به
- سرمایه گذاری
- IT
- ITS
- پیوست
- می پیوندد
- JPG
- json
- نوع
- زبان
- بزرگ
- نام
- بعد
- رهبری
- یاد گرفتن
- یادگیری
- رهبری
- کمتر
- بهره برداری
- پسندیدن
- احتمالا
- محدود شده
- محدودیت
- ll
- LLM
- دیگر
- نگاه کنيد
- دستگاه
- فراگیری ماشین
- مسیر اصلی
- مدیریت
- مدیریت
- روش
- علامت گذاری شده
- بازار
- متوسط
- معنی
- به معنی
- رسانه ها
- قدرت
- میلیون
- ML
- مدل
- MongoDB
- ماه
- ماه
- بیش
- اکثر
- حرکت
- بسیار
- چندگانه
- خروجی زیر
- بومی
- طبیعی
- نزدیک
- نیاز
- جدید
- ویژگی های جدید
- محصولات جدید
- اشیاء
- of
- غالبا
- on
- یک بار
- فقط
- باز کن
- منبع باز
- OpenAI
- بهینه سازی
- or
- سازمان های
- دیگر
- خارج
- سرعت
- پاتریک
- در صد
- کارایی
- سکو
- افلاطون
- هوش داده افلاطون
- PlatoData
- نقطه
- محبوب
- مثبت
- postgresql
- پیش نمایش
- اصلی
- شاید
- محصول
- مدیریت تولید
- تولید
- محصولات
- وعده
- ارائه دهنده
- عمومی
- هدف
- قرار دادن
- نمایش ها
- سوال
- خشم
- مطرح شده
- RE
- رسیدن به
- واقعی
- تحقق بخشیدن
- معقول
- اخذ شده
- رکورد
- بازتاب
- روابط
- روابط
- نسبتا
- نمایندگی
- ضروری
- نیاز
- مورد نیاز
- تحقیق
- مصمم
- منابع
- نتیجه
- در حال اجرا
- s
- حکیم ساز
- سعید
- همان
- مقیاس پذیری
- مقیاس پذیر
- مقیاس
- صحنه های
- جستجو
- دیدن
- جداگانه
- سلسله
- سری B
- سرویس
- ارائه دهنده خدمات
- تنظیم
- واریز
- چند
- اشتراک گذاری
- مشابه
- شباهت ها
- پس از
- تنها
- شش
- شش ماه
- کمی متفاوت
- کوچک
- So
- مزایا
- برخی از
- منبع
- ویژه
- متخصص
- متخصصان
- تخصصی
- به طور خاص
- پشته
- پشته
- صحنه
- ایستادن
- استاندارد
- شروع
- راه افتادن
- نوپا
- opbevare
- ذخیره شده
- پرده
- ذخیره سازی
- ساده
- قوی
- پشتیبانی
- حمایت از
- سیستم
- سیستم های
- گرفتن
- صورت گرفته
- کار
- تیم
- فن آوری
- پیشرفته
- قوانین و مقررات
- که
- La
- شان
- آنها
- سپس
- آنجا.
- از این رو
- اینها
- آنها
- اشیاء
- این
- در این سال
- کسانی که
- سه
- از طریق
- زمان
- به
- ابزار
- طرف
- سنتی
- دگرگون کردن
- دگرگونی
- در نهایت
- منحصر به فرد
- واحد
- به روز رسانی
- استفاده کنید
- مورد استفاده
- با استفاده از
- ارزش
- ارزش
- مختلف
- فروشندگان
- از طريق
- می خواهم
- بود
- we
- بود
- چه زمانی
- چه
- که
- در حین
- اراده
- با
- کلمات
- خواهد بود
- سال
- شما
- شما
- زفیرنت