وضع LLMs في الإنتاج عبر قواعد بيانات المتجهات

وضع LLMs في الإنتاج عبر قواعد بيانات المتجهات

وضع شهادات الماجستير في القانون في الإنتاج عبر قواعد بيانات المتجهات PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

في الشهر الماضي ، أعلنت MongoDB عن معاينتها العامة لـ Vector Search ضمن تحديثات نظامها الأساسي للمطورين لقاعدة بيانات Atlas كخدمة. تعني هذه الخطوة أن قاعدة بيانات المستندات MongoDB تنضم إلى Cassandra و PostgreSQL و SingleStore بين الأنظمة التي تدعم ميزات مماثلة مثل الاهتمام بوضع نماذج اللغات الكبيرة (LLM) في الإنتاج.

تلقت LLM قدرًا كبيرًا من الضجيج في الأشهر الستة الماضية ، حيث امتص GPT 4.0 من OpenAI حصة الأسد من البث الإعلامي. الفكرة هي استخراج بعض المعنى - في شكل سؤال لغة طبيعية يجيب من مجموعة نصية. يتم تمثيل العلاقات بين الكلمات والجمل والوحدات النصية الأخرى كمتجهات متعددة الأبعاد (تصل أحيانًا إلى مئات الأبعاد) ، والتي يتم حلها بعد ذلك للعثور على الارتباط الأكثر احتمالية.

توقعًا للازدهار في هذا الشكل من تحليل النص والبيانات الأخرى ، طورت مجموعة من البائعين قواعد بيانات متخصصة ببنيات مصممة خصيصًا للمهمة. السؤال هو ما إذا كان من الأفضل استخدام قاعدة بيانات أو استخدام ميزات جديدة لنظام مألوف بالفعل للمطورين والشركات ، مع تحديد المنزل في مجموعة التكنولوجيا.

ومع ذلك ، يجادل موقع MongoDB بأن قواعد البيانات أحادية الغرض لحالات الاستخدام مثل مخازن المتجهات غالبًا ما يتم تثبيتها في مكدسات التكنولوجيا الحالية ، وبالتالي أدت إلى تعقيد إداري أكبر ووقت أطول للتقييم. يتطلب النهج أيضًا من المطورين تعلم نظام جديد.

يتحدث الى السجلقال بن فلاست ، مدير إدارة المنتج في Vector Search ، إنه يمكن تخزين المتجهات عالية الأبعاد داخل مستندات JSON التي تم تصميم MongoDB حولها.

قال: "من السهل جدًا تضمين هذه المتجهات عالية الأبعاد داخل مستنداتك". "بينما تتطلع إلى إضافة البحث الدلالي كقدرة على التطبيق الخاص بك وظهور حالات استخدام جديدة أخرى حول LLMs وروبوتات الدردشة ، [يمكنك] أخذ نفس البيانات التي كنت تخزنها داخل نشر MongoDB الخاص بك. يمكنك تضمينه أو توجيهه وإضافة هذا المتجه إلى المستندات الفردية ثم إنشاء فهرس عليه. ثم ندير كل التعقيدات وراء الكواليس من حيث الحصول على هذا الفهرس ودعم طلبات البحث هذه ".

تدعم قواعد بيانات المطورين الشائعة الأخرى ، بما في ذلك النظام العلائقي مفتوح المصدر PostgreSQL ومتجر الأعمدة العريض Cassandra ، ميزات مماثلة. Pgvector هو امتداد متجه مفتوح المصدر للبحث عن التشابه لـ PostgreSQL. "نظرًا لأنه في عمليات تضمين المتجهات ، يمكنك استخدام أدوات الذكاء الاصطناعي لالتقاط العلاقات بين الكائنات (تمثيلات المتجهات) ، يمكنك أيضًا تحديد أوجه التشابه بينها بطريقة قابلة للحساب وقابلة للتطوير بسهولة ،" بالنسبة الى لمزود خدمة قاعدة البيانات Aiven.

تتوفر ميزات Cassandra في خدمة قاعدة بيانات DataStax Astra ويتم تعيينها للتضمين في برنامج Cassandra 5.0 مفتوح المصدر في وقت لاحق من هذا العام. قال باتريك مكفادين ، نائب أباتشي كاساندرا ومسؤول علاقات المطورين في DataStax السجل: "لقد أنشأت العديد من الشركات الناشئة الجديدة نشاطًا تجاريًا من خلال إنشاء قاعدة بيانات متخصصة للبحث في المتجه. ومع ذلك ، فإن هذا النهج المحدود يتجنب البيانات الهامة الأخرى في أعباء عمل الذكاء الاصطناعي. اتخذت هذه الشركات الناشئة وظيفة واحدة وحاولت تحويلها إلى منتج منفصل.

"بينما كان البحث عن المتجهات في يوم من الأيام أحد متطلبات الصناعة المتخصصة ، إلا أن هذه المنتجات الجديدة لا تتناسب إلا مع تلك المتطلبات المتخصصة. في الوقت الحاضر ، نظرًا لأن البحث المتجه أصبح مطلبًا رئيسيًا ، فإن قواعد البيانات السائدة تدمج البحث المتجه كميزة لمطوريها. "

لكن بالنسبة للمتخصصين ، فإن الأمر يتعلق بالمقياس والأداء ، وليس راحة المطورين ، وهو ما يضمن استمرار الطلب على نهجهم.

تم تصميم Pinecone من قبل الفريق وراء Amazon Sagemaker للسماح لمهندسي التعلم الآلي بالبحث من خلال كتالوجات الزخارف ، وتمثيل المتجهات المستمرة للمتغيرات المنفصلة الأساسية لخوارزميات ML الشائعة. في أبريل ، جمعت 100 مليون دولار في تمويل المجموعة ب ، مما أدى إلى قيمة تقديرية قدرها 750 مليون دولار.

يتحدث الى السجل، قال Elan Dekel ، نائب منتج Pinecone ، إنه على الرغم من أنه من المحتمل أن تتميز كل قاعدة بيانات بنوع من دعم المتجهات في المستقبل القريب ، فقد لا تكون الطريقة الأكثر فعالية لجميع حالات الاستخدام.

قال: "إذا كانت حالة الاستخدام الخاصة بك صغيرة نسبيًا ، فمن المحتمل أن يكون [نظام الأغراض العامة] كافيًا". "لكن في مرحلة ما ، ستدرك أنك بدأت في كسر حدود الهيكل الحالي. عندما تريد الوصول إلى نطاق إنتاج حقيقي ، فإن التعديل التحديثي للحلول الحالية سيعني أن التكلفة ستنفجر للحصول على هذا الأداء.

"إذا كانت حالة الاستخدام الخاصة بك صغيرة نسبيًا ، أو إذا كنت لا تهتم بالأداء ، فستكون بخير. سيكون هناك مثل هذا المستوى المتوسط ​​من حالات الاستخدام حيث يمكنك المتابعة بسعادة ، ولكن عندما تصل إلى نوع من حجم الإنتاج الحقيقي ، ستبدأ في الوصول إلى حدود الأنظمة الحالية. إذا كنت تريد أداءً عاليًا ودعمًا للأنظمة عالية النطاق وتريده بكفاءة وبتكلفة معقولة ، فستدرك في النهاية أنك بحاجة إلى قاعدة بيانات مبنية لهذا الغرض ".

قال بيتر زايتسيف ، الخبير في أداء MySQL ومؤسس شركة بيركونا لخدمات قواعد البيانات ، إنه لن تكون هناك إجابة واحدة لهذه المعضلة.

قال: "في كثير من الأحيان ، في المرحلة المبكرة ، هناك العديد من التقنيات التي تظهر في السوق بمقاربات وميزات وتركيز مختلف قليلاً ، وسوف يستغرق الأمر وقتًا حتى يستقر السوق". السجل.

"في النهاية ، أتوقع أن يتضمن معيار SQL بعض الأشياء لدعم تطبيقات البحث المتجه ، وسيكون لدينا بعض الامتدادات الفريدة في العديد من قواعد البيانات الحالية ، سواء كانت علائقية أو وثيقة وما إلى ذلك. إلى جانب ذلك ، سوف نحصل على ما بين ثلاث إلى خمس قواعد بيانات موجهة للأغراض الخاصة تتحكم في 95 بالمائة من سوق قاعدة بيانات المتجهات ذات الأغراض الخاصة ".

من بين أنظمة قواعد بيانات المتجهات المتخصصة ، ينضم Pinecone إلى Weaviate و Qdrant و Milvus و Vespa.

قال نويل يوهانا ، نائب نائب الرئيس والمحلل الرئيسي في Forrester Research ، إنه كان يسمع ردود فعل إيجابية من المؤسسات التي تستخدم هذه الأنظمة ، والتي تعد بالتحكم في الوصول ، والتوافر العالي ، والتحول ، وتحسين الاستعلام ، وإدارة الموارد ، وقابلية التوسع ، والتزامن ، واستعلامات البيانات السريعة التي تساعد في الدعم ماجستير.

ومع ذلك ، فإن إلمام المطور سيكون عامل جذب قوي نحو معظم قواعد البيانات الراسخة التي تدعم تحليل المتجهات.

"على الرغم من أن قواعد بيانات المتجه الأصلية ستبرز ، وتتمتع بأداء وحجم أفضل ، فمن المحتمل أن نرى المؤسسات تستفيد أيضًا من قواعد البيانات التقليدية بقدرات المتجهات التي تحتاج إلى بيانات أكثر تكاملاً تشتمل على أنظمة التسجيل وأنظمة المشاركة وبيانات المتجه لتقديم تطبيقات LLM أكثر ثراءً. مع قدر أقل من الترميز ".

تم تقدير قيمة ملصق الطفل الخاص بآلة الضجيج LLM الحالية OpenAI بحوالي 29 مليار دولار في وقت سابق من هذا العام حيث استنشق 300 مليون دولار من الاستثمار. إذا كانت تطبيقات الأعمال تعكس أي شيء مثل هذا النوع من الاهتمام ، فستظل أفضل قواعد البيانات الداعمة قائمة لبعض الوقت. ®

الطابع الزمني:

اكثر من السجل