الجيل المعزز للاسترجاع باستخدام LangChain وAmazon SageMaker JumpStart والبحث الدلالي MongoDB Atlas | خدمات الويب الأمازون

الجيل المعزز للاسترجاع باستخدام LangChain وAmazon SageMaker JumpStart والبحث الدلالي MongoDB Atlas | خدمات الويب الأمازون

الذكاء الاصطناعي التوليدي تتمتع النماذج بالقدرة على إحداث ثورة في عمليات المؤسسة، ولكن يجب على الشركات أن تفكر بعناية في كيفية تسخير قوتها مع التغلب على التحديات مثل حماية البيانات وضمان جودة المحتوى الناتج عن الذكاء الاصطناعي.

يعمل إطار عمل إنشاء الاسترجاع المعزز (RAG) على تعزيز المطالبات ببيانات خارجية من مصادر متعددة، مثل مستودعات المستندات أو قواعد البيانات أو واجهات برمجة التطبيقات، لجعل النماذج الأساسية فعالة للمهام الخاصة بالمجال. يعرض هذا المنشور إمكانات نموذج RAG ويسلط الضوء على الإمكانات التحويلية لـ MongoDB Atlas من خلال ميزة البحث المتجه الخاصة به.

MongoDB أطلس عبارة عن مجموعة متكاملة من خدمات البيانات التي تعمل على تسريع وتبسيط عملية تطوير التطبيقات المعتمدة على البيانات. يتكامل مخزن بيانات المتجهات الخاص به بسلاسة مع تخزين البيانات التشغيلية، مما يلغي الحاجة إلى قاعدة بيانات منفصلة. يتيح هذا التكامل إمكانات بحث دلالية قوية من خلال بحث المتجهات، طريقة سريعة لإنشاء بحث دلالي وتطبيقات مدعومة بالذكاء الاصطناعي.

الأمازون SageMaker تمكن المؤسسات من بناء نماذج التعلم الآلي (ML) وتدريبها ونشرها. أمازون سيج ميكر جومب ستارت يوفر نماذج وبيانات مدربة مسبقًا لمساعدتك على البدء في تعلم الآلة. يمكنك الوصول إلى النماذج والبيانات المدربة مسبقًا وتخصيصها ونشرها من خلال الصفحة المقصودة لـ SageMaker JumpStart في أمازون ساجميكر ستوديو مع عدد قليل من النقرات.

أمازون ليكس هي واجهة محادثة تساعد الشركات على إنشاء روبوتات الدردشة وروبوتات الصوت التي تشارك في تفاعلات طبيعية ونابضة بالحياة. من خلال دمج Amazon Lex مع الذكاء الاصطناعي التوليدي، يمكن للشركات إنشاء نظام بيئي شامل حيث تنتقل مدخلات المستخدم بسلاسة إلى استجابات متماسكة وذات صلة بالسياق.

حل نظرة عامة

يوضح الرسم البياني التالي بنية الحل.

حل نظرة عامة

في الأقسام التالية، نستعرض خطوات تنفيذ هذا الحل ومكوناته.

قم بإعداد مجموعة MongoDB

لإنشاء مجموعة MongoDB Atlas ذات الطبقة المجانية، اتبع الإرشادات الواردة في إنشاء كتلة. قم بإعداد قاعدة البيانات الوصول والشبكة الوصول.

انشر نموذج التضمين SageMaker

يمكنك اختيار نموذج التضمين (ALL MiniLM L6 v2) على نماذج SageMaker JumpStart والدفاتر والحلول .

نماذج SageMaker JumpStart والدفاتر والحلول

اختار نشر لنشر النموذج.

تحقق من نشر النموذج بنجاح وتحقق من إنشاء نقطة النهاية.

تم نشر النموذج بنجاح

تضمين المتجهات

تضمين المتجهات هي عملية تحويل نص أو صورة إلى تمثيل متجه. باستخدام التعليمة البرمجية التالية، يمكننا إنشاء عمليات تضمين متجهة باستخدام SageMaker JumpStart وتحديث المجموعة باستخدام المتجه الذي تم إنشاؤه لكل مستند:

payload = {"text_inputs": [document[field_name_to_be_vectorized]]}
query_response = query_endpoint_with_json_payload(json.dumps(payload).encode('utf-8'))
embeddings = parse_response_multiple_texts(query_response) # update the document
update = {'$set': {vector_field_name :  embeddings[0]}}
collection.update_one(query, update)

يوضح الكود أعلاه كيفية تحديث كائن واحد في المجموعة. لتحديث كافة الكائنات اتبع تعليمات.

مخزن بيانات ناقل MongoDB

بحث المتجهات في MongoDB Atlas هي ميزة جديدة تسمح لك بتخزين بيانات المتجهات والبحث فيها في MongoDB. البيانات المتجهة هي نوع من البيانات التي تمثل نقطة في مساحة عالية الأبعاد. غالبًا ما يستخدم هذا النوع من البيانات في تطبيقات التعلم الآلي والذكاء الاصطناعي. يستخدم MongoDB Atlas Vector Search تقنية تسمى ك- أقرب الجيران (k-NN) للبحث عن ناقلات مماثلة. يعمل k-NN من خلال إيجاد المتجهات الأكثر تشابهاً مع ناقل معين. المتجهات الأكثر تشابهاً هي تلك الأقرب إلى المتجه المعطى من حيث المسافة الإقليدية.

يمكن أن يؤدي تخزين البيانات المتجهة بجوار البيانات التشغيلية إلى تحسين الأداء عن طريق تقليل الحاجة إلى نقل البيانات بين أنظمة التخزين المختلفة. يعد هذا مفيدًا بشكل خاص للتطبيقات التي تتطلب الوصول في الوقت الفعلي إلى بيانات المتجهات.

إنشاء فهرس بحث المتجهات

الخطوة التالية هي إنشاء فهرس بحث المتجهات MongoDB في حقل المتجه الذي قمت بإنشائه في الخطوة السابقة. يستخدم MongoDB knnVector اكتب لفهرسة تضمينات المتجهات. يجب أن يتم تمثيل حقل المتجه كمصفوفة من الأرقام (BSON int32 أو int64 أو أنواع البيانات المزدوجة فقط).

الرجوع إلى قم بمراجعة قيود نوع knnVector لمزيد من المعلومات حول القيود المفروضة على knnVector اكتب.

الكود التالي هو نموذج لتعريف الفهرس:

{ "mappings": { "dynamic": true, "fields": { "egVector": { "dimensions": 384, "similarity": "euclidean", "type": "knnVector" } } }
}

لاحظ أن البعد يجب أن يتطابق مع بُعد نموذج التضمين.

الاستعلام عن مخزن بيانات المتجهات

يمكنك الاستعلام عن مخزن بيانات المتجهات باستخدام خط أنابيب تجميع البحث المتجه. يستخدم فهرس Vector Search ويقوم بإجراء البحث الدلالي في مخزن بيانات المتجهات.

الكود التالي هو نموذج لتعريف البحث:

{ $search: { "index": "<index name>", // optional, defaults to "default" "knnBeta": { "vector": [<array-of-numbers>], "path": "<field-to-search>", "filter": {<filter-specification>}, "k": <number>, "score": {<options>} } }
}

نشر نموذج اللغة الكبير SageMaker

نماذج مؤسسة SageMaker JumpStart هي نماذج لغوية كبيرة مدربة مسبقًا (LLMs) تُستخدم لحل مجموعة متنوعة من مهام معالجة اللغة الطبيعية (NLP)، مثل تلخيص النص والإجابة على الأسئلة واستدلال اللغة الطبيعية. وهي متوفرة في مجموعة متنوعة من الأحجام والتكوينات. في هذا الحل نستخدم وجه يعانق طراز FLAN-T5-XL.

ابحث عن طراز FLAN-T5-XL في SageMaker JumpStart.

ابحث عن FLAN-T5-XL

اختار نشر لإعداد نموذج FLAN-T5-XL.

نشر

تحقق من نشر النموذج بنجاح وأن نقطة النهاية نشطة.

الجيل المعزز للاسترجاع باستخدام LangChain وAmazon SageMaker JumpStart والبحث الدلالي MongoDB Atlas | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

أنشئ روبوت Amazon Lex

لإنشاء روبوت Amazon Lex، أكمل الخطوات التالية:

  1. على وحدة Amazon Amazon ، اختر إنشاء بوت.

إنشاء بوت

  1. في حالة اسم البوت، إدخال اسم.
  2. في حالة دور وقت التشغيل، حدد أنشئ دورًا باستخدام أذونات Amazon Lex الأساسية.
    الجيل المعزز للاسترجاع باستخدام LangChain وAmazon SageMaker JumpStart والبحث الدلالي MongoDB Atlas | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  3. قم بتحديد إعدادات اللغة الخاصة بك، ثم اختر تم. .
    الجيل المعزز للاسترجاع باستخدام LangChain وAmazon SageMaker JumpStart والبحث الدلالي MongoDB Atlas | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  4. أضف عينة من الكلام في NewIntent واجهة المستخدم واختيار حفظ القصد.
    الجيل المعزز للاسترجاع باستخدام LangChain وAmazon SageMaker JumpStart والبحث الدلالي MongoDB Atlas | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  5. انتقل إلى FallbackIntent الذي تم إنشاؤه لك افتراضيًا وقم بالتبديل النشطه في ال تحقيق والقسم الخاص به.
    تبديل نشط
  6. اختار البناء وبعد نجاح البناء، اختر اختبار.
    بناء واختبار
  7. قبل الاختبار، اختر رمز الترس.
    الجيل المعزز للاسترجاع باستخدام LangChain وAmazon SageMaker JumpStart والبحث الدلالي MongoDB Atlas | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  8. تحديد AWS لامدا الوظيفة التي ستتفاعل مع MongoDB Atlas وLLM لتقديم الاستجابات. اتبع الخطوات التالية لإنشاء دالة لامدا هذه الخطوات.
    9. حدد وظيفة AWS Lambda
  9. يمكنك الآن التفاعل مع LLM.

تنظيف

لتنظيف مواردك ، أكمل الخطوات التالية:

  1. احذف روبوت Amazon Lex.
  2. احذف وظيفة لامدا.
  3. احذف نقطة نهاية LLM SageMaker.
  4. احذف نقطة نهاية نموذج التضمين SageMaker.
  5. احذف مجموعة MongoDB Atlas.

وفي الختام

أظهرنا في المنشور كيفية إنشاء روبوت بسيط يستخدم البحث الدلالي MongoDB Atlas ويتكامل مع نموذج من SageMaker JumpStart. يتيح لك هذا الروبوت إنشاء نموذج أولي سريع لتفاعل المستخدم مع LLMs المختلفة في SageMaker Jumpstart أثناء إقرانها بالسياق الناشئ في MongoDB Atlas.

كما هو الحال دائمًا، ترحب AWS بالتعليقات. يرجى ترك تعليقاتك وأسئلتك في قسم التعليقات.


عن المؤلفين

الجيل المعزز للاسترجاع باستخدام LangChain وAmazon SageMaker JumpStart والبحث الدلالي MongoDB Atlas | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

ايغور الكسيف هو مهندس حلول شريك أول في AWS في مجال البيانات والتحليلات. في دوره ، يعمل إيغور مع شركاء استراتيجيين يساعدونهم في بناء بنى معقدة ومحسّنة لـ AWS. قبل انضمامه إلى AWS ، بصفته مهندس بيانات / حلول ، قام بتنفيذ العديد من المشاريع في مجال البيانات الضخمة ، بما في ذلك العديد من بحيرات البيانات في نظام Hadoop البيئي. كمهندس بيانات ، شارك في تطبيق AI / ML لاكتشاف الاحتيال وأتمتة المكاتب.


الجيل المعزز للاسترجاع باستخدام LangChain وAmazon SageMaker JumpStart والبحث الدلالي MongoDB Atlas | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.بابو سرينيفاسان
هو مهندس حلول شريك أول في MongoDB. في منصبه الحالي ، يعمل مع AWS لبناء عمليات التكامل التقنية والبنى المرجعية لحلول AWS و MongoDB. لديه أكثر من عقدين من الخبرة في قواعد البيانات وتقنيات السحابة. إنه متحمس لتقديم الحلول التقنية للعملاء الذين يعملون مع العديد من شركات تكامل الأنظمة العالمية (GSIs) عبر مناطق جغرافية متعددة.

الطابع الزمني:

اكثر من التعلم الآلي من AWS