LangChain، Amazon SageMaker JumpStart، اور MongoDB Atlas Semantic Search کے ساتھ بازیافت-Augmented جنریشن

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

پیداواری AI۔ ماڈلز انٹرپرائز آپریشنز میں انقلاب لانے کی صلاحیت رکھتے ہیں، لیکن کاروباری اداروں کو احتیاط سے غور کرنا چاہیے کہ ڈیٹا کی حفاظت اور AI سے تیار کردہ مواد کے معیار کو یقینی بنانے جیسے چیلنجوں پر قابو پاتے ہوئے اپنی طاقت کو کس طرح استعمال کیا جائے۔

Retrieval-Augmented Generation (RAG) کا فریم ورک ڈومین سے متعلق مخصوص کاموں کے لیے فاؤنڈیشن ماڈلز کو موثر بنانے کے لیے متعدد ذرائع، جیسے دستاویز کے ذخیرے، ڈیٹا بیس، یا APIs کے بیرونی ڈیٹا کے ساتھ اشارہ کرتا ہے۔ یہ پوسٹ RAG ماڈل کی صلاحیتوں کو پیش کرتی ہے اور MongoDB Atlas کی تبدیلی کی صلاحیت کو اس کے ویکٹر سرچ فیچر کے ساتھ نمایاں کرتی ہے۔

مونگو ڈی بی اٹلس ڈیٹا سروسز کا ایک مربوط مجموعہ ہے جو ڈیٹا سے چلنے والی ایپلی کیشنز کی ترقی کو تیز اور آسان بناتا ہے۔ اس کا ویکٹر ڈیٹا اسٹور بغیر کسی رکاوٹ کے آپریشنل ڈیٹا سٹوریج کے ساتھ ضم ہوجاتا ہے، جس سے علیحدہ ڈیٹا بیس کی ضرورت ختم ہوجاتی ہے۔ یہ انضمام طاقتور سیمنٹک تلاش کی صلاحیتوں کے ذریعے قابل بناتا ہے۔ ویکٹر کی تلاشسیمنٹک سرچ اور AI سے چلنے والی ایپلی کیشنز بنانے کا ایک تیز طریقہ۔

ایمیزون سیج میکر انٹرپرائزز کو مشین لرننگ (ML) ماڈل بنانے، تربیت دینے اور تعینات کرنے کے قابل بناتا ہے۔ ایمیزون سیج میکر جمپ اسٹارٹ ML کے ساتھ شروع کرنے میں آپ کی مدد کے لیے پہلے سے تربیت یافتہ ماڈل اور ڈیٹا فراہم کرتا ہے۔ آپ سیج میکر جمپ سٹارٹ لینڈنگ پیج کے ذریعے پہلے سے تربیت یافتہ ماڈلز اور ڈیٹا تک رسائی، تخصیص اور تعینات کر سکتے ہیں۔ ایمیزون سیج میکر اسٹوڈیو صرف کچھ کلکس کے ساتھ۔

ایمیزون لیکس ایک بات چیت کا انٹرفیس ہے جو کاروباروں کو چیٹ بوٹس اور صوتی بوٹس بنانے میں مدد کرتا ہے جو قدرتی، زندگی بھر کی بات چیت میں مشغول ہوتے ہیں۔ Amazon Lex کو جنریٹیو AI کے ساتھ مربوط کر کے، کاروبار ایک مکمل ماحولیاتی نظام تشکیل دے سکتے ہیں جہاں صارف کی ان پٹ بغیر کسی رکاوٹ کے مربوط اور سیاق و سباق سے متعلقہ جوابات میں منتقل ہو جاتی ہے۔

حل جائزہ

مندرجہ ذیل خاکہ حل کے فن تعمیر کی وضاحت کرتا ہے۔

مندرجہ ذیل حصوں میں، ہم اس حل اور اس کے اجزاء کو لاگو کرنے کے لیے اقدامات کرتے ہیں۔

ایک MongoDB کلسٹر قائم کریں۔

ایک مفت درجے کا MongoDB Atlas کلسٹر بنانے کے لیے، میں دی گئی ہدایات پر عمل کریں۔ ایک کلسٹر بنائیں. ڈیٹا بیس مرتب کریں۔ تک رسائی حاصل اور نیٹ ورک تک رسائی حاصل.

سیج میکر ایمبیڈنگ ماڈل تعینات کریں۔

آپ ایمبیڈنگ ماڈل (ALL MiniLM L6 v2) کا انتخاب کر سکتے ہیں۔ سیج میکر جمپ اسٹارٹ ماڈلز، نوٹ بک، حل صفحہ.

میں سے انتخاب کریں تعینات ماڈل کو تعینات کرنے کے لئے.

تصدیق کریں کہ ماڈل کامیابی کے ساتھ تعینات ہو گیا ہے اور تصدیق کریں کہ اختتامی نقطہ بن گیا ہے۔

ویکٹر ایمبیڈنگ

ویکٹر ایمبیڈنگ متن یا تصویر کو ویکٹر کی نمائندگی میں تبدیل کرنے کا عمل ہے۔ درج ذیل کوڈ کے ساتھ، ہم SageMaker JumpStart کے ساتھ ویکٹر ایمبیڈنگز تیار کر سکتے ہیں اور ہر دستاویز کے لیے تخلیق کردہ ویکٹر کے ساتھ مجموعہ کو اپ ڈیٹ کر سکتے ہیں۔

payload = {"text_inputs": [document[field_name_to_be_vectorized]]}
query_response = query_endpoint_with_json_payload(json.dumps(payload).encode('utf-8'))
embeddings = parse_response_multiple_texts(query_response) # update the document
update = {'$set': {vector_field_name :  embeddings[0]}}
collection.update_one(query, update)

مندرجہ بالا کوڈ سے پتہ چلتا ہے کہ ایک مجموعہ میں کسی ایک چیز کو کیسے اپ ڈیٹ کیا جائے۔ تمام اشیاء کو اپ ڈیٹ کرنے کے لیے اس پر عمل کریں۔ ہدایات.

مونگو ڈی بی ویکٹر ڈیٹا اسٹور

مونگو ڈی بی اٹلس ویکٹر کی تلاش ایک نئی خصوصیت ہے جو آپ کو MongoDB میں ویکٹر ڈیٹا کو ذخیرہ کرنے اور تلاش کرنے کی اجازت دیتی ہے۔ ویکٹر ڈیٹا ڈیٹا کی ایک قسم ہے جو اعلی جہتی جگہ میں ایک نقطہ کی نمائندگی کرتا ہے۔ اس قسم کا ڈیٹا اکثر ایم ایل اور مصنوعی ذہانت کی ایپلی کیشنز میں استعمال ہوتا ہے۔ MongoDB Atlas Vector Search نامی تکنیک استعمال کرتا ہے۔ k-قریب ترین پڑوسی (k-NN) ملتے جلتے ویکٹر تلاش کرنے کے لیے۔ k-NN کسی دیے گئے ویکٹر سے k سب سے زیادہ ملتے جلتے ویکٹرز تلاش کرکے کام کرتا ہے۔ سب سے ملتے جلتے ویکٹر وہ ہیں جو یوکلیڈین فاصلے کے لحاظ سے دیے گئے ویکٹر کے قریب ترین ہوتے ہیں۔

آپریشنل ڈیٹا کے ساتھ ویکٹر ڈیٹا کو ذخیرہ کرنے سے مختلف اسٹوریج سسٹمز کے درمیان ڈیٹا منتقل کرنے کی ضرورت کو کم کرکے کارکردگی کو بہتر بنایا جا سکتا ہے۔ یہ خاص طور پر ان ایپلی کیشنز کے لیے فائدہ مند ہے جنہیں ویکٹر ڈیٹا تک حقیقی وقت تک رسائی کی ضرورت ہوتی ہے۔

ویکٹر سرچ انڈیکس بنائیں

اگلا مرحلہ ایک بنانا ہے۔ مونگو ڈی بی ویکٹر سرچ انڈیکس ویکٹر فیلڈ پر جو آپ نے پچھلے مرحلے میں بنایا تھا۔ MongoDB استعمال کرتا ہے۔ knnVector انڈیکس ویکٹر ایمبیڈنگ میں ٹائپ کریں۔ ویکٹر فیلڈ کو نمبروں کی ایک صف کے طور پر پیش کیا جانا چاہئے (صرف BSON int32، int64، یا ڈبل ڈیٹا کی قسمیں)۔

کا حوالہ دیتے ہیں knnVector قسم کی حدود کا جائزہ لیں۔ کی حدود کے بارے میں مزید معلومات کے لیے knnVector قسم

مندرجہ ذیل کوڈ ایک نمونہ انڈیکس کی تعریف ہے:

{ "mappings": { "dynamic": true, "fields": { "egVector": { "dimensions": 384, "similarity": "euclidean", "type": "knnVector" } } }
}

نوٹ کریں کہ طول و عرض آپ کے سرایت کرنے والے ماڈل کے طول و عرض سے مماثل ہونا چاہیے۔

ویکٹر ڈیٹا اسٹور سے استفسار کریں۔

آپ ویکٹر ڈیٹا اسٹور سے استفسار کرسکتے ہیں۔ ویکٹر سرچ ایگریگیشن پائپ لائن. یہ ویکٹر سرچ انڈیکس کا استعمال کرتا ہے اور a اصطلاحی تلاش ویکٹر ڈیٹا اسٹور پر۔

درج ذیل کوڈ ایک نمونہ تلاش کی تعریف ہے:

{ $search: { "index": "<index name>", // optional, defaults to "default" "knnBeta": { "vector": [<array-of-numbers>], "path": "<field-to-search>", "filter": {<filter-specification>}, "k": <number>, "score": {<options>} } }
}

SageMaker بڑے زبان کے ماڈل کو تعینات کریں۔

سیج میکر جمپ اسٹارٹ فاؤنڈیشن ماڈل پہلے سے تربیت یافتہ بڑے لینگویج ماڈلز (LLMs) ہیں جو کہ مختلف قسم کے قدرتی لینگویج پروسیسنگ (NLP) کے کاموں کو حل کرنے کے لیے استعمال کیے جاتے ہیں، جیسے کہ متن کا خلاصہ، سوال کا جواب دینا، اور قدرتی زبان کا اندازہ۔ وہ مختلف سائز اور ترتیب میں دستیاب ہیں۔ اس حل میں، ہم استعمال کرتے ہیں گلے لگانے والا چہرہ FLAN-T5-XL ماڈل۔

SageMaker JumpStart میں FLAN-T5-XL ماڈل تلاش کریں۔

میں سے انتخاب کریں تعینات FLAN-T5-XL ماڈل قائم کرنے کے لیے۔

تصدیق کریں کہ ماڈل کامیابی کے ساتھ تعینات ہے اور اختتامی نقطہ فعال ہے۔

ایمیزون لیکس بوٹ بنائیں

ایمیزون لیکس بوٹ بنانے کے لیے، درج ذیل مراحل کو مکمل کریں:

ایمیزون لیکس کنسول پر، منتخب کریں۔ بوٹ بنائیں.

کے لئے بوٹ کا نام، ایک نام درج کریں۔
کے لئے رن ٹائم کردارمنتخب ایمیزون لیکس کی بنیادی اجازتوں کے ساتھ ایک کردار بنائیں.
اپنی زبان کی ترتیبات کی وضاحت کریں، پھر منتخب کریں۔ کیا.
میں ایک نمونہ کلام شامل کریں۔ NewIntent UI اور منتخب کریں۔ ارادے کو بچائیں۔.
پر تشریف لے جائیں FallbackIntent جو آپ کے لیے بطور ڈیفالٹ اور ٹوگل بنایا گیا تھا۔ ایکٹو میں مکمل سیکشن پر ایک اقتصادی کینڈر سکین کر لیں۔
میں سے انتخاب کریں تعمیر اور تعمیر کامیاب ہونے کے بعد، منتخب کریں۔ ٹیسٹ.
جانچ کرنے سے پہلے، گیئر آئیکن کا انتخاب کریں۔
وضاحت کریں او ڈبلیو ایس لامبڈا۔ فنکشن جو جوابات فراہم کرنے کے لیے MongoDB Atlas اور LLM کے ساتھ تعامل کرے گا۔ لیمبڈا فنکشن بنانے کے لیے فالو کریں۔ ان اقدامات.
اب آپ LLM کے ساتھ بات چیت کر سکتے ہیں۔

صاف کرو

اپنے وسائل کو صاف کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

ایمیزون لیکس بوٹ کو حذف کریں۔
لیمبڈا فنکشن کو حذف کریں۔
ایل ایل ایم سیج میکر اینڈ پوائنٹ کو حذف کریں۔
ایمبیڈنگز ماڈل سیج میکر اینڈ پوائنٹ کو حذف کریں۔
MongoDB Atlas کلسٹر کو حذف کریں۔

نتیجہ

پوسٹ میں، ہم نے دکھایا کہ ایک سادہ بوٹ کیسے بنایا جائے جو MongoDB Atlas semantic تلاش کا استعمال کرے اور SageMaker JumpStart کے ماڈل کے ساتھ مربوط ہو۔ یہ بوٹ آپ کو سیج میکر جمپ سٹارٹ میں مختلف LLMs کے ساتھ صارف کے تعامل کو تیزی سے پروٹو ٹائپ کرنے کی اجازت دیتا ہے جبکہ انہیں MongoDB Atlas میں شروع ہونے والے سیاق و سباق کے ساتھ جوڑا بناتا ہے۔

ہمیشہ کی طرح، AWS تاثرات کا خیر مقدم کرتا ہے۔ براہ کرم تبصرے کے سیکشن میں اپنی رائے اور سوالات چھوڑیں۔

مصنفین کے بارے میں

Retrieval-Augmented Generation with LangChain, Amazon SageMaker JumpStart, and MongoDB Atlas semantic search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ایگور الیکسیف ڈیٹا اور تجزیات کے ڈومین میں AWS میں ایک سینئر پارٹنر سلوشن آرکیٹیکٹ ہے۔ اپنے کردار میں Igor سٹریٹجک شراکت داروں کے ساتھ کام کر رہا ہے جو انہیں پیچیدہ، AWS سے بہتر بنائے گئے فن تعمیرات کی تعمیر میں مدد کر رہا ہے۔ AWS میں شامل ہونے سے پہلے، بطور ڈیٹا/سولیوشن آرکیٹیکٹ اس نے بگ ڈیٹا ڈومین میں بہت سے پروجیکٹس کو لاگو کیا، بشمول ہڈوپ ایکو سسٹم میں کئی ڈیٹا لیکس۔ ڈیٹا انجینئر کے طور پر وہ فراڈ کا پتہ لگانے اور آفس آٹومیشن کے لیے AI/ML کا اطلاق کرنے میں ملوث تھا۔

بابو سری نواسن MongoDB میں ایک سینئر پارٹنر سلوشنز آرکیٹیکٹ ہے۔ اپنے موجودہ کردار میں، وہ AWS اور MongoDB سلوشنز کے لیے تکنیکی انضمام اور ریفرنس آرکیٹیکچرز بنانے کے لیے AWS کے ساتھ کام کر رہا ہے۔ اسے ڈیٹا بیس اور کلاؤڈ ٹیکنالوجیز میں دو دہائیوں سے زیادہ کا تجربہ ہے۔ وہ متعدد جغرافیوں میں متعدد گلوبل سسٹم انٹیگریٹرز (GSIs) کے ساتھ کام کرنے والے صارفین کو تکنیکی حل فراہم کرنے کے بارے میں پرجوش ہیں۔