بازیابی-افزوده شده با جستجوی معنایی LangChain، Amazon SageMaker JumpStart و MongoDB Atlas | خدمات وب آمازون

بازیابی-افزوده شده با جستجوی معنایی LangChain، Amazon SageMaker JumpStart و MongoDB Atlas | خدمات وب آمازون

هوش مصنوعی مولد مدل‌ها این پتانسیل را دارند که عملیات سازمانی را متحول کنند، اما کسب‌وکارها باید به دقت در نظر بگیرند که چگونه از قدرت خود استفاده کنند و در عین حال بر چالش‌هایی مانند حفاظت از داده‌ها و اطمینان از کیفیت محتوای تولید شده توسط هوش مصنوعی غلبه کنند.

چارچوب Retrieval-Augmented Generation (RAG) با داده‌های خارجی از منابع متعدد، مانند مخازن اسناد، پایگاه‌های داده یا APIها، درخواست‌ها را تقویت می‌کند تا مدل‌های بنیادی را برای وظایف خاص دامنه مؤثر کند. این پست قابلیت های مدل RAG را ارائه می دهد و پتانسیل تحول آفرین MongoDB Atlas را با ویژگی جستجوی برداری آن برجسته می کند.

MongoDB اطلس مجموعه ای یکپارچه از خدمات داده است که توسعه برنامه های کاربردی داده محور را تسریع و ساده می کند. ذخیره داده های برداری آن به طور یکپارچه با ذخیره سازی داده های عملیاتی ادغام می شود و نیاز به یک پایگاه داده جداگانه را از بین می برد. این ادغام قابلیت های قدرتمند جستجوی معنایی را از طریق امکان پذیر می کند جستجوی برداری، راهی سریع برای ساخت جستجوی معنایی و برنامه های کاربردی مبتنی بر هوش مصنوعی.

آمازون SageMaker شرکت ها را قادر می سازد تا مدل های یادگیری ماشینی (ML) را بسازند، آموزش دهند و به کار گیرند. Amazon SageMaker JumpStart مدل ها و داده های از پیش آموزش دیده را برای کمک به شما در شروع کار با ML ارائه می دهد. می‌توانید از طریق صفحه فرود SageMaker JumpStart به مدل‌ها و داده‌های از پیش آموزش‌دیده، سفارشی‌سازی و استقرار دهید. Amazon SageMaker Studio فقط با چند کلیک

آمازون لکس یک رابط مکالمه است که به کسب و کارها کمک می کند ربات های چت و ربات های صوتی ایجاد کنند که در تعاملات طبیعی و واقعی شرکت می کنند. با ادغام آمازون لکس با هوش مصنوعی مولد، کسب‌وکارها می‌توانند یک اکوسیستم کل نگر ایجاد کنند که در آن ورودی کاربر به طور یکپارچه به پاسخ‌های منسجم و مرتبط با زمینه تبدیل می‌شود.

بررسی اجمالی راه حل

نمودار زیر معماری راه حل را نشان می دهد.

بررسی اجمالی راه حل

در قسمت های بعدی مراحل پیاده سازی این راه حل و اجزای آن را طی می کنیم.

یک خوشه MongoDB راه اندازی کنید

برای ایجاد یک خوشه MongoDB Atlas لایه رایگان، دستورالعمل‌های موجود را دنبال کنید یک خوشه ایجاد کنید. پایگاه داده را راه اندازی کنید دسترسی و شبکه دسترسی.

مدل تعبیه SageMaker را اجرا کنید

می توانید مدل تعبیه شده (ALL MiniLM L6 v2) را بر روی آن انتخاب کنید مدل‌ها، نوت‌بوک‌ها، راه‌حل‌های SageMaker JumpStart احتمال برد مراجعه کنید.

مدل‌ها، نوت‌بوک‌ها، راه‌حل‌های SageMaker JumpStart

را انتخاب کنید گسترش برای استقرار مدل

بررسی کنید که مدل با موفقیت مستقر شده است و تأیید کنید که نقطه پایانی ایجاد شده است.

مدل با موفقیت مستقر شده است

جاسازی وکتور

جاسازی وکتور فرآیند تبدیل یک متن یا تصویر به یک نمایش برداری است. با کد زیر می‌توانیم با SageMaker JumpStart جاسازی‌های برداری تولید کنیم و مجموعه را با بردار ایجاد شده برای هر سند به‌روزرسانی کنیم:

payload = {"text_inputs": [document[field_name_to_be_vectorized]]}
query_response = query_endpoint_with_json_payload(json.dumps(payload).encode('utf-8'))
embeddings = parse_response_multiple_texts(query_response) # update the document
update = {'$set': {vector_field_name :  embeddings[0]}}
collection.update_one(query, update)

کد بالا نحوه به روز رسانی یک شی واحد در یک مجموعه را نشان می دهد. برای به روز رسانی تمام اشیاء، موارد زیر را دنبال کنید دستورالعمل.

ذخیره اطلاعات برداری MongoDB

جستجوی برداری اطلس MongoDB ویژگی جدیدی است که به شما امکان می دهد داده های برداری را در MongoDB ذخیره و جستجو کنید. داده های برداری نوعی داده است که نقطه ای را در فضایی با ابعاد بالا نشان می دهد. این نوع داده اغلب در برنامه های کاربردی ML و هوش مصنوعی استفاده می شود. MongoDB Atlas Vector Search از تکنیکی به نام استفاده می کند k-نزدیک ترین همسایگان (k-NN) برای جستجوی بردارهای مشابه. k-NN با یافتن k شبیه ترین بردارها به یک بردار معین کار می کند. مشابه ترین بردارها بردارهایی هستند که از نظر فاصله اقلیدسی به بردار داده شده نزدیکترند.

ذخیره داده های برداری در کنار داده های عملیاتی می تواند با کاهش نیاز به انتقال داده ها بین سیستم های ذخیره سازی مختلف، عملکرد را بهبود بخشد. این به ویژه برای برنامه هایی که نیاز به دسترسی بلادرنگ به داده های برداری دارند مفید است.

یک فهرست جستجوی برداری ایجاد کنید

مرحله بعدی ایجاد یک است فهرست جستجوی برداری بردار MongoDB در قسمت برداری که در مرحله قبل ایجاد کردید. MongoDB از knnVector جاسازی های برداری را تایپ کنید تا نمایه شود. فیلد برداری باید به صورت آرایه ای از اعداد نمایش داده شود (فقط BSON int32، int64 یا دو نوع داده).

به مراجعه محدودیت های نوع knnVector را مرور کنید برای اطلاعات بیشتر در مورد محدودیت های knnVector تایپ کنید

کد زیر یک نمونه تعریف شاخص است:

{ "mappings": { "dynamic": true, "fields": { "egVector": { "dimensions": 384, "similarity": "euclidean", "type": "knnVector" } } }
}

توجه داشته باشید که بعد باید با ابعاد مدل تعبیه‌ها مطابقت داشته باشد.

ذخیره داده های برداری را پرس و جو کنید

می توانید با استفاده از پرس و جو از ذخیره داده های برداری استفاده کنید خط لوله جمع آوری جستجوی برداری. از نمایه جستجوی برداری استفاده می کند و a را انجام می دهد جستجوی معنایی در فروشگاه داده های برداری

کد زیر یک تعریف نمونه جستجو است:

{ $search: { "index": "<index name>", // optional, defaults to "default" "knnBeta": { "vector": [<array-of-numbers>], "path": "<field-to-search>", "filter": {<filter-specification>}, "k": <number>, "score": {<options>} } }
}

مدل زبان بزرگ SageMaker را اجرا کنید

مدل های پایه SageMaker JumpStart مدل های زبان بزرگ (LLM) از پیش آموزش دیده ای هستند که برای حل انواع وظایف پردازش زبان طبیعی (NLP) مانند خلاصه سازی متن، پاسخ به سؤال و استنتاج زبان طبیعی استفاده می شوند. آنها در اندازه ها و پیکربندی های مختلف موجود هستند. در این راه حل از در آغوش کشیدن صورت مدل FLAN-T5-XL.

مدل FLAN-T5-XL را در SageMaker JumpStart جستجو کنید.

FLAN-T5-XL را جستجو کنید

را انتخاب کنید گسترش برای راه اندازی مدل FLAN-T5-XL.

گسترش

بررسی کنید که مدل با موفقیت مستقر شده است و نقطه پایانی فعال است.

بازیابی-افزوده شده با جستجوی معنایی LangChain، Amazon SageMaker JumpStart و MongoDB Atlas | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

یک ربات آمازون لکس ایجاد کنید

برای ایجاد ربات آمازون لکس، مراحل زیر را انجام دهید:

  1. در کنسول آمازون لکس، انتخاب کنید ایجاد ربات.

ایجاد ربات

  1. برای نام ربات، یک نام وارد کنید.
  2. برای نقش زمان اجرا، انتخاب کنید با مجوزهای اساسی آمازون لکس یک نقش ایجاد کنید.
    بازیابی-افزوده شده با جستجوی معنایی LangChain، Amazon SageMaker JumpStart و MongoDB Atlas | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
  3. تنظیمات زبان خود را مشخص کنید، سپس انتخاب کنید انجام شده.
    بازیابی-افزوده شده با جستجوی معنایی LangChain، Amazon SageMaker JumpStart و MongoDB Atlas | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
  4. یک عبارت نمونه را در NewIntent UI و انتخاب کنید صرفه جویی در قصد.
    بازیابی-افزوده شده با جستجوی معنایی LangChain، Amazon SageMaker JumpStart و MongoDB Atlas | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
  5. حرکت به FallbackIntent که به صورت پیش فرض برای شما ایجاد شده و تغییر دهید فعال در تکمیل بخش.
    فعال را تغییر دهید
  6. را انتخاب کنید ساختن و پس از موفقیت آمیز بودن ساخت، انتخاب کنید تست.
    بسازید و تست کنید
  7. قبل از آزمایش، نماد چرخ دنده را انتخاب کنید.
    بازیابی-افزوده شده با جستجوی معنایی LangChain، Amazon SageMaker JumpStart و MongoDB Atlas | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
  8. مشخص AWS لامبدا عملکردی که با MongoDB Atlas و LLM برای ارائه پاسخ تعامل خواهد داشت. برای ایجاد تابع لامبدا دنبال کنید این مراحل.
    9. تابع AWS Lambda را مشخص کنید
  9. اکنون می توانید با LLM تعامل داشته باشید.

پاک کردن

برای پاکسازی منابع خود، مراحل زیر را انجام دهید:

  1. ربات آمازون لکس را حذف کنید.
  2. تابع Lambda را حذف کنید.
  3. نقطه پایانی LLM SageMaker را حذف کنید.
  4. نقطه پایانی SageMaker مدل جاسازی ها را حذف کنید.
  5. خوشه MongoDB Atlas را حذف کنید.

نتیجه

در این پست، نحوه ایجاد یک ربات ساده را نشان دادیم که از جستجوی معنایی MongoDB Atlas استفاده می کند و با مدلی از SageMaker JumpStart ادغام می شود. این ربات به شما امکان می دهد تا به سرعت از تعامل کاربر با LLM های مختلف در SageMaker Jumpstart نمونه سازی کنید، در حالی که آنها را با زمینه منشاء MongoDB Atlas جفت کنید.

مثل همیشه، AWS از بازخورد استقبال می کند. لطفا نظرات و سوالات خود را در قسمت نظرات مطرح کنید.


درباره نویسندگان

بازیابی-افزوده شده با جستجوی معنایی LangChain، Amazon SageMaker JumpStart و MongoDB Atlas | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

ایگور آلکسیف یک معمار راه حل شریک ارشد در AWS در حوزه داده و تجزیه و تحلیل است. ایگور در نقش خود با شرکای استراتژیک همکاری می کند و به آنها کمک می کند تا معماری های پیچیده و بهینه شده AWS بسازند. قبل از پیوستن به AWS، به‌عنوان معمار داده/راه‌حل، او پروژه‌های زیادی را در حوزه داده‌های بزرگ اجرا کرد، از جمله چندین دریاچه داده در اکوسیستم Hadoop. به عنوان یک مهندس داده، او در استفاده از AI/ML برای کشف تقلب و اتوماسیون اداری شرکت داشت.


بازیابی-افزوده شده با جستجوی معنایی LangChain، Amazon SageMaker JumpStart و MongoDB Atlas | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.بابو سرینیواسان
یک معمار ارشد راه حل های شریک در MongoDB است. در نقش فعلی خود، او در حال کار با AWS برای ایجاد یکپارچگی فنی و معماری مرجع برای راه حل های AWS و MongoDB است. او بیش از دو دهه تجربه در زمینه فناوری های پایگاه داده و ابری دارد. او مشتاق ارائه راه‌حل‌های فنی برای مشتریانی است که با چندین سیستم ادغام‌کننده سیستم جهانی (GSI) در مناطق مختلف جغرافیایی کار می‌کنند.

تمبر زمان:

بیشتر از آموزش ماشین AWS