LangChain, Amazon SageMaker JumpStart, এবং MongoDB Atlas শব্দার্থিক অনুসন্ধানের সাথে পুনরুদ্ধার-অগমেন্টেড জেনারেশন | আমাজন ওয়েব সার্ভিসেস

LangChain, Amazon SageMaker JumpStart, এবং MongoDB Atlas শব্দার্থিক অনুসন্ধানের সাথে পুনরুদ্ধার-অগমেন্টেড জেনারেশন | আমাজন ওয়েব সার্ভিসেস

জেনারেটিভ এআই মডেলগুলিতে এন্টারপ্রাইজ অপারেশনে বিপ্লব ঘটানোর সম্ভাবনা রয়েছে, তবে ব্যবসাগুলিকে অবশ্যই সাবধানে বিবেচনা করতে হবে যে কীভাবে ডেটা সুরক্ষিত করা এবং এআই-উত্পাদিত সামগ্রীর গুণমান নিশ্চিত করার মতো চ্যালেঞ্জগুলি কাটিয়ে উঠতে তাদের শক্তি কীভাবে ব্যবহার করা যায়।

পুনরুদ্ধার-অগমেন্টেড জেনারেশন (RAG) ফ্রেমওয়ার্ক ডোমেন-নির্দিষ্ট কাজের জন্য ফাউন্ডেশন মডেলগুলিকে কার্যকর করতে ডকুমেন্ট রিপোজিটরি, ডেটাবেস বা API-এর মতো একাধিক উত্স থেকে বাহ্যিক ডেটা সহ প্রম্পট করে। এই পোস্টটি RAG মডেলের ক্ষমতা উপস্থাপন করে এবং মঙ্গোডিবি অ্যাটলাসের ভেক্টর অনুসন্ধান বৈশিষ্ট্যের সাথে রূপান্তরকারী সম্ভাব্যতা তুলে ধরে।

মঙ্গোডিবি আটলাস ডেটা পরিষেবাগুলির একটি সমন্বিত স্যুট যা ডেটা-চালিত অ্যাপ্লিকেশনগুলির বিকাশকে ত্বরান্বিত করে এবং সহজ করে। এর ভেক্টর ডেটা স্টোর নির্বিঘ্নে অপারেশনাল ডেটা স্টোরেজের সাথে একত্রিত হয়, একটি পৃথক ডাটাবেসের প্রয়োজনীয়তা দূর করে। এই ইন্টিগ্রেশন এর মাধ্যমে শক্তিশালী শব্দার্থিক অনুসন্ধান ক্ষমতা সক্ষম করে ভেক্টর অনুসন্ধান, শব্দার্থগত অনুসন্ধান এবং এআই-চালিত অ্যাপ্লিকেশন তৈরি করার একটি দ্রুত উপায়।

আমাজন সেজমেকার এন্টারপ্রাইজগুলিকে মেশিন লার্নিং (এমএল) মডেল তৈরি, প্রশিক্ষণ এবং স্থাপন করতে সক্ষম করে। আমাজন সেজমেকার জাম্পস্টার্ট ML এর সাথে শুরু করতে আপনাকে সাহায্য করার জন্য প্রাক-প্রশিক্ষিত মডেল এবং ডেটা প্রদান করে। আপনি সেজমেকার জাম্পস্টার্ট ল্যান্ডিং পৃষ্ঠার মাধ্যমে প্রাক-প্রশিক্ষিত মডেল এবং ডেটা অ্যাক্সেস, কাস্টমাইজ এবং স্থাপন করতে পারেন অ্যামাজন সেজমেকার স্টুডিও মাত্র কয়েকটি ক্লিক সহ।

অ্যামাজন লেক্স একটি কথোপকথনমূলক ইন্টারফেস যা ব্যবসাগুলিকে চ্যাটবট এবং ভয়েস বট তৈরি করতে সাহায্য করে যা প্রাকৃতিক, প্রাণবন্ত মিথস্ক্রিয়ায় জড়িত। আমাজন লেক্সকে জেনারেটিভ এআই-এর সাথে একীভূত করার মাধ্যমে, ব্যবসাগুলি একটি সামগ্রিক বাস্তুতন্ত্র তৈরি করতে পারে যেখানে ব্যবহারকারীর ইনপুট নির্বিঘ্নে সুসঙ্গত এবং প্রাসঙ্গিকভাবে প্রাসঙ্গিক প্রতিক্রিয়াগুলিতে রূপান্তরিত হয়।

সমাধান ওভারভিউ

নিম্নলিখিত চিত্রটি সমাধানের স্থাপত্যকে চিত্রিত করে।

সমাধান ওভারভিউ

নিম্নলিখিত বিভাগগুলিতে, আমরা এই সমাধান এবং এর উপাদানগুলি বাস্তবায়নের পদক্ষেপগুলি নিয়ে চলেছি।

একটি MongoDB ক্লাস্টার সেট আপ করুন

একটি বিনামূল্যের স্তর MongoDB Atlas ক্লাস্টার তৈরি করতে, নির্দেশাবলী অনুসরণ করুন একটি ক্লাস্টার তৈরি করুন. ডাটাবেস সেট আপ করুন প্রবেশ এবং নেটওয়ার্ক প্রবেশ.

সেজমেকার এমবেডিং মডেল স্থাপন করুন

আপনি এম্বেডিং মডেল (ALL MiniLM L6 v2) বেছে নিতে পারেন সেজমেকার জাম্পস্টার্ট মডেল, নোটবুক, সমাধান পাতা.

সেজমেকার জাম্পস্টার্ট মডেল, নোটবুক, সমাধান

বেছে নিন স্থাপন করুন মডেল স্থাপন করতে।

মডেলটি সফলভাবে স্থাপন করা হয়েছে এবং শেষ পয়েন্ট তৈরি হয়েছে তা যাচাই করুন।

মডেল সফলভাবে স্থাপন করা হয়

ভেক্টর এমবেডিং

ভেক্টর এমবেডিং একটি ভেক্টর প্রতিনিধিত্ব একটি টেক্সট বা ইমেজ রূপান্তর করার একটি প্রক্রিয়া. নিম্নলিখিত কোডের সাহায্যে, আমরা সেজমেকার জাম্পস্টার্টের সাথে ভেক্টর এমবেডিং তৈরি করতে পারি এবং প্রতিটি নথির জন্য তৈরি ভেক্টরের সাথে সংগ্রহটি আপডেট করতে পারি:

payload = {"text_inputs": [document[field_name_to_be_vectorized]]}
query_response = query_endpoint_with_json_payload(json.dumps(payload).encode('utf-8'))
embeddings = parse_response_multiple_texts(query_response) # update the document
update = {'$set': {vector_field_name :  embeddings[0]}}
collection.update_one(query, update)

উপরের কোডটি দেখায় কিভাবে একটি সংগ্রহে একটি একক বস্তু আপডেট করতে হয়। সব অবজেক্ট আপডেট করতে অনুসরণ করুন নির্দেশাবলী.

MongoDB ভেক্টর ডেটা স্টোর

MongoDB Atlas ভেক্টর অনুসন্ধান একটি নতুন বৈশিষ্ট্য যা আপনাকে মঙ্গোডিবিতে ভেক্টর ডেটা সঞ্চয় এবং অনুসন্ধান করতে দেয়। ভেক্টর ডেটা হল এক ধরণের ডেটা যা একটি উচ্চ-মাত্রিক স্থানের একটি বিন্দুকে প্রতিনিধিত্ব করে। এই ধরনের ডেটা প্রায়ই ML এবং কৃত্রিম বুদ্ধিমত্তা অ্যাপ্লিকেশনে ব্যবহৃত হয়। MongoDB Atlas ভেক্টর অনুসন্ধান নামক একটি কৌশল ব্যবহার করে k- নিকটতম প্রতিবেশী (k-NN) অনুরূপ ভেক্টর অনুসন্ধান করতে। k-NN একটি প্রদত্ত ভেক্টরের সাথে k সবচেয়ে অনুরূপ ভেক্টর খুঁজে বের করে কাজ করে। ইউক্লিডীয় দূরত্বের পরিপ্রেক্ষিতে প্রদত্ত ভেক্টরের সবচেয়ে কাছের ভেক্টরগুলিই সবচেয়ে বেশি অনুরূপ।

অপারেশনাল ডেটার পাশে ভেক্টর ডেটা সংরক্ষণ করা বিভিন্ন স্টোরেজ সিস্টেমের মধ্যে ডেটা সরানোর প্রয়োজনীয়তা হ্রাস করে কার্যক্ষমতা উন্নত করতে পারে। এটি বিশেষত এমন অ্যাপ্লিকেশনগুলির জন্য উপকারী যেগুলির জন্য ভেক্টর ডেটাতে রিয়েল-টাইম অ্যাক্সেস প্রয়োজন৷

একটি ভেক্টর অনুসন্ধান সূচক তৈরি করুন

পরবর্তী ধাপ হল একটি তৈরি করা MongoDB ভেক্টর অনুসন্ধান সূচক আপনি পূর্ববর্তী ধাপে তৈরি ভেক্টর ক্ষেত্রের উপর। MongoDB ব্যবহার করে knnVector ইনডেক্স ভেক্টর এম্বেডিং-এ টাইপ করুন। ভেক্টর ক্ষেত্রটি সংখ্যার অ্যারে হিসাবে উপস্থাপন করা উচিত (শুধুমাত্র BSON int32, int64, বা ডাবল ডাটা টাইপ)।

নির্দেশ করে knnVector প্রকার সীমাবদ্ধতা পর্যালোচনা করুন এর সীমাবদ্ধতা সম্পর্কে আরও তথ্যের জন্য knnVector টাইপ করুন।

নিম্নলিখিত কোড একটি নমুনা সূচক সংজ্ঞা:

{ "mappings": { "dynamic": true, "fields": { "egVector": { "dimensions": 384, "similarity": "euclidean", "type": "knnVector" } } }
}

মনে রাখবেন যে মাত্রা অবশ্যই আপনার এম্বেডিং মডেলের মাত্রার সাথে মিলবে।

ভেক্টর ডাটা স্টোরে প্রশ্ন করুন

আপনি ব্যবহার করে ভেক্টর ডেটা স্টোর জিজ্ঞাসা করতে পারেন ভেক্টর অনুসন্ধান সমষ্টি পাইপলাইন. এটি ভেক্টর অনুসন্ধান সূচক ব্যবহার করে এবং একটি সম্পাদন করে শব্দার্থ সন্ধান ভেক্টর ডেটা স্টোরে।

নিম্নলিখিত কোড একটি নমুনা অনুসন্ধান সংজ্ঞা:

{ $search: { "index": "<index name>", // optional, defaults to "default" "knnBeta": { "vector": [<array-of-numbers>], "path": "<field-to-search>", "filter": {<filter-specification>}, "k": <number>, "score": {<options>} } }
}

SageMaker বড় ভাষা মডেল স্থাপন করুন

সেজমেকার জাম্পস্টার্ট ফাউন্ডেশন মডেল প্রাক-প্রশিক্ষিত বড় ভাষা মডেল (এলএলএম) যেগুলি বিভিন্ন প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি) কাজগুলি সমাধান করতে ব্যবহৃত হয়, যেমন পাঠ্য সংক্ষিপ্তকরণ, প্রশ্নের উত্তর এবং প্রাকৃতিক ভাষা অনুমান। এগুলি বিভিন্ন আকার এবং কনফিগারেশনে উপলব্ধ। এই সমাধান, আমরা ব্যবহার আলিঙ্গন মুখ FLAN-T5-XL মডেল।

SageMaker JumpStart এ FLAN-T5-XL মডেল অনুসন্ধান করুন।

FLAN-T5-XL অনুসন্ধান করুন

বেছে নিন স্থাপন করুন FLAN-T5-XL মডেল সেট আপ করতে।

স্থাপন করুন

মডেলটি সফলভাবে স্থাপন করা হয়েছে এবং এন্ডপয়েন্ট সক্রিয় রয়েছে তা যাচাই করুন।

Retrieval-Augmented Generation with LangChain, Amazon SageMaker JumpStart, and MongoDB Atlas semantic search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

একটি অ্যামাজন লেক্স বট তৈরি করুন

একটি অ্যামাজন লেক্স বট তৈরি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. অ্যামাজন লেক্স কনসোলে, নির্বাচন করুন বট তৈরি করুন.

বট তৈরি করুন

  1. জন্য বট নাম, একটি নাম লিখুন।
  2. জন্য রানটাইম ভূমিকা, নির্বাচন করুন মৌলিক Amazon Lex অনুমতি দিয়ে একটি ভূমিকা তৈরি করুন.
    Retrieval-Augmented Generation with LangChain, Amazon SageMaker JumpStart, and MongoDB Atlas semantic search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  3. আপনার ভাষা সেটিংস নির্দিষ্ট করুন, তারপর চয়ন করুন সম্পন্ন.
    Retrieval-Augmented Generation with LangChain, Amazon SageMaker JumpStart, and MongoDB Atlas semantic search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  4. একটি নমুনা উচ্চারণ যোগ করুন NewIntent UI এবং নির্বাচন করুন অভিপ্রায় সংরক্ষণ করুন.
    Retrieval-Augmented Generation with LangChain, Amazon SageMaker JumpStart, and MongoDB Atlas semantic search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  5. নেভিগেট করুন FallbackIntent যেটি আপনার জন্য ডিফল্ট এবং টগল দ্বারা তৈরি করা হয়েছিল সক্রিয় মধ্যে সিদ্ধি অধ্যায়.
    সক্রিয় টগল করুন
  6. বেছে নিন নির্মাণ করা এবং নির্মাণ সফল হওয়ার পরে, নির্বাচন করুন পরীক্ষা.
    নির্মাণ এবং পরীক্ষা
  7. পরীক্ষার আগে, গিয়ার আইকন নির্বাচন করুন।
    Retrieval-Augmented Generation with LangChain, Amazon SageMaker JumpStart, and MongoDB Atlas semantic search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  8. উল্লেখ এডাব্লুএস ল্যাম্বদা ফাংশন যা প্রতিক্রিয়া প্রদান করতে MongoDB Atlas এবং LLM-এর সাথে যোগাযোগ করবে। ল্যাম্বডা ফাংশন তৈরি করতে অনুসরণ করুন এই পদক্ষেপ.
    9. AWS Lambda ফাংশন নির্দিষ্ট করুন
  9. আপনি এখন LLM এর সাথে যোগাযোগ করতে পারেন।

পরিষ্কার কর

আপনার সংস্থানগুলি পরিষ্কার করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. অ্যামাজন লেক্স বট মুছুন।
  2. Lambda ফাংশন মুছুন।
  3. LLM SageMaker এন্ডপয়েন্ট মুছুন।
  4. এমবেডিং মডেল সেজমেকার এন্ডপয়েন্ট মুছুন।
  5. MongoDB Atlas ক্লাস্টার মুছুন।

উপসংহার

পোস্টে, আমরা দেখিয়েছি কিভাবে একটি সাধারণ বট তৈরি করা যায় যা MongoDB Atlas শব্দার্থিক অনুসন্ধান ব্যবহার করে এবং SageMaker JumpStart-এর একটি মডেলের সাথে একত্রিত হয়। এই বটটি আপনাকে মঙ্গোডিবি অ্যাটলাসে উদ্ভূত প্রসঙ্গের সাথে যুক্ত করার সময় সেজমেকার জাম্পস্টার্টে বিভিন্ন LLM-এর সাথে ব্যবহারকারীর ইন্টারঅ্যাকশন দ্রুত প্রোটোটাইপ করতে দেয়।

বরাবরের মত, AWS প্রতিক্রিয়া স্বাগত জানায়। মন্তব্য বিভাগে আপনার প্রতিক্রিয়া এবং প্রশ্ন ছেড়ে দয়া করে.


লেখক সম্পর্কে

Retrieval-Augmented Generation with LangChain, Amazon SageMaker JumpStart, and MongoDB Atlas semantic search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ইগর আলেকসিভ ডেটা এবং অ্যানালিটিক্স ডোমেনে AWS-এর একজন সিনিয়র পার্টনার সলিউশন আর্কিটেক্ট। তার ভূমিকায় ইগর কৌশলগত অংশীদারদের সাথে কাজ করছেন যা তাদের জটিল, AWS-অপ্টিমাইজ করা আর্কিটেকচার তৈরি করতে সহায়তা করছে। AWS-এ যোগদানের আগে, একজন ডেটা/সলিউশন আর্কিটেক্ট হিসেবে তিনি বিগ ডেটা ডোমেনে অনেক প্রকল্প বাস্তবায়ন করেছিলেন, যার মধ্যে হাডুপ ইকোসিস্টেমের বেশ কয়েকটি ডেটা লেক রয়েছে। একজন ডেটা ইঞ্জিনিয়ার হিসাবে তিনি জালিয়াতি সনাক্তকরণ এবং অফিস অটোমেশনে AI/ML প্রয়োগের সাথে জড়িত ছিলেন।


Retrieval-Augmented Generation with LangChain, Amazon SageMaker JumpStart, and MongoDB Atlas semantic search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.বাবু শ্রীনিবাসন
MongoDB-এর একজন সিনিয়র পার্টনার সলিউশন আর্কিটেক্ট। তার বর্তমান ভূমিকায়, তিনি AWS এবং MongoDB সমাধানের জন্য প্রযুক্তিগত একীকরণ এবং রেফারেন্স আর্কিটেকচার তৈরি করতে AWS এর সাথে কাজ করছেন। ডাটাবেস এবং ক্লাউড প্রযুক্তিতে তার দুই দশকেরও বেশি অভিজ্ঞতা রয়েছে। তিনি একাধিক ভূগোল জুড়ে একাধিক গ্লোবাল সিস্টেম ইন্টিগ্রেটর (GSIs) এর সাথে কাজ করা গ্রাহকদের প্রযুক্তিগত সমাধান প্রদানের বিষয়ে উত্সাহী।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

Amazon SageMaker Data Wrangler-এ Amazon Athena ডেটা উৎসের জন্য একটি কাস্টম অ্যামাজন S3 কোয়েরি আউটপুট অবস্থান এবং ডেটা ধরে রাখার নীতি কনফিগার করুন

উত্স নোড: 1673951
সময় স্ট্যাম্প: সেপ্টেম্বর 20, 2022

Windows ফাইল সার্ভারের জন্য Amazon FSx-এর জন্য Amazon Kendra সংযোগকারীর সাহায্যে Windows ফাইল সিস্টেমে নিরাপদে অসংগঠিত ডেটা অনুসন্ধান করুন

উত্স নোড: 1217268
সময় স্ট্যাম্প: মার্চ 15, 2022