এই ব্লগ পোস্টটি গভীরতা থেকে Tuana Çelik-এর সাথে সহ-লিখিত।
এন্টারপ্রাইজ অনুসন্ধান নথি ডিজিটাইজেশন এবং জ্ঞান ব্যবস্থাপনার মাধ্যমে সাংগঠনিক দক্ষতার একটি গুরুত্বপূর্ণ উপাদান। এন্টারপ্রাইজ অনুসন্ধান নথি সংরক্ষণ করে যেমন ডিজিটাল ফাইল, অনুসন্ধানের জন্য নথিগুলিকে সূচীকরণ এবং ব্যবহারকারীর প্রশ্নের ভিত্তিতে প্রাসঙ্গিক ফলাফল প্রদান করে। বৃহৎ ভাষা মডেল (LLMs) এর আবির্ভাবের সাথে, আমরা ব্যবহারকারীদের ফলাফল প্রদানের ক্ষেত্রে কথোপকথনমূলক অভিজ্ঞতা বাস্তবায়ন করতে পারি। যাইহোক, আমাদের নিশ্চিত করতে হবে যে এলএলএমগুলি কোম্পানির ডেটাতে প্রতিক্রিয়া সীমিত করে, যার ফলে মডেল হ্যালুসিনেশনগুলি হ্রাস পায়।
এই পোস্টে, আমরা দেখাব কিভাবে Haystack পাইপলাইন এবং Falcon-40b-নির্দেশনা মডেল ব্যবহার করে Retrieval Augmented Generation (RAG) এর মাধ্যমে এন্টারপ্রাইজ অনুসন্ধানের জন্য একটি এন্ড-টু-এন্ড জেনারেটিভ এআই অ্যাপ্লিকেশন তৈরি করা যায় আমাজন সেজমেকার জাম্পস্টার্ট এবং আমাজন ওপেন সার্চ সার্ভিস. এই পোস্টে প্রদর্শিত নমুনার জন্য উত্স কোড পাওয়া যায় GitHub সংগ্রহস্থল
সমাধান ওভারভিউ
শুধুমাত্র কোম্পানির ডেটাতে জেনারেটিভ AI অ্যাপ্লিকেশন প্রতিক্রিয়া সীমাবদ্ধ করতে, আমাদের Retrieval Augmented Generation (RAG) নামে একটি কৌশল ব্যবহার করতে হবে। RAG পদ্ধতি ব্যবহার করে একটি অ্যাপ্লিকেশন এন্টারপ্রাইজ নলেজ বেস বা বিষয়বস্তু থেকে ব্যবহারকারীর অনুরোধের সাথে সবচেয়ে প্রাসঙ্গিক তথ্য পুনরুদ্ধার করে, এটিকে প্রম্পট হিসাবে ব্যবহারকারীর অনুরোধের সাথে প্রসঙ্গ হিসাবে বান্ডিল করে এবং তারপর একটি প্রতিক্রিয়া পেতে LLM-এ পাঠায়। LLM-এর ইনপুট প্রম্পটের জন্য সর্বাধিক শব্দ গণনার সীমাবদ্ধতা রয়েছে, তাই এন্টারপ্রাইজের হাজার হাজার বা লক্ষাধিক নথির মধ্যে সঠিক প্যাসেজ বেছে নেওয়া LLM-এর নির্ভুলতার উপর সরাসরি প্রভাব ফেলে।
এন্টারপ্রাইজ অনুসন্ধানে RAG কৌশলটি ক্রমশ গুরুত্বপূর্ণ হয়ে উঠেছে। এই পোস্টে, আমরা একটি কর্মপ্রবাহ দেখাই যা একটি Falcon-40b-নির্দেশনা মডেল স্থাপন করতে SageMaker JumpStart-এর সুবিধা নেয় এবং একটি পুনরুদ্ধার বর্ধিত প্রশ্নের উত্তর পাইপলাইন ডিজাইন ও চালানোর জন্য Haystack ব্যবহার করে। চূড়ান্ত পুনরুদ্ধার বৃদ্ধির কর্মপ্রবাহ নিম্নলিখিত উচ্চ-স্তরের পদক্ষেপগুলিকে কভার করে:
- ব্যবহারকারীর ক্যোয়ারী একটি পুনরুদ্ধারকারী উপাদানের জন্য ব্যবহার করা হয়, যা একটি ভেক্টর অনুসন্ধান করে, আমাদের ডাটাবেস থেকে সবচেয়ে প্রাসঙ্গিক প্রসঙ্গ পুনরুদ্ধার করতে।
- এই প্রসঙ্গটি একটি প্রম্পটে এম্বেড করা হয়েছে যা একটি এলএলএমকে শুধুমাত্র প্রদত্ত প্রসঙ্গ থেকে একটি উত্তর তৈরি করতে নির্দেশ দেওয়ার জন্য ডিজাইন করা হয়েছে।
- LLM শুধুমাত্র এটি প্রাপ্ত প্রম্পটে এমবেড করা প্রসঙ্গ বিবেচনা করে মূল প্রশ্নের একটি প্রতিক্রিয়া তৈরি করে।
সেজমেকার জাম্পস্টার্ট
SageMaker JumpStart একটি মডেল হাব হিসাবে কাজ করে যা পাঠ্য, দৃষ্টি, অডিও এবং এমবেডিং ব্যবহারের ক্ষেত্রে গভীর শিক্ষার মডেলগুলির একটি বিস্তৃত অ্যারেকে অন্তর্ভুক্ত করে। 500 টিরও বেশি মডেলের সাথে, এর মডেল হাবটিতে AWS এর অংশীদার যেমন AI21, Stability AI, Cohere এবং LightOn-এর পাবলিক এবং মালিকানাধীন মডেল উভয়ই রয়েছে। এটি অ্যালেক্সাটিএম-এর মতো শুধুমাত্র অ্যামাজন দ্বারা তৈরি ফাউন্ডেশন মডেলগুলিও হোস্ট করে। কিছু মডেল আপনাকে আপনার নিজস্ব ডেটার সাথে সূক্ষ্ম-টিউন করার ক্ষমতা প্রদান করে। সেজমেকার জাম্পস্টার্ট সমাধান টেমপ্লেটগুলিও সরবরাহ করে যা সাধারণ ব্যবহারের ক্ষেত্রে অবকাঠামো সেট আপ করে, এবং সেজমেকারের সাথে মেশিন লার্নিং (এমএল) এর জন্য এক্সিকিউটেবল উদাহরণ নোটবুক।
খড়ের গাদা
খড়ের গাদা ডিপসেটের একটি ওপেন-সোর্স ফ্রেমওয়ার্ক যা ডেভেলপারদের মডেল, ভেক্টর ডিবি, ফাইল কনভার্টার এবং অগণিত অন্যান্য মডিউলের মতো বিভিন্ন উপাদান দিয়ে তৈরি এলএলএম অ্যাপ্লিকেশন অর্কেস্ট্রেট করতে দেয়। খড়ের গাদা প্রদান করে পাইপলাইনগুলি এবং এজেন্টঅনুসন্ধান, প্রশ্নের উত্তর এবং কথোপকথনমূলক এআই সহ বিভিন্ন ব্যবহারের ক্ষেত্রে LLM অ্যাপ্লিকেশন ডিজাইন করার জন্য দুটি শক্তিশালী কাঠামো। অত্যাধুনিক পুনরুদ্ধার পদ্ধতি এবং কঠিন মূল্যায়ন মেট্রিক্সের উপর একটি বড় ফোকাস সহ, এটি আপনাকে একটি নির্ভরযোগ্য, বিশ্বস্ত অ্যাপ্লিকেশন পাঠানোর জন্য প্রয়োজনীয় সমস্ত কিছু সরবরাহ করে। আপনি পাইপলাইন সিরিয়াল করতে পারেন YAML ফাইল, একটি মাধ্যমে তাদের প্রকাশ বিশ্রাম এপিআই, এবং আপনার কাজের চাপের সাথে নমনীয়ভাবে সেগুলিকে স্কেল করুন, আপনার অ্যাপ্লিকেশনটিকে একটি প্রোটোটাইপ পর্যায় থেকে উৎপাদনে নিয়ে যাওয়া সহজ করে তোলে৷
আমাজন ওপেন সার্চ
OpenSearch পরিষেবা হল একটি সম্পূর্ণরূপে পরিচালিত পরিষেবা যা AWS ক্লাউডে ওপেনসার্চ স্থাপন, স্কেল এবং পরিচালনা করা সহজ করে তোলে। OpenSearch হল অনুসন্ধান, বিশ্লেষণ, নিরাপত্তা মনিটরিং, এবং পর্যবেক্ষণ অ্যাপ্লিকেশনের জন্য একটি মাপযোগ্য, নমনীয়, এবং এক্সটেনসিবল ওপেন-সোর্স সফটওয়্যার স্যুট, যা Apache 2.0 লাইসেন্সের অধীনে লাইসেন্সকৃত।
সাম্প্রতিক বছরগুলিতে, ML কৌশলগুলি অনুসন্ধান উন্নত করতে ক্রমবর্ধমান জনপ্রিয় হয়ে উঠেছে। তাদের মধ্যে ব্যবহার করা হয় এমবেডিং মডেল, মডেলের একটি প্রকার যা একটি এন-ডাইমেনশনাল স্পেসে ডেটার একটি বৃহৎ অংশকে এনকোড করতে পারে যেখানে প্রতিটি সত্তাকে এনকোড করা হয় ভেক্টর, সেই স্থানের একটি ডেটা বিন্দু, এবং এমনভাবে সংগঠিত করা হয়েছে যে অনুরূপ সত্তাগুলি একসাথে কাছাকাছি থাকে। একটি ভেক্টর ডাটাবেস কে-এনএন সূচকের মতো বিশেষ সূচী প্রদান করে দক্ষ ভেক্টর সাদৃশ্য অনুসন্ধান প্রদান করে।
OpenSearch Service-এর ভেক্টর ডাটাবেস ক্ষমতার সাহায্যে, আপনি শব্দার্থিক অনুসন্ধান, LLM এর সাথে RAG, সুপারিশ ইঞ্জিন, এবং সমৃদ্ধ মিডিয়া অনুসন্ধান করতে পারেন। এই পোস্টে, আমরা একটি বাহ্যিক জ্ঞান বেস সহ জেনারেটিভ এলএলএম পরিপূরক করতে আমাদের সক্ষম করতে RAG ব্যবহার করি যা সাধারণত ভেক্টর-এনকোডেড জ্ঞান নিবন্ধগুলির সাথে হাইড্রেটেড একটি ভেক্টর ডেটাবেস ব্যবহার করে তৈরি করা হয়।
অ্যাপ্লিকেশন ওভারভিউ
নিম্নলিখিত চিত্রটি চূড়ান্ত প্রয়োগের কাঠামো চিত্রিত করে।
এই অ্যাপ্লিকেশনটিতে, আমরা আপলোড করা নথি এবং সূচক নথিগুলি পরিচালনা করতে হেস্ট্যাক ইনডেক্সিং পাইপলাইন এবং সূচীকৃত নথিগুলি থেকে জ্ঞান পুনরুদ্ধার করতে হেস্ট্যাক কোয়েরি পাইপলাইন ব্যবহার করি।
হেস্ট্যাক ইনডেক্সিং পাইপলাইনে নিম্নলিখিত উচ্চ-স্তরের পদক্ষেপগুলি অন্তর্ভুক্ত রয়েছে:
- একটি নথি আপলোড করুন।
- আরম্ভ
DocumentStore
এবং সূচক নথি।
আমরা আমাদের হিসাবে OpenSearch ব্যবহার করি ডকুমেন্টস্টোর এবং একটি খড়ের গাদা ইন্ডেক্সিং পাইপলাইন ওপেনসার্চে আমাদের ফাইলগুলিকে প্রিপ্রসেস এবং ইনডেক্স করতে। খড়ের গাদা ফাইল কনভার্টার এবং প্রিপ্রসেসর আপনাকে আপনার কাঁচা ফাইলগুলিকে এমন আকার এবং বিন্যাসে পরিষ্কার করতে এবং প্রস্তুত করতে দেয় যা আপনার প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) পাইপলাইন এবং পছন্দের ভাষা মডেল মোকাবেলা করতে পারে। আমরা এখানে ব্যবহার করেছি ইন্ডেক্সিং পাইপলাইন এছাড়াও ব্যবহার করে sentence-transformers/all-MiniLM-L12-v2
প্রতিটি নথির জন্য এমবেডিং তৈরি করতে, যা আমরা দক্ষ পুনরুদ্ধারের জন্য ব্যবহার করি।
হেস্ট্যাক কোয়েরি পাইপলাইনে নিম্নলিখিত উচ্চ-স্তরের পদক্ষেপগুলি অন্তর্ভুক্ত রয়েছে:
- আমরা RAG পাইপলাইনে একটি প্রশ্ন পাঠাই।
- An এমবেডিং রিট্রিভার উপাদান একটি ফিল্টার হিসাবে কাজ করে যা সবচেয়ে প্রাসঙ্গিক পুনরুদ্ধার করে
top_k
ওপেনসার্চে আমাদের সূচীকৃত নথি থেকে নথি। আমরা আমাদের পছন্দের এমবেডিং মডেল ব্যবহার করি কোয়েরি এবং নথি উভয়ই এম্বেড করতে (সূচীকরণে) এটি অর্জন করতে। - পুনরুদ্ধার করা নথিগুলি Falcon-40b-instruct মডেলে আমাদের প্রম্পটে এম্বেড করা হয়েছে।
- LLM একটি প্রতিক্রিয়ার সাথে ফিরে আসে যা পুনরুদ্ধার করা নথির উপর ভিত্তি করে।
মডেল স্থাপনের জন্য, আমরা SageMaker JumpStart ব্যবহার করি, যা একটি বোতামের একটি সাধারণ ধাক্কার মাধ্যমে মডেল স্থাপনকে সহজ করে। যদিও আমরা এই উদাহরণের জন্য Falcon-40b-instruct ব্যবহার করেছি এবং পরীক্ষা করেছি, আপনি SageMaker-এ উপলব্ধ যেকোনো Hugging Face মডেল ব্যবহার করতে পারেন।
চূড়ান্ত সমাধান পাওয়া যায় খড়ের গাদা সংগ্রহস্থল এবং OpenSearch ওয়েবসাইট এবং ডকুমেন্টেশন ব্যবহার করে (OpenSearch 2.7-এর জন্য) আমাদের উদাহরণ ডেটা হিসাবে পুনরুদ্ধার বর্ধিত প্রশ্নের উত্তর দেওয়ার জন্য।
পূর্বশর্ত
আমরা যেকোন AWS পরিষেবা ব্যবহার করার আগে যা করতে হবে তা হল আমরা একটি AWS অ্যাকাউন্টের জন্য সাইন আপ করেছি এবং তৈরি করেছি তা নিশ্চিত করা। তারপর আপনি একটি প্রশাসনিক ব্যবহারকারী এবং গ্রুপ তৈরি করা উচিত. উভয় পদক্ষেপের নির্দেশাবলীর জন্য, পড়ুন Amazon SageMaker পূর্বশর্ত সেট আপ করুন.
খড়ের গাদা ব্যবহার করতে সক্ষম হতে, আপনাকে ইনস্টল করতে হবে farm-haystack
প্রয়োজনীয় নির্ভরতা সহ প্যাকেজ। এটি সম্পন্ন করতে, ব্যবহার করুন requirements.txt
ফাইলের মধ্যে GitHub সংগ্রহস্থল দৌড় দিয়ে pip install requirements.txt
.
ওপেনসার্চে নথি সূচী করুন
হেস্ট্যাক ডাটাবেসে বেশ কয়েকটি সংযোগকারী অফার করে, যাকে বলা হয় DocumentStores
. এই RAG কর্মপ্রবাহের জন্য, আমরা ব্যবহার করি OpenSearchDocumentStore
. উদাহরণ সংগ্রহস্থলের একটি ইন্ডেক্সিং পাইপলাইন অন্তর্ভুক্ত করে এবং এডাব্লুএস ক্লাউডফর্মেশন টেমপ্লেট সেট আপ একটি OpenSearchDocumentStore
ওপেনসার্চ ওয়েবসাইট এবং ডকুমেন্টেশন পেজ থেকে ক্রল করা ডকুমেন্ট সহ।
প্রায়শই, উত্পাদন ব্যবহারের ক্ষেত্রে কাজ করার জন্য একটি NLP অ্যাপ্লিকেশন পেতে, আমাদের ডেটা প্রস্তুতি এবং পরিষ্কার করার বিষয়ে চিন্তা করতে হয়। এই সঙ্গে আচ্ছাদিত করা হয় খড়ের গাদা ইন্ডেক্সিং পাইপলাইন, যা আপনাকে আপনার নিজস্ব ডেটা প্রস্তুতির ধাপগুলি ডিজাইন করতে দেয়, যা শেষ পর্যন্ত আপনার পছন্দের ডাটাবেসে আপনার নথিগুলি লিখতে পারে।
একটি ইন্ডেক্সিং পাইপলাইনে আপনার নথিগুলির জন্য এম্বেডিং তৈরি করার একটি পদক্ষেপও অন্তর্ভুক্ত থাকতে পারে। এটি পুনরুদ্ধার পদক্ষেপের জন্য অত্যন্ত গুরুত্বপূর্ণ। আমাদের উদাহরণে, আমরা ব্যবহার করি বাক্য-ট্রান্সফরমার/all-MiniLM-L12-v2 আমাদের এমবেডিং মডেল হিসাবে। এই মডেলটি আমাদের সমস্ত সূচীকৃত নথির জন্য এমবেডিং তৈরি করতে ব্যবহার করা হয়, কিন্তু ক্যোয়ারী সময়ে ব্যবহারকারীর ক্যোয়ারীও।
মধ্যে নথি সূচী করতে OpenSearchDocumentStore
, আমরা বিস্তারিত নির্দেশাবলী সঙ্গে দুটি বিকল্প প্রদান README উদাহরণ ভান্ডারের। এখানে, আমরা AWS-এ নিয়োজিত একটি OpenSearch পরিষেবাতে সূচীকরণের ধাপগুলি দিয়ে চলেছি।
একটি OpenSearch পরিষেবা শুরু করুন
প্রদত্ত ব্যবহার করুন CloudFormation টেমপ্লেট AWS-এ একটি OpenSearch পরিষেবা সেট আপ করতে। নিম্নলিখিত কমান্ডটি চালানোর মাধ্যমে, আপনার কাছে একটি খালি OpenSearch পরিষেবা থাকবে। তারপরে আপনি হয় আমাদের দেওয়া উদাহরণ ডেটা সূচী করতে বা আপনার নিজস্ব ডেটা ব্যবহার করতে পারেন, যা আপনি ব্যবহার করে পরিষ্কার এবং প্রিপ্রসেস করতে পারেন খড়ের গাদা ইন্ডেক্সিং পাইপলাইন. মনে রাখবেন যে এটি এমন একটি উদাহরণ তৈরি করে যা ইন্টারনেটের জন্য উন্মুক্ত, যা উত্পাদন ব্যবহারের জন্য সুপারিশ করা হয় না।
স্ট্যাক লঞ্চ সম্পূর্ণ হওয়ার জন্য প্রায় 30 মিনিটের অনুমতি দিন। আপনি নেভিগেট করে AWS CloudFormation কনসোলে এর অগ্রগতি পরীক্ষা করতে পারেন স্ট্যাক পৃষ্ঠা এবং নামের স্ট্যাক খুঁজছেন HaystackOpensearch
.
ওপেনসার্চে নথি সূচী করুন
এখন যেহেতু আমাদের একটি চলমান ওপেনসার্চ পরিষেবা রয়েছে, আমরা এটির সাথে সংযোগ করতে এবং এতে আমাদের নথিগুলি লিখতে OpenSearchDocumentStore ক্লাস ব্যবহার করতে পারি।
OpenSearch-এর জন্য হোস্টনাম পেতে, নিম্নলিখিত কমান্ডটি চালান:
প্রথমত, নিম্নলিখিত রপ্তানি করুন:
তারপর, আপনি ব্যবহার করতে পারেন opensearch_indexing_pipeline.py
প্রদত্ত ডেমো ডেটা প্রিপ্রসেস এবং ইন্ডেক্স করার জন্য স্ক্রিপ্ট।
আপনি যদি নিজের ডেটা ব্যবহার করতে চান, তাহলে ইনডেক্সিং পাইপলাইন পরিবর্তন করুন opensearch_indexing_pipeline.py
অন্তর্ভুক্ত ফাইল কনভার্টার এবং প্রিপ্রসেসর সেটআপ পদক্ষেপ আপনার প্রয়োজন.
পুনরুদ্ধার বর্ধিত প্রশ্ন উত্তর পাইপলাইন বাস্তবায়ন
এখন যেহেতু আমরা OpenSearch-এ সূচিবদ্ধ ডেটা পেয়েছি, আমরা এই নথিগুলিতে প্রশ্নের উত্তর দিতে পারি। এই RAG পাইপলাইনের জন্য, আমরা Falcon-40b-instruct মডেল ব্যবহার করি যা আমরা SageMaker JumpStart-এ স্থাপন করেছি।
আপনার কাছে জুপিটার নোটবুক থেকে মডেলটিকে প্রোগ্রাম্যাটিকভাবে স্থাপন করার বিকল্পও রয়েছে। নির্দেশাবলীর জন্য, পড়ুন গিটহুব রেপো.
- SageMaker JumpStart-এ Falcon-40b-instruct মডেলের জন্য অনুসন্ধান করুন।
- SageMaker JumpStart-এ আপনার মডেল স্থাপন করুন এবং শেষ পয়েন্টের নামটি নোট করুন।
- নিম্নলিখিত মান রপ্তানি করুন:
- চালান
python rag_pipeline.py
.
এটি একটি কমান্ড লাইন ইউটিলিটি শুরু করবে যা ব্যবহারকারীর প্রশ্নের জন্য অপেক্ষা করে। উদাহরণস্বরূপ, আসুন জিজ্ঞাসা করি "কিভাবে আমি OpenSearch cli ইনস্টল করতে পারি?"
এই ফলাফলটি অর্জন করা হয়েছে কারণ আমরা আমাদের প্রম্পটটি সংজ্ঞায়িত করেছি৷ খড়ের স্ট্যাক প্রম্পট টেমপ্লেট নিম্নলিখিত হতে হবে:
আরও কাস্টমাইজেশন
আপনি সমাধানের বিভিন্ন উপাদানে অতিরিক্ত কাস্টমাইজেশন করতে পারেন, যেমন নিম্নলিখিত:
- তথ্যটি - আমরা OpenSearch প্রদান করেছি ডকুমেন্টেশন এবং ওয়েবসাইট ডেটা উদাহরণ হিসাবে ডেটা। পরিবর্তন করতে মনে রাখবেন
opensearch_indexing_pipeline.py
আপনি যদি নিজের ডেটা ব্যবহার করতে চান তবে আপনার প্রয়োজনের জন্য স্ক্রিপ্ট। - মডেলটি - এই উদাহরণে, আমরা Falcon-40b-instruct মডেল ব্যবহার করেছি। আপনি SageMaker-এ অন্য যেকোনো Hugging Face মডেল স্থাপন ও ব্যবহার করতে পারবেন। মনে রাখবেন যে একটি মডেল পরিবর্তন করার অর্থ সম্ভবত আপনার প্রম্পটকে এমন কিছুর সাথে মানিয়ে নেওয়া উচিত যা এটি পরিচালনা করার জন্য ডিজাইন করা হয়েছে।
- প্রম্পট - এই পোস্টের জন্য, আমরা আমাদের নিজস্ব তৈরি করেছি
PromptTemplate
যেটি প্রদত্ত প্রেক্ষাপটের উপর ভিত্তি করে মডেলকে প্রশ্নের উত্তর দিতে নির্দেশ দেয় এবং প্রসঙ্গটি প্রাসঙ্গিক তথ্য অন্তর্ভুক্ত না করলে "আমি জানি না" উত্তর দিতে। আপনি Falcon-40b-instruct এর সাথে বিভিন্ন প্রম্পট নিয়ে পরীক্ষা করার জন্য এই প্রম্পটটি পরিবর্তন করতে পারেন। এছাড়াও আপনি সহজভাবে থেকে আমাদের কিছু প্রম্পট টানতে পারেন প্রম্পটহাব. - এমবেডিং মডেল - পুনরুদ্ধারের পদক্ষেপের জন্য, আমরা একটি লাইটওয়েট এমবেডিং মডেল ব্যবহার করি: বাক্য-ট্রান্সফরমার/all-MiniLM-L12-v2. যাইহোক, আপনি আপনার প্রয়োজন অনুযায়ী এটি পরিবর্তন করতে পারেন। আপনার প্রত্যাশিত এমবেডিং মাত্রা পরিবর্তন করতে মনে রাখবেন
DocumentStore
সেই অনুযায়ী। - পুনরুদ্ধার করা নথির সংখ্যা - আপনি যে নথিগুলি জিজ্ঞাসা করতে চান তার সংখ্যার সাথে খেলতেও বেছে নিতে পারেন৷
EmbeddingRetriever
প্রতিটি প্রশ্নের জন্য পুনরুদ্ধার করতে. আমাদের সেটআপে, এটি সেট করা হয়েছে top_k=5. আরও প্রসঙ্গ প্রদান করা আপনার ফলাফলের নির্ভুলতা উন্নত করে কিনা তা দেখতে আপনি এই চিত্রটি পরিবর্তন করে পরীক্ষা করতে পারেন।
উৎপাদন প্রস্তুতি
এই পোস্টে প্রস্তাবিত সমাধান প্রকল্প উন্নয়ন প্রক্রিয়ার মূল্যের সময়কে ত্বরান্বিত করতে পারে। আপনি AWS ক্লাউডে সুরক্ষা এবং গোপনীয়তার পরিবেশের সাথে স্কেল করা সহজ এমন একটি প্রকল্প তৈরি করতে পারেন।
নিরাপত্তা এবং গোপনীয়তার জন্য, OpenSearch পরিষেবা ডেটা সুরক্ষা প্রদান করে পরিচয় এবং অ্যাক্সেস পরিচালনা এবং ক্রস-সার্ভিস বিভ্রান্ত প্রক্সি প্রতিরোধ. আপনি সূক্ষ্ম-দানাযুক্ত ব্যবহারকারী অ্যাক্সেস নিয়ন্ত্রণ নিয়োগ করতে পারেন যাতে ব্যবহারকারী কেবলমাত্র সেই ডেটা অ্যাক্সেস করতে পারে যাতে তারা অ্যাক্সেস করার জন্য অনুমোদিত। উপরন্তু, SageMaker এর জন্য কনফিগারযোগ্য নিরাপত্তা সেটিংস প্রদান করে প্রবেশাধিকার নিয়ন্ত্রণ, তথ্য সুরক্ষা, এবং লগিং এবং পর্যবেক্ষণ. আপনি বিশ্রামে এবং ট্রানজিটের সাথে আপনার ডেটা রক্ষা করতে পারেন AWS কী ব্যবস্থাপনা পরিষেবা (AWS KMS) কী। আপনি SageMaker মডেল স্থাপনার লগ ট্র্যাক করতে পারেন বা ব্যবহার করে শেষ পয়েন্ট অ্যাক্সেস করতে পারেন অ্যামাজন ক্লাউডওয়াচ. আরো তথ্যের জন্য, পড়ুন অ্যামাজন ক্লাউডওয়াচ দিয়ে অ্যামাজন সেজমেকার মনিটর করুন.
OpenSearch পরিষেবাতে উচ্চ মাপযোগ্যতার জন্য, আপনি এটিকে সামঞ্জস্য করতে পারেন আপনার ওপেনসার্চ সার্ভিস ডোমেনের আকার নির্ধারণ করা এবং নিয়োগ কর্মক্ষম সর্বোত্তম অনুশীলন. আপনি আপনার সেজমেকার এন্ডপয়েন্টকে স্বয়ংক্রিয়ভাবে স্কেল করার সুবিধাও নিতে পারেন-আপনি পারেন স্বয়ংক্রিয়ভাবে SageMaker মডেল স্কেল যখন ট্র্যাফিক বাড়ানো হয় বা সংস্থানগুলি ব্যবহার করা হচ্ছে না তখন উভয়ই শেষ পয়েন্ট সামঞ্জস্য করতে।
পরিষ্কার কর
খরচ বাঁচাতে, এই পোস্টের অংশ হিসাবে আপনি যে সমস্ত সংস্থান স্থাপন করেছেন তা মুছুন। আপনি ক্লাউডফরমেশন স্ট্যাক চালু করলে, আপনি এটি AWS CloudFormation কনসোলের মাধ্যমে মুছে ফেলতে পারেন। একইভাবে, আপনি সেজমেকার কনসোলের মাধ্যমে তৈরি করা যেকোনো সেজমেকার এন্ডপয়েন্ট মুছে ফেলতে পারেন।
উপসংহার
এই পোস্টে, আমরা SageMaker JumpStart এবং OpenSearch পরিষেবা থেকে Haystack পাইপলাইন এবং Falcon-40b-instruct মডেল ব্যবহার করে RAG-এর মাধ্যমে এন্টারপ্রাইজ সার্চের জন্য এন্ড-টু-এন্ড জেনারেটিভ AI অ্যাপ্লিকেশন কীভাবে তৈরি করা যায় তা প্রদর্শন করেছি। আরএজি পদ্ধতিটি এন্টারপ্রাইজ অনুসন্ধানে গুরুত্বপূর্ণ কারণ এটি নিশ্চিত করে যে উত্পন্ন প্রতিক্রিয়াগুলি ইন-ডোমেন এবং তাই হ্যালুসিনেশন হ্রাস করে। হেস্ট্যাক পাইপলাইন ব্যবহার করে, আমরা মডেল এবং ভেক্টর ডাটাবেসের মতো বিভিন্ন উপাদান দিয়ে তৈরি এলএলএম অ্যাপ্লিকেশনগুলিকে অর্কেস্ট্রেট করতে সক্ষম। SageMaker JumpStart আমাদেরকে LLM গুলি স্থাপনের জন্য এক-ক্লিক সমাধান প্রদান করে এবং আমরা আমাদের সূচীকৃত ডেটার জন্য ভেক্টর ডাটাবেস হিসাবে OpenSearch পরিষেবা ব্যবহার করেছি। আপনি আপনার এন্টারপ্রাইজ জেনারেটিভ AI অ্যাপ্লিকেশনগুলির জন্য ধারণার RAG প্রমাণগুলি পরীক্ষা করা এবং তৈরি করা শুরু করতে পারেন, এই পোস্টে বর্ণিত পদক্ষেপগুলি এবং এখানে উপলব্ধ সোর্স কোড ব্যবহার করে GitHub সংগ্রহস্থল.
লেখক সম্পর্কে
তুয়ানা সেলিক ডিপসেটে লিড ডেভেলপার অ্যাডভোকেট, যেখানে তিনি হেস্ট্যাকের জন্য ওপেন-সোর্স সম্প্রদায়ের উপর ফোকাস করেন। তিনি বিকাশকারী সম্পর্ক ফাংশনে নেতৃত্ব দেন এবং নিয়মিতভাবে NLP সম্পর্কে ইভেন্টে কথা বলেন এবং সম্প্রদায়ের জন্য শেখার উপকরণ তৈরি করেন।
রায় আলেলা মিউনিখ, জার্মানিতে অবস্থিত AWS-এর একজন সিনিয়র AI/ML বিশেষজ্ঞ সমাধান স্থপতি৷ Roy AWS গ্রাহকদের সাহায্য করে—ছোট স্টার্টআপ থেকে শুরু করে বড় এন্টারপ্রাইজে—প্রশিক্ষণ দিতে এবং AWS-এ দক্ষতার সাথে বড় ভাষার মডেল স্থাপন করে। রয় কম্পিউটেশনাল অপ্টিমাইজেশান সমস্যা এবং এআই ওয়ার্কলোডগুলির কর্মক্ষমতা উন্নত করার বিষয়ে উত্সাহী৷
মিয়া চ্যাং অ্যামাজন ওয়েব পরিষেবাগুলির জন্য একজন এমএল বিশেষজ্ঞ সমাধান স্থপতি৷ তিনি EMEA-তে গ্রাহকদের সাথে কাজ করেন এবং ফলিত গণিত, কম্পিউটার বিজ্ঞান এবং AI/ML-এ তার পটভূমি সহ ক্লাউডে AI/ML ওয়ার্কলোড চালানোর জন্য সর্বোত্তম অনুশীলনগুলি শেয়ার করেন। তিনি এনএলপি-নির্দিষ্ট কাজের চাপের উপর ফোকাস করেন এবং কনফারেন্স স্পিকার এবং বইয়ের লেখক হিসাবে তার অভিজ্ঞতা শেয়ার করেন। তার অবসর সময়ে, সে হাইকিং, বোর্ড গেমস এবং কফি তৈরি করা উপভোগ করে।
ইনাম সৈয়দ AWS-এর একজন স্টার্টআপ সলিউশন আর্কিটেক্ট, B2B এবং SaaS স্টার্টআপগুলিকে স্কেলিং এবং বৃদ্ধি অর্জনে সহায়তা করার উপর দৃঢ় ফোকাস সহ। সার্ভারহীন আর্কিটেকচার এবং AI/ML এর প্রতি তার গভীর অনুরাগ রয়েছে। তার অবসর সময়ে, ইনাম তার পরিবারের সাথে মানসম্পন্ন মুহূর্ত উপভোগ করে এবং বাইক চালানো এবং ব্যাডমিন্টনের প্রতি তার ভালোবাসায় লিপ্ত হয়।
ডেভিড টিপেট AWS-এ ওপেন-সোর্স ওপেনসার্চে কাজ করা সিনিয়র ডেভেলপার অ্যাডভোকেট। তার কাজের মধ্যে অনুসন্ধান এবং প্রাসঙ্গিকতা থেকে শুরু করে পর্যবেক্ষণযোগ্যতা এবং নিরাপত্তা বিশ্লেষণ পর্যন্ত OpenSearch-এর সমস্ত ক্ষেত্র জড়িত।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। মোটরগাড়ি / ইভি, কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- চার্টপ্রাইম। ChartPrime এর সাথে আপনার ট্রেডিং গেমটি উন্নত করুন। এখানে প্রবেশ করুন.
- ব্লকঅফসেট। পরিবেশগত অফসেট মালিকানার আধুনিকীকরণ। এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/machine-learning/build-production-ready-generative-ai-applications-for-enterprise-search-using-haystack-pipelines-and-amazon-sagemaker-jumpstart-with-llms/
- : আছে
- : হয়
- :না
- :কোথায়
- $ ইউপি
- 100
- 12
- 13
- 30
- 500
- 7
- 8
- a
- সক্ষম
- সম্পর্কে
- দ্রুততর করা
- প্রবেশ
- সম্পাদন
- তদনুসারে
- হিসাব
- সঠিকতা
- অর্জন করা
- অর্জন
- অর্জনের
- কাজ
- খাপ খাওয়ানো
- অতিরিক্ত
- উপরন্তু
- প্রশাসনিক
- সুবিধা
- আবির্ভাব
- উকিল
- AI
- এআই / এমএল
- সব
- অনুমতি
- অনুমতি
- বরাবর
- এছাড়াও
- যদিও
- মর্দানী স্ত্রীলোক
- আমাজন সেজমেকার
- আমাজন সেজমেকার জাম্পস্টার্ট
- অ্যামাজন ওয়েব সার্ভিসেস
- মধ্যে
- an
- বৈশ্লেষিক ন্যায়
- এবং
- উত্তর
- কোন
- এ্যাপাচি
- আবেদন
- অ্যাপ্লিকেশন
- ফলিত
- অভিগমন
- আন্দাজ
- রয়েছি
- এলাকার
- কাছাকাছি
- বিন্যাস
- শিল্প
- প্রবন্ধ
- AS
- সহায়তা
- At
- অডিও
- উদ্দীপিত
- লেখক
- অনুমোদিত
- গাড়ী
- সহজলভ্য
- ডেস্কটপ AWS
- এডাব্লুএস ক্লাউডফর্মেশন
- B2B
- পটভূমি
- ভিত্তি
- ভিত্তি
- BE
- কারণ
- পরিণত
- আগে
- হচ্ছে
- নিচে
- সর্বোত্তম
- সেরা অভ্যাস
- বিশাল
- ব্লগ
- তক্তা
- বোর্ড গেম
- শরীর
- বই
- উভয়
- প্রশস্ত
- নির্মাণ করা
- ভবন
- নির্মিত
- থোকায় থোকায়
- কিন্তু
- বোতাম
- by
- নামক
- CAN
- ক্ষমতা
- মামলা
- পরিবর্তন
- পরিবর্তন
- চেক
- পছন্দ
- বেছে নিন
- নির্বাচন
- বেছে
- শ্রেণী
- পরিস্কার করা
- কাছাকাছি
- মেঘ
- কোড
- কফি
- সাধারণ
- সম্প্রদায়
- কোম্পানি
- পূরক
- সম্পূর্ণ
- উপাদান
- উপাদান
- গঠিত
- কম্পিউটার
- কম্পিউটার বিজ্ঞান
- ধারণা
- সম্মেলন
- বিভ্রান্ত
- সংযোগ করা
- বিবেচনা করা
- কনসোল
- অন্তর্ভুক্ত
- বিষয়বস্তু
- প্রসঙ্গ
- নিয়ন্ত্রণ
- কথ্য
- কথোপকথন এআই
- খরচ
- আবৃত
- কভার
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- সংকটপূর্ণ
- গ্রাহকদের
- উপাত্ত
- ডেটা প্রস্তুতি
- তথ্য সুরক্ষা
- ডেটাবেস
- ডাটাবেস
- আবার DBS
- লেনদেন
- গভীর
- গভীর জ্ঞানার্জন
- সংজ্ঞায়িত
- ডেমো
- নির্ভরতা
- স্থাপন
- মোতায়েন
- মোতায়েন
- বিস্তৃতি
- নকশা
- পরিকল্পিত
- ফন্দিবাজ
- বিশদ
- উন্নত
- বিকাশকারী
- ডেভেলপারদের
- উন্নয়ন
- বিভিন্ন
- ডিজিটাল
- ডিজিটাইজেশন
- মাত্রা
- সরাসরি
- do
- দলিল
- ডকুমেন্টেশন
- কাগজপত্র
- না
- না
- ডন
- Dont
- প্রতি
- সহজ
- দক্ষতা
- দক্ষ
- দক্ষতার
- পারেন
- উপাদান
- বসান
- এম্বেড করা
- এম্বেডিং
- EMEA
- সক্ষম করা
- শেষ
- সর্বশেষ সীমা
- শেষপ্রান্ত
- ইঞ্জিন
- উন্নত করা
- নিশ্চিত করা
- নিশ্চিত
- উদ্যোগ
- সত্ত্বা
- সত্তা
- পরিবেশ
- মূল্যায়ন
- ঘটনাবলী
- সব
- উদাহরণ
- প্রত্যাশিত
- অভিজ্ঞতা
- অভিজ্ঞতা
- পরীক্ষা
- রপ্তানি
- বহিরাগত
- মুখ
- পরিবার
- ব্যক্তিত্ব
- ফাইল
- নথি পত্র
- ছাঁকনি
- চূড়ান্ত
- প্রথম
- ফিট
- নমনীয়
- নমনীয়ভাবে
- কেন্দ্রবিন্দু
- গুরুত্ত্ব
- অনুসরণ
- জন্য
- বিন্যাস
- ভিত
- ফ্রেমওয়ার্ক
- বিনামূল্যে
- থেকে
- সম্পূর্ণরূপে
- ক্রিয়া
- গেম
- উত্পাদন করা
- উত্পন্ন
- উত্পন্ন
- প্রজন্ম
- সৃজক
- জেনারেটিভ এআই
- জার্মানি
- পাওয়া
- প্রদত্ত
- গ্রুপ
- উন্নতি
- হাতল
- আছে
- জমিদারি
- he
- সাহায্য
- তার
- এখানে
- উচ্চ
- উচ্চস্তর
- অত্যন্ত
- তার
- হোস্ট
- কিভাবে
- কিভাবে
- যাহোক
- এইচটিএমএল
- HTTP
- HTTPS দ্বারা
- নাভি
- i
- পরিচয়
- if
- প্রভাব
- বাস্তবায়ন
- গুরুত্বপূর্ণ
- উন্নতি
- in
- অন্তর্ভুক্ত করা
- অন্তর্ভুক্ত
- সুদ্ধ
- বর্ধিত
- ক্রমবর্ধমানভাবে
- সূচক
- সূচীবদ্ধ
- ইনডেক্স
- তথ্য
- পরিকাঠামো
- ইনপুট
- ইনস্টল
- উদাহরণ
- নির্দেশাবলী
- Internet
- মধ্যে
- IT
- এর
- JPG
- চাবি
- কী
- জানা
- জ্ঞান
- জ্ঞান ব্যবস্থাপনা
- ভাষা
- বড়
- শুরু করা
- চালু
- নেতৃত্ব
- বিশালাকার
- শিক্ষা
- লাইসেন্স
- অনুমতিপ্রাপ্ত
- লাইটওয়েট
- মত
- সম্ভবত
- LIMIT টি
- সীমাবদ্ধতা
- লাইন
- LLM
- লগ ইন করুন
- লগিং
- খুঁজছি
- ভালবাসা
- মেশিন
- মেশিন লার্নিং
- প্রণীত
- করা
- তৈরি করে
- মেকিং
- পরিচালনা করা
- পরিচালিত
- ব্যবস্থাপনা
- উপকরণ
- অংক
- সর্বাধিক
- মে..
- গড়
- মিডিয়া
- পদ্ধতি
- ছন্দোবিজ্ঞান
- লক্ষ লক্ষ
- মিনিট
- প্রশমন
- ML
- মডেল
- মডেল
- পরিবর্তন
- মডিউল
- মারার
- পর্যবেক্ষণ
- অধিক
- সেতু
- পদক্ষেপ
- নাম
- নামে
- প্রাকৃতিক
- স্বাভাবিক ভাষা প্রক্রিয়াকরণ
- নেভিগেট
- প্রয়োজন
- চাহিদা
- NLP
- নোটবই
- সংখ্যা
- of
- অর্পণ
- অফার
- on
- কেবল
- খোলা
- ওপেন সোর্স
- ওপেন সোর্স সফটওয়্যার
- পরিচালনা করা
- অপ্টিমাইজেশান
- পছন্দ
- অপশন সমূহ
- or
- সাংগঠনিক
- সংগঠিত
- মূল
- অন্যান্য
- আমাদের
- রূপরেখা
- শেষ
- নিজের
- প্যাকেজ
- পৃষ্ঠা
- পেজ
- অংশ
- অংশীদারদের
- আবেগ
- কামুক
- সম্পাদন করা
- কর্মক্ষমতা
- পাইপলাইন
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- খেলা
- দয়া করে
- বিন্দু
- জনপ্রিয়
- পোস্ট
- ক্ষমতাশালী
- চর্চা
- প্রস্তুতি
- প্রস্তুত করা
- গোপনীয়তা
- সমস্যা
- প্রক্রিয়া
- প্রক্রিয়াজাতকরণ
- উত্পাদনের
- উন্নতি
- প্রকল্প
- প্রমাণাদি
- প্রস্তাবিত
- মালিকানা
- রক্ষা করা
- রক্ষা
- প্রোটোটাইপ
- প্রদান
- প্রদত্ত
- উপলব্ধ
- প্রদানের
- প্রক্সি
- প্রকাশ্য
- ধাক্কা
- গুণ
- প্রশ্নের
- প্রশ্ন
- প্রশ্ন
- কাঁচা
- গৃহীত
- সাম্প্রতিক
- সুপারিশ
- সুপারিশ করা
- নিয়মিতভাবে
- সম্পর্ক
- প্রাসঙ্গিকতা
- প্রাসঙ্গিক
- বিশ্বাসযোগ্য
- মনে রাখা
- সংগ্রহস্থলের
- অনুরোধ
- প্রয়োজন
- প্রয়োজনীয়
- আবশ্যকতা
- Resources
- প্রতিক্রিয়া
- প্রতিক্রিয়া
- বিশ্রাম
- সীমাবদ্ধ করা
- ফল
- ফলাফল
- আয়
- ধনী
- অধিকার
- রায়
- চালান
- দৌড়
- SaaS
- ঋষি নির্মাতা
- সংরক্ষণ করুন
- বলা
- স্কেলেবিলিটি
- মাপযোগ্য
- স্কেল
- আরোহী
- বিজ্ঞান
- সার্চ
- নিরাপত্তা
- দেখ
- পাঠান
- পাঠায়
- জ্যেষ্ঠ
- Serverless
- স্থল
- সেবা
- সেবা
- সেট
- সেটিংস
- সেটআপ
- আকৃতি
- শেয়ারগুলি
- সে
- জাহাজ
- উচিত
- প্রদর্শনী
- গ্লাসকেস
- শোকেস
- সাইন ইন
- অনুরূপ
- একভাবে
- সহজ
- কেবল
- ছোট
- So
- সফটওয়্যার
- কেবলমাত্র
- কঠিন
- সমাধান
- সলিউশন
- কিছু
- কিছু
- উৎস
- সোর্স কোড
- স্থান
- বক্তা
- স্পিক্স
- বিশেষজ্ঞ
- বিশেষজ্ঞ
- স্থায়িত্ব
- গাদা
- পর্যায়
- শুরু
- প্রারম্ভকালে
- প্রারম্ভ
- ধাপ
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- সংরক্ষণ
- শক্তিশালী
- গঠন
- এমন
- অনুসরণ
- নিশ্চিত
- গ্রহণ করা
- লাগে
- প্রযুক্তি
- টেমপ্লেট
- প্রমাণিত
- যে
- সার্জারির
- উৎস
- তাহাদিগকে
- তারপর
- যার ফলে
- অতএব
- এইগুলো
- তারা
- জিনিস
- মনে
- এই
- হাজার হাজার
- দ্বারা
- সময়
- থেকে
- একসঙ্গে
- পথ
- ট্রাফিক
- পরিবহন
- বিশ্বস্ত
- দুই
- আদর্শ
- সাধারণত
- পরিণামে
- অধীনে
- আপলোড করা
- us
- ব্যবহার
- ব্যবহৃত
- ব্যবহারকারী
- ব্যবহারকারী
- ব্যবহারসমূহ
- ব্যবহার
- উপযোগ
- মূল্য
- মানগুলি
- বিভিন্ন
- মাধ্যমে
- দৃষ্টি
- অপেক্ষা করছে
- we
- ওয়েব
- ওয়েব সার্ভিস
- ওয়েবসাইট
- কখন
- যে
- ইচ্ছা
- সঙ্গে
- মধ্যে
- শব্দ
- হয়া যাই ?
- কর্মপ্রবাহ
- কাজ
- কাজ
- would
- লেখা
- ইয়ামল
- বছর
- আপনি
- আপনার
- zephyrnet