জেনারেটিভ এআই ওয়ার্কলোডের জন্য সবচেয়ে দরকারী অ্যাপ্লিকেশন প্যাটার্নগুলির মধ্যে একটি হল রিট্রিভাল অগমেন্টেড জেনারেশন (RAG)। RAG প্যাটার্নে, আমরা এম্বেডিং-এ সাদৃশ্য অনুসন্ধান করে একটি ইনপুট প্রম্পটের সাথে সম্পর্কিত রেফারেন্স সামগ্রীর টুকরো খুঁজে পাই। এম্বেডিংগুলি পাঠ্যের বডিতে তথ্য সামগ্রী ক্যাপচার করে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) মডেলগুলিকে একটি সংখ্যাসূচক আকারে ভাষার সাথে কাজ করার অনুমতি দেয়। এমবেডিংগুলি হল ফ্লোটিং পয়েন্ট সংখ্যার ভেক্টর, তাই আমরা তিনটি গুরুত্বপূর্ণ প্রশ্নের উত্তর দিতে সাহায্য করতে তাদের বিশ্লেষণ করতে পারি: আমাদের রেফারেন্স ডেটা কি সময়ের সাথে পরিবর্তিত হচ্ছে? ব্যবহারকারীরা যে প্রশ্নগুলি জিজ্ঞাসা করছেন তা কি সময়ের সাথে পরিবর্তন হচ্ছে? এবং পরিশেষে, আমাদের রেফারেন্স ডেটা কতটা ভাল প্রশ্নগুলি কভার করে?
এই পোস্টে, আপনি ভেক্টর বিশ্লেষণ এমবেডিং এবং এমবেডিং ড্রিফটের সংকেত সনাক্ত করার জন্য কিছু বিবেচনার বিষয়ে শিখবেন। যেহেতু এমবেডিংগুলি সাধারণভাবে এনএলপি মডেল এবং বিশেষ করে জেনারেটিভ এআই সমাধানগুলির জন্য ডেটার একটি গুরুত্বপূর্ণ উত্স, তাই আমাদের এমবেডিংগুলি সময়ের সাথে পরিবর্তিত হচ্ছে কিনা তা পরিমাপ করার একটি উপায় প্রয়োজন (প্রবাহিত)। এই পোস্টে, আপনি বৃহৎ ভাষা মডেল (LLMS) সহ একটি ক্লাস্টারিং কৌশল ব্যবহার করে এমবেডিং ভেক্টরগুলিতে ড্রিফ্ট সনাক্তকরণ সম্পাদনের একটি উদাহরণ দেখতে পাবেন আমাজন সেজমেকার জাম্পস্টার্ট. এছাড়াও আপনি দুটি প্রদত্ত উদাহরণের মাধ্যমে এই ধারণাগুলি অন্বেষণ করতে সক্ষম হবেন, যার মধ্যে একটি এন্ড-টু-এন্ড নমুনা অ্যাপ্লিকেশন বা, ঐচ্ছিকভাবে, অ্যাপ্লিকেশনটির একটি উপসেট রয়েছে৷
RAG এর ওভারভিউ
সার্জারির RAG প্যাটার্ন আপনাকে বাহ্যিক উত্স থেকে জ্ঞান পুনরুদ্ধার করতে দেয়, যেমন পিডিএফ ডকুমেন্ট, উইকি নিবন্ধ, বা কল ট্রান্সক্রিপ্ট, এবং তারপর সেই জ্ঞান ব্যবহার করে এলএলএম-এ পাঠানো নির্দেশনা প্রম্পট বাড়ানোর জন্য। এটি একটি প্রতিক্রিয়া তৈরি করার সময় LLM-কে আরও প্রাসঙ্গিক তথ্য উল্লেখ করার অনুমতি দেয়। উদাহরণস্বরূপ, আপনি যদি একজন LLM কে জিজ্ঞেস করেন কিভাবে চকোলেট চিপ কুকিজ তৈরি করবেন, এতে আপনার নিজস্ব রেসিপি লাইব্রেরি থেকে তথ্য অন্তর্ভুক্ত থাকতে পারে। এই প্যাটার্নে, রেসিপি টেক্সট এম্বেডিং মডেল ব্যবহার করে এম্বেডিং ভেক্টরে রূপান্তরিত হয় এবং একটি ভেক্টর ডাটাবেসে সংরক্ষিত হয়। আগত প্রশ্নগুলি এম্বেডিং-এ রূপান্তরিত হয় এবং তারপর ভেক্টর ডাটাবেস সম্পর্কিত বিষয়বস্তু খুঁজে পেতে একটি মিল অনুসন্ধান চালায়। প্রশ্ন এবং রেফারেন্স ডেটা তারপর LLM-এর জন্য প্রম্পটে যান।
আসুন এম্বেডিং ভেক্টরগুলিকে ঘনিষ্ঠভাবে দেখে নেওয়া যাক যা তৈরি হয় এবং কীভাবে সেই ভেক্টরগুলিতে ড্রিফট বিশ্লেষণ করা যায়।
এম্বেডিং ভেক্টর উপর বিশ্লেষণ
এমবেডিং ভেক্টর হল আমাদের ডেটার সাংখ্যিক উপস্থাপনা তাই এই ভেক্টরগুলির বিশ্লেষণ আমাদের রেফারেন্স ডেটার অন্তর্দৃষ্টি প্রদান করতে পারে যা পরবর্তীতে ড্রিফটের সম্ভাব্য সংকেত সনাক্ত করতে ব্যবহার করা যেতে পারে। এমবেডিং ভেক্টর n-মাত্রিক স্থানের একটি আইটেমকে উপস্থাপন করে, যেখানে n প্রায়শই বড় হয়। উদাহরণস্বরূপ, এই পোস্টে ব্যবহৃত GPT-J 6B মডেলটি 4096 আকারের ভেক্টর তৈরি করে। ড্রিফট পরিমাপ করতে, ধরে নিন যে আমাদের অ্যাপ্লিকেশনটি রেফারেন্স ডেটা এবং ইনকামিং প্রম্পট উভয়ের জন্য এমবেডিং ভেক্টর ক্যাপচার করে।
আমরা প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস (PCA) ব্যবহার করে মাত্রা হ্রাস করার মাধ্যমে শুরু করি। পিসিএ ডেটাতে বেশিরভাগ বৈচিত্র সংরক্ষণ করার সময় মাত্রার সংখ্যা কমানোর চেষ্টা করে। এই ক্ষেত্রে, আমরা এমন মাত্রার সংখ্যা খুঁজে বের করার চেষ্টা করি যা 95% ভেরিয়েন্স সংরক্ষণ করে, যা দুটি স্ট্যান্ডার্ড বিচ্যুতির মধ্যে যেকোনো কিছুকে ক্যাপচার করা উচিত।
তারপর আমরা ক্লাস্টার কেন্দ্রগুলির একটি সেট সনাক্ত করতে K-Means ব্যবহার করি। কে-মিনস পয়েন্টগুলিকে ক্লাস্টারে একত্রিত করার চেষ্টা করে যাতে প্রতিটি ক্লাস্টার তুলনামূলকভাবে কমপ্যাক্ট হয় এবং ক্লাস্টারগুলি একে অপরের থেকে যতটা সম্ভব দূরে থাকে।
আমরা নিম্নলিখিত চিত্রে দেখানো ক্লাস্টারিং আউটপুটের উপর ভিত্তি করে নিম্নলিখিত তথ্য গণনা করি:
- PCA-তে মাত্রার সংখ্যা যা প্রকরণের 95% ব্যাখ্যা করে
- প্রতিটি ক্লাস্টার কেন্দ্র, বা সেন্ট্রোয়েডের অবস্থান
অতিরিক্তভাবে, আমরা প্রতিটি ক্লাস্টারে নমুনার অনুপাত (উচ্চ বা নিম্ন) দেখি, যেমনটি নিম্নলিখিত চিত্রে দেখানো হয়েছে।
অবশেষে, আমরা নিম্নলিখিত গণনা করতে এই বিশ্লেষণ ব্যবহার করি:
- নিষ্ক্রিয়তা – জড়তা হল ক্লাস্টার সেন্ট্রোয়েডের বর্গাকার দূরত্বের সমষ্টি, যা K-Means ব্যবহার করে ডেটা কতটা ভালোভাবে ক্লাস্টার করা হয়েছে তা পরিমাপ করে।
- সিলুয়েট স্কোর – সিলুয়েট স্কোর হল ক্লাস্টারের মধ্যে সামঞ্জস্যের বৈধতার জন্য একটি পরিমাপ, এবং -1 থেকে 1 পর্যন্ত রেঞ্জ। 1 এর কাছাকাছি একটি মান মানে একটি ক্লাস্টারের বিন্দুগুলি একই ক্লাস্টারের অন্যান্য পয়েন্টের কাছাকাছি এবং এর থেকে অনেক দূরে। অন্যান্য ক্লাস্টারের পয়েন্ট। সিলুয়েট স্কোরের একটি চাক্ষুষ উপস্থাপনা নিম্নলিখিত চিত্রে দেখা যেতে পারে।
উত্স রেফারেন্স ডেটা এবং প্রম্পট উভয়ের জন্য এমবেডিংয়ের স্ন্যাপশটের জন্য আমরা পর্যায়ক্রমে এই তথ্যটি ক্যাপচার করতে পারি। এই ডেটা ক্যাপচার করা আমাদের এম্বেডিং ড্রিফটের সম্ভাব্য সংকেত বিশ্লেষণ করতে দেয়।
এম্বেডিং ড্রিফট সনাক্ত করা হচ্ছে
পর্যায়ক্রমে, আমরা ডেটার স্ন্যাপশটের মাধ্যমে ক্লাস্টারিং তথ্য তুলনা করতে পারি, যার মধ্যে রেফারেন্স ডেটা এম্বেডিং এবং প্রম্পট এম্বেডিং অন্তর্ভুক্ত থাকে। প্রথমত, আমরা ক্লাস্টারিং কাজ থেকে এমবেডিং ডেটা, জড়তা এবং সিলুয়েট স্কোরের 95% বৈচিত্র ব্যাখ্যা করার জন্য প্রয়োজনীয় মাত্রার সংখ্যা তুলনা করতে পারি। আপনি নীচের সারণীতে দেখতে পাচ্ছেন, একটি বেসলাইনের তুলনায়, এম্বেডিংয়ের সর্বশেষ স্ন্যাপশটের বৈচিত্র ব্যাখ্যা করার জন্য আরও 39টি মাত্রা প্রয়োজন, যা নির্দেশ করে যে আমাদের ডেটা আরও বিচ্ছুরিত হয়েছে। জড়তা বেড়েছে, ইঙ্গিত করে যে নমুনাগুলি তাদের ক্লাস্টার কেন্দ্র থেকে আরও দূরে রয়েছে। অতিরিক্তভাবে, সিলুয়েট স্কোর কমে গেছে, যা নির্দেশ করে যে ক্লাস্টারগুলি ঠিকভাবে সংজ্ঞায়িত নয়। প্রম্পট ডেটার জন্য, এটি নির্দেশ করতে পারে যে সিস্টেমে যে ধরনের প্রশ্ন আসছে তা আরও বিষয় কভার করছে।
পরবর্তীতে, নিম্নলিখিত চিত্রে, আমরা দেখতে পাচ্ছি কিভাবে প্রতিটি ক্লাস্টারে নমুনার অনুপাত সময়ের সাথে পরিবর্তিত হয়েছে। এটি আমাদের দেখাতে পারে যে আমাদের নতুন রেফারেন্স ডেটা বিস্তৃতভাবে পূর্ববর্তী সেটের মতো, বা নতুন এলাকাগুলি কভার করে।
অবশেষে, আমরা দেখতে পাচ্ছি যে ক্লাস্টার কেন্দ্রগুলি চলমান কিনা, যা ক্লাস্টারে তথ্যের প্রবাহ দেখাবে, যেমনটি নিম্নলিখিত টেবিলে দেখানো হয়েছে।
ইনকামিং প্রশ্নের জন্য তথ্য কভারেজ রেফারেন্স
আমাদের রেফারেন্স ডেটা আগত প্রশ্নের সাথে কতটা সারিবদ্ধ তা আমরা মূল্যায়ন করতে পারি। এটি করার জন্য, আমরা একটি রেফারেন্স ডেটা ক্লাস্টারে প্রতিটি প্রম্পট এমবেডিং বরাদ্দ করি। আমরা প্রতিটি প্রম্পট থেকে তার সংশ্লিষ্ট কেন্দ্রের দূরত্ব গণনা করি, এবং সেই দূরত্বগুলির গড়, মধ্যমা এবং মানক বিচ্যুতি দেখি। আমরা সেই তথ্য সংরক্ষণ করতে পারি এবং দেখতে পারি যে এটি সময়ের সাথে সাথে কীভাবে পরিবর্তিত হয়।
নিম্নলিখিত চিত্রটি সময়ের সাথে সাথে প্রম্পট এম্বেডিং এবং রেফারেন্স ডেটা সেন্টারের মধ্যে দূরত্ব বিশ্লেষণ করার একটি উদাহরণ দেখায়।
আপনি দেখতে পাচ্ছেন, প্রম্পট এম্বেডিং এবং রেফারেন্স ডেটা সেন্টারের মধ্যে গড়, মধ্যমা এবং মানক বিচ্যুতি দূরত্বের পরিসংখ্যান প্রাথমিক বেসলাইন এবং সর্বশেষ স্ন্যাপশটের মধ্যে হ্রাস পাচ্ছে। যদিও দূরত্বের নিখুঁত মান ব্যাখ্যা করা কঠিন, আমরা রেফারেন্স ডেটা এবং ইনকামিং প্রশ্নের মধ্যে শব্দার্থিক ওভারল্যাপ সময়ের সাথে আরও ভাল বা খারাপ হচ্ছে কিনা তা নির্ধারণ করতে প্রবণতাগুলি ব্যবহার করতে পারি।
নমুনা আবেদন
পূর্ববর্তী বিভাগে আলোচনা করা পরীক্ষামূলক ফলাফলগুলি সংগ্রহ করার জন্য, আমরা একটি নমুনা অ্যাপ্লিকেশন তৈরি করেছি যা সেজমেকার জাম্পস্টার্টের মাধ্যমে স্থাপন করা এমবেডিং এবং জেনারেশন মডেলগুলি ব্যবহার করে আরএজি প্যাটার্ন প্রয়োগ করে আমাজন সেজমেকার রিয়েল-টাইম এন্ডপয়েন্ট।
অ্যাপ্লিকেশনটির তিনটি মূল উপাদান রয়েছে:
- আমরা একটি ইন্টারেক্টিভ ফ্লো ব্যবহার করি, যাতে ল্যাংচেইন ব্যবহার করে একটি RAG অর্কেস্ট্রেশন স্তরের সাথে মিলিত প্রম্পট ক্যাপচার করার জন্য একটি ব্যবহারকারী ইন্টারফেস অন্তর্ভুক্ত থাকে।
- ডেটা প্রসেসিং ফ্লো পিডিএফ ডকুমেন্টগুলি থেকে ডেটা বের করে এবং এম্বেডিং তৈরি করে যা জমা হয় আমাজন ওপেন সার্চ সার্ভিস. আমরা অ্যাপ্লিকেশনের চূড়ান্ত এম্বেডিং ড্রিফ্ট বিশ্লেষণ উপাদানেও এগুলি ব্যবহার করি।
- এমবেডিংগুলি ক্যাপচার করা হয়৷ আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) এর মাধ্যমে আমাজন কিনেস ডেটা ফায়ারহোজ ose, এবং আমরা এর সংমিশ্রণ চালাই এডাব্লুএস আঠালো এক্সট্র্যাক্ট, ট্রান্সফর্ম, এবং লোড (ETL) জব এবং জুপিটার নোটবুক এম্বেডিং বিশ্লেষণ করতে।
নিম্নলিখিত চিত্রটি শেষ থেকে শেষ স্থাপত্যকে চিত্রিত করে।
সম্পূর্ণ নমুনা কোড পাওয়া যায় GitHub. প্রদত্ত কোড দুটি ভিন্ন প্যাটার্নে উপলব্ধ:
- একটি Streamlit ফ্রন্টএন্ড সহ সম্পূর্ণ-স্ট্যাক অ্যাপ্লিকেশনের নমুনা - এটি একটি এন্ড-টু-এন্ড অ্যাপ্লিকেশন প্রদান করে, যার মধ্যে রয়েছে একটি ইউজার ইন্টারফেস স্ট্রিমলিট ব্যবহার করে প্রম্পট ক্যাপচার করার জন্য, আরএজি অর্কেস্ট্রেশন লেয়ারের সাথে মিলিত, ল্যাংচেইন চালু ব্যবহার করে অ্যামাজন ইলাস্টিক কনটেইনার পরিষেবা (Amazon ECS) সহ AWS Fargate
- ব্যাকএন্ড অ্যাপ্লিকেশন - যারা সম্পূর্ণ অ্যাপ্লিকেশন স্ট্যাক স্থাপন করতে চান না তাদের জন্য, আপনি ঐচ্ছিকভাবে শুধুমাত্র ব্যাকএন্ড স্থাপন করতে বেছে নিতে পারেন এডাব্লুএস ক্লাউড ডেভেলপমেন্ট কিট (AWS CDK) স্ট্যাক, এবং তারপর LangChain ব্যবহার করে RAG অর্কেস্ট্রেশন করার জন্য প্রদত্ত জুপিটার নোটবুক ব্যবহার করুন
প্রদত্ত নিদর্শনগুলি তৈরি করার জন্য, নিম্নলিখিত বিভাগে বিশদ কিছু পূর্বশর্ত রয়েছে, জেনারেটিভ এবং টেক্সট এমবেডিং মডেলগুলি স্থাপন করা থেকে শুরু করে তারপরে অতিরিক্ত পূর্বশর্তগুলিতে এগিয়ে যাওয়া।
সেজমেকার জাম্পস্টার্টের মাধ্যমে মডেল স্থাপন করুন
উভয় নিদর্শন একটি এমবেডিং মডেল এবং জেনারেটিভ মডেলের স্থাপনা অনুমান করে। এর জন্য, আপনি SageMaker JumpStart থেকে দুটি মডেল স্থাপন করবেন। প্রথম মডেল, GPT-J 6B, এম্বেডিং মডেল হিসাবে ব্যবহৃত হয় এবং দ্বিতীয় মডেল, Falcon-40b, পাঠ্য তৈরির জন্য ব্যবহৃত হয়।
আপনি SageMaker JumpStart এর মাধ্যমে এই মডেলগুলির প্রতিটি স্থাপন করতে পারেন এডাব্লুএস ম্যানেজমেন্ট কনসোল, অ্যামাজন সেজমেকার স্টুডিও, বা প্রোগ্রামগতভাবে। আরো তথ্যের জন্য, পড়ুন জাম্পস্টার্ট ফাউন্ডেশন মডেলগুলি কীভাবে ব্যবহার করবেন. স্থাপনা সহজ করার জন্য, আপনি ব্যবহার করতে পারেন দেওয়া নোটবুক সেজমেকার জাম্পস্টার্ট দ্বারা স্বয়ংক্রিয়ভাবে তৈরি নোটবুক থেকে প্রাপ্ত। এই নোটবুকটি সেজমেকার জাম্পস্টার্ট এমএল হাব থেকে মডেলগুলিকে টেনে আনে এবং সেগুলিকে দুটি পৃথক সেজমেকার রিয়েল-টাইম এন্ডপয়েন্টে স্থাপন করে।
নমুনা নোটবুকে একটি পরিষ্কার বিভাগও রয়েছে। এখনও সেই বিভাগটি চালাবেন না, কারণ এটি সবেমাত্র স্থাপন করা শেষ পয়েন্টগুলিকে মুছে ফেলবে। ওয়াকথ্রু শেষে আপনি পরিচ্ছন্নতা সম্পূর্ণ করবেন।
শেষ পয়েন্টগুলির সফল স্থাপনা নিশ্চিত করার পরে, আপনি সম্পূর্ণ নমুনা অ্যাপ্লিকেশন স্থাপন করতে প্রস্তুত৷ যাইহোক, যদি আপনি শুধুমাত্র ব্যাকএন্ড এবং বিশ্লেষণ নোটবুকগুলি অন্বেষণ করতে বেশি আগ্রহী হন, তাহলে আপনি ঐচ্ছিকভাবে শুধুমাত্র সেটিই স্থাপন করতে পারেন, যা পরবর্তী বিভাগে কভার করা হয়েছে।
বিকল্প 1: শুধুমাত্র ব্যাকএন্ড অ্যাপ্লিকেশন স্থাপন করুন
এই প্যাটার্নটি আপনাকে শুধুমাত্র ব্যাকএন্ড সমাধান স্থাপন করতে এবং জুপিটার নোটবুক ব্যবহার করে সমাধানের সাথে ইন্টারঅ্যাক্ট করতে দেয়। আপনি যদি সম্পূর্ণ ফ্রন্টএন্ড ইন্টারফেস তৈরি করতে না চান তবে এই প্যাটার্নটি ব্যবহার করুন।
পূর্বশর্ত
আপনার নিম্নলিখিত পূর্বশর্ত থাকা উচিত:
- একটি সেজমেকার জাম্পস্টার্ট মডেলের শেষ পয়েন্ট স্থাপন করা হয়েছে - পূর্বে বর্ণিত সেজমেকার জাম্পস্টার্ট ব্যবহার করে সেজমেকার রিয়েল-টাইম এন্ডপয়েন্টে মডেলগুলি স্থাপন করুন
- স্থাপনার পরামিতি - নিম্নলিখিত রেকর্ড করুন:
- টেক্সট মডেল এন্ডপয়েন্ট নাম - সেজমেকার জাম্পস্টার্টের সাথে টেক্সট জেনারেশন মডেলের এন্ডপয়েন্ট নাম
- এমবেডিং মডেলের শেষ পয়েন্টের নাম - সেজমেকার জাম্পস্টার্টের সাথে স্থাপন করা এমবেডিং মডেলের শেষ পয়েন্টের নাম
AWS CDK ব্যবহার করে সম্পদ স্থাপন করুন
AWS CDK স্ট্যাক স্থাপন করতে পূর্ববর্তী বিভাগে উল্লেখ করা স্থাপনার পরামিতি ব্যবহার করুন। AWS CDK ইনস্টলেশন সম্পর্কে আরও তথ্যের জন্য, পড়ুন AWS CDK দিয়ে শুরু করা.
নিশ্চিত করুন যে ডকার ইনস্টল করা আছে এবং ওয়ার্কস্টেশনে চলছে যা AWS CDK স্থাপনার জন্য ব্যবহার করা হবে। নির্দেশ করে ডকার পান অতিরিক্ত নির্দেশনার জন্য।
বিকল্পভাবে, আপনি নামক ফাইলে প্রসঙ্গ মান লিখতে পারেন cdk.context.json
মধ্যে pattern1-rag/cdk
ডিরেক্টরি এবং রান cdk deploy BackendStack --exclusively
.
স্থাপনা আউটপুট প্রিন্ট করবে, যার মধ্যে কিছু নোটবুক চালানোর জন্য প্রয়োজন হবে। আপনি প্রশ্ন এবং উত্তর দেওয়া শুরু করার আগে, রেফারেন্স নথিগুলি এম্বেড করুন, যেমনটি পরবর্তী বিভাগে দেখানো হয়েছে।
রেফারেন্স নথি এম্বেড করুন
এই RAG পদ্ধতির জন্য, রেফারেন্স নথিগুলি প্রথমে একটি পাঠ্য এমবেডিং মডেলের সাথে এম্বেড করা হয় এবং একটি ভেক্টর ডাটাবেসে সংরক্ষণ করা হয়। এই সমাধানে, একটি ইনজেশন পাইপলাইন তৈরি করা হয়েছে যা পিডিএফ ডকুমেন্ট গ্রহণ করে।
An অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2) উদাহরণ পিডিএফ ডকুমেন্ট ইনজেশনের জন্য তৈরি করা হয়েছে এবং একটি আমাজন ইলাস্টিক ফাইল সিস্টেম (Amazon EFS) ফাইল সিস্টেম পিডিএফ নথি সংরক্ষণ করতে EC2 ইন্সট্যান্সে মাউন্ট করা হয়। একটি AWS ডেটা সিঙ্ক EFS ফাইল সিস্টেম পাথে পাওয়া পিডিএফ ডকুমেন্ট আনতে এবং টেক্সট এম্বেডিং প্রক্রিয়া শুরু করতে একটি S3 বালতিতে আপলোড করার জন্য টাস্কটি প্রতি ঘন্টায় চালানো হয়। এই প্রক্রিয়াটি রেফারেন্স নথিগুলিকে এম্বেড করে এবং OpenSearch পরিষেবাতে এমবেডিংগুলিকে সংরক্ষণ করে৷ এটি পরবর্তী বিশ্লেষণের জন্য Kinesis Data Firehose-এর মাধ্যমে একটি S3 বালতিতে একটি এমবেডিং সংরক্ষণাগার সংরক্ষণ করে।
রেফারেন্স নথিগুলি গ্রহণ করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- তৈরি করা নমুনা EC2 ইনস্ট্যান্স আইডি পুনরুদ্ধার করুন (AWS CDK আউটপুট দেখুন
JumpHostId
) এবং ব্যবহার করে সংযোগ করুন সেশন ম্যানেজার, একটি ক্ষমতা এডাব্লুএস সিস্টেম ম্যানেজার. নির্দেশাবলীর জন্য, পড়ুন AWS সিস্টেম ম্যানেজার সেশন ম্যানেজারের সাথে আপনার লিনাক্স ইনস্ট্যান্সের সাথে সংযোগ করুন. - ডিরেক্টরিতে যান
/mnt/efs/fs1
, যেখানে EFS ফাইল সিস্টেম মাউন্ট করা হয়, এবং নামক একটি ফোল্ডার তৈরি করুনingest
: - আপনার রেফারেন্স PDF নথি যোগ করুন
ingest
ডিরেক্টরি.
DataSync টাস্কটি এম্বেডিং প্রক্রিয়া শুরু করতে এই ডিরেক্টরিতে পাওয়া সমস্ত ফাইলগুলি Amazon S3 এ আপলোড করার জন্য কনফিগার করা হয়েছে।
DataSync টাস্ক প্রতি ঘণ্টায় চলে; আপনার যোগ করা PDF নথিগুলির জন্য অবিলম্বে এমবেডিং প্রক্রিয়া শুরু করতে আপনি ঐচ্ছিকভাবে ম্যানুয়ালি কাজটি শুরু করতে পারেন।
- টাস্ক শুরু করতে, AWS CDK আউটপুট থেকে টাস্ক আইডি সনাক্ত করুন
DataSyncTaskID
এবং কাজ শুরু করুন ডিফল্ট সহ।
এমবেডিংগুলি তৈরি হওয়ার পরে, আপনি পরবর্তী বিভাগে দেখানো হিসাবে, জুপিটার নোটবুকের মাধ্যমে RAG প্রশ্ন এবং উত্তর শুরু করতে পারেন।
একটি Jupyter নোটবুক ব্যবহার করে প্রশ্ন এবং উত্তর
নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- AWS CDK আউটপুট থেকে SageMaker নোটবুকের উদাহরণের নামটি পুনরুদ্ধার করুন
NotebookInstanceName
এবং SageMaker কনসোল থেকে JupyterLab-এর সাথে সংযোগ করুন। - ডিরেক্টরিতে যান
fmops/full-stack/pattern1-rag/notebooks/
. - নোটবুক খুলুন এবং চালান
query-llm.ipynb
RAG ব্যবহার করে প্রশ্ন ও উত্তর সম্পাদন করার জন্য নোটবুকের উদাহরণে।
ব্যবহার নিশ্চিত করুন conda_python3
নোটবুকের জন্য কার্নেল।
এই প্যাটার্নটি সম্পূর্ণ-স্ট্যাক অ্যাপ্লিকেশনের জন্য প্রয়োজনীয় অতিরিক্ত পূর্বশর্তগুলি সরবরাহ করার প্রয়োজন ছাড়াই ব্যাকএন্ড সমাধানটি অন্বেষণ করতে কার্যকর। পরবর্তী বিভাগে আপনার জেনারেটিভ AI অ্যাপ্লিকেশনের সাথে ইন্টারঅ্যাক্ট করার জন্য একটি ইউজার ইন্টারফেস প্রদান করার জন্য ফ্রন্টএন্ড এবং ব্যাকএন্ড উভয় উপাদান সহ একটি ফুল-স্ট্যাক অ্যাপ্লিকেশনের বাস্তবায়নকে কভার করে।
বিকল্প 2: একটি স্ট্রিমলিট ফ্রন্টএন্ড সহ সম্পূর্ণ-স্ট্যাক নমুনা অ্যাপ্লিকেশন স্থাপন করুন
এই প্যাটার্ন আপনাকে প্রশ্ন এবং উত্তরের জন্য একটি ব্যবহারকারীর ফ্রন্টএন্ড ইন্টারফেসের সাথে সমাধান স্থাপন করতে দেয়।
পূর্বশর্ত
নমুনা অ্যাপ্লিকেশন স্থাপন করতে, আপনার নিম্নলিখিত পূর্বশর্ত থাকতে হবে:
- সেজমেকার জাম্পস্টার্ট মডেলের শেষ পয়েন্ট স্থাপন করা হয়েছে - প্রদত্ত নোটবুকগুলি ব্যবহার করে পূর্ববর্তী বিভাগে বর্ণিত সেজমেকার জাম্পস্টার্ট ব্যবহার করে আপনার সেজমেকার রিয়েল-টাইম এন্ডপয়েন্টে মডেলগুলি স্থাপন করুন।
- আমাজন রুট 53 হোস্টেড জোন - তৈরি একটি অ্যামাজন রুট 53 পাবলিক হোস্টেড জোন এই সমাধানের জন্য ব্যবহার করতে। আপনি একটি বিদ্যমান রুট 53 পাবলিক হোস্টেড জোন ব্যবহার করতে পারেন, যেমন
example.com
. - AWS সার্টিফিকেট ম্যানেজার সার্টিফিকেট - বিধান একটি AWS সার্টিফিকেট ম্যানেজার (ACM) রুট 53 হোস্ট করা জোন ডোমেন নাম এবং এর প্রযোজ্য সাবডোমেনের জন্য TLS শংসাপত্র, যেমন
example.com
এবং*.example.com
সমস্ত সাবডোমেনের জন্য। নির্দেশাবলীর জন্য, পড়ুন একটি পাবলিক সার্টিফিকেট অনুরোধ. এই শংসাপত্রটি HTTPS চালু করতে ব্যবহার করা হয় অ্যামাজন মেঘ ফ্রন্ট এবং অরিজিন লোড ব্যালেন্সার। - স্থাপনার পরামিতি - নিম্নলিখিত রেকর্ড করুন:
- ফ্রন্টএন্ড অ্যাপ্লিকেশন কাস্টম ডোমেন নাম - ফ্রন্টএন্ড নমুনা অ্যাপ্লিকেশন অ্যাক্সেস করতে ব্যবহৃত একটি কাস্টম ডোমেন নাম। প্রদত্ত ডোমেন নামটি একটি রুট 53 ডিএনএস রেকর্ড তৈরি করতে ব্যবহৃত হয় যা ফ্রন্টএন্ড ক্লাউডফ্রন্ট বিতরণের দিকে নির্দেশ করে; উদাহরণ স্বরূপ,
app.example.com
. - লোড ব্যালেন্সার মূল কাস্টম ডোমেন নাম - ক্লাউডফ্রন্ট ডিস্ট্রিবিউশন লোড ব্যালেন্সার উৎপত্তির জন্য ব্যবহৃত একটি কাস্টম ডোমেন নাম। প্রদত্ত ডোমেন নামটি মূল লোড ব্যালেন্সারের দিকে নির্দেশ করে একটি রুট 53 DNS রেকর্ড তৈরি করতে ব্যবহৃত হয়; উদাহরণ স্বরূপ,
app-lb.example.com
. - রুট 53 হোস্টেড জোন আইডি - প্রদত্ত কাস্টম ডোমেন নামগুলি হোস্ট করার জন্য রুট 53 হোস্ট করা জোন আইডি; উদাহরণ স্বরূপ,
ZXXXXXXXXYYYYYYYYY
. - রুট 53 হোস্ট করা জোনের নাম - প্রদত্ত কাস্টম ডোমেন নামগুলি হোস্ট করার জন্য রুট 53 হোস্ট করা অঞ্চলের নাম; উদাহরণ স্বরূপ,
example.com
. - ACM সার্টিফিকেট ARN - ACM সার্টিফিকেটের ARN প্রদত্ত কাস্টম ডোমেনের সাথে ব্যবহার করা হবে।
- টেক্সট মডেল এন্ডপয়েন্ট নাম - সেজমেকার জাম্পস্টার্টের সাথে টেক্সট জেনারেশন মডেলের এন্ডপয়েন্ট নাম।
- এমবেডিং মডেলের শেষ পয়েন্টের নাম - সেজমেকার জাম্পস্টার্টের সাথে স্থাপন করা এমবেডিং মডেলের শেষ পয়েন্টের নাম।
- ফ্রন্টএন্ড অ্যাপ্লিকেশন কাস্টম ডোমেন নাম - ফ্রন্টএন্ড নমুনা অ্যাপ্লিকেশন অ্যাক্সেস করতে ব্যবহৃত একটি কাস্টম ডোমেন নাম। প্রদত্ত ডোমেন নামটি একটি রুট 53 ডিএনএস রেকর্ড তৈরি করতে ব্যবহৃত হয় যা ফ্রন্টএন্ড ক্লাউডফ্রন্ট বিতরণের দিকে নির্দেশ করে; উদাহরণ স্বরূপ,
AWS CDK ব্যবহার করে সম্পদ স্থাপন করুন
AWS CDK স্ট্যাক স্থাপন করার জন্য পূর্বশর্তগুলিতে আপনি উল্লেখ করা স্থাপনার পরামিতিগুলি ব্যবহার করুন৷ আরো তথ্যের জন্য, পড়ুন AWS CDK দিয়ে শুরু করা.
নিশ্চিত করুন যে ডকার ইনস্টল করা আছে এবং ওয়ার্কস্টেশনে চলছে যা AWS CDK স্থাপনার জন্য ব্যবহার করা হবে।
পূর্ববর্তী কোডে, -c ইনপুটে দেওয়া প্রয়োজনীয় পূর্বশর্তগুলির আকারে একটি প্রসঙ্গ মান উপস্থাপন করে। বিকল্পভাবে, আপনি নামক ফাইলে প্রসঙ্গ মান লিখতে পারেন cdk.context.json
মধ্যে pattern1-rag/cdk
ডিরেক্টরি এবং রান cdk deploy --all
.
মনে রাখবেন যে আমরা ফাইলটিতে অঞ্চলটি উল্লেখ করেছি bin/cdk.ts
. ALB অ্যাক্সেস লগ কনফিগার করার জন্য একটি নির্দিষ্ট অঞ্চলের প্রয়োজন। আপনি স্থাপনার আগে এই অঞ্চল পরিবর্তন করতে পারেন।
স্থাপনা স্ট্রিমলিট অ্যাপ্লিকেশন অ্যাক্সেস করার জন্য ইউআরএল প্রিন্ট করবে। আপনি প্রশ্ন এবং উত্তর দেওয়া শুরু করার আগে, আপনাকে রেফারেন্স নথিগুলি এম্বেড করতে হবে, যেমনটি পরবর্তী বিভাগে দেখানো হয়েছে।
রেফারেন্স নথি এম্বেড করুন
একটি RAG পদ্ধতির জন্য, রেফারেন্স নথিগুলি প্রথমে একটি পাঠ্য এমবেডিং মডেলের সাথে এম্বেড করা হয় এবং একটি ভেক্টর ডাটাবেসে সংরক্ষণ করা হয়। এই সমাধানে, একটি ইনজেশন পাইপলাইন তৈরি করা হয়েছে যা পিডিএফ ডকুমেন্ট গ্রহণ করে।
যেমন আমরা প্রথম স্থাপনার বিকল্পে আলোচনা করেছি, পিডিএফ ডকুমেন্ট ইনজেশনের জন্য একটি উদাহরণ EC2 ইন্সট্যান্স তৈরি করা হয়েছে এবং পিডিএফ ডকুমেন্ট সেভ করার জন্য EC2 ইনস্ট্যান্সে একটি EFS ফাইল সিস্টেম মাউন্ট করা হয়েছে। EFS ফাইল সিস্টেম পাথে পাওয়া পিডিএফ ডকুমেন্ট আনতে এবং টেক্সট এম্বেডিং প্রক্রিয়া শুরু করতে সেগুলিকে একটি S3 বালতিতে আপলোড করতে প্রতি ঘন্টায় একটি DataSync টাস্ক চালানো হয়। এই প্রক্রিয়াটি রেফারেন্স নথিগুলিকে এম্বেড করে এবং OpenSearch পরিষেবাতে এমবেডিংগুলিকে সংরক্ষণ করে৷ এটি পরবর্তী বিশ্লেষণের জন্য Kinesis Data Firehose-এর মাধ্যমে একটি S3 বালতিতে একটি এমবেডিং সংরক্ষণাগার সংরক্ষণ করে।
রেফারেন্স নথিগুলি গ্রহণ করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- তৈরি করা নমুনা EC2 ইনস্ট্যান্স আইডি পুনরুদ্ধার করুন (AWS CDK আউটপুট দেখুন
JumpHostId
) এবং সেশন ম্যানেজার ব্যবহার করে সংযোগ করুন। - ডিরেক্টরিতে যান
/mnt/efs/fs1
, যেখানে EFS ফাইল সিস্টেম মাউন্ট করা হয়, এবং নামক একটি ফোল্ডার তৈরি করুনingest
: - আপনার রেফারেন্স PDF নথি যোগ করুন
ingest
ডিরেক্টরি.
DataSync টাস্কটি এম্বেডিং প্রক্রিয়া শুরু করতে এই ডিরেক্টরিতে পাওয়া সমস্ত ফাইলগুলি Amazon S3 এ আপলোড করার জন্য কনফিগার করা হয়েছে।
DataSync টাস্ক একটি ঘন্টার সময়সূচীতে চলে। আপনার যোগ করা PDF নথিগুলির জন্য অবিলম্বে এমবেডিং প্রক্রিয়া শুরু করতে আপনি ঐচ্ছিকভাবে কাজটি ম্যানুয়ালি শুরু করতে পারেন।
- টাস্ক শুরু করতে, AWS CDK আউটপুট থেকে টাস্ক আইডি সনাক্ত করুন
DataSyncTaskID
এবং কাজ শুরু করুন ডিফল্ট সহ।
প্রশ্ন এবং উত্তর
রেফারেন্স নথিগুলি এম্বেড করার পরে, আপনি স্ট্রিমলিট অ্যাপ্লিকেশন অ্যাক্সেস করতে URL-এ গিয়ে RAG প্রশ্ন এবং উত্তর দেওয়া শুরু করতে পারেন। একটি অ্যামাজন কগনিটো প্রমাণীকরণ স্তর ব্যবহার করা হয়, তাই অ্যাপ্লিকেশনটিতে প্রথমবার অ্যাক্সেসের জন্য AWS CDK (ব্যবহারকারী পুলের নামের জন্য AWS CDK আউটপুট দেখুন) এর মাধ্যমে স্থাপন করা Amazon Cognito ব্যবহারকারী পুলে একটি ব্যবহারকারী অ্যাকাউন্ট তৈরি করতে হবে। একটি Amazon Cognito ব্যবহারকারী তৈরির নির্দেশাবলীর জন্য, পড়ুন AWS ম্যানেজমেন্ট কনসোলে একটি নতুন ব্যবহারকারী তৈরি করা হচ্ছে.
এম্বেড ড্রিফট বিশ্লেষণ
এই বিভাগে, আমরা আপনাকে দেখাই যে কীভাবে প্রথমে রেফারেন্স ডেটা এম্বেডিং এবং প্রম্পট এম্বেডিংয়ের একটি বেসলাইন তৈরি করে এবং তারপর সময়ের সাথে এম্বেডিংয়ের একটি স্ন্যাপশট তৈরি করে ড্রিফট বিশ্লেষণ করতে হয়। এটি আপনাকে স্ন্যাপশট এম্বেডিংয়ের সাথে বেসলাইন এম্বেডিং তুলনা করতে দেয়।
রেফারেন্স ডেটা এবং প্রম্পটের জন্য একটি এম্বেডিং বেসলাইন তৈরি করুন
রেফারেন্স ডেটার একটি এমবেডিং বেসলাইন তৈরি করতে, AWS Glue কনসোল খুলুন এবং ETL কাজ নির্বাচন করুন embedding-drift-analysis
. ETL কাজের জন্য পরামিতিগুলি নিম্নরূপ সেট করুন এবং কাজটি চালান:
- সেট
--job_type
থেকেBASELINE
. - সেট
--out_table
থেকে আমাজন ডায়নামোডিবি রেফারেন্স এমবেডিং ডেটার জন্য টেবিল। (AWS CDK আউটপুট দেখুনDriftTableReference
টেবিলের নামের জন্য।) - সেট
--centroid_table
রেফারেন্স সেন্ট্রয়েড ডেটার জন্য ডায়নামোডিবি টেবিলে। (AWS CDK আউটপুট দেখুনCentroidTableReference
টেবিলের নামের জন্য।) - সেট
--data_path
উপসর্গ সহ S3 বালতিতে; উদাহরণ স্বরূপ,s3://
/embeddingarchive/
. (AWS CDK আউটপুট দেখুনBucketName
বালতি নামের জন্য।)
একইভাবে, ETL কাজ ব্যবহার করে embedding-drift-analysis
, প্রম্পটগুলির একটি এমবেডিং বেসলাইন তৈরি করুন। ETL কাজের জন্য পরামিতিগুলি নিম্নরূপ সেট করুন এবং কাজটি চালান:
- সেট
--job_type
থেকেBASELINE
- সেট
--out_table
প্রম্পট এম্বেডিং ডেটার জন্য DynamoDB টেবিলে। (AWS CDK আউটপুট দেখুনDriftTablePromptsName
টেবিলের নামের জন্য।) - সেট
--centroid_table
প্রম্পট সেন্ট্রোয়েড ডেটার জন্য DynamoDB টেবিলে। (AWS CDK আউটপুট দেখুনCentroidTablePrompts
টেবিলের নামের জন্য।) - সেট
--data_path
উপসর্গ সহ S3 বালতিতে; উদাহরণ স্বরূপ,s3://
/promptarchive/
. (AWS CDK আউটপুট দেখুনBucketName
বালতি নামের জন্য।)
রেফারেন্স ডেটা এবং প্রম্পটের জন্য একটি এমবেডিং স্ন্যাপশট তৈরি করুন
আপনি OpenSearch পরিষেবাতে অতিরিক্ত তথ্য গ্রহণ করার পরে, ETL কাজ চালান embedding-drift-analysis
আবার রেফারেন্স ডেটা এমবেডিং স্ন্যাপশট করতে। পরামিতিগুলি ETL কাজের মতই হবে যা আপনি পূর্ববর্তী বিভাগে দেখানো রেফারেন্স ডেটার এম্বেডিং বেসলাইন তৈরি করতে দৌড়েছিলেন, সেট করার ব্যতিক্রম ছাড়া --job_type
প্যারামিটারে SNAPSHOT
.
একইভাবে, প্রম্পট এমবেডিং স্ন্যাপশট করতে, ETL কাজটি চালান embedding-drift-analysis
আবার পরামিতিগুলি ETL কাজের মতোই হবে যা আপনি পূর্ববর্তী বিভাগে দেখানো প্রম্পটের জন্য এমবেডিং বেসলাইন তৈরি করতে দৌড়েছিলেন, সেট করার ব্যতিক্রম ছাড়া --job_type
প্যারামিটারে SNAPSHOT
.
স্ন্যাপশটের সাথে বেসলাইন তুলনা করুন
রেফারেন্স ডেটা এবং প্রম্পটের জন্য এমবেডিং বেসলাইন এবং স্ন্যাপশট তুলনা করতে, প্রদত্ত নোটবুক ব্যবহার করুন pattern1-rag/notebooks/drift-analysis.ipynb
.
রেফারেন্স ডেটা বা প্রম্পটের জন্য এম্বেডিং তুলনা দেখতে, DynamoDB টেবিলের নামের ভেরিয়েবলগুলি পরিবর্তন করুন (tbl
এবং c_tbl
) নোটবুকের প্রতিটি রানের জন্য উপযুক্ত ডায়নামোডিবি টেবিলে নোটবুকের মধ্যে।
নোটবুক পরিবর্তনশীল tbl
উপযুক্ত ড্রিফট টেবিলের নাম পরিবর্তন করা উচিত। নোটবুকের ভেরিয়েবলটি কোথায় কনফিগার করতে হবে তার একটি উদাহরণ নিচে দেওয়া হল।
টেবিলের নামগুলি নিম্নরূপ পুনরুদ্ধার করা যেতে পারে:
- রেফারেন্স এমবেডিং ডেটার জন্য, AWS CDK আউটপুট থেকে ড্রিফট টেবিলের নাম পুনরুদ্ধার করুন
DriftTableReference
- প্রম্পট এমবেডিং ডেটার জন্য, AWS CDK আউটপুট থেকে ড্রিফ্ট টেবিলের নাম পুনরুদ্ধার করুন
DriftTablePromptsName
উপরন্তু, নোটবুক পরিবর্তনশীল c_tbl
উপযুক্ত সেন্ট্রোয়েড টেবিলের নাম পরিবর্তন করা উচিত। নোটবুকের ভেরিয়েবলটি কোথায় কনফিগার করতে হবে তার একটি উদাহরণ নিচে দেওয়া হল।
টেবিলের নামগুলি নিম্নরূপ পুনরুদ্ধার করা যেতে পারে:
- রেফারেন্স এমবেডিং ডেটার জন্য, AWS CDK আউটপুট থেকে সেন্ট্রয়েড টেবিলের নামটি পুনরুদ্ধার করুন
CentroidTableReference
- প্রম্পট এমবেডিং ডেটার জন্য, AWS CDK আউটপুট থেকে সেন্ট্রোয়েড টেবিলের নামটি পুনরুদ্ধার করুন
CentroidTablePrompts
রেফারেন্স ডেটা থেকে প্রম্পট দূরত্ব বিশ্লেষণ করুন
প্রথমে, AWS Glue কাজ চালান embedding-distance-analysis
. এই কাজটি রেফারেন্স ডেটা এমবেডিংয়ের K-Means মূল্যায়ন থেকে কোন ক্লাস্টার খুঁজে বের করবে, যে প্রতিটি প্রম্পট অন্তর্গত। তারপরে এটি প্রতিটি প্রম্পট থেকে সংশ্লিষ্ট ক্লাস্টারের কেন্দ্রে দূরত্বের গড়, মধ্য এবং মানক বিচ্যুতি গণনা করে।
আপনি নোটবুক চালাতে পারেন pattern1-rag/notebooks/distance-analysis.ipynb
সময়ের সাথে দূরত্বের মেট্রিক্সের প্রবণতা দেখতে। এটি আপনাকে প্রম্পট এমবেডিং দূরত্বের বন্টনের সামগ্রিক প্রবণতার ধারণা দেবে।
খাতাটি pattern1-rag/notebooks/prompt-distance-outliers.ipynb
একটি AWS Glue নোটবুক যা আউটলিয়ারগুলির সন্ধান করে, যা আপনাকে চিহ্নিত করতে সাহায্য করতে পারে যে আপনি আরও প্রম্পট পাচ্ছেন যা রেফারেন্স ডেটার সাথে সম্পর্কিত নয়৷
সাদৃশ্য স্কোর নিরীক্ষণ
OpenSearch Service থেকে সমস্ত মিল স্কোর লগ ইন করা আছে অ্যামাজন ক্লাউডওয়াচ অধীনে rag
নামস্থান ড্যাশবোর্ড RAG_Scores
গড় স্কোর এবং ইনজেস্ট করা মোট স্কোর দেখায়।
পরিষ্কার কর
ভবিষ্যতের চার্জ এড়াতে, আপনার তৈরি করা সমস্ত সংস্থান মুছুন।
স্থাপন করা SageMaker মডেল মুছুন
এর পরিচ্ছন্নতার অংশটি উল্লেখ করুন উদাহরণ দেওয়া নোটবুক স্থাপন করা SageMaker জাম্পস্টার্ট মডেল মুছে ফেলতে, অথবা আপনি করতে পারেন SageMaker কনসোলে মডেলগুলি মুছুন.
AWS CDK সংস্থানগুলি মুছুন৷
আপনি যদি আপনার পরামিতিগুলি a এ প্রবেশ করেন cdk.context.json
ফাইল, নিম্নরূপ পরিষ্কার করুন:
আপনি যদি কমান্ড লাইনে আপনার পরামিতিগুলি প্রবেশ করেন এবং শুধুমাত্র ব্যাকএন্ড অ্যাপ্লিকেশন (ব্যাকএন্ড AWS CDK স্ট্যাক) স্থাপন করেন, তাহলে নিম্নরূপ পরিষ্কার করুন:
আপনি যদি কমান্ড লাইনে আপনার প্যারামিটারগুলি প্রবেশ করান এবং সম্পূর্ণ সমাধান (ফ্রন্টএন্ড এবং ব্যাকএন্ড AWS CDK স্ট্যাক) স্থাপন করেন, তাহলে নিম্নরূপ পরিষ্কার করুন:
উপসংহার
এই পোস্টে, আমরা একটি অ্যাপ্লিকেশনের একটি কার্যকরী উদাহরণ প্রদান করেছি যা জেনারেটিভ এআই-এর জন্য RAG প্যাটার্নে রেফারেন্স ডেটা এবং প্রম্পট উভয়ের জন্য এমবেডিং ভেক্টর ক্যাপচার করে। আমরা দেখিয়েছি কিভাবে রেফারেন্স বা প্রম্পট ডেটা সময়ের সাথে প্রবাহিত হচ্ছে কিনা তা নির্ধারণ করতে ক্লাস্টারিং বিশ্লেষণ করতে হয় এবং ব্যবহারকারীরা যে ধরনের প্রশ্ন জিজ্ঞাসা করছেন তা রেফারেন্স ডেটা কতটা ভালোভাবে কভার করে। আপনি যদি ড্রিফ্ট সনাক্ত করেন তবে এটি একটি সংকেত প্রদান করতে পারে যে পরিবেশ পরিবর্তিত হয়েছে এবং আপনার মডেল নতুন ইনপুট পাচ্ছে যা এটি পরিচালনা করার জন্য অপ্টিমাইজ করা যাবে না। এটি পরিবর্তনশীল ইনপুটগুলির বিরুদ্ধে বর্তমান মডেলের সক্রিয় মূল্যায়নের অনুমতি দেয়।
লেখক সম্পর্কে
আবদুল্লাহি ওলাওয়ে আমাজন ওয়েব সার্ভিসেস (AWS) এর একজন সিনিয়র সলিউশন আর্কিটেক্ট। আবদুল্লাহি উইচিটা স্টেট ইউনিভার্সিটি থেকে কম্পিউটার নেটওয়ার্কিং-এ MSC ধারণ করেছেন এবং একজন প্রকাশিত লেখক যিনি বিভিন্ন প্রযুক্তি ডোমেইন যেমন DevOps, অবকাঠামো আধুনিকীকরণ এবং AI জুড়ে ভূমিকা রেখেছেন। তিনি বর্তমানে জেনারেটিভ এআই-এর উপর দৃষ্টি নিবদ্ধ করছেন এবং জেনারেটিভ এআই দ্বারা চালিত অত্যাধুনিক সমাধানগুলি স্থপতি এবং নির্মাণে উদ্যোগগুলিকে সহায়তা করার ক্ষেত্রে গুরুত্বপূর্ণ ভূমিকা পালন করেন। প্রযুক্তির রাজত্বের বাইরে, তিনি আবিষ্কারের শিল্পে আনন্দ খুঁজে পান। AI সমাধানগুলি তৈরি না করার সময়, তিনি নতুন জায়গাগুলি অন্বেষণ করতে তার পরিবারের সাথে ভ্রমণ উপভোগ করেন।
র্যান্ডি ডিফাউ AWS-এর একজন সিনিয়র প্রিন্সিপাল সলিউশন আর্কিটেক্ট। তিনি মিশিগান বিশ্ববিদ্যালয় থেকে একটি MSEE ধারণ করেছেন, যেখানে তিনি স্বায়ত্তশাসিত যানবাহনের জন্য কম্পিউটার দৃষ্টিতে কাজ করেছেন। তিনি কলোরাডো স্টেট ইউনিভার্সিটি থেকে এমবিএও করেছেন। র্যান্ডি সফটওয়্যার ইঞ্জিনিয়ারিং থেকে শুরু করে প্রোডাক্ট ম্যানেজমেন্ট পর্যন্ত টেকনোলজি স্পেসে বিভিন্ন পদে অধিষ্ঠিত হয়েছেন। ইন 2013 সালে বিগ ডেটা স্পেসে প্রবেশ করে এবং সেই অঞ্চলটি অন্বেষণ করে চলেছে। তিনি সক্রিয়ভাবে এমএল স্পেসে প্রকল্পগুলিতে কাজ করছেন এবং স্ট্র্যাটা এবং গ্লুকন সহ অসংখ্য সম্মেলনে উপস্থাপন করেছেন।
শেলবি আইজেনব্রোড Amazon Web Services (AWS)-এর একজন প্রিন্সিপাল এআই এবং মেশিন লার্নিং স্পেশালিস্ট সলিউশন আর্কিটেক্ট। তিনি 24 বছর ধরে একাধিক শিল্প, প্রযুক্তি এবং ভূমিকা নিয়ে প্রযুক্তিতে রয়েছেন। গ্রাহকদের স্কেলে এমএল ওয়ার্কলোড সরবরাহ এবং পরিচালনা করতে সহায়তা করার জন্য তিনি বর্তমানে তার DevOps এবং ML ব্যাকগ্রাউন্ডকে MLOps-এর ডোমেনে একত্রিত করার উপর মনোযোগ নিবদ্ধ করছেন। বিভিন্ন প্রযুক্তি ডোমেন জুড়ে 35টিরও বেশি পেটেন্ট মঞ্জুর করার সাথে, ব্যবসায়িক ফলাফল চালনা করার জন্য ক্রমাগত উদ্ভাবন এবং ডেটা ব্যবহার করার জন্য তার একটি আবেগ রয়েছে। Shelbee Coursera-এর ব্যবহারিক ডেটা সায়েন্স স্পেশালাইজেশনের একজন সহ-নির্মাতা এবং প্রশিক্ষক। তিনি ডেনভার চ্যাপ্টারের উইমেন ইন বিগ ডেটা (WiBD) এর সহ-পরিচালক। তার অবসর সময়ে, সে তার পরিবার, বন্ধুবান্ধব এবং অতি সক্রিয় কুকুরের সাথে সময় কাটাতে পছন্দ করে।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/machine-learning/monitor-embedding-drift-for-llms-deployed-from-amazon-sagemaker-jumpstart/
- : আছে
- : হয়
- :না
- :কোথায়
- $ ইউপি
- 1
- 10
- 100
- 2013
- 24
- 35%
- 39
- 7
- 9
- 95%
- a
- সক্ষম
- সম্পর্কে
- পরম
- প্রবেশ
- হিসাব
- এসিএম
- দিয়ে
- সক্রিয়ভাবে
- যোগ
- যোগ
- অতিরিক্ত
- অতিরিক্ত তথ্য
- উপরন্তু
- আবার
- বিরুদ্ধে
- থোক
- AI
- সারিবদ্ধ
- সব
- অনুমতি
- অনুমতি
- এছাড়াও
- যদিও
- মর্দানী স্ত্রীলোক
- অ্যামাজন কগনিটো
- আমাজন EC2
- আমাজন সেজমেকার
- আমাজন সেজমেকার জাম্পস্টার্ট
- অ্যামাজন ওয়েব সার্ভিসেস
- আমাজন ওয়েব সার্ভিসেস (এডব্লিউএস)
- an
- বিশ্লেষণ
- বিশ্লেষণ করা
- বিশ্লেষণ
- এবং
- উত্তর
- উত্তর
- কিছু
- প্রাসঙ্গিক
- আবেদন
- অভিগমন
- যথাযথ
- স্থাপত্য
- সংরক্ষাণাগার
- রয়েছি
- এলাকায়
- এলাকার
- শিল্প
- প্রবন্ধ
- AS
- জিজ্ঞাসা করা
- জিজ্ঞাসা
- সহায়তা
- অনুমান
- At
- বৃদ্ধি
- উদ্দীপিত
- প্রমাণীকরণ
- লেখক
- স্বয়ংক্রিয়ভাবে
- স্বশাসিত
- স্বায়ত্তশাসিত যানবাহন
- সহজলভ্য
- গড়
- এড়াতে
- দূরে
- ডেস্কটপ AWS
- এডাব্লুএস আঠালো
- ব্যাক-এন্ড
- পটভূমি
- ব্যালেন্সার
- ভিত্তি
- বেসলাইন
- BE
- কারণ
- হয়েছে
- আগে
- হচ্ছে
- জন্যে
- উত্তম
- মধ্যে
- তার পরেও
- বিশাল
- বড় ডেটা
- লাশ
- উভয়
- বিস্তৃতভাবে
- নির্মাণ করা
- নির্মিত
- ব্যবসায়
- by
- গণনা করা
- হিসাব করে
- কল
- নামক
- CAN
- সামর্থ্য
- গ্রেপ্তার
- আধৃত
- ক্যাচ
- ক্যাপচার
- কেস
- CD
- কেন্দ্র
- সেন্টার
- শংসাপত্র
- পরিবর্তন
- পরিবর্তিত
- পরিবর্তন
- পরিবর্তন
- অধ্যায়
- চার্জ
- চিপ
- চকলেট
- বেছে নিন
- পরিষ্কার
- ঘনিষ্ঠ
- কাছাকাছি
- মেঘ
- গুচ্ছ
- থলোথলো
- কোড
- কলোরাডো
- সমাহার
- মিলিত
- মিশ্রন
- আসছে
- নিচ্ছিদ্র
- তুলনা করা
- তুলনা
- তুলনা
- সম্পূর্ণ
- উপাদান
- উপাদান
- গনা
- কম্পিউটার
- কম্পিউটার ভিশন
- ধারণা
- সম্মেলন
- কনফিগার
- কনফিগার করার
- সংযোগ করা
- বিবেচ্য বিষয়
- কনসোল
- আধার
- বিষয়বস্তু
- প্রসঙ্গ
- চলতে
- একটানা
- ধর্মান্তরিত
- বিস্কুট
- মূল
- অনুরূপ
- কভারেজ
- আবৃত
- আচ্ছাদন
- কভার
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- তৈরি করা হচ্ছে
- বর্তমান
- এখন
- প্রথা
- গ্রাহকদের
- কাটিং-এজ
- ড্যাশবোর্ড
- উপাত্ত
- তথ্য কেন্দ্র
- তথ্য প্রক্রিয়াজাতকরণ
- তথ্য বিজ্ঞান
- ডেটাবেস
- অক্ষমতা
- সংজ্ঞায়িত
- প্রদান করা
- ডেনভার
- স্থাপন
- মোতায়েন
- মোতায়েন
- বিস্তৃতি
- স্থাপন
- উদ্ভূত
- ধ্বংস
- বিশদ
- সনাক্ত
- সনাক্তকরণ
- নির্ধারণ
- উন্নয়ন
- চ্যুতি
- নকশা
- বিভিন্ন
- কঠিন
- মাত্রা
- মাত্রা
- আলোচনা
- বিচ্ছুরিত
- দূরত্ব
- দূরবর্তী
- বিতরণ
- DNS
- do
- ডকশ্রমিক
- দলিল
- কাগজপত্র
- ডোমেইন
- ডোমেন নাম
- DOMAIN নাম
- ডোমেইনের
- Dont
- নিচে
- ড্রাইভ
- প্রতি
- বসান
- এম্বেড করা
- এম্বেডিং
- শেষ
- সর্বশেষ সীমা
- শেষপ্রান্ত
- প্রকৌশল
- প্রবেশ করান
- প্রবিষ্ট
- উদ্যোগ
- পরিবেশ
- মূল্যায়ন
- মূল্যায়ন
- প্রতি
- উদাহরণ
- উদাহরণ
- ব্যতিক্রম
- বিদ্যমান
- পরীক্ষামূলক
- ব্যাখ্যা করা
- অন্বেষণ
- অন্বেষণ করুণ
- এক্সপ্লোরিং
- বহিরাগত
- নির্যাস
- চায়ের
- পরিবার
- এ পর্যন্ত
- ব্যক্তিত্ব
- ফাইল
- নথি পত্র
- চূড়ান্ত
- পরিশেষে
- আবিষ্কার
- খুঁজে বের করে
- প্রথম
- নির্দলীয়
- প্রবাহ
- দৃষ্টি নিবদ্ধ করা
- মনোযোগ
- অনুসরণ
- অনুসরণ
- জন্য
- ফর্ম
- পাওয়া
- ভিত
- বন্ধুদের
- থেকে
- সামনের অংশ
- সম্পূর্ণ
- ভবিষ্যৎ
- সংগ্রহ করা
- সাধারণ
- উৎপাদিত
- প্রজন্ম
- সৃজক
- জেনারেটিভ এআই
- পাওয়া
- পেয়ে
- দাও
- Go
- সর্বস্বান্ত
- মঞ্জুর
- গ্রুপ
- পথপ্রদর্শন
- হাতল
- আছে
- he
- দখলী
- সাহায্য
- তার
- ঊর্ধ্বতন
- তার
- ঝুলিতে
- নিমন্ত্রণকর্তা
- হোস্ট
- ঘন্টা
- কিভাবে
- কিভাবে
- যাহোক
- এইচটিএমএল
- HTTP
- HTTPS দ্বারা
- নাভি
- ID
- সনাক্ত করা
- if
- প্রকাশ
- অবিলম্বে
- বাস্তবায়ন
- সরঁজাম
- গুরুত্বপূর্ণ
- in
- অন্তর্ভুক্ত করা
- অন্তর্ভুক্ত
- সুদ্ধ
- ইনকামিং
- ইঙ্গিত
- শিল্প
- নিষ্ক্রিয়তা
- তথ্য
- পরিকাঠামো
- প্রারম্ভিক
- ইনোভেশন
- ইনপুট
- ইনপুট
- সূক্ষ্মদৃষ্টি
- স্থাপন
- ইনস্টল
- উদাহরণ
- নির্দেশাবলী
- গর্ভনাটিকা
- আলাপচারিতার
- ইন্টারেক্টিভ
- আগ্রহী
- ইন্টারফেস
- মধ্যে
- IT
- এর
- কাজ
- জবস
- আনন্দ
- JPG
- মাত্র
- চাবি
- কাইনেসিস ডেটা ফায়ারহোস
- জ্ঞান
- ভাষা
- বড়
- পরে
- সর্বশেষ
- স্তর
- শিখতে
- শিক্ষা
- যাক
- লাইব্রেরি
- পছন্দ
- লাইন
- লিনাক্স
- LLM
- বোঝা
- অবস্থান
- লগ
- দেখুন
- সৌন্দর্য
- নিম্ন
- মেশিন
- মেশিন লার্নিং
- করা
- পরিচালনা করা
- ব্যবস্থাপনা
- পরিচালক
- ম্যানুয়ালি
- মে..
- গড়
- মানে
- মাপ
- পরিমাপ
- ছন্দোবিজ্ঞান
- মিশিগান
- হতে পারে
- ML
- এমএলওএস
- মডেল
- মডেল
- মনিটর
- অধিক
- সেতু
- চলন্ত
- বহু
- অবশ্যই
- নাম
- নাম
- প্রাকৃতিক
- স্বাভাবিক ভাষা প্রক্রিয়াকরণ
- প্রয়োজন
- প্রয়োজন
- প্রয়োজন
- নেটওয়ার্কিং
- নতুন
- নতুন
- পরবর্তী
- NLP
- নোটবই
- সুপরিচিত
- সংখ্যা
- সংখ্যার
- অনেক
- of
- প্রায়ই
- on
- কেবল
- খোলা
- অপ্টিমাইজ
- পছন্দ
- or
- অর্কেস্ট্রারচনা
- ক্রম
- উত্স
- অন্যান্য
- আমাদের
- বাইরে
- ফলাফল
- রূপরেখা
- আউটপুট
- আউটপুট
- শেষ
- সামগ্রিক
- উপরে জড়ান
- নিজের
- স্থিতিমাপ
- পরামিতি
- বিশেষ
- আবেগ
- পেটেন্ট
- পথ
- প্যাটার্ন
- নিদর্শন
- পিডিএফ
- সম্পাদন করা
- করণ
- টুকরা
- পাইপলাইন
- জায়গা
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- নাটক
- বিন্দু
- পয়েন্ট
- পুকুর
- অবস্থানের
- সম্ভব
- পোস্ট
- সম্ভাব্য
- চালিত
- ব্যবহারিক
- পূর্ববর্তী
- পূর্বশর্ত
- উপস্থাপন
- সংরক্ষণ করা
- আগে
- পূর্বে
- অধ্যক্ষ
- প্রিন্ট
- প্ররোচক
- প্রক্রিয়া
- প্রক্রিয়াজাতকরণ
- পণ্য
- পণ্য ব্যবস্থাপনা
- প্রকল্প
- অনুরোধ জানানো
- অনুপাত
- প্রদান
- প্রদত্ত
- উপলব্ধ
- বিধান
- প্রকাশ্য
- প্রকাশিত
- pulls
- প্রশ্ন
- প্রশ্ন
- টেনা
- রেঞ্জ
- রেঞ্জিং
- প্রস্তুত
- প্রকৃত সময়
- রাজত্ব
- প্রণালী
- নথি
- হ্রাস করা
- হ্রাস
- পড়ুন
- উল্লেখ
- এলাকা
- সংশ্লিষ্ট
- অপেক্ষাকৃতভাবে
- প্রাসঙ্গিক
- চিত্রিত করা
- প্রতিনিধিত্ব
- প্রতিনিধিত্ব করে
- প্রয়োজনীয়
- প্রয়োজন
- Resources
- প্রতিক্রিয়া
- ফলাফল
- উদ্ধার
- ভূমিকা
- ভূমিকা
- রুট
- চালান
- দৌড়
- রান
- ঋষি নির্মাতা
- একই
- সংরক্ষণ করুন
- স্কেল
- তফসিল
- বিজ্ঞান
- স্কোর
- সার্চ
- অনুসন্ধান
- দ্বিতীয়
- অধ্যায়
- বিভাগে
- দেখ
- দেখা
- নির্বাচন করা
- শব্দার্থিক
- জ্যেষ্ঠ
- অনুভূতি
- প্রেরিত
- আলাদা
- সেবা
- সেবা
- সেশন
- সেট
- বিন্যাস
- বিভিন্ন
- সে
- উচিত
- প্রদর্শনী
- দেখিয়েছেন
- প্রদর্শিত
- শো
- সংকেত
- সংকেত
- অনুরূপ
- সহজ
- সহজতর করা
- আয়তন
- স্ন্যাপশট
- So
- সফটওয়্যার
- সফ্টওয়্যার প্রকৌশল
- সমাধান
- সলিউশন
- কিছু
- উৎস
- সোর্স
- স্থান
- বিস্তৃত
- বিশেষজ্ঞ
- নিদিষ্ট
- ব্যয় করা
- চৌকাকৃতি
- গাদা
- স্ট্যাক
- মান
- শুরু
- শুরু
- শুরু হচ্ছে
- রাষ্ট্র
- পরিসংখ্যান
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- স্টোরেজ
- দোকান
- সঞ্চিত
- সফল
- এমন
- নিশ্চিত
- পদ্ধতি
- সিস্টেম
- টেবিল
- গ্রহণ করা
- কার্য
- প্রযুক্তি
- প্রযুক্তি
- প্রযুক্তিঃ
- পাঠ
- যে
- সার্জারির
- তথ্য
- উৎস
- তাদের
- তাহাদিগকে
- তারপর
- সেখানে।
- এইগুলো
- এই
- সেগুলো
- তিন
- দ্বারা
- সময়
- থেকে
- একসঙ্গে
- টপিক
- মোট
- রুপান্তর
- ভ্রমণ
- প্রবণতা
- প্রবণতা
- চেষ্টা
- দুই
- ধরনের
- অধীনে
- বিশ্ববিদ্যালয়
- URL টি
- us
- ব্যবহার
- ব্যবহৃত
- দরকারী
- ব্যবহারকারী
- ব্যবহারকারী ইন্টারফেস
- ব্যবহারকারী
- ব্যবহার
- বৈধতা
- মূল্য
- মানগুলি
- পরিবর্তনশীল
- বৈচিত্র্য
- বিভিন্ন
- যানবাহন
- মাধ্যমে
- দৃষ্টি
- চাক্ষুষ
- , walkthrough
- প্রয়োজন
- ছিল
- উপায়..
- we
- ওয়েব
- ওয়েব সার্ভিস
- আমরা একটি
- কখন
- কিনা
- যে
- যখন
- ইচ্ছা
- সঙ্গে
- মধ্যে
- ছাড়া
- নারী
- হয়া যাই ?
- কাজ করছে
- কাজ
- ওয়ার্কস্টেশন
- খারাপ
- would
- বছর
- এখনো
- আপনি
- আপনার
- zephyrnet
- মণ্ডল