প্যারাফ্রেজড টেক্সট শনাক্ত করার অনেক ক্ষেত্রেই ব্যবসায়িক মূল্য রয়েছে। উদাহরণস্বরূপ, বাক্যের প্যারাফ্রেজ সনাক্ত করে, একটি পাঠ্য সংক্ষিপ্তকরণ সিস্টেম অপ্রয়োজনীয় তথ্য মুছে ফেলতে পারে। আরেকটি অ্যাপ্লিকেশন হল চুরি করা নথি সনাক্ত করা। এই পোস্টে, আমরা ফাইন-টিউন ক আলিঙ্গন মুখ ট্রান্সফরমার চালু আমাজন সেজমেকার কয়েকটি ধাপে প্যারাফ্রেজ করা বাক্য জোড়া সনাক্ত করতে।
একটি সত্যিকারের মজবুত মডেল প্যারাফ্রেজড টেক্সট সনাক্ত করতে পারে যখন ব্যবহৃত ভাষা সম্পূর্ণ ভিন্ন হতে পারে, এবং যখন ব্যবহৃত ভাষার উচ্চ আভিধানিক ওভারল্যাপ থাকে তখন পার্থক্য সনাক্ত করতে পারে। এই পোস্টে, আমরা পরের দিকে ফোকাস. বিশেষভাবে, আমরা দেখি যে আমরা এমন একটি মডেলকে প্রশিক্ষণ দিতে পারি যা উচ্চ আভিধানিক ওভারল্যাপ এবং খুব ভিন্ন বা বিপরীত অর্থ রয়েছে এমন দুটি বাক্যের মধ্যে পার্থক্য সনাক্ত করতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত বাক্যগুলির ঠিক একই শব্দ রয়েছে কিন্তু বিপরীত অর্থ রয়েছে:
- আমি নিউ ইয়র্ক থেকে প্যারিস একটি ফ্লাইট নিলাম
- আমি প্যারিস থেকে নিউইয়র্কের ফ্লাইট নিয়েছিলাম
সমাধান ওভারভিউ
আমরা আপনাকে নিম্নোক্ত উচ্চ-স্তরের পদক্ষেপের মধ্য দিয়ে চলেছি:
- পরিবেশ স্থাপন করুন।
- ডেটা প্রস্তুত করুন।
- ডেটাসেট টোকেনাইজ করুন।
- মডেলটি ফাইন-টিউন করুন।
- মডেল স্থাপন এবং অনুমান সঞ্চালন.
- মডেল কর্মক্ষমতা মূল্যায়ন.
আপনি যদি পরিবেশ সেট আপ করা এড়িয়ে যেতে চান তবে আপনি নিম্নলিখিত নোটবুকটি ব্যবহার করতে পারেন GitHub এবং SageMaker এ কোড চালান।
Hugging Face এবং AWS 2022 সালের আগে একটি অংশীদারিত্ব ঘোষণা করেছিল যা SageMaker-এ Hugging Face মডেলগুলিকে প্রশিক্ষণ দেওয়া আরও সহজ করে তোলে। এই কার্যকারিতা আলিঙ্গন মুখের বিকাশের মাধ্যমে উপলব্ধ AWS ডিপ লার্নিং কন্টেইনার (DLCs). এই কন্টেইনারগুলির মধ্যে রয়েছে হাগিং ফেস ট্রান্সফরমার, টোকেনাইজার এবং ডেটাসেট লাইব্রেরি, যা আমাদের প্রশিক্ষণ এবং অনুমান কাজের জন্য এই সংস্থানগুলি ব্যবহার করতে দেয়। উপলব্ধ DLC চিত্রগুলির একটি তালিকার জন্য, দেখুন উপলব্ধ ডিপ লার্নিং কনটেইনার ইমেজ. তারা রক্ষণাবেক্ষণ এবং নিয়মিত নিরাপত্তা প্যাচ সঙ্গে আপডেট করা হয়. আপনি এই DLCs এবং এর সাথে হাগিং ফেস মডেলগুলিকে কীভাবে প্রশিক্ষণ দেবেন তার অনেক উদাহরণ খুঁজে পেতে পারেন পাইথন এসডিকে আলিঙ্গন করছে নিম্নলিখিত গিটহুব রেপো.
PAWS ডেটাসেট
দক্ষ বাক্য জোড়া ডেটাসেটের অভাব উপলব্ধি করে যা প্যারাফ্রেজ না হয়ে উচ্চ আভিধানিক ওভারল্যাপ প্রদর্শন করে, মূল paws 2019 সালে প্রকাশিত ডেটাসেটটি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) সম্প্রদায়কে প্যারাফ্রেজ সনাক্তকরণ মডেলের প্রশিক্ষণ এবং মূল্যায়নের জন্য একটি নতুন সংস্থান প্রদানের লক্ষ্যে। PAWS বাক্য জোড়া ব্যবহার করে দুটি ধাপে তৈরি করা হয় উইকিপিডিয়া এবং Quora প্রশ্ন জোড়া (QQP) ডেটাসেট। একটি ভাষা মডেল প্রথমে একটি বাক্য জোড়ার শব্দগুলিকে একই ব্যাগ অফ ওয়ার্ডস (BOW) দিয়ে একটি বাক্য জোড়া তৈরি করে। একটি পিছনের অনুবাদের ধাপ তারপর উচ্চ BOW ওভারল্যাপ সহ প্যারাফ্রেজ তৈরি করে কিন্তু একটি ভিন্ন শব্দ ক্রম ব্যবহার করে। চূড়ান্ত PAWS ডেটাসেটে মোট 108,000টি মানব-লেবেলযুক্ত এবং 656,000টি শব্দে লেবেলযুক্ত জোড়া রয়েছে৷
এই পোস্টে, আমরা ব্যবহার PAWS-উইকি লেবেলযুক্ত (চূড়ান্ত) আলিঙ্গন মুখ থেকে ডেটাসেট। Hugging Face ইতিমধ্যেই আমাদের জন্য ডেটা বিভাজন সম্পাদন করেছে, যার ফলে প্রশিক্ষণ ডেটাসেটে 49,000 বাক্য জোড়া এবং বৈধতা ও পরীক্ষার ডেটাসেটের জন্য 8,000 বাক্য জোড়া রয়েছে৷ প্রশিক্ষণ ডেটাসেট থেকে দুটি বাক্য জোড়া উদাহরণ নিম্নলিখিত উদাহরণে দেখানো হয়েছে। 1 এর একটি লেবেল নির্দেশ করে যে দুটি বাক্য একে অপরের প্যারাফ্রেজ।
বাক্য ১ | বাক্য ১ | লেবেল |
যদিও বিনিময়যোগ্য, 2টি গাড়ির শরীরের টুকরো একই রকম নয়৷ | যদিও একই রকম, শরীরের অংশগুলি 2টি গাড়িতে বিনিময়যোগ্য নয়। | 0 |
Katz 1947 সালে সুইডেনে জন্মগ্রহণ করেন এবং 1 বছর বয়সে নিউ ইয়র্ক সিটিতে চলে আসেন। | কাটজ 1947 সালে সুইডেনে জন্মগ্রহণ করেন এবং এক বছর বয়সে নিউইয়র্কে চলে আসেন। | 1 |
পূর্বশর্ত
আপনাকে নিম্নলিখিত পূর্বশর্তগুলি পূরণ করতে হবে:
- আপনার যদি না থাকে তাহলে একটি AWS অ্যাকাউন্টের জন্য সাইন আপ করুন৷ আরও তথ্যের জন্য, দেখুন Amazon SageMaker পূর্বশর্ত সেট আপ করুন.
- ব্যবহার শুরু করুন সেজমেকার নোটবুকের উদাহরণ.
- ডান সেট আপ এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) অনুমতি। আরও তথ্যের জন্য, দেখুন SageMaker ভূমিকা.
পরিবেশ স্থাপন করুন
আমরা মডেল ফাইন-টিউনিংয়ের জন্য আমাদের ডেটা পরীক্ষা এবং প্রস্তুত করার আগে, আমাদের পরিবেশ সেট আপ করতে হবে। আসুন একটি সেজমেকার নোটবুক উদাহরণ স্পিনিং করে শুরু করা যাক। আপনার AWS অ্যাকাউন্টে একটি AWS অঞ্চল চয়ন করুন এবং নির্দেশাবলী অনুসরণ করুন৷ একটি সেজমেকার নোটবুক উদাহরণ তৈরি করুন. নোটবুকের উদাহরণটি ঘুরতে কয়েক মিনিট সময় নিতে পারে।
যখন নোটবুক ইনস্ট্যান্স চলছে, নির্বাচন করুন conda_pytorch_p38
আপনার কার্নেল টাইপ হিসাবে। হাগিং ফেস ডেটাসেট ব্যবহার করতে, আমাদের প্রথমে হাগিং ফেস লাইব্রেরি ইনস্টল এবং আমদানি করতে হবে:
এর পরে, আসুন একটি সেজমেকার সেশন প্রতিষ্ঠা করি। আমরা ডিফল্ট ব্যবহার করি আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) PAWS ডেটাসেট এবং মডেল আর্টিফ্যাক্টগুলি সংরক্ষণ করার জন্য SageMaker সেশনের সাথে যুক্ত বালতি:
ডেটা প্রস্তুত করুন
আমরা এর সাথে PAWS ডেটাসেটের Hugging Face সংস্করণ লোড করতে পারি load_dataset()
আদেশ এই কলটি Hugging Face GitHub রিপোজিটরি থেকে PAWS পাইথন প্রসেসিং স্ক্রিপ্ট ডাউনলোড এবং আমদানি করে, যা তারপর স্ক্রিপ্টে সংরক্ষিত মূল URL থেকে PAWS ডেটাসেট ডাউনলোড করে এবং ড্রাইভে একটি তীর টেবিল হিসাবে ডেটা ক্যাশ করে। নিম্নলিখিত কোড দেখুন:
আমরা আমাদের প্রাক-প্রশিক্ষিত BERT মডেলের ফাইন-টিউনিং শুরু করার আগে, আসুন আমাদের টার্গেট ক্লাস ডিস্ট্রিবিউশনটি দেখি। আমাদের ব্যবহারের ক্ষেত্রে, PAWS ডেটাসেটে বাইনারি লেবেল রয়েছে (0 নির্দেশ করে বাক্য জোড়াটি একটি প্যারাফ্রেজ নয়, এবং 1 ইঙ্গিত করে যে এটি)। ক্লাস ডিস্ট্রিবিউশন দেখার জন্য একটি কলাম চার্ট তৈরি করা যাক, যেমনটি নিম্নলিখিত কোডে দেখানো হয়েছে। আমরা দেখতে পাই যে আমাদের প্রশিক্ষণ সেটে একটি সামান্য শ্রেণী ভারসাম্যহীনতার সমস্যা রয়েছে (56% নেতিবাচক নমুনা বনাম। 44% ইতিবাচক নমুনা)। যাইহোক, শ্রেণি ভারসাম্যহীনতা প্রশমনের কৌশলগুলিকে কাজে লাগানোর জন্য ভারসাম্যহীনতা যথেষ্ট ছোট।
ডেটাসেট টোকেনাইজ করুন
আমরা ফাইন-টিউনিং শুরু করার আগে, আমাদের ডেটাসেটকে টোকেনাইজ করতে হবে। একটি প্রারম্ভিক বিন্দু হিসাবে, আসুন আমরা সূক্ষ্ম টিউন এবং মূল্যায়ন করতে চাই roberta-base
ট্রান্সফরমার আমরা নির্বাচন করেছি roberta-base
কারণ এটি একটি সাধারণ-উদ্দেশ্য ট্রান্সফরমার যা ইংরেজি ডেটার একটি বৃহৎ কর্পাসের উপর প্রাক-প্রশিক্ষিত ছিল এবং প্রায়শই বিভিন্ন এনএলপি কাজগুলিতে উচ্চ কার্যকারিতা দেখিয়েছে। মডেলটি মূলত কাগজে চালু করা হয়েছিল RoBERta: একটি দৃঢ়ভাবে অপ্টিমাইজ করা BERT প্রাক-প্রশিক্ষণ পদ্ধতি.
আমরা a দিয়ে বাক্যে টোকেনাইজেশন করি roberta-base
আলিঙ্গন মুখ থেকে টোকেনাইজার, যা ডকুমেন্টকে টোকেনে বিভক্ত করতে বাইট-লেভেল বাইট পেয়ার এনকোডিং ব্যবহার করে। RoBERta টোকেনাইজার সম্পর্কে আরও বিশদ বিবরণের জন্য, পড়ুন রবার্টা টোকেনিজার. যেহেতু আমাদের ইনপুটগুলি বাক্য জোড়া, আমাদের একই সাথে উভয় বাক্যকে টোকেনাইজ করতে হবে। যেহেতু বেশিরভাগ BERT মডেলের একটি নির্দিষ্ট টোকেনাইজড ইনপুট দৈর্ঘ্য থাকা ইনপুট প্রয়োজন, আমরা নিম্নলিখিত পরামিতিগুলি সেট করি: max_len=128
এবং truncation=True
। নিম্নলিখিত কোডটি দেখুন:
আমাদের BERT মডেলকে ফাইন-টিউন করার জন্য শেষ প্রিপ্রসেসিং ধাপ হল টোকেনাইজড ট্রেন এবং ভ্যালিডেশন ডেটাসেটগুলিকে PyTorch টেনসরে রূপান্তর করা এবং সেগুলিকে আমাদের S3 বাকেটে আপলোড করা:
মডেলটি ফাইন-টিউন করুন
এখন যেহেতু আমরা ডেটা প্রস্তুতি সম্পন্ন করেছি, আমরা আমাদের প্রাক-প্রশিক্ষিতদের সূক্ষ্ম সুর করতে প্রস্তুত roberta-base
প্যারাফ্রেজ সনাক্তকরণ টাস্কের মডেল। আমরা দুটি ধাপে ফাইন-টিউনিং প্রক্রিয়া শুরু করতে সেজমেকার হাগিং ফেস এস্টিমেটর ক্লাস ব্যবহার করতে পারি। প্রথম ধাপ হল প্রশিক্ষণের হাইপারপ্যারামিটার এবং মেট্রিক সংজ্ঞা নির্দিষ্ট করা। মেট্রিক সংজ্ঞা ভেরিয়েবল হাগিং ফেস এস্টিমেটরকে বলে যে মডেলের প্রশিক্ষণ লগগুলি থেকে কী ধরনের মেট্রিক্স বের করতে হবে। এখানে, আমরা প্রাথমিকভাবে প্রতিটি প্রশিক্ষণ যুগে বৈধতা সেট মেট্রিক্স বের করতে আগ্রহী।
দ্বিতীয় ধাপ হল আলিঙ্গন মুখ অনুমানকারীকে ইনস্ট্যান্ট করা এবং এর সাথে ফাইন-টিউনিং প্রক্রিয়া শুরু করা। .fit()
পদ্ধতি:
নির্দিষ্ট হাইপারপ্যারামিটার ব্যবহার করে ফাইন-টিউনিং প্রক্রিয়াটি প্রায় 30 মিনিট সময় নেয়।
মডেল স্থাপন এবং অনুমান সঞ্চালন
সেজমেকার আপনার ব্যবহারের ক্ষেত্রে নির্ভর করে একাধিক স্থাপনার বিকল্প অফার করে। ক্রমাগত, রিয়েল-টাইম এন্ডপয়েন্টের জন্য যা একবারে একটি ভবিষ্যদ্বাণী করে, আমরা ব্যবহার করার পরামর্শ দিই সেজমেকার রিয়েল-টাইম হোস্টিং পরিষেবা. আপনার যদি কাজের চাপ থাকে যা ট্র্যাফিকের গতির মধ্যে অলস সময় থাকে এবং ঠান্ডা শুরু সহ্য করতে পারে, আমরা ব্যবহার করার পরামর্শ দিই সার্ভারহীন অনুমান. সার্ভারলেস এন্ডপয়েন্টগুলি স্বয়ংক্রিয়ভাবে গণনা সংস্থানগুলি চালু করে এবং ট্র্যাফিকের উপর নির্ভর করে সেগুলিকে ভিতরে এবং বাইরে স্কেল করে, উদাহরণের প্রকারগুলি বেছে নেওয়া বা স্কেলিং নীতিগুলি পরিচালনা করার প্রয়োজনীয়তা দূর করে৷ রিয়েল-টাইম ইনফারেন্স এন্ডপয়েন্ট এবং সার্ভারলেস ইনফরেন্স এন্ডপয়েন্ট উভয় ক্ষেত্রেই আমরা আমাদের ফাইন-টিউনড হাগিং ফেস মডেলকে কীভাবে স্থাপন করতে হয় তা প্রদর্শন করি।
একটি রিয়েল-টাইম ইনফারেন্স এন্ডপয়েন্টে স্থাপন করুন
আপনি SageMaker ব্যবহার করে রিয়েল-টাইম ইনফারেন্স হোস্টিং-এ একটি প্রশিক্ষণ বস্তু স্থাপন করতে পারেন .deploy()
পদ্ধতি গৃহীত পরামিতিগুলির সম্পূর্ণ তালিকার জন্য, পড়ুন আলিঙ্গন মুখ মডেল. শুরু করতে, আসুন নিম্নলিখিত পরামিতিগুলি পাস করে মডেলটিকে একটি উদাহরণে স্থাপন করি: initial_instance_count
, instance_type
, এবং endpoint_name
। নিম্নলিখিত কোডটি দেখুন:
মডেলটি স্থাপন করতে কয়েক মিনিট সময় নেয়। মডেলটি স্থাপন করার পরে, আমরা অনুমান করার জন্য অদেখা পরীক্ষার ডেটাসেট থেকে নমুনা রেকর্ড জমা দিতে পারি।
একটি সার্ভারহীন ইনফারেন্স এন্ডপয়েন্টে স্থাপন করুন
একটি সার্ভারহীন এন্ডপয়েন্টে আমাদের প্রশিক্ষণ বস্তু স্থাপন করতে, আমাদের প্রথমে একটি সার্ভারহীন কনফিগারেশন ফাইল উল্লেখ করতে হবে memory_size_in_mb
এবং max_concurrency
যুক্তি:
memory_size_in_mb
আপনার সার্ভারহীন এন্ডপয়েন্টের মোট RAM আকার নির্ধারণ করে; ন্যূনতম RAM এর আকার হল 1024 MB (1 GB) এবং এটি 6144 MB (6 GB) পর্যন্ত স্কেল করতে পারে। সাধারণত, আপনার লক্ষ্য করা উচিত একটি মেমরির আকার বেছে নেওয়া যা আপনার মডেলের আকারের মতো অন্তত বড়। max_concurrency
একটি একক এন্ডপয়েন্টের জন্য একই সময়ে (50টি সমবর্তী আমন্ত্রণ পর্যন্ত) কতগুলি সমবর্তী আহ্বান প্রক্রিয়া করা যেতে পারে তার জন্য কোটা সংজ্ঞায়িত করে৷
আমাদের আলিঙ্গন মুখের অনুমান চিত্র URI সরবরাহ করতে হবে, যা আপনি নিম্নলিখিত কোড ব্যবহার করে পুনরুদ্ধার করতে পারেন:
এখন যেহেতু আমাদের সার্ভারহীন কনফিগারেশন ফাইল আছে, আমরা আমাদের রিয়েল-টাইম ইনফারেন্স এন্ডপয়েন্টের মতোই একটি সার্ভারহীন এন্ডপয়েন্ট তৈরি করতে পারি, .deploy()
পদ্ধতি:
শেষ পয়েন্ট কয়েক মিনিটের মধ্যে তৈরি করা উচিত।
মডেল অনুমান সঞ্চালন
ভবিষ্যদ্বাণী করতে, আমাদের যোগ করে বাক্য জোড়া তৈরি করতে হবে [CLS]
এবং [SEP]
বিশেষ টোকেন এবং পরবর্তীতে মডেল এন্ডপয়েন্টে ইনপুট জমা দিন। রিয়েল-টাইম ইনফারেন্স এবং সার্ভারহীন অনুমানের জন্য সিনট্যাক্স একই:
নিম্নলিখিত উদাহরণগুলিতে, আমরা দেখতে পাচ্ছি মডেলটি সঠিকভাবে শ্রেণীবদ্ধ করতে সক্ষম যে ইনপুট বাক্য জোড়াতে প্যারাফ্রেজ করা বাক্য রয়েছে কিনা।
নিম্নলিখিত একটি বাস্তব সময়ের অনুমান উদাহরণ.
নিম্নলিখিত একটি সার্ভারহীন অনুমান উদাহরণ.
মডেল কর্মক্ষমতা মূল্যায়ন
মডেলটি মূল্যায়ন করতে, আসুন পূর্ববর্তী কোডটি প্রসারিত করি এবং সমস্ত 8,000টি অদেখা পরীক্ষার রেকর্ড রিয়েল-টাইম এন্ডপয়েন্টে জমা দিই:
পরবর্তী, আমরা নিষ্কাশিত পূর্বাভাস ব্যবহার করে একটি শ্রেণীবিভাগ প্রতিবেদন তৈরি করতে পারি:
আমরা নিম্নলিখিত পরীক্ষার স্কোর পেতে.
আমরা তা পর্যবেক্ষণ করতে পারি roberta-base
একটি সম্মিলিত ম্যাক্রো-গড় F1 স্কোর 92% এবং বাক্যাংশগুলি সনাক্ত করতে কিছুটা ভাল পারফর্ম করে যা প্যারাফ্রেজ। দ্য roberta-base
মডেল ভাল পারফরম্যান্স করে, তবে অন্তত একটি অন্য মডেল ব্যবহার করে মডেলের কার্যক্ষমতা গণনা করা ভাল অভ্যাস।
নিম্নলিখিত টেবিল তুলনা roberta-base
একই পরীক্ষায় পারফরম্যান্সের ফলাফল অন্য একটি সূক্ষ্ম-সুরক্ষিত ট্রান্সফরমারের বিরুদ্ধে সেট করা হয়েছে paraphrase-mpnet-base-v2
, একটি বাক্য ট্রান্সফরমার বিশেষভাবে প্যারাফ্রেজ সনাক্তকরণ কাজের জন্য প্রাক-প্রশিক্ষিত। উভয় মডেল একটি ml.p3.8x বড় উদাহরণে প্রশিক্ষিত ছিল।
ফলাফল তা দেখায় roberta-base
সেজমেকার-এ রিয়েল-টাইম ইনফারেন্স হোস্টিং ব্যবহার করে খুব অনুরূপ প্রশিক্ষণ এবং অনুমান সময়ের সাথে 1% বেশি F1 স্কোর রয়েছে। মডেলগুলির মধ্যে পারফরম্যান্সের পার্থক্য তুলনামূলকভাবে ছোট, তবে, roberta-base
শেষ পর্যন্ত বিজয়ী কারণ এটির পারফরম্যান্স মেট্রিক্স এবং প্রায় অভিন্ন প্রশিক্ষণ এবং অনুমান সময় রয়েছে।
স্পষ্টতা | প্রত্যাহার | F1-স্কোর | প্রশিক্ষণের সময় (বিলযোগ্য) | অনুমান সময় (সম্পূর্ণ পরীক্ষার সেট) | |
roberta-বেস | 0.92 | 0.93 | 0.92 | 18 মিনিট | 2 মিনিট |
প্যারাফ্রেজ-mpnet- base-v2 |
0.92 | 0.91 | 0.91 | 17 মিনিট | 2 মিনিট |
পরিষ্কার কর
মডেল এন্ডপয়েন্ট ব্যবহার করা হয়ে গেলে, ভবিষ্যতের চার্জ এড়াতে আপনি সেগুলি মুছে ফেলতে পারেন:
উপসংহার
এই পোস্টে, আমরা সেজমেকারে হাগিং ফেস ট্রান্সফরমার ব্যবহার করে কীভাবে দ্রুত একটি প্যারাফ্রেজ শনাক্তকরণ মডেল তৈরি করা যায় তা নিয়ে আলোচনা করেছি। আমরা দুটি প্রাক-প্রশিক্ষিত ট্রান্সফরমারকে সূক্ষ্ম-টিউন করেছি, roberta-base
এবং paraphrase-mpnet-base-v2
, PAWS ডেটাসেট ব্যবহার করে (যা উচ্চ আভিধানিক ওভারল্যাপ সহ বাক্য জোড়া রয়েছে)। আমরা রিয়েল-টাইম ইনফারেন্স বনাম সার্ভারলেস ইনফারেন্স ডিপ্লয়মেন্টের সুবিধাগুলি প্রদর্শন এবং আলোচনা করেছি, পরবর্তীটি একটি নতুন বৈশিষ্ট্য যা স্পাইকি ওয়ার্কলোডকে লক্ষ্য করে এবং স্কেলিং নীতিগুলি পরিচালনা করার প্রয়োজনীয়তা দূর করে। 8,000 রেকর্ড সহ একটি অদেখা পরীক্ষায়, আমরা দেখিয়েছি যে উভয় মডেলই 1% এর বেশি F90 স্কোর অর্জন করেছে।
এই সমাধানটি প্রসারিত করতে, নিম্নলিখিতগুলি বিবেচনা করুন:
- আপনার নিজস্ব কাস্টম ডেটাসেটের সাথে ফাইন-টিউনিং করার চেষ্টা করুন। আপনার কাছে পর্যাপ্ত প্রশিক্ষণের লেবেল না থাকলে, আপনি একটি কাস্টম টেস্ট ডেটাসেটে এই পোস্টে প্রদর্শিত মডেলের মতো একটি সূক্ষ্ম-টিউনড মডেলের কার্যকারিতা মূল্যায়ন করতে পারেন।
- এই সূক্ষ্ম-টিউনড মডেলটিকে একটি ডাউনস্ট্রিম অ্যাপ্লিকেশনে একীভূত করুন যাতে দুটি বাক্য (বা পাঠ্যের ব্লক) একে অপরের প্যারাফ্রেজ কিনা সে সম্পর্কে তথ্য প্রয়োজন।
সুখের বিল্ডিং!
লেখক সম্পর্কে
বালা কৃষ্ণমূর্তি AWS প্রফেশনাল সার্ভিসের একজন ডেটা সায়েন্টিস্ট, যেখানে তিনি গ্রাহকের ব্যবসায়িক সমস্যা সমাধানের জন্য মেশিন লার্নিং প্রয়োগ করতে উপভোগ করেন। তিনি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ ব্যবহারের ক্ষেত্রে বিশেষজ্ঞ এবং সফ্টওয়্যার, অর্থ এবং স্বাস্থ্যসেবার মতো শিল্পে গ্রাহকদের সাথে কাজ করেছেন। তার অবসর সময়ে, তিনি নতুন খাবার চেষ্টা করা, কমেডি এবং ডকুমেন্টারি দেখা, অরেঞ্জ থিওরিতে কাজ করা এবং জলের উপরে থাকা (প্যাডেল-বোর্ডিং, স্নরকেলিং এবং আশা করি শীঘ্রই ডাইভিং) উপভোগ করেন।
ইভান কুই AWS প্রফেশনাল সার্ভিসের একজন ডেটা সায়েন্টিস্ট, যেখানে তিনি AWS-এ মেশিন লার্নিং ব্যবহার করে গ্রাহকদের সমাধান তৈরি ও স্থাপনে সহায়তা করেন। তিনি সফ্টওয়্যার, ফিনান্স, ফার্মাসিউটিক্যাল এবং স্বাস্থ্যসেবা সহ বিভিন্ন শিল্পে গ্রাহকদের সাথে কাজ করেছেন। তার অবসর সময়ে, তিনি পড়তে, তার পরিবারের সাথে সময় কাটাতে এবং তার স্টক পোর্টফোলিওকে সর্বাধিক করতে উপভোগ করেন।
- Coinsmart. ইউরোপের সেরা বিটকয়েন এবং ক্রিপ্টো এক্সচেঞ্জ।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. বিনামূল্যে এক্সেস.
- ক্রিপ্টোহক। Altcoin রাডার। বিনামূল্যে ট্রায়াল.
- সূত্র: https://aws.amazon.com/blogs/machine-learning/identify-paraphrased-text-with-hugging-face-on-amazon-sagemaker/
- '
- "
- 000
- 10
- 100
- 2019
- 2022
- 84
- সম্পর্কে
- প্রবেশ
- হিসাব
- অর্জন
- দিয়ে
- সব
- ইতিমধ্যে
- মর্দানী স্ত্রীলোক
- ঘোষিত
- অন্য
- আবেদন
- প্রয়োগ করা হচ্ছে
- আন্দাজ
- আর্গুমেন্ট
- সহজলভ্য
- ডেস্কটপ AWS
- হচ্ছে
- সুবিধা
- শরীর
- সীমান্ত
- নির্মাণ করা
- ব্যবসায়
- কল
- সক্ষম
- কার
- মামলা
- চার্জ
- বেছে নিন
- শহর
- শ্রেণী
- শ্রেণীবিন্যাস
- কোড
- স্তম্ভ
- মিলিত
- সম্প্রদায়
- সম্পূর্ণরূপে
- গনা
- বিশ্বাস
- কন্টেনারগুলি
- ধারণ
- পারা
- সৃষ্টি
- নির্মিত
- প্রথা
- ক্রেতা
- গ্রাহকদের
- উপাত্ত
- তথ্য বিজ্ঞানী
- প্রদর্শন
- প্রদর্শিত
- নির্ভর করে
- স্থাপন
- মোতায়েন
- বিস্তৃতি
- বিস্তারিত
- সনাক্তকরণ
- উন্নয়ন
- বিভিন্ন
- বিতরণ
- ডকুমেন্টারি
- কাগজপত্র
- ডাউনলোড
- ড্রাইভ
- দক্ষ
- শেষপ্রান্ত
- ইংরেজি
- পরিবেশ
- স্থাপন করা
- মূল্যায়ন
- উদাহরণ
- প্রদর্শক
- বিস্তৃত করা
- মুখ
- পরিবার
- বৈশিষ্ট্য
- অর্থ
- প্রথম
- ফ্লাইট
- কেন্দ্রবিন্দু
- অনুসরণ করা
- অনুসরণ
- খাদ্য
- বিনামূল্যে
- সম্পূর্ণ
- ক্রিয়া
- কার্যকারিতা
- ভবিষ্যৎ
- সাধারন ক্ষেত্রে
- সাধারণত
- উত্পাদন করা
- GitHub
- ভাল
- বৃহত্তর
- স্বাস্থ্যসেবা
- উচ্চতা
- সাহায্য
- এখানে
- উচ্চ
- ঊর্ধ্বতন
- হোস্টিং
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- শনাক্ত
- সনাক্ত করা
- চিহ্নিতকরণের
- পরিচয়
- ভাবমূর্তি
- অন্তর্ভুক্ত করা
- সুদ্ধ
- শিল্প
- তথ্য
- ইনপুট
- ইনস্টল
- আগ্রহী
- সমস্যা
- IT
- জবস
- লেবেলগুলি
- ভাষা
- বড়
- শুরু করা
- শিক্ষা
- লাইব্রেরি
- তালিকা
- বোঝা
- মেশিন
- মেশিন লার্নিং
- তৈরি করে
- পরিচালনা করা
- স্মৃতি
- ছন্দোবিজ্ঞান
- ML
- মডেল
- মডেল
- অধিক
- সেতু
- বহু
- প্রাকৃতিক
- নেতিবাচক
- নিউ ইয়র্ক
- নিউ ইয়র্ক সিটি
- নোটবই
- অফার
- অপ্টিমাইজ
- অপশন সমূহ
- ক্রম
- অন্যান্য
- নিজের
- কাগজ
- প্যারী
- অংশীদারিত্ব
- পাসিং
- প্যাচ
- পিডিএফ
- কর্মক্ষমতা
- মাসিক
- ফার্মাসিউটিক্যাল
- বিন্দু
- নীতি
- দফতর
- ধনাত্মক
- অনুশীলন
- ভবিষ্যদ্বাণী
- ভবিষ্যতবাণী
- সমস্যা
- প্রক্রিয়া
- প্রক্রিয়াজাতকরণ
- পেশাদারী
- প্রদান
- প্রশ্ন
- Quora
- র্যাম
- র্যান্ড্
- পড়া
- প্রকৃত সময়
- সুপারিশ করা
- রেকর্ড
- মুক্ত
- রিপোর্ট
- সংগ্রহস্থলের
- প্রয়োজন
- সংস্থান
- Resources
- ফলাফল
- প্রত্যাবর্তন
- চালান
- দৌড়
- স্কেল
- আরোহী
- বিজ্ঞানী
- নিরাপত্তা
- নির্বাচিত
- Serverless
- সেবা
- সেট
- বিন্যাস
- অনুরূপ
- সহজ
- আয়তন
- ছোট
- সফটওয়্যার
- কঠিন
- সমাধান
- সলিউশন
- সমাধান
- প্রশিক্ষণ
- বিশেষ
- বিশেষভাবে
- খরচ
- ঘূর্ণন
- বিভক্ত করা
- শুরু
- শুরু
- শুরু
- স্টক
- স্টোরেজ
- দোকান
- পরবর্তীকালে
- সরবরাহ
- সুইডেন
- পদ্ধতি
- লক্ষ্য
- কাজ
- প্রযুক্তি
- বলে
- পরীক্ষা
- দ্বারা
- সময়
- টোকেনাইজেশন
- টোকেনাইজড
- টোকেন
- শীর্ষ
- মশাল
- ট্রাফিক
- প্রশিক্ষণ
- অনুবাদ
- us
- ব্যবহার
- বৈধতা
- মূল্য
- বৈচিত্র্য
- চেক
- পানি
- কি
- কিনা
- উইকিপিডিয়া
- মধ্যে
- ছাড়া
- শব্দ
- কাজ করছে
- কাজ
- কাজের বাইরে