ভবিষ্যদ্বাণীমূলক মডেলগুলিকে প্রশিক্ষণ দিতে অ্যামাজন নেপচুনে বহু-ভাষিক পাঠ্য বৈশিষ্ট্যগুলি এনকোড করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

আমাজন নেপচুন এমএল এর একটি মেশিন লার্নিং (এমএল) ক্ষমতা আমাজন নেপচুন এটি আপনাকে আপনার গ্রাফ ডেটাতে সঠিক এবং দ্রুত ভবিষ্যদ্বাণী করতে সহায়তা করে। হুডের নিচে, নেপচুন এমএল গ্রাফ নিউরাল নেটওয়ার্ক (GNNs) ব্যবহার করে একই সাথে গ্রাফের কাঠামো এবং নোড/এজ বৈশিষ্ট্যের সুবিধা নিতে হাতের কাজটি সমাধান করে। প্রথাগত পদ্ধতিতে হয় শুধুমাত্র বৈশিষ্ট্য এবং কোন গ্রাফ স্ট্রাকচার ব্যবহার করা হয় না (যেমন, XGBoost, নিউরাল নেটওয়ার্ক), অথবা শুধুমাত্র গ্রাফ স্ট্রাকচার এবং কোন বৈশিষ্ট্য নেই (যেমন, node2vec, লেবেল প্রচার)। নোড/এজ বৈশিষ্ট্যগুলিকে আরও ভালভাবে ম্যানিপুলেট করার জন্য, ML অ্যালগরিদমগুলির জন্য ডেটা ভাল আচরণ করা সংখ্যাসূচক ডেটার প্রয়োজন, তবে একটি ডাটাবেসের কাঁচা ডেটাতে অন্যান্য প্রকার থাকতে পারে, যেমন কাঁচা পাঠ্য। এই অন্যান্য ধরণের ডেটা ব্যবহার করার জন্য, আমাদের বিশেষ প্রক্রিয়াকরণের পদক্ষেপগুলির প্রয়োজন যা তাদের নেটিভ টাইপ থেকে সংখ্যাসূচক ডেটাতে রূপান্তর করে এবং ML ফলাফলের গুণমান এই ডেটা রূপান্তরের মানের উপর দৃঢ়ভাবে নির্ভর করে। বাক্যগুলির মতো কাঁচা পাঠ্যগুলি রূপান্তর করা সবচেয়ে কঠিন প্রকারগুলির মধ্যে একটি, তবে প্রাকৃতিক ভাষা প্রক্রিয়াকরণের (NLP) ক্ষেত্রে সাম্প্রতিক অগ্রগতি শক্তিশালী পদ্ধতির দিকে পরিচালিত করেছে যা একাধিক ভাষা এবং বিভিন্ন ধরণের দৈর্ঘ্যের পাঠ্যকে পরিচালনা করতে পারে।

সংস্করণ 1.1.0.0 থেকে শুরু করে, নেপচুন এমএল সমর্থন করে একাধিক পাঠ্য এনকোডার (টেক্সট_ফাস্টটেক্সট, text_sbert, text_word2vec, এবং text_tfidf), যা NLP-তে সাম্প্রতিক অগ্রগতির সুবিধা নিয়ে আসে এবং বহু-ভাষিক পাঠ্য বৈশিষ্ট্যের পাশাপাশি ভাষা এবং পাঠ্য দৈর্ঘ্যের জন্য অতিরিক্ত অনুমান প্রয়োজনীয়তাগুলির জন্য সমর্থন সক্ষম করে। উদাহরণস্বরূপ, চাকরির সুপারিশ ব্যবহারের ক্ষেত্রে, বিভিন্ন দেশে চাকরির পোস্টগুলি বিভিন্ন ভাষায় বর্ণনা করা যেতে পারে এবং কাজের বিবরণের দৈর্ঘ্য যথেষ্ট পরিবর্তিত হয়। অতিরিক্তভাবে, নেপচুন এমএল একটি সমর্থন করে গাড়ী বিকল্প যা স্বয়ংক্রিয়ভাবে ডেটাতে পাঠ্য বৈশিষ্ট্যের বৈশিষ্ট্যের উপর ভিত্তি করে সেরা এনকোডিং পদ্ধতি বেছে নেয়।

এই পোস্টে, আমরা প্রতিটি পাঠ্য এনকোডারের ব্যবহার চিত্রিত করি, তাদের সুবিধা এবং অসুবিধাগুলির তুলনা করি এবং একটি কাজের সুপারিশ কাজের জন্য কীভাবে সঠিক পাঠ্য এনকোডারগুলি বেছে নিতে হয় তার একটি উদাহরণ দেখাই৷

একটি টেক্সট এনকোডার কি?

টেক্সট এনকোডিংয়ের লক্ষ্য হল নেপচুনে টেক্সট-ভিত্তিক প্রান্ত/নোড বৈশিষ্ট্যগুলিকে নোড শ্রেণীবিভাগ বা লিঙ্ক পূর্বাভাস কার্যগুলির জন্য ডাউনস্ট্রিম মেশিন লার্নিং মডেলগুলিতে ব্যবহারের জন্য নির্দিষ্ট আকারের ভেক্টরে রূপান্তর করা। পাঠ্য বৈশিষ্ট্যের দৈর্ঘ্য অনেক পরিবর্তিত হতে পারে। এটি একটি শব্দ, বাক্যাংশ, বাক্য, অনুচ্ছেদ বা একাধিক বাক্য সহ একটি নথিও হতে পারে (নেপচুনে একটি একক সম্পত্তির সর্বোচ্চ আকার 55 এমবি)। উপরন্তু, পাঠ্য বৈশিষ্ট্য বিভিন্ন ভাষায় হতে পারে। এমন বাক্যও থাকতে পারে যাতে বিভিন্ন ভাষার শব্দ থাকে, যাকে আমরা সংজ্ঞায়িত করি কোড সুইচিং.

1.1.0.0 রিলিজ থেকে শুরু করে, নেপচুন ML আপনাকে বিভিন্ন টেক্সট এনকোডার থেকে বেছে নিতে দেয়। প্রতিটি এনকোডার কিছুটা আলাদাভাবে কাজ করে, কিন্তু নেপচুন থেকে একটি টেক্সট মান ক্ষেত্রকে একটি নির্দিষ্ট আকারের ভেক্টরে রূপান্তর করার একই লক্ষ্য রয়েছে যা আমরা নেপচুন ML ব্যবহার করে আমাদের GNN মডেল তৈরি করতে ব্যবহার করি। নতুন এনকোডারগুলি নিম্নরূপ:

টেক্সট_ফাস্টটেক্সট (নতুন) - ব্যবহার করে ফাস্ট টেক্সট এনকোডিং FastText দক্ষ পাঠ্য উপস্থাপনা শেখার জন্য একটি লাইব্রেরি। text_fasttext ফাস্ট টেক্সট সমর্থন করে এমন পাঁচটি ভাষার মধ্যে একটি এবং শুধুমাত্র একটি ব্যবহার করে এমন বৈশিষ্ট্যগুলির জন্য সুপারিশ করা হয় (ইংরেজি, চীনা, হিন্দি, স্প্যানিশ এবং ফরাসি)। দ্য text_fasttext পদ্ধতি ঐচ্ছিকভাবে নিতে পারেন max_length ক্ষেত্র, যা একটি টেক্সট প্রপার্টি মানের সর্বাধিক সংখ্যক টোকেন নির্দিষ্ট করে যা এনকোড করা হবে, যার পরে স্ট্রিংটি কাটা হয়। আপনি একটি শব্দ হিসাবে একটি টোকেন বিবেচনা করতে পারেন. এটি কর্মক্ষমতা উন্নত করতে পারে যখন টেক্সট সম্পত্তি মান দীর্ঘ স্ট্রিং থাকে, কারণ যদি max_length নির্দিষ্ট করা নেই, fastText স্ট্রিং দৈর্ঘ্য নির্বিশেষে সমস্ত টোকেন এনকোড করে।
text_sbert (নতুন) - বাক্যটি ব্যবহার করে BERT (SBERT) এনকোডিং পদ্ধতি। SBERT হল এক ধরনের বাক্য এমবেডিং পদ্ধতি যা প্রাসঙ্গিক উপস্থাপনা শেখার মডেল, BERT-Networks ব্যবহার করে। text_sbert ভাষা দ্বারা সমর্থিত না হলে সুপারিশ করা হয় text_fasttext. নেপচুন দুটি SBERT পদ্ধতি সমর্থন করে: text_sbert128, যদি আপনি শুধু নির্দিষ্ট করেন তাহলে যা ডিফল্ট text_sbert, এবং text_sbert512. তাদের মধ্যে পার্থক্য হল একটি পাঠ্য সম্পত্তিতে সর্বাধিক সংখ্যক টোকেন যা এনকোড করা হয়। দ্য text_sbert128 এনকোডিং শুধুমাত্র প্রথম 128টি টোকেনকে এনকোড করে text_sbert512 512 টোকেন পর্যন্ত এনকোড করে। ফলস্বরূপ, ব্যবহার করে text_sbert512 তুলনায় আরো প্রক্রিয়াকরণ সময় প্রয়োজন হতে পারে text_sbert128. উভয় পদ্ধতির চেয়ে ধীর text_fasttext.
text_word2vec - ব্যবহারসমূহ Word2Vec অ্যালগরিদম মূলত টেক্সট এনকোড করার জন্য Google দ্বারা প্রকাশিত। Word2Vec শুধুমাত্র ইংরেজি সমর্থন করে।
text_tfidf - একটি শব্দ ফ্রিকোয়েন্সি-বিপরীত ডকুমেন্ট ফ্রিকোয়েন্সি ব্যবহার করে (টিএফ-আইডিএফ) পাঠ্য এনকোডিংয়ের জন্য ভেক্টরাইজার। TF-IDF এনকোডিং পরিসংখ্যানগত বৈশিষ্ট্যগুলিকে সমর্থন করে যা অন্যান্য এনকোডিংগুলি করে না। এটি অন্য সব নোডের মধ্যে একটি নোড সম্পত্তিতে শব্দের গুরুত্ব বা প্রাসঙ্গিকতা পরিমাপ করে।

মনে রাখবেন যে text_word2vec এবং text_tfidf পূর্বে সমর্থিত ছিল এবং নতুন পদ্ধতি text_fasttext এবং text_sbert পুরানো পদ্ধতির উপর সুপারিশ করা হয়।

বিভিন্ন টেক্সট এনকোডারের তুলনা

নিম্নলিখিত টেবিলটি সমস্ত সমর্থিত পাঠ্য এনকোডিং বিকল্পগুলির বিশদ তুলনা দেখায় (text_fasttext, text_sbert, এবং text_word2vec). text_tfidf একটি মডেল-ভিত্তিক এনকোডিং পদ্ধতি নয়, বরং একটি গণনা-ভিত্তিক পরিমাপ যা মূল্যায়ন করে যে একটি টোকেন (উদাহরণস্বরূপ, একটি শব্দ) অন্যান্য নোড বা প্রান্তের পাঠ্য বৈশিষ্ট্যগুলির সাথে কতটা প্রাসঙ্গিক, তাই আমরা অন্তর্ভুক্ত করি না text_tfidf তুলনার জন্য আমরা ব্যবহার করার পরামর্শ দিই text_tfidf যখন আপনি অন্য সব নোড বা প্রান্ত বৈশিষ্ট্যের মধ্যে একটি নোড বা প্রান্ত বৈশিষ্ট্যে কিছু শব্দের গুরুত্ব বা প্রাসঙ্গিকতা পরিমাপ করতে চান।)

.	.	টেক্সট_ফাস্টটেক্সট	text_sbert	text_word2vec
মডেল ক্ষমতা	সমর্থিত ভাষা	ইংরেজি, চীনা, হিন্দি, স্প্যানিশ এবং ফরাসি	50 টিরও বেশি ভাষা	ইংরেজি
	বিভিন্ন ভাষার শব্দ ধারণ করে টেক্সট বৈশিষ্ট্য এনকোড করতে পারে	না	হাঁ	না
	সর্বোচ্চ দৈর্ঘ্য সমর্থন	কোন সর্বোচ্চ দৈর্ঘ্যের সীমা নেই	সর্বাধিক দৈর্ঘ্য 128 এবং 512 সহ পাঠ্য ক্রম এনকোড করে৷	কোন সর্বোচ্চ দৈর্ঘ্যের সীমা নেই
সময় খরচ	বোঝাই	প্রায় 10 সেকেন্ড	প্রায় 2 সেকেন্ড	প্রায় 2 সেকেন্ড
সময় খরচ	অনুমিতি	দ্রুত	ধীর	মধ্যম

নিম্নলিখিত ব্যবহারের টিপস নোট করুন:

ইংরেজি, চীনা, হিন্দি, স্প্যানিশ এবং ফরাসি ভাষায় টেক্সট সম্পত্তি মানগুলির জন্য, text_fasttext প্রস্তাবিত এনকোডিং। যাইহোক, এটি এমন ক্ষেত্রে পরিচালনা করতে পারে না যেখানে একই বাক্যে একাধিক ভাষায় শব্দ রয়েছে। পাঁচটি ছাড়া অন্যান্য ভাষার জন্য যে fastText সমর্থন করে, ব্যবহার করে text_sbert এনকোডিং
যদি আপনার কাছে অনেক সম্পত্তি মান পাঠ্য স্ট্রিং থাকে, উদাহরণস্বরূপ, 120 টোকেন, ব্যবহার করুন max_length ক্ষেত্র প্রতিটি স্ট্রিং মধ্যে টোকেন সংখ্যা সীমিত যে text_fasttext এনকোড

সংক্ষেপে, আপনার ব্যবহারের ক্ষেত্রে নির্ভর করে, আমরা নিম্নলিখিত এনকোডিং পদ্ধতির সুপারিশ করি:

যদি আপনার পাঠ্য বৈশিষ্ট্যগুলি পাঁচটি সমর্থিত ভাষার মধ্যে একটিতে থাকে তবে আমরা ব্যবহার করার পরামর্শ দিই৷ text_fasttext এর দ্রুত অনুমানের কারণে। text_fasttext প্রস্তাবিত পছন্দ এবং আপনি ব্যবহার করতে পারেন text_sbert নিম্নলিখিত দুটি ব্যতিক্রম মধ্যে.
যদি আপনার টেক্সট বৈশিষ্ট্য বিভিন্ন ভাষায় হয়, আমরা ব্যবহার করার পরামর্শ দিই text_sbert কারণ এটিই একমাত্র সমর্থিত পদ্ধতি যা বিভিন্ন ভাষার শব্দ সম্বলিত টেক্সট বৈশিষ্ট্য এনকোড করতে পারে।
যদি আপনার পাঠ্য বৈশিষ্ট্যগুলি এমন একটি ভাষায় থাকে যা পাঁচটি সমর্থিত ভাষার একটি নয়, আমরা ব্যবহার করার পরামর্শ দিই৷ text_sbert কারণ এটি 50টিরও বেশি ভাষা সমর্থন করে।
আপনার টেক্সট বৈশিষ্ট্যের গড় দৈর্ঘ্য 128 এর বেশি হলে, ব্যবহার করার কথা বিবেচনা করুন text_sbert512 or text_fasttext. উভয় পদ্ধতিই দীর্ঘ টেক্সট সিকোয়েন্স এনকোড করতে পারে।
আপনার টেক্সট বৈশিষ্ট্য শুধুমাত্র ইংরেজি হলে, আপনি ব্যবহার করতে পারেন text_word2vec, কিন্তু আমরা ব্যবহার করার পরামর্শ দিই text_fasttext এর দ্রুত অনুমানের জন্য।

কেস ডেমো ব্যবহার করুন: কাজের সুপারিশ টাস্ক

কাজের সুপারিশ টাস্কের লক্ষ্য হল ব্যবহারকারীরা তাদের পূর্ববর্তী অ্যাপ্লিকেশন, জনসংখ্যার তথ্য এবং কাজের ইতিহাসের উপর ভিত্তি করে কোন কাজের জন্য আবেদন করবে তা ভবিষ্যদ্বাণী করা। এই পোস্ট ব্যবহার করে একটি খোলা কাগল ডেটাসেট. আমরা ডেটাসেটটিকে তিন-নোড টাইপ গ্রাফ হিসাবে তৈরি করি: কাজ, ব্যবহারকারী, এবং শহর.

একটি চাকরি তার শিরোনাম, বিবরণ, প্রয়োজনীয়তা, অবস্থিত শহর এবং রাজ্য দ্বারা চিহ্নিত করা হয়। একজন ব্যবহারকারীকে প্রধান, ডিগ্রির ধরন, কাজের ইতিহাসের সংখ্যা, কাজের অভিজ্ঞতার জন্য মোট বছরের সংখ্যা এবং আরও অনেক কিছুর বৈশিষ্ট্য সহ বর্ণনা করা হয়। এই ব্যবহারের ক্ষেত্রে, কাজের শিরোনাম, কাজের বিবরণ, কাজের প্রয়োজনীয়তা এবং প্রধান বিষয়গুলি সবই পাঠ্য আকারে রয়েছে।

ডেটাসেটে, ব্যবহারকারীদের নিম্নলিখিত বৈশিষ্ট্য রয়েছে:

রাষ্ট্র – উদাহরণস্বরূপ, CA বা 广东省 (চীনা)
গুরুতর – উদাহরণস্বরূপ, মানব সম্পদ ব্যবস্থাপনা বা Lic Cytura Fisica (স্প্যানিশ)
ডিগ্রীর ধরণ – উদাহরণস্বরূপ, ব্যাচেলরস, মাস্টার্স, পিএইচডি, বা কিছুই নয়
কাজের ইতিহাস গণনা – উদাহরণস্বরূপ, 0, 1, 16, ইত্যাদি
মোট বছরের অভিজ্ঞতা – উদাহরণস্বরূপ, 0.0, 10.0, বা NAN

কাজের নিম্নলিখিত বৈশিষ্ট্য আছে:

শিরনাম – উদাহরণস্বরূপ, প্রশাসনিক সহকারী বা Lic Cultura Física (স্প্যানিশ)।
বিবরণ – উদাহরণস্বরূপ, "এই প্রশাসনিক সহকারী পদটি যোগাযোগের ক্ষেত্রে বিভিন্ন করণিক এবং প্রশাসনিক সহায়তা ফাংশন সম্পাদনের জন্য দায়ী, ..." একটি বর্ণনায় শব্দের গড় সংখ্যা প্রায় 192.2।
আবশ্যকতা – উদাহরণস্বরূপ, “চাকরীর প্রয়োজনীয়তা: 1. বিস্তারিত মনোযোগ; 2. দ্রুত গতির পরিবেশে কাজ করার ক্ষমতা; 3. ইনভয়েসিং..."
রাষ্ট্র: – যেমন, CA, NY, ইত্যাদি।

নোডের ধরন শহর ওয়াশিংটন ডিসি এবং অরল্যান্ডো এফএল-এ শুধুমাত্র প্রতিটি নোডের জন্য শনাক্তকারী রয়েছে। নিম্নলিখিত বিভাগে, আমরা বিভিন্ন পাঠ্য বৈশিষ্ট্যের বৈশিষ্ট্যগুলি বিশ্লেষণ করি এবং বিভিন্ন পাঠ্য বৈশিষ্ট্যের জন্য সঠিক পাঠ্য এনকোডারগুলিকে কীভাবে নির্বাচন করতে হয় তা ব্যাখ্যা করি।

কিভাবে বিভিন্ন টেক্সট এনকোডার নির্বাচন করবেন

আমাদের উদাহরণের জন্য, গুরুতর এবং শিরনাম বৈশিষ্ট্যগুলি একাধিক ভাষায় এবং সংক্ষিপ্ত পাঠ্য ক্রম রয়েছে, তাই text_sbert সুপারিশকৃত. জন্য নমুনা কোড রপ্তানি পরামিতি নিম্নরূপ. জন্য text_sbert টাইপ, অন্য কোন প্যারামিটার ক্ষেত্র নেই। এখানে আমরা নির্বাচন করি text_sbert128 আর অন্যান্য text_sbert512, কারণ পাঠ্যের দৈর্ঘ্য 128 এর চেয়ে তুলনামূলকভাবে ছোট।

"additionalParams": {
    "neptune_ml": {
        "version": "v2.0",
        "targets": [ ... ],
        "features": [
            {
                "node": "user",
                "property": "Major",
                "type": "text_sbert128"
            },
            {
                "node": "job",
                "property": "Title",
                "type": "text_sbert128",
            }, ...
        ], ...
    }
}

সার্জারির বিবরণ এবং আবশ্যকতা বৈশিষ্ট্যগুলি সাধারণত দীর্ঘ টেক্সট সিকোয়েন্সে থাকে। একটি বর্ণনার গড় দৈর্ঘ্য প্রায় 192 শব্দ, যা সর্বাধিক ইনপুট দৈর্ঘ্যের চেয়ে দীর্ঘ text_sbert (128)। আমরা ব্যবহার করতে পারি text_sbert512, কিন্তু এটি ধীর অনুমান হতে পারে। উপরন্তু, পাঠ্য একটি একক ভাষায় (ইংরেজি)। অতএব, আমরা সুপারিশ text_fasttext সাথে en ভাষার মান এর দ্রুত অনুমান এবং সীমিত ইনপুট দৈর্ঘ্যের কারণে। জন্য নমুনা কোড রপ্তানি পরামিতি নিম্নরূপ. দ্য text_fasttext এনকোডিং ব্যবহার করে কাস্টমাইজ করা যেতে পারে ভাষা এবং সর্বোচ্চ দৈর্ঘ্য. দ্য language মান প্রয়োজন, কিন্তু max_length alচ্ছিক।

"additionalParams": {
    "neptune_ml": {
        "version": "v2.0",
        "targets": [ ... ],
        "features": [
            {
                "node": "job",
                "property": "Description",
                "type": "text_fasttext",
                "language": "en",
                "max_length": 256
            },
            {
                "node": "job",
                "property": "Requirements",
                "type": "text_fasttext",
                "language": "en"
            }, ...
        ], ...
    }
}

চাকরির সুপারিশ ব্যবহারের ক্ষেত্রে আরও বিশদ বিবরণ পাওয়া যাবে নেপচুন নোটবুক টিউটোরিয়াল.

প্রদর্শনের উদ্দেশ্যে, আমরা একজন ব্যবহারকারীকে নির্বাচন করি, অর্থাৎ ব্যবহারকারী 443931, যিনি 'ম্যানেজমেন্ট এবং হিউম্যান রিসোর্সেস'-এ স্নাতকোত্তর ডিগ্রিধারী। ব্যবহারকারী "হিউম্যান রিসোর্সেস (এইচআর) ম্যানেজার", "এইচআর জেনারেলিস্ট", "হিউম্যান রিসোর্সেস ম্যানেজার", "হিউম্যান রিসোর্সেস অ্যাডমিনিস্ট্রেটর", এবং "সিনিয়র পেরোল স্পেশালিস্ট" নামে পাঁচটি ভিন্ন চাকরিতে আবেদন করেছেন। সুপারিশ টাস্কের পারফরম্যান্স মূল্যায়ন করার জন্য, আমরা ব্যবহারকারীর আবেদনের 50% কাজের (প্রান্তগুলি) মুছে ফেলি (এখানে আমরা "মানব সম্পদ প্রশাসক" এবং "মানব সম্পদ (এইচআর) ম্যানেজার" মুছে ফেলি এবং শীর্ষের পূর্বাভাস দেওয়ার চেষ্টা করি 10টি চাকরির জন্য এই ব্যবহারকারীর আবেদন করার সম্ভাবনা সবচেয়ে বেশি।

কাজের বৈশিষ্ট্য এবং ব্যবহারকারীর বৈশিষ্ট্যগুলি এনকোড করার পরে, আমরা একটি রিলেশনাল গ্রাফ কনভোলিউশনাল নেটওয়ার্ক (RGCN) মডেলকে প্রশিক্ষণ দিয়ে একটি লিঙ্ক পূর্বাভাস কার্য সম্পাদন করি। একটি নেপচুন এমএল মডেল প্রশিক্ষণের জন্য তিনটি ধাপের প্রয়োজন: ডেটা প্রসেসিং, মডেল প্রশিক্ষণ এবং শেষ পয়েন্ট তৈরি। ইনফারেন্স এন্ডপয়েন্ট তৈরি হওয়ার পর, আমরা ব্যবহারকারী 443931-এর জন্য সুপারিশ করতে পারি। ব্যবহারকারী 10 (যেমন, "HR জেনারেলিস্ট", "হিউম্যান রিসোর্সেস (HR) ম্যানেজার", "সিনিয়র পেরোল স্পেশালিস্ট", "হিউম্যান" এর জন্য পূর্বাভাসিত শীর্ষ 443931টি চাকরি থেকে রিসোর্সেস অ্যাডমিনিস্ট্রেটর", "এইচআর অ্যানালিস্ট", এবং অন্যান্য), আমরা লক্ষ্য করি যে দুটি মুছে ফেলা চাকরি 10টি ভবিষ্যদ্বাণীর মধ্যে রয়েছে।

উপসংহার

এই পোস্টে, আমরা নেপচুন এমএল-এ নতুন সমর্থিত পাঠ্য এনকোডারগুলির ব্যবহার দেখিয়েছি। এই পাঠ্য এনকোডারগুলি ব্যবহার করা সহজ এবং একাধিক প্রয়োজনীয়তা সমর্থন করতে পারে। সংক্ষেপে,

text_fasttext এমন বৈশিষ্ট্যগুলির জন্য সুপারিশ করা হয় যেগুলি পাঠ্য_ফাস্টটেক্সট সমর্থন করে এমন পাঁচটি ভাষার মধ্যে একটি এবং শুধুমাত্র একটি ব্যবহার করে।
text_sbert টেক্সটের জন্য সুপারিশ করা হয় যে text_fasttext সমর্থন করে না।
text_word2vec শুধুমাত্র ইংরেজি সমর্থন করে, এবং যেকোনো পরিস্থিতিতে text_fasttext দ্বারা প্রতিস্থাপিত হতে পারে।

সমাধান সম্পর্কে আরো বিস্তারিত জানার জন্য, দেখুন গিটহুব রেপো. আমরা আপনার প্রয়োজনীয়তা পূরণ করতে আপনার গ্রাফ ডেটাতে পাঠ্য এনকোডারগুলি ব্যবহার করার পরামর্শ দিই৷ GNN মডেল অপরিবর্তিত রেখে আপনি শুধুমাত্র একটি এনকোডার নাম বেছে নিতে পারেন এবং কিছু এনকোডার বৈশিষ্ট্য সেট করতে পারেন।

লেখক সম্পর্কে

জিয়ানি ঝাং AWS AI রিসার্চ অ্যান্ড এডুকেশন (AIRE) এর একজন ফলিত বিজ্ঞানী। তিনি মেশিন লার্নিং অ্যালগরিদম, বিশেষ করে প্রাকৃতিক ভাষা এবং গ্রাফ সম্পর্কিত সমস্যাগুলি ব্যবহার করে বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলি সমাধান করার জন্য কাজ করেন৷

সময় স্ট্যাম্প: অক্টোবর 14, 2022অক্টোবর 15, 2022

সময় স্ট্যাম্প: 4 পারে, 2023

ভবিষ্যদ্বাণীমূলক মডেল প্রশিক্ষণের জন্য অ্যামাজন নেপচুনে বহু-ভাষিক পাঠ্য বৈশিষ্ট্যগুলিকে এনকোড করুন৷

প্লেটো দ্বারা প্রকাশিত

একটি টেক্সট এনকোডার কি?

বিভিন্ন টেক্সট এনকোডারের তুলনা

কেস ডেমো ব্যবহার করুন: কাজের সুপারিশ টাস্ক

কিভাবে বিভিন্ন টেক্সট এনকোডার নির্বাচন করবেন

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

LlamaIndex এবং Llama 2-Chat | ব্যবহার করে জ্ঞান-চালিত কথোপকথন অ্যাপ্লিকেশন তৈরি করুন আমাজন ওয়েব সার্ভিসেস

Amazon SageMaker-এ AWS স্টেপ ফাংশন এবং AutoGluon সহ AutoML ওয়ার্কফ্লো পরিচালনা করুন

AWS-এ ডেটা মেশ আর্কিটেকচার ব্যবহার করে ML মডেল তৈরি এবং প্রশিক্ষণ দিন: পার্ট 2

অ্যামাজন কেন্দ্রের প্রায়শই জিজ্ঞাসিত প্রশ্নগুলির জন্য সংস্করণ নিয়ন্ত্রণ স্বয়ংক্রিয় এবং প্রয়োগ করুন৷

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব