অ্যামাজন সমঝোতা একটি প্রাকৃতিক-ভাষা প্রক্রিয়াকরণ (NLP) পরিষেবা যা আপনি স্বয়ংক্রিয়ভাবে সত্তা, মূল বাক্যাংশ, ভাষা, অনুভূতি এবং নথি থেকে অন্যান্য অন্তর্দৃষ্টি বের করতে ব্যবহার করতে পারেন। উদাহরণস্বরূপ, আপনি অবিলম্বে এর মাধ্যমে মানুষ, স্থান, বাণিজ্যিক আইটেম, তারিখ এবং পরিমাণের মতো সত্তা সনাক্ত করা শুরু করতে পারেন অ্যামাজন কম্প্রিহেন্ড কনসোল, এডাব্লুএস কমান্ড লাইন ইন্টারফেস, বা Amazon Comprehend APIs. উপরন্তু, যদি আপনি সত্তা নিষ্কাশন করতে চান যে অংশ নয় অ্যামাজন কম্প্রিহেন্ড বিল্ট-ইন সত্তার ধরন, আপনি একটি কাস্টম সত্তা স্বীকৃতি মডেল তৈরি করতে পারেন (এ নামেও পরিচিত কাস্টম সত্তা সনাক্তকারী) আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে আরও প্রাসঙ্গিক শর্তাদি বের করতে, যেমন পণ্যের ক্যাটালগ থেকে আইটেমগুলির নাম, ডোমেন-নির্দিষ্ট শনাক্তকারী ইত্যাদি। মেশিন লার্নিং লাইব্রেরি এবং ফ্রেমওয়ার্ক ব্যবহার করে নিজেরাই একটি সঠিক সত্তা শনাক্তকারী তৈরি করা একটি জটিল এবং সময়সাপেক্ষ প্রক্রিয়া হতে পারে। Amazon Comprehend আপনার মডেল প্রশিক্ষণের কাজকে উল্লেখযোগ্যভাবে সহজ করে। আপনাকে যা করতে হবে তা হল আপনার নথি এবং টীকাগুলির ডেটাসেট লোড করুন এবং মডেল তৈরি করতে Amazon Comprehend কনসোল, AWS CLI বা API ব্যবহার করুন৷
একটি কাস্টম সত্তা শনাক্তকারীকে প্রশিক্ষণ দিতে, আপনি Amazon Comprehend-এ প্রশিক্ষণের ডেটা প্রদান করতে পারেন টীকা বা সত্তা তালিকা. প্রথম ক্ষেত্রে, আপনি নথিগুলির একটি সংগ্রহ এবং টীকা সহ একটি ফাইল প্রদান করেন যা নথিগুলির সেটের মধ্যে সত্তাগুলি কোথায় ঘটে তা নির্দিষ্ট করে৷ বিকল্পভাবে, সত্তা তালিকার সাথে, আপনি তাদের সংশ্লিষ্ট সত্তা টাইপ লেবেল সহ সত্তাগুলির একটি তালিকা এবং অব্যক্ত নথিগুলির একটি সেট প্রদান করেন যেখানে আপনি আপনার সত্তা উপস্থিত থাকার আশা করেন৷ উভয় পন্থা একটি সফল কাস্টম সত্তা স্বীকৃতি মডেল প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে; যাইহোক, এমন পরিস্থিতি রয়েছে যেখানে একটি পদ্ধতি একটি ভাল পছন্দ হতে পারে। উদাহরণস্বরূপ, যখন নির্দিষ্ট সত্তার অর্থ অস্পষ্ট এবং প্রসঙ্গ-নির্ভর হতে পারে, তখন টীকা প্রদানের সুপারিশ করা হয় কারণ এটি আপনাকে একটি Amazon Comprehend মডেল তৈরি করতে সাহায্য করতে পারে যা সত্তাগুলি বের করার সময় প্রসঙ্গটি আরও ভালভাবে ব্যবহার করতে সক্ষম।
ডকুমেন্ট টীকা করার জন্য অনেক প্রচেষ্টা এবং সময় প্রয়োজন হতে পারে, বিশেষ করে যদি আপনি বিবেচনা করেন যে টীকাগুলির গুণমান এবং পরিমাণ উভয়ই ফলে সত্তা স্বীকৃতি মডেলের উপর প্রভাব ফেলে। অসম্পূর্ণ বা খুব কম টীকা খারাপ ফলাফলের দিকে নিয়ে যেতে পারে। টীকা অর্জনের জন্য একটি প্রক্রিয়া সেট আপ করতে আপনাকে সাহায্য করার জন্য, আমরা যেমন সরঞ্জাম প্রদান করি আমাজন সেজমেকার গ্রাউন্ড ট্রুথ, যা আপনি আপনার নথিগুলিকে আরও দ্রুত টীকা করতে এবং একটি তৈরি করতে ব্যবহার করতে পারেন৷ অগমেন্টেড ম্যানিফেস্ট টীকা ফাইল. যাইহোক, এমনকি যদি আপনি গ্রাউন্ড ট্রুথ ব্যবহার করেন, তবুও আপনাকে নিশ্চিত করতে হবে যে আপনার প্রশিক্ষণ ডেটাসেটটি সফলভাবে আপনার সত্তা শনাক্তকারী তৈরি করার জন্য যথেষ্ট বড়।
আজ অবধি, একজন Amazon Comprehend কাস্টম সত্তা শনাক্তকারীকে প্রশিক্ষণ দেওয়া শুরু করতে, আপনাকে কমপক্ষে 250টি নথির সংগ্রহ এবং প্রতি সত্তার প্রকারের জন্য সর্বনিম্ন 100টি টীকা প্রদান করতে হবে৷ আজ, আমরা ঘোষণা করছি যে, অ্যামাজন কম্প্রিহেন্ডের অন্তর্নিহিত মডেলগুলিতে সাম্প্রতিক উন্নতির জন্য ধন্যবাদ, আমরা প্লেইন টেক্সট CSV টীকা ফাইল সহ একজন সনাক্তকারীকে প্রশিক্ষণের জন্য ন্যূনতম প্রয়োজনীয়তা কমিয়ে দিয়েছি। আপনি এখন একটি কাস্টম সত্তা শনাক্তকরণ মডেল তৈরি করতে পারেন যত কম তিনটি নথি এবং প্রতি সত্তার ধরনে 25 টি টীকা। আপনি নতুন পরিষেবা সীমা সম্পর্কে আরও বিশদ জানতে পারেন নির্দেশিকা এবং কোটা.
এই হ্রাস কীভাবে আপনাকে একটি কাস্টম সত্তা শনাক্তকারী তৈরির সাথে শুরু করতে সাহায্য করতে পারে তা দেখানোর জন্য, আমরা কয়েকটি ওপেন-সোর্স ডেটাসেটে কিছু পরীক্ষা চালিয়েছি এবং পারফরম্যান্স মেট্রিক্স সংগ্রহ করেছি। এই পোস্টে, আমরা আপনাকে বেঞ্চমার্কিং প্রক্রিয়া এবং সাবস্যাম্পড ডেটাসেটগুলিতে কাজ করার সময় আমরা যে ফলাফলগুলি পেয়েছি তার মধ্য দিয়ে চলেছি।
ডেটাসেট প্রস্তুতি
এই পোস্টে, আমরা ব্যাখ্যা করি যে কীভাবে আমরা টীকাযুক্ত নথি ব্যবহার করে একটি Amazon Comprehend কাস্টম সত্তা শনাক্তকারীকে প্রশিক্ষণ দিয়েছি। সাধারণভাবে, একটি হিসাবে টীকা প্রদান করা যেতে পারে CSV ফাইল, একটি গ্রাউন্ড ট্রুথ দ্বারা তৈরি অগমেন্টেড ম্যানিফেস্ট ফাইল, বা একটি পিডিএফ ফাইল. আমাদের ফোকাস হল CSV প্লেইন টেক্সট টীকা, কারণ এই ধরনের টীকা নতুন ন্যূনতম প্রয়োজনীয়তা দ্বারা প্রভাবিত হয়৷ CSV ফাইলগুলির নিম্নলিখিত কাঠামো থাকা উচিত:
প্রাসঙ্গিক ক্ষেত্রগুলি নিম্নরূপ:
- ফাইল - নথি ধারণকারী ফাইলের নাম
- লাইন - লাইন 0 দিয়ে শুরু হওয়া সত্তা ধারণকারী লাইনের সংখ্যা
- শুরু করা অফসেট – ইনপুট টেক্সটে অফসেট অক্ষর (লাইনের শুরুর সাথে সম্পর্কিত) যা দেখায় যে সত্তাটি কোথায় শুরু হয়, বিবেচনা করে যে প্রথম অক্ষরটি 0 এ রয়েছে
- অফসেট শেষ করুন - ইনপুট টেক্সটে অফসেট অক্ষর যা দেখায় যে সত্তার শেষ কোথায়
- আদর্শ - আপনি যে সত্তার ধরণটি সংজ্ঞায়িত করতে চান তার নাম৷
অতিরিক্তভাবে, এই পদ্ধতিটি ব্যবহার করার সময়, আপনাকে প্রতি লাইনে একটি ডকুমেন্ট বা ফাইল প্রতি একটি ডকুমেন্ট সহ .txt ফাইল হিসাবে প্রশিক্ষণ নথির একটি সংগ্রহ প্রদান করতে হবে।
আমাদের পরীক্ষার জন্য, আমরা ব্যবহার করি SNIPS প্রাকৃতিক ভাষা বোঝার বেঞ্চমার্ক, সাতটি ব্যবহারকারীর অভিপ্রায়ের মধ্যে বিতরণ করা ক্রাউডসোর্সড উচ্চারণের একটি ডেটাসেট (AddToPlaylist
, BookRestaurant
, GetWeather
, PlayMusic
, RateBook
, SearchCreativeWork
, SearchScreeningEvent
) কাগজের পরিপ্রেক্ষিতে ডেটাসেটটি 2018 সালে প্রকাশিত হয়েছিল স্নিপস ভয়েস প্ল্যাটফর্ম: ব্যক্তিগত-বাই-ডিজাইন ভয়েস ইন্টারফেসের জন্য একটি এমবেডেড কথ্য ভাষা বোঝার সিস্টেম Coucke, et al দ্বারা।
এসএনআইপিএস ডেটাসেটটি জেএসএন ফাইলের একটি সংগ্রহ দিয়ে তৈরি করা হয়েছে যা টীকা এবং কাঁচা টেক্সট ফাইল উভয়কেই ঘনীভূত করে। নিম্নলিখিত ডেটাসেট থেকে একটি স্নিপেট:
আমাদের সত্তা শনাক্তকারী তৈরি করার আগে, আমরা SNIPS টীকা এবং কাঁচা পাঠ ফাইলগুলিকে একটি CSV টীকা ফাইল এবং একটি .txt নথি ফাইলে রূপান্তরিত করেছি৷
নিম্নলিখিত আমাদের থেকে একটি উদ্ধৃতি annotations.csv
ফাইল:
নিম্নলিখিত আমাদের থেকে একটি উদ্ধৃতি documents.txt
ফাইল:
নমুনা কনফিগারেশন এবং বেঞ্চমার্কিং প্রক্রিয়া
আমাদের পরীক্ষা-নিরীক্ষার জন্য, আমরা SNIPS ডেটাসেট থেকে সত্তা প্রকারের একটি উপসেটের উপর ফোকাস করেছি:
- বুক রেস্তোরাঁ - সত্তার ধরন:
spatial_relation
,poi
,party_size_number
,restaurant_name
,city
,timeRange
,restaurant_type
,served_dish
,party_size_description
,country
,facility
,state
,sort
,cuisine
- GetWeather - সত্তার ধরন:
condition_temperature
,current_location
,geographic_poi
,timeRange
,state
,spatial_relation
,condition_description
,city
,country
- গান বাজাও - সত্তার ধরন:
track
,artist
,music_item
,service
,genre
,sort
,playlist
,album
,year
অধিকন্তু, প্রশিক্ষণের জন্য নমুনাকৃত নথির সংখ্যা এবং প্রতি সত্তার টীকাগুলির সংখ্যার পরিপ্রেক্ষিতে বিভিন্ন কনফিগারেশন পেতে আমরা প্রতিটি ডেটাসেটের নমুনা তৈরি করেছি (যা নামেও পরিচিত শট) এটি একটি কাস্টম স্ক্রিপ্ট ব্যবহার করে করা হয়েছিল যা সাবস্যাম্পড ডেটাসেট তৈরি করার জন্য ডিজাইন করা হয়েছে যাতে প্রতিটি সত্তার প্রকার কমপক্ষে প্রদর্শিত হয় k বার, একটি সর্বনিম্ন মধ্যে n নথি।
প্রতিটি মডেলকে প্রশিক্ষণ ডেটাসেটের একটি নির্দিষ্ট উপ-নমুনা ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল; নয়টি মডেল কনফিগারেশন নিম্নলিখিত টেবিলে চিত্রিত করা হয়েছে।
সাবস্যাম্পড ডেটাসেটের নাম | প্রশিক্ষণের জন্য নমুনা নমুনা সংখ্যা | পরীক্ষার জন্য নমুনা নমুনা সংখ্যা | প্রতি সত্তার প্রকারের টীকাগুলির গড় সংখ্যা (শট) |
snips-BookRestaurant-subsample-A |
132 | 17 | 33 |
snips-BookRestaurant-subsample-B |
257 | 33 | 64 |
snips-BookRestaurant-subsample-C |
508 | 64 | 128 |
snips-GetWeather-subsample-A |
91 | 12 | 25 |
snips-GetWeather-subsample-B |
185 | 24 | 49 |
snips-GetWeather-subsample-C |
361 | 46 | 95 |
snips-PlayMusic-subsample-A |
130 | 17 | 30 |
snips-PlayMusic-subsample-B |
254 | 32 | 60 |
snips-PlayMusic-subsample-C |
505 | 64 | 119 |
আমাদের মডেলের নির্ভুলতা পরিমাপ করার জন্য, আমরা মূল্যায়নের মেট্রিক্স সংগ্রহ করেছি যা অ্যামাজন কম্প্রিহেন্ড স্বয়ংক্রিয়ভাবে গণনা করে যখন কোনো সত্তা শনাক্তকারীকে প্রশিক্ষণ দেয়:
- স্পষ্টতা - এটি সনাক্তকারী দ্বারা সনাক্ত করা সত্তার ভগ্নাংশ নির্দেশ করে যেগুলি সঠিকভাবে চিহ্নিত এবং লেবেল করা হয়েছে৷ একটি ভিন্ন দৃষ্টিকোণ থেকে, নির্ভুলতা হিসাবে সংজ্ঞায়িত করা যেতে পারে tp / (tp + fp), কোথায় tp সত্য ইতিবাচক সংখ্যা (সঠিক সনাক্তকরণ) এবং fp মিথ্যা ইতিবাচক সংখ্যা (ভুল শনাক্তকরণ)।
- প্রত্যাহার - এটি সঠিকভাবে চিহ্নিত এবং লেবেলযুক্ত নথিগুলিতে উপস্থিত সত্তাগুলির ভগ্নাংশ নির্দেশ করে৷ এটা হিসাবে গণনা করা হয় tp / (tp + fn), কোথায় tp সত্য ইতিবাচক সংখ্যা এবং fn মিথ্যা নেতিবাচক সংখ্যা (মিসড আইডেন্টিফিকেশন)।
- F1 স্কোর - এটি নির্ভুলতা এবং প্রত্যাহার মেট্রিক্সের সংমিশ্রণ, যা মডেলের সামগ্রিক নির্ভুলতা পরিমাপ করে। F1 স্কোর হল নির্ভুলতা এবং রিকল মেট্রিক্সের সুরেলা গড়, এবং হিসাবে গণনা করা হয় 2 * যথার্থতা * প্রত্যাহার / (নির্ভুলতা + স্মরণ).
আমাদের সত্তা শনাক্তকারীদের কর্মক্ষমতা তুলনা করার জন্য, আমরা F1 স্কোরের উপর ফোকাস করি।
এটি বিবেচনা করে, একটি ডেটাসেট এবং একটি সাবস্যাম্পল সাইজ দেওয়া (ডকুমেন্ট এবং শটের সংখ্যার পরিপ্রেক্ষিতে), আপনি বিভিন্ন সাবস্যাম্পল তৈরি করতে পারেন, আমরা নয়টি কনফিগারেশনের প্রতিটির জন্য 10টি সাবস্যাম্পল তৈরি করেছি, সত্তা শনাক্তকরণ মডেলকে প্রশিক্ষিত করেছি, পারফরম্যান্স মেট্রিক্স সংগ্রহ করেছি এবং মাইক্রো-গড় ব্যবহার করে তাদের গড়। এটি আমাদের আরও স্থিতিশীল ফলাফল পেতে অনুমতি দেয়, বিশেষত কয়েকটি শট সাবস্যাম্পলের জন্য।
ফলাফল
নিম্নলিখিত সারণী প্রতিটি সত্তা শনাক্তকারীকে প্রশিক্ষণের পর অ্যামাজন কম্প্রেহেন্ড দ্বারা ফেরত কর্মক্ষমতা মেট্রিক্সের উপর গণনা করা মাইক্রো-গড় F1 স্কোর দেখায়।
সাবস্যাম্পড ডেটাসেটের নাম | সত্তা শনাক্তকারী মাইক্রো-গড় F1 স্কোর (%) |
snips-BookRestaurant-subsample-A |
86.89 |
snips-BookRestaurant-subsample-B |
90.18 |
snips-BookRestaurant-subsample-C |
92.84 |
snips-GetWeather-subsample-A |
84.73 |
snips-GetWeather-subsample-B |
93.27 |
snips-GetWeather-subsample-C |
93.43 |
snips-PlayMusic-subsample-A |
80.61 |
snips-PlayMusic-subsample-B |
81.80 |
snips-PlayMusic-subsample-C |
85.04 |
নিচের কলামের চার্টটি পূর্ববর্তী বিভাগে বর্ণিত নয়টি কনফিগারেশনের জন্য F1 স্কোরের বিতরণ দেখায়।
আমরা লক্ষ্য করতে পারি যে আমরা সফলভাবে কাস্টম সত্তা শনাক্তকরণ মডেলগুলিকে প্রশিক্ষণ দিতে সক্ষম হয়েছি এমনকি প্রতি সত্তা টাইপের 25টির মতো টীকা দিয়েও। যদি আমরা তিনটি ক্ষুদ্রতম উপসমুনা ডেটাসেটের উপর ফোকাস করি (snips-BookRestaurant-subsample-A
, snips-GetWeather-subsample-A
, এবং snips-PlayMusic-subsample-A
), আমরা দেখি যে, গড়ে, আমরা 1% এর একটি F84 স্কোর অর্জন করতে সক্ষম হয়েছি, যা আমরা ব্যবহার করেছি সীমিত সংখ্যক নথি এবং টীকা বিবেচনা করে একটি সুন্দর ফলাফল। আমরা যদি আমাদের মডেলের কর্মক্ষমতা উন্নত করতে চাই, আমরা অতিরিক্ত নথি এবং টীকা সংগ্রহ করতে পারি এবং আরও ডেটা সহ একটি নতুন মডেলকে প্রশিক্ষণ দিতে পারি। উদাহরণস্বরূপ, মাঝারি আকারের উপ-নমুনা সহ (snips-BookRestaurant-subsample-B
, snips-GetWeather-subsample-B
, এবং snips-PlayMusic-subsample-B
), যাতে দ্বিগুণ নথি এবং টীকা রয়েছে, আমরা গড়ে 1% এর F88 স্কোর পেয়েছি (এর ক্ষেত্রে 5% উন্নতি subsample-A
ডেটাসেট)। অবশেষে, বৃহত্তর সাবস্যাম্পল ডেটাসেট (snips-BookRestaurant-subsample-C
, snips-GetWeather-subsample-C
, এবং snips-PlayMusic-subsample-C
), যাতে আরও বেশি টীকাযুক্ত ডেটা থাকে (এর জন্য ব্যবহৃত নথি এবং টীকাগুলির সংখ্যার প্রায় চার গুণ subsample-A
ডেটাসেট), আরও 2% উন্নতি প্রদান করেছে, গড় F1 স্কোর 90% এ উন্নীত করেছে।
উপসংহার
এই পোস্টে, আমরা Amazon Comprehend-এর সাথে একজন কাস্টম সত্তা শনাক্তকারীকে প্রশিক্ষণের জন্য ন্যূনতম প্রয়োজনীয়তা হ্রাস করার ঘোষণা দিয়েছি এবং ওপেন-সোর্স ডেটাসেটে কিছু বেঞ্চমার্ক চালিয়েছি যাতে দেখা যায় এই হ্রাস কীভাবে আপনাকে শুরু করতে সাহায্য করতে পারে। আজ থেকে, আপনি একটি সত্তা স্বীকৃতি মডেল তৈরি করতে পারেন প্রতি সত্তা টাইপ প্রতি 25 টি টীকা (100 এর পরিবর্তে), এবং কমপক্ষে তিনটি নথি (250 এর পরিবর্তে)। এই ঘোষণার মাধ্যমে, আমরা Amazon Comprehend কাস্টম সত্তা স্বীকৃতি প্রযুক্তি ব্যবহার করতে আগ্রহী ব্যবহারকারীদের প্রবেশের বাধা কমিয়ে দিচ্ছি। আপনি এখন টীকাকৃত নথিগুলির একটি খুব ছোট সংগ্রহের সাথে আপনার পরীক্ষাগুলি চালানো শুরু করতে পারেন, প্রাথমিক ফলাফলগুলি বিশ্লেষণ করতে পারেন এবং আপনার ব্যবহারের ক্ষেত্রে আরও সঠিক সত্তা স্বীকৃতি মডেলের প্রয়োজন হলে অতিরিক্ত টীকা এবং নথিগুলি অন্তর্ভুক্ত করে পুনরাবৃত্তি করতে পারেন৷
আরও জানতে এবং একটি কাস্টম সত্তা শনাক্তকারীর সাথে শুরু করতে, পড়ুন কাস্টম সত্তা স্বীকৃতি.
আমার সহকর্মী জ্যোতি বানসাল এবং জি মা-কে বিশেষ ধন্যবাদ ডেটা তৈরি এবং বেঞ্চমার্কিংয়ের ক্ষেত্রে তাদের মূল্যবান সাহায্যের জন্য।
লেখক সম্পর্কে
লুকা গুইদা AWS-এর একজন সলিউশন আর্কিটেক্ট; তিনি মিলানে অবস্থিত এবং ইতালীয় ISV-কে তাদের ক্লাউড যাত্রায় সমর্থন করেন। কম্পিউটার বিজ্ঞান এবং প্রকৌশলে একাডেমিক ব্যাকগ্রাউন্ডের সাথে, তিনি বিশ্ববিদ্যালয়ে তার AI/ML প্যাশন তৈরি করতে শুরু করেন। AWS-এর মধ্যে ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) সম্প্রদায়ের সদস্য হিসেবে, লুকা গ্রাহকদের AI/ML পরিষেবাগুলি গ্রহণ করার সময় সফল হতে সাহায্য করে৷
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- অ্যামাজন সমঝোতা
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মধ্যবর্তী (200)
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- zephyrnet