بهبود کیفیت پیش‌بینی در مدل‌های طبقه‌بندی سفارشی با Amazon Comprehend

بازنشر افلاطون

دنبال: 0

هوش مصنوعی (AI) و یادگیری ماشین (ML) در سراسر سازمان‌ها و سازمان‌های دولتی مورد استفاده گسترده قرار گرفته‌اند. پردازش داده های بدون ساختار با پیشرفت در پردازش زبان طبیعی (NLP) و سرویس های AI/ML کاربر پسند آسان تر شده است. متن آمازون, آمازون رونوشتو درک آمازون. سازمان‌ها شروع به استفاده از سرویس‌های AI/ML مانند Amazon Comprehend کرده‌اند تا مدل‌های طبقه‌بندی را با داده‌های ساختار نیافته خود بسازند تا بینش عمیقی که قبلاً نداشتند به دست آورند. اگرچه می‌توانید از مدل‌های از پیش آموزش‌دیده‌شده با کمترین تلاش استفاده کنید، بدون تنظیم داده‌ها و تنظیم مدل مناسب، اما نمی‌توانید مزایای کامل مدل‌های AI/ML را درک کنید.

در این پست نحوه ساخت و بهینه سازی یک مدل طبقه بندی سفارشی با استفاده از آمازون Comprehend را توضیح می دهیم. ما این را با استفاده از یک طبقه‌بندی سفارشی آمازون Comprehend برای ساخت یک مدل طبقه‌بندی سفارشی چند برچسبی نشان می‌دهیم و دستورالعمل‌هایی در مورد نحوه آماده‌سازی مجموعه داده آموزشی و تنظیم مدل برای برآورده کردن معیارهای عملکرد مانند دقت، دقت، یادآوری و امتیاز F1 ارائه می‌کنیم. ما از مصنوعات خروجی آموزش مدل آمازون Comprehend مانند یک ماتریس سردرگمی برای تنظیم عملکرد مدل و راهنمایی شما برای بهبود داده های آموزشی استفاده می کنیم.

بررسی اجمالی راه حل

این راه حل رویکردی برای ساخت یک مدل طبقه بندی سفارشی بهینه شده با استفاده از Amazon Comprehend ارائه می دهد. ما چندین مرحله را طی می کنیم، از جمله آماده سازی داده ها، ایجاد مدل، تحلیل متریک عملکرد مدل، و بهینه سازی استنتاج بر اساس تجزیه و تحلیل ما. ما از یک استفاده می کنیم آمازون SageMaker دفتر یادداشت و کنسول مدیریت AWS برای تکمیل برخی از این مراحل

ما همچنین بهترین شیوه‌ها و تکنیک‌های بهینه‌سازی را در طول آماده‌سازی داده‌ها، ساخت مدل و تنظیم مدل انجام می‌دهیم.

پیش نیازها

اگر نمونه نوت بوک SageMaker ندارید، می توانید آن را ایجاد کنید. برای دستورالعمل، مراجعه کنید یک نمونه نوت بوک Amazon SageMaker ایجاد کنید.

داده ها را آماده کنید

برای این تجزیه و تحلیل، ما از مجموعه داده های طبقه بندی نظرات سمی استفاده می کنیم کجگل. این مجموعه داده شامل 6 برچسب با 158,571 نقطه داده است. با این حال، هر برچسب تنها کمتر از 10٪ از کل داده ها را به عنوان نمونه های مثبت دارد، که دو تا از برچسب ها کمتر از 1٪ دارند.

ما مجموعه داده های Kaggle را به موجود تبدیل می کنیم فرمت CSV دو ستونی Amazon Comprehend با جدا کردن برچسب ها با استفاده از یک جداکننده لوله (|). Amazon Comprehend حداقل یک برچسب برای هر نقطه داده انتظار دارد. در این مجموعه داده، با چندین نقطه داده مواجه می شویم که تحت هیچ یک از برچسب های ارائه شده قرار نمی گیرند. ما یک برچسب جدید به نام تمیز ایجاد می کنیم و هر یک از نقاط داده ای را که سمی نیستند به این برچسب اختصاص می دهیم. در نهایت، ما مجموعه داده های انتخاب شده را با استفاده از تقسیم نسبت 80/20 در هر برچسب به مجموعه داده های آموزشی و آزمایشی تقسیم کردیم.

ما از نوت بوک Data-Preparation استفاده خواهیم کرد. مراحل زیر از مجموعه داده Kaggle استفاده می کند و داده ها را برای مدل ما آماده می کند.

در کنسول SageMaker، را انتخاب کنید نمونه های نوت بوک در صفحه ناوبری
نمونه نوت بوکی را که پیکربندی کرده اید انتخاب کنید و انتخاب کنید ژوپیتر را باز کنید.
بر جدید منو ، انتخاب کنید پایانه.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

برای دانلود مصنوعات مورد نیاز برای این پست، دستورات زیر را در ترمینال اجرا کنید:

cd SageMaker
wget https://aws-ml-blog.s3.amazonaws.com/artifacts/amazon-comprehend-improve-prediction-quality/comprehend-blog-artifacts.zip
unzip comprehend-blog-artifacts.zip
rm comprehend-blog-artifacts.zip
mkdir assets

پنجره ترمینال را ببندید.

شما باید سه دفترچه یادداشت و train.csv فایل های.

دفترچه یادداشت را انتخاب کنید Data-Preparation.ipynb.
تمام مراحل را در نوت بوک اجرا کنید.

این مراحل مجموعه داده خام Kaggle را آماده می کند تا به عنوان مجموعه داده های آموزشی و آزمایشی مورد استفاده قرار گیرد. مجموعه داده های انتخاب شده در نوت بوک و سرویس ذخیره سازی ساده آمازون (Amazon S3).

هنگام برخورد با مجموعه داده های چند برچسبی در مقیاس بزرگ، دستورالعمل های آماده سازی داده های زیر را در نظر بگیرید:

مجموعه داده ها باید حداقل 10 نمونه در هر برچسب داشته باشند.
Amazon Comprehend حداکثر 100 برچسب را می پذیرد. این یک حد نرم است که می توان آن را افزایش داد.
اطمینان حاصل کنید که فایل مجموعه داده است به درستی فرمت شده با جداکننده مناسب جداکننده های نادرست می توانند برچسب های خالی را معرفی کنند.
تمام نقاط داده باید دارای برچسب باشند.
مجموعه داده های آموزشی و آزمایشی باید دارای توزیع متعادل داده در هر برچسب باشند. از توزیع تصادفی استفاده نکنید زیرا ممکن است باعث تعصب در مجموعه داده های آموزشی و آزمایشی شود.

یک مدل طبقه بندی سفارشی بسازید

ما از مجموعه داده‌های آموزشی و آزمایشی که در مرحله آماده‌سازی داده ایجاد کرده‌ایم برای ساخت مدل خود استفاده می‌کنیم. مراحل زیر یک مدل طبقه بندی سفارشی چند برچسبی Amazon Comprehend ایجاد می کند:

در کنسول آمازون Comprehend، را انتخاب کنید طبقه بندی سفارشی در صفحه ناوبری
را انتخاب کنید مدل جدید ایجاد کنید.
برای نام مدل، وارد toxic-classification-model شوید.
برای نام نسخه، 1 را وارد کنید.
برای حاشیه نویسی و فرمت داده، انتخاب کنید استفاده از حالت چند برچسبی.
برای مجموعه داده های آموزشی، مکان مجموعه داده های آموزشی انتخاب شده را در Amazon S3 وارد کنید.
را انتخاب کنید مجموعه داده آزمایشی توسط مشتری ارائه شده است و مکان داده های آزمایشی انتخاب شده را در Amazon S3 وارد کنید.
برای داده های خروجی، محل آمازون S3 را وارد کنید.
برای نقش IAM، انتخاب کنید یک نقش IAM ایجاد کنید، پسوند نام را به عنوان "comprehend-blog" مشخص کنید.
را انتخاب کنید ساختن برای شروع آموزش مدل طبقه بندی سفارشی و ایجاد مدل.

تصویر زیر جزئیات مدل طبقه بندی سفارشی را در کنسول آمازون Comprehend نشان می دهد.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

برای عملکرد مدل تنظیم کنید

تصویر زیر معیارهای عملکرد مدل را نشان می دهد. این شامل معیارهای کلیدی مانند دقت، یادآوری، امتیاز F1، دقت و موارد دیگر است.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

پس از آموزش و ایجاد مدل، فایل output.tar.gz را تولید می‌کند که حاوی برچسب‌های مجموعه داده و همچنین ماتریس سردرگمی برای هر یک از برچسب‌ها است. برای تنظیم بیشتر عملکرد پیش‌بینی مدل، باید مدل خود را با احتمالات پیش‌بینی برای هر کلاس درک کنید. برای انجام این کار، باید یک کار تجزیه و تحلیل ایجاد کنید تا امتیازاتی را که Amazon Comprehend به هر یک از نقاط داده اختصاص داده است، شناسایی کنید.

مراحل زیر را برای ایجاد یک کار تجزیه و تحلیل انجام دهید:

در کنسول آمازون Comprehend، را انتخاب کنید تحلیل مشاغل در صفحه ناوبری
را انتخاب کنید ایجاد شغل.
برای نام، وارد toxic_train_data_analysis_job.
برای نوع تحلیل، انتخاب کنید طبقه بندی سفارشی.
برای مدل های طبقه بندی و فلایویل ها، مشخص نمودن toxic-classification-model.
برای نسخه، 1 را مشخص کنید.
برای داده های ورودی مکان S3، محل فایل داده آموزشی انتخاب شده را وارد کنید.
برای قالب ورودی، انتخاب کنید یک سند در هر خط.
برای داده های خروجی محل S3، مکان را وارد کنید.
برای مجوزهای دسترسی، انتخاب کنید از یک نقش IAM موجود استفاده کنید و نقش ایجاد شده قبلی را انتخاب کنید.
را انتخاب کنید ایجاد شغل برای شروع کار تجزیه و تحلیل
را انتخاب کنید تحلیل مشاغل برای مشاهده جزئیات کار لطفاً شناسه شغلی را در زیر جزئیات شغل یادداشت کنید. در مرحله بعدی از شناسه شغلی استفاده خواهیم کرد.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

مراحل شروع کار تجزیه و تحلیل را برای داده های آزمایشی انتخاب شده تکرار کنید. ما از خروجی های پیش بینی مشاغل تحلیلی خود برای اطلاع از احتمالات پیش بینی مدل خود استفاده می کنیم. لطفا به شناسه های شغلی مشاغل آموزشی و تجزیه و تحلیل آزمون توجه کنید.

ما با استفاده از Model-Threshold-Analysis.ipynb دفترچه ای برای آزمایش خروجی ها در تمام آستانه های ممکن و امتیاز دادن به خروجی بر اساس احتمال پیش بینی با استفاده از scikit-learn. precision_recall_curve تابع. علاوه بر این، ما می توانیم امتیاز F1 را در هر آستانه محاسبه کنیم.

ما به شناسه شغلی تحلیل آمازون Comprehend به عنوان ورودی نیاز داریم مدل-آستانه-تحلیل نوت بوک. می توانید شناسه های شغلی را از کنسول آمازون Comprehend دریافت کنید. تمام مراحل را در آن اجرا کنید مدل-آستانه-تحلیل دفترچه ای برای رعایت آستانه برای همه کلاس ها.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

توجه داشته باشید که چگونه با بالا رفتن آستانه، دقت بالا می رود، در حالی که با یادآوری، عکس آن رخ می دهد. برای یافتن تعادل بین این دو، از امتیاز F1 استفاده می کنیم که در آن قله های قابل مشاهده در منحنی آنها وجود دارد. پیک ها در امتیاز F1 با آستانه خاصی مطابقت دارد که می تواند عملکرد مدل را بهبود بخشد. توجه کنید که چگونه اکثر برچسب ها در اطراف علامت 0.5 برای آستانه قرار می گیرند، به جز برچسب تهدید، که آستانه ای در حدود 0.04 دارد.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

سپس می‌توانیم از این آستانه برای برچسب‌های خاصی استفاده کنیم که فقط با آستانه پیش‌فرض 0.5 عملکرد ضعیفی دارند. با استفاده از آستانه های بهینه، نتایج مدل بر روی داده های آزمون برای تهدید برچسب از 0.00 به 0.24 بهبود می یابد. ما از حداکثر امتیاز F1 در آستانه به عنوان معیار برای تعیین مثبت در مقابل منفی برای آن برچسب به جای یک معیار معمول (مقدار استاندارد مانند > 0.7) برای همه برچسب ها استفاده می کنیم.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

رسیدگی به کلاس های کم نمایندگی

روش دیگری که برای یک مجموعه داده نامتعادل موثر است این است Oversampling اجرا. با نمونه‌برداری بیش از حد از کلاس کم‌نمایش‌شده، مدل بیشتر کلاس کم‌بازنمایی‌شده را می‌بیند و بر اهمیت آن نمونه‌ها تأکید می‌کند. ما استفاده می کنیم Oversampling-Underrepresented.ipynb نوت بوک برای بهینه سازی مجموعه داده ها.

برای این مجموعه داده، ما آزمایش کردیم که چگونه عملکرد مدل در مجموعه داده ارزیابی با ارائه نمونه‌های بیشتر تغییر می‌کند. ما از روش نمونه برداری بیش از حد برای افزایش وقوع کلاس های کمتر ارائه شده برای بهبود عملکرد استفاده می کنیم.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

در این مورد خاص، ما روی 10، 25، 50، 100، 200 و 500 نمونه مثبت آزمایش کردیم. توجه داشته باشید که اگرچه ما نقاط داده را تکرار می کنیم، اما ذاتاً با تأکید بر اهمیت کلاس کم ارائه شده، عملکرد مدل را بهبود می بخشیم.

هزینه

با Amazon Comprehend، بر اساس تعداد کاراکترهای متن پردازش شده، هزینه پرداخت می‌کنید. رجوع شود به قیمت گذاری جامع آمازون برای هزینه های واقعی

پاک کردن

وقتی آزمایش این راه حل را به پایان رساندید، منابع خود را پاک کنید تا همه منابع مستقر در این مثال حذف شوند. این به شما کمک می کند از ادامه هزینه ها در حساب خود جلوگیری کنید.

نتیجه

در این پست، ما بهترین شیوه‌ها و راهنمایی‌ها را در زمینه آماده‌سازی داده، تنظیم مدل با استفاده از احتمالات پیش‌بینی و تکنیک‌هایی برای رسیدگی به کلاس‌های داده‌ای ارائه‌شده ارائه کرده‌ایم. می توانید از این بهترین شیوه ها و تکنیک ها برای بهبود معیارهای عملکرد مدل طبقه بندی سفارشی Amazon Comprehend خود استفاده کنید.

برای اطلاعات بیشتر در مورد آمازون Comprehend، مراجعه کنید منابع توسعه دهنده آمازون Comprehend برای یافتن منابع ویدئویی و پست های وبلاگ و مراجعه به AWS سوالات متداول را درک می کند.

درباره نویسنده

ساتیا بالاکریشنان یک معمار تحویل مشتری Sr. در تیم خدمات حرفه ای در AWS، متخصص در راه حل های داده و ML است. او با مشتریان مالی فدرال ایالات متحده کار می کند. او مشتاق ایجاد راه حل های عملی برای حل مشکلات تجاری مشتریان است. در اوقات فراغت از تماشای فیلم و پیاده روی با خانواده لذت می برد.

شاهزاده ملاری یک دانشمند داده NLP در تیم خدمات حرفه ای در AWS است که در کاربردهای NLP برای مشتریان بخش عمومی متخصص است. او مشتاق استفاده از ML به عنوان ابزاری است که به مشتریان اجازه می دهد بهره وری بیشتری داشته باشند. او در اوقات فراغت خود از بازی های ویدیویی و توسعه یک بازی با دوستانش لذت می برد.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/

تمبر زمان: اکتبر 5، 2023

بهبود کیفیت پیش‌بینی در مدل‌های طبقه‌بندی سفارشی با Amazon Comprehend | خدمات وب آمازون

بازنشر افلاطون

بررسی اجمالی راه حل

پیش نیازها

داده ها را آماده کنید

یک مدل طبقه بندی سفارشی بسازید

برای عملکرد مدل تنظیم کنید

رسیدگی به کلاس های کم نمایندگی

هزینه

پاک کردن

نتیجه

درباره نویسنده

بیشتر از آموزش ماشین AWS

کشف کلاهبرداری در مشاغل تلفن همراه با استفاده از هوش دستگاه GrabDefence و آشکارساز تقلب آمازون

معرفی کارت‌های خدمات هوش مصنوعی AWS: منبعی جدید برای افزایش شفافیت و پیشبرد هوش مصنوعی مسئول

طراحی شهرهای تاب‌آور در Arup با استفاده از قابلیت‌های جغرافیایی Amazon SageMaker | خدمات وب آمازون

افزایش عملکرد مدل ML و کاهش زمان آموزش با استفاده از الگوریتم های داخلی Amazon SageMaker با مدل های از پیش آموزش دیده

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب