هوش مصنوعی (AI) و یادگیری ماشین (ML) در سراسر سازمانها و سازمانهای دولتی مورد استفاده گسترده قرار گرفتهاند. پردازش داده های بدون ساختار با پیشرفت در پردازش زبان طبیعی (NLP) و سرویس های AI/ML کاربر پسند آسان تر شده است. متن آمازون, آمازون رونوشتو درک آمازون. سازمانها شروع به استفاده از سرویسهای AI/ML مانند Amazon Comprehend کردهاند تا مدلهای طبقهبندی را با دادههای ساختار نیافته خود بسازند تا بینش عمیقی که قبلاً نداشتند به دست آورند. اگرچه میتوانید از مدلهای از پیش آموزشدیدهشده با کمترین تلاش استفاده کنید، بدون تنظیم دادهها و تنظیم مدل مناسب، اما نمیتوانید مزایای کامل مدلهای AI/ML را درک کنید.
در این پست نحوه ساخت و بهینه سازی یک مدل طبقه بندی سفارشی با استفاده از آمازون Comprehend را توضیح می دهیم. ما این را با استفاده از یک طبقهبندی سفارشی آمازون Comprehend برای ساخت یک مدل طبقهبندی سفارشی چند برچسبی نشان میدهیم و دستورالعملهایی در مورد نحوه آمادهسازی مجموعه داده آموزشی و تنظیم مدل برای برآورده کردن معیارهای عملکرد مانند دقت، دقت، یادآوری و امتیاز F1 ارائه میکنیم. ما از مصنوعات خروجی آموزش مدل آمازون Comprehend مانند یک ماتریس سردرگمی برای تنظیم عملکرد مدل و راهنمایی شما برای بهبود داده های آموزشی استفاده می کنیم.
بررسی اجمالی راه حل
این راه حل رویکردی برای ساخت یک مدل طبقه بندی سفارشی بهینه شده با استفاده از Amazon Comprehend ارائه می دهد. ما چندین مرحله را طی می کنیم، از جمله آماده سازی داده ها، ایجاد مدل، تحلیل متریک عملکرد مدل، و بهینه سازی استنتاج بر اساس تجزیه و تحلیل ما. ما از یک استفاده می کنیم آمازون SageMaker دفتر یادداشت و کنسول مدیریت AWS برای تکمیل برخی از این مراحل
ما همچنین بهترین شیوهها و تکنیکهای بهینهسازی را در طول آمادهسازی دادهها، ساخت مدل و تنظیم مدل انجام میدهیم.
پیش نیازها
اگر نمونه نوت بوک SageMaker ندارید، می توانید آن را ایجاد کنید. برای دستورالعمل، مراجعه کنید یک نمونه نوت بوک Amazon SageMaker ایجاد کنید.
داده ها را آماده کنید
برای این تجزیه و تحلیل، ما از مجموعه داده های طبقه بندی نظرات سمی استفاده می کنیم کجگل. این مجموعه داده شامل 6 برچسب با 158,571 نقطه داده است. با این حال، هر برچسب تنها کمتر از 10٪ از کل داده ها را به عنوان نمونه های مثبت دارد، که دو تا از برچسب ها کمتر از 1٪ دارند.
ما مجموعه داده های Kaggle را به موجود تبدیل می کنیم فرمت CSV دو ستونی Amazon Comprehend با جدا کردن برچسب ها با استفاده از یک جداکننده لوله (|). Amazon Comprehend حداقل یک برچسب برای هر نقطه داده انتظار دارد. در این مجموعه داده، با چندین نقطه داده مواجه می شویم که تحت هیچ یک از برچسب های ارائه شده قرار نمی گیرند. ما یک برچسب جدید به نام تمیز ایجاد می کنیم و هر یک از نقاط داده ای را که سمی نیستند به این برچسب اختصاص می دهیم. در نهایت، ما مجموعه داده های انتخاب شده را با استفاده از تقسیم نسبت 80/20 در هر برچسب به مجموعه داده های آموزشی و آزمایشی تقسیم کردیم.
ما از نوت بوک Data-Preparation استفاده خواهیم کرد. مراحل زیر از مجموعه داده Kaggle استفاده می کند و داده ها را برای مدل ما آماده می کند.
- در کنسول SageMaker، را انتخاب کنید نمونه های نوت بوک در صفحه ناوبری
- نمونه نوت بوکی را که پیکربندی کرده اید انتخاب کنید و انتخاب کنید ژوپیتر را باز کنید.
- بر جدید منو ، انتخاب کنید پایانه.
- برای دانلود مصنوعات مورد نیاز برای این پست، دستورات زیر را در ترمینال اجرا کنید:
- پنجره ترمینال را ببندید.
شما باید سه دفترچه یادداشت و train.csv فایل های.
- دفترچه یادداشت را انتخاب کنید Data-Preparation.ipynb.
- تمام مراحل را در نوت بوک اجرا کنید.
این مراحل مجموعه داده خام Kaggle را آماده می کند تا به عنوان مجموعه داده های آموزشی و آزمایشی مورد استفاده قرار گیرد. مجموعه داده های انتخاب شده در نوت بوک و سرویس ذخیره سازی ساده آمازون (Amazon S3).
هنگام برخورد با مجموعه داده های چند برچسبی در مقیاس بزرگ، دستورالعمل های آماده سازی داده های زیر را در نظر بگیرید:
- مجموعه داده ها باید حداقل 10 نمونه در هر برچسب داشته باشند.
- Amazon Comprehend حداکثر 100 برچسب را می پذیرد. این یک حد نرم است که می توان آن را افزایش داد.
- اطمینان حاصل کنید که فایل مجموعه داده است به درستی فرمت شده با جداکننده مناسب جداکننده های نادرست می توانند برچسب های خالی را معرفی کنند.
- تمام نقاط داده باید دارای برچسب باشند.
- مجموعه داده های آموزشی و آزمایشی باید دارای توزیع متعادل داده در هر برچسب باشند. از توزیع تصادفی استفاده نکنید زیرا ممکن است باعث تعصب در مجموعه داده های آموزشی و آزمایشی شود.
یک مدل طبقه بندی سفارشی بسازید
ما از مجموعه دادههای آموزشی و آزمایشی که در مرحله آمادهسازی داده ایجاد کردهایم برای ساخت مدل خود استفاده میکنیم. مراحل زیر یک مدل طبقه بندی سفارشی چند برچسبی Amazon Comprehend ایجاد می کند:
- در کنسول آمازون Comprehend، را انتخاب کنید طبقه بندی سفارشی در صفحه ناوبری
- را انتخاب کنید مدل جدید ایجاد کنید.
- برای نام مدل، وارد toxic-classification-model شوید.
- برای نام نسخه، 1 را وارد کنید.
- برای حاشیه نویسی و فرمت داده، انتخاب کنید استفاده از حالت چند برچسبی.
- برای مجموعه داده های آموزشی، مکان مجموعه داده های آموزشی انتخاب شده را در Amazon S3 وارد کنید.
- را انتخاب کنید مجموعه داده آزمایشی توسط مشتری ارائه شده است و مکان داده های آزمایشی انتخاب شده را در Amazon S3 وارد کنید.
- برای داده های خروجی، محل آمازون S3 را وارد کنید.
- برای نقش IAM، انتخاب کنید یک نقش IAM ایجاد کنید، پسوند نام را به عنوان "comprehend-blog" مشخص کنید.
- را انتخاب کنید ساختن برای شروع آموزش مدل طبقه بندی سفارشی و ایجاد مدل.
تصویر زیر جزئیات مدل طبقه بندی سفارشی را در کنسول آمازون Comprehend نشان می دهد.
برای عملکرد مدل تنظیم کنید
تصویر زیر معیارهای عملکرد مدل را نشان می دهد. این شامل معیارهای کلیدی مانند دقت، یادآوری، امتیاز F1، دقت و موارد دیگر است.
پس از آموزش و ایجاد مدل، فایل output.tar.gz را تولید میکند که حاوی برچسبهای مجموعه داده و همچنین ماتریس سردرگمی برای هر یک از برچسبها است. برای تنظیم بیشتر عملکرد پیشبینی مدل، باید مدل خود را با احتمالات پیشبینی برای هر کلاس درک کنید. برای انجام این کار، باید یک کار تجزیه و تحلیل ایجاد کنید تا امتیازاتی را که Amazon Comprehend به هر یک از نقاط داده اختصاص داده است، شناسایی کنید.
مراحل زیر را برای ایجاد یک کار تجزیه و تحلیل انجام دهید:
- در کنسول آمازون Comprehend، را انتخاب کنید تحلیل مشاغل در صفحه ناوبری
- را انتخاب کنید ایجاد شغل.
- برای نام، وارد
toxic_train_data_analysis_job
. - برای نوع تحلیل، انتخاب کنید طبقه بندی سفارشی.
- برای مدل های طبقه بندی و فلایویل ها، مشخص نمودن
toxic-classification-model
. - برای نسخه، 1 را مشخص کنید.
- برای داده های ورودی مکان S3، محل فایل داده آموزشی انتخاب شده را وارد کنید.
- برای قالب ورودی، انتخاب کنید یک سند در هر خط.
- برای داده های خروجی محل S3، مکان را وارد کنید.
- برای مجوزهای دسترسی، انتخاب کنید از یک نقش IAM موجود استفاده کنید و نقش ایجاد شده قبلی را انتخاب کنید.
- را انتخاب کنید ایجاد شغل برای شروع کار تجزیه و تحلیل
- را انتخاب کنید تحلیل مشاغل برای مشاهده جزئیات کار لطفاً شناسه شغلی را در زیر جزئیات شغل یادداشت کنید. در مرحله بعدی از شناسه شغلی استفاده خواهیم کرد.
مراحل شروع کار تجزیه و تحلیل را برای داده های آزمایشی انتخاب شده تکرار کنید. ما از خروجی های پیش بینی مشاغل تحلیلی خود برای اطلاع از احتمالات پیش بینی مدل خود استفاده می کنیم. لطفا به شناسه های شغلی مشاغل آموزشی و تجزیه و تحلیل آزمون توجه کنید.
ما با استفاده از Model-Threshold-Analysis.ipynb دفترچه ای برای آزمایش خروجی ها در تمام آستانه های ممکن و امتیاز دادن به خروجی بر اساس احتمال پیش بینی با استفاده از scikit-learn. precision_recall_curve
تابع. علاوه بر این، ما می توانیم امتیاز F1 را در هر آستانه محاسبه کنیم.
ما به شناسه شغلی تحلیل آمازون Comprehend به عنوان ورودی نیاز داریم مدل-آستانه-تحلیل نوت بوک. می توانید شناسه های شغلی را از کنسول آمازون Comprehend دریافت کنید. تمام مراحل را در آن اجرا کنید مدل-آستانه-تحلیل دفترچه ای برای رعایت آستانه برای همه کلاس ها.
توجه داشته باشید که چگونه با بالا رفتن آستانه، دقت بالا می رود، در حالی که با یادآوری، عکس آن رخ می دهد. برای یافتن تعادل بین این دو، از امتیاز F1 استفاده می کنیم که در آن قله های قابل مشاهده در منحنی آنها وجود دارد. پیک ها در امتیاز F1 با آستانه خاصی مطابقت دارد که می تواند عملکرد مدل را بهبود بخشد. توجه کنید که چگونه اکثر برچسب ها در اطراف علامت 0.5 برای آستانه قرار می گیرند، به جز برچسب تهدید، که آستانه ای در حدود 0.04 دارد.
سپس میتوانیم از این آستانه برای برچسبهای خاصی استفاده کنیم که فقط با آستانه پیشفرض 0.5 عملکرد ضعیفی دارند. با استفاده از آستانه های بهینه، نتایج مدل بر روی داده های آزمون برای تهدید برچسب از 0.00 به 0.24 بهبود می یابد. ما از حداکثر امتیاز F1 در آستانه به عنوان معیار برای تعیین مثبت در مقابل منفی برای آن برچسب به جای یک معیار معمول (مقدار استاندارد مانند > 0.7) برای همه برچسب ها استفاده می کنیم.
رسیدگی به کلاس های کم نمایندگی
روش دیگری که برای یک مجموعه داده نامتعادل موثر است این است Oversampling اجرا. با نمونهبرداری بیش از حد از کلاس کمنمایششده، مدل بیشتر کلاس کمبازنماییشده را میبیند و بر اهمیت آن نمونهها تأکید میکند. ما استفاده می کنیم Oversampling-Underrepresented.ipynb نوت بوک برای بهینه سازی مجموعه داده ها.
برای این مجموعه داده، ما آزمایش کردیم که چگونه عملکرد مدل در مجموعه داده ارزیابی با ارائه نمونههای بیشتر تغییر میکند. ما از روش نمونه برداری بیش از حد برای افزایش وقوع کلاس های کمتر ارائه شده برای بهبود عملکرد استفاده می کنیم.
در این مورد خاص، ما روی 10، 25، 50، 100، 200 و 500 نمونه مثبت آزمایش کردیم. توجه داشته باشید که اگرچه ما نقاط داده را تکرار می کنیم، اما ذاتاً با تأکید بر اهمیت کلاس کم ارائه شده، عملکرد مدل را بهبود می بخشیم.
هزینه
با Amazon Comprehend، بر اساس تعداد کاراکترهای متن پردازش شده، هزینه پرداخت میکنید. رجوع شود به قیمت گذاری جامع آمازون برای هزینه های واقعی
پاک کردن
وقتی آزمایش این راه حل را به پایان رساندید، منابع خود را پاک کنید تا همه منابع مستقر در این مثال حذف شوند. این به شما کمک می کند از ادامه هزینه ها در حساب خود جلوگیری کنید.
نتیجه
در این پست، ما بهترین شیوهها و راهنماییها را در زمینه آمادهسازی داده، تنظیم مدل با استفاده از احتمالات پیشبینی و تکنیکهایی برای رسیدگی به کلاسهای دادهای ارائهشده ارائه کردهایم. می توانید از این بهترین شیوه ها و تکنیک ها برای بهبود معیارهای عملکرد مدل طبقه بندی سفارشی Amazon Comprehend خود استفاده کنید.
برای اطلاعات بیشتر در مورد آمازون Comprehend، مراجعه کنید منابع توسعه دهنده آمازون Comprehend برای یافتن منابع ویدئویی و پست های وبلاگ و مراجعه به AWS سوالات متداول را درک می کند.
درباره نویسنده
ساتیا بالاکریشنان یک معمار تحویل مشتری Sr. در تیم خدمات حرفه ای در AWS، متخصص در راه حل های داده و ML است. او با مشتریان مالی فدرال ایالات متحده کار می کند. او مشتاق ایجاد راه حل های عملی برای حل مشکلات تجاری مشتریان است. در اوقات فراغت از تماشای فیلم و پیاده روی با خانواده لذت می برد.
شاهزاده ملاری یک دانشمند داده NLP در تیم خدمات حرفه ای در AWS است که در کاربردهای NLP برای مشتریان بخش عمومی متخصص است. او مشتاق استفاده از ML به عنوان ابزاری است که به مشتریان اجازه می دهد بهره وری بیشتری داشته باشند. او در اوقات فراغت خود از بازی های ویدیویی و توسعه یک بازی با دوستانش لذت می برد.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/
- : دارد
- :است
- :جایی که
- $UP
- 1
- 10
- 100
- 200
- 24
- 25
- 50
- 500
- 7
- 9
- a
- درباره ما
- قبول می کند
- حساب
- دقت
- در میان
- واقعی
- علاوه بر این
- اتخاذ
- پیشرفت
- AI
- AI / ML
- معرفی
- اجازه دادن
- همچنین
- هر چند
- آمازون
- درک آمازون
- آمازون SageMaker
- آمازون خدمات وب
- an
- تحلیل
- و
- هر
- برنامه های کاربردی
- کاربردهای NLP
- روش
- هستند
- دور و بر
- AS
- دارایی
- اختصاص داده
- At
- اجتناب از
- AWS
- برج میزان
- مستقر
- BE
- زیرا
- شدن
- قبل از
- محک
- مزایای
- بهترین
- بهترین شیوه
- میان
- تعصب
- بلاگ
- پست های وبلاگ
- ساختن
- بنا
- کسب و کار
- by
- نام
- CAN
- می توانید دریافت کنید
- مورد
- تبادل
- کاراکتر
- را انتخاب کنید
- کلاس
- کلاس ها
- طبقه بندی
- مشتریان
- توضیح
- مشترک
- کامل
- درک
- محاسبه
- پیکربندی
- گیجی
- کنسول
- شامل
- مداوم
- تبدیل
- هزینه
- ایجاد
- ایجاد شده
- ایجاد
- سرپرستی
- سوزش
- منحنی
- سفارشی
- مشتری
- مشتریان
- داده ها
- نقاط داده
- آماده سازی داده ها
- دانشمند داده
- مجموعه داده ها
- معامله
- عمیق
- به طور پیش فرض
- تحویل
- نشان دادن
- مستقر
- جزئیات
- مشخص کردن
- توسعه دهنده
- در حال توسعه
- توزیع
- do
- سند
- آیا
- دانلود
- در طی
- هر
- آسان تر
- موثر
- تلاش
- تأکید می کند
- با تاکید بر
- وارد
- سرمایه گذاری
- ارزیابی
- مثال
- مثال ها
- جز
- اجرا کردن
- موجود
- انتظار می رود
- توضیح دهید
- f1
- سقوط
- خانواده
- فدرال
- پرونده
- فایل ها
- سرانجام
- مالی
- پیدا کردن
- پیروی
- برای
- دوستان
- از جانب
- کامل
- تابع
- بیشتر
- بازیها
- تولید می کنند
- دریافت کنید
- Go
- می رود
- دولت
- راهنمایی
- راهنمایی
- دستورالعمل ها
- دسته
- آیا
- داشتن
- he
- کمک می کند
- خود را
- چگونه
- چگونه
- اما
- HTML
- HTTP
- HTTPS
- ID
- شناسایی
- شناسه
- اهمیت
- بهبود
- بهبود
- in
- شامل
- از جمله
- افزایش
- افزایش
- اطلاعات
- ذاتا
- ورودی
- بینش
- نمونه
- در عوض
- دستورالعمل
- اطلاعات
- به
- معرفی
- IT
- کار
- شغل ها
- تنها
- کلید
- برچسب
- برچسب ها
- زبان
- در مقیاس بزرگ
- یاد گرفتن
- یادگیری
- کمترین
- کمتر
- پسندیدن
- محدود
- محل
- دستگاه
- فراگیری ماشین
- ساخت
- مدیریت
- علامت
- ماتریس
- حداکثر
- بیشترین
- دیدار
- فهرست
- متری
- متریک
- قدرت
- حداقل
- حد اقل
- ML
- مدل
- مدل
- بیش
- اکثر
- فیلم ها
- باید
- نام
- طبیعی
- پردازش زبان طبیعی
- جهت یابی
- نیاز
- منفی
- جدید
- بعد
- nlp
- دفتر یادداشت
- اطلاع..
- عدد
- مشاهده کردن
- وقوع
- of
- غالبا
- on
- ONE
- فقط
- بهینه سازی
- بهینه سازی
- بهینه
- بهینه سازی
- سازمان های
- ما
- تولید
- قطعه
- ویژه
- احساساتی
- پرداخت
- برای
- کارایی
- انتخاب کنید
- لوله
- افلاطون
- هوش داده افلاطون
- PlatoData
- بازی
- لطفا
- نقطه
- نقطه
- مثبت
- ممکن
- پست
- پست ها
- شیوه های
- عملگرا
- دقت
- پیش گویی
- تهیه
- آماده
- هدیه
- قبلا
- مشکلات
- فرآوری شده
- در حال پردازش
- تولیدی
- حرفه ای
- مناسب
- ارائه
- ارائه
- عمومی
- کیفیت
- تصادفی
- نسبت
- خام
- تحقق بخشیدن
- مراجعه
- ضروری
- منابع
- نتایج
- نقش
- حکیم ساز
- دانشمند
- نمره
- بخش
- دیدن
- مشاهده گردید
- می بیند
- خدمت
- خدمات
- چند
- باید
- نشان می دهد
- ساده
- نرم
- راه حل
- مزایا
- حل
- برخی از
- متخصص
- خاص
- انشعاب
- استاندارد
- شروع
- آغاز شده
- گام
- مراحل
- ذخیره سازی
- ذخیره شده
- چنین
- گرفتن
- تیم
- تکنیک
- تکنیک
- پایانه
- آزمون
- آزمایش
- متن
- نسبت به
- که
- La
- شان
- سپس
- اینها
- آنها
- این
- کسانی که
- تهدید
- سه
- آستانه
- از طریق
- زمان
- به
- ابزار
- جمع
- آموزش دیده
- آموزش
- دو
- زیر
- کمتر نماینده
- فهمیدن
- us
- فدرال ایالات متحده
- استفاده کنید
- کاربر پسند
- با استفاده از
- ارزش
- تصویری
- بازی های ویدئویی
- چشم انداز
- قابل رویت
- بازدید
- vs
- تماشای
- we
- وب
- خدمات وب
- خوب
- چه زمانی
- که
- در حین
- بطور گسترده
- اراده
- پنجره
- با
- بدون
- با این نسخهها کار
- شما
- شما
- زفیرنت
- زیپ