تحلیلگران کسبوکار با دادهها کار میکنند و دوست دارند دادهها را تجزیه و تحلیل، کاوش و درک کنند تا به نتایج مؤثر تجاری برسند. برای رسیدگی به مشکلات تجاری، آنها اغلب به متخصصان یادگیری ماشین (ML) مانند دانشمندان داده تکیه می کنند تا به تکنیک هایی مانند استفاده از ML برای ساخت مدل هایی با استفاده از داده های موجود و تولید پیش بینی کمک کنند. با این حال، همیشه ممکن نیست، زیرا دانشمندان داده معمولاً با وظایف خود گره خورده اند و پهنای باند لازم برای کمک به تحلیلگران را ندارند.
برای مستقل بودن و دستیابی به اهداف خود به عنوان یک تحلیلگر تجاری، کار با ابزارهای ساده، بصری و بصری که از ML بدون نیاز به دانستن جزئیات و استفاده از کد استفاده می کنند، ایده آل خواهد بود. استفاده از این ابزارها به شما کمک می کند تا مشکلات کسب و کار خود را حل کرده و به نتایج مطلوب برسید.
با هدف کمک به شما و سازمانتان برای موثرتر شدن و استفاده از ML بدون نوشتن کد، ما آمازون SageMaker Canvas را معرفی کرد. این یک راهحل ML بدون کد است که به شما کمک میکند مدلهای ML دقیقی بسازید بدون اینکه نیازی به یادگیری جزئیات فنی، مانند الگوریتمهای ML و معیارهای ارزیابی داشته باشید. SageMaker Canvas یک رابط بصری و بصری ارائه می دهد که به شما امکان می دهد داده ها را وارد کنید، مدل های ML را آموزش دهید، تجزیه و تحلیل مدل را انجام دهید و پیش بینی های ML را تولید کنید، همه اینها بدون نوشتن یک خط کد.
هنگام استفاده از SageMaker Canvas برای آزمایش، ممکن است با مشکلات کیفیت داده مانند مقادیر از دست رفته یا داشتن نوع مشکل اشتباه مواجه شوید. این مسائل ممکن است تا اواخر فرآیند پس از آموزش یک مدل ML کشف نشوند. برای کاهش این چالش، SageMaker Canvas اکنون از اعتبارسنجی داده ها پشتیبانی می کند. این ویژگی به طور فعال مشکلات موجود در دادههای شما را بررسی میکند و راهنماییهایی در مورد حلها ارائه میدهد.
در این پست، ما نشان خواهیم داد که چگونه میتوانید از قابلیت اعتبارسنجی دادهها در SageMaker Canvas قبل از ساخت مدل استفاده کنید. همانطور که از نام آن پیداست، این ویژگی مجموعه داده های شما را تایید می کند، مشکلات را گزارش می دهد و اشاره گرهای مفیدی برای رفع آنها ارائه می دهد. با استفاده از دادههای با کیفیت بهتر، مدل ML عملکرد بهتری خواهید داشت.
اعتبارسنجی داده ها در SageMaker Canvas
Data Validation یک ویژگی جدید در SageMaker Canvas برای بررسی فعالانه مشکلات بالقوه کیفیت داده است. پس از وارد کردن دادهها و انتخاب یک ستون هدف، به شما این امکان داده میشود که دادههای خود را همانطور که در اینجا نشان داده شده است تأیید کنید:
اگر می خواهید داده های خود را تأیید کنید، Canvas داده های شما را برای شرایط متعددی از جمله:
- تعداد زیادی برچسب منحصر به فرد در ستون هدف شما - برای نوع مدل پیش بینی دسته
- تعداد زیادی برچسب منحصر به فرد در ستون هدف شما برای تعداد ردیف های داده های شما - برای نوع مدل پیش بینی دسته
- نوع مدل اشتباه برای داده های شما - نوع مدل با داده هایی که در ستون هدف پیش بینی می کنید مطابقت ندارد
- تعداد ردیف های نامعتبر بسیار زیاد است - مقادیر از دست رفته در ستون هدف شما
- تمام ستون های ویژگی، ستون های متنی هستند - آنها برای ساخت های استاندارد حذف خواهند شد
- ستون های خیلی کم - تعداد ستون ها در داده های شما بسیار کم است
- بدون ردیف کامل - تمام ردیفهای دادههای شما حاوی مقادیر گمشده هستند
- یک یا چند نام ستون حاوی زیرخط دوتایی است - SageMaker نمی تواند (__) را در سربرگ ستون مدیریت کند
جزئیات هر معیار اعتبار سنجی در بخش های بعدی این پست ارائه خواهد شد.
اگر همه بررسیها تأیید شوند، تأیید زیر را دریافت خواهید کرد: "هیچ مشکلی در مجموعه داده شما یافت نشد".
اگر مشکلی پیدا شد، اعلانی برای مشاهده و درک دریافت خواهید کرد. این موضوع مشکلات کیفیت داده ها را زودتر آشکار می کند و به شما امکان می دهد قبل از اتلاف وقت و منابع بیشتر در این فرآیند، بلافاصله به آنها رسیدگی کنید.
میتوانید تنظیمات خود را انجام دهید و اعتبار مجموعه دادههای خود را تا زمانی که تمام مشکلات برطرف شود ادامه دهید.
اعتبارسنجی انواع ستون و مدل هدف
هنگامی که در حال ساخت یک مدل ML در SageMaker Canvas هستید، چندین مشکل کیفیت داده مربوط به آن است ستون هدف ممکن است باعث خرابی ساخت مدل شما شود. SageMaker Canvas انواع مختلفی از مشکلات را که ممکن است بر شما تأثیر بگذارد بررسی می کند ستون هدف
- برای ستون هدف خود، علامت را بررسی کنید نوع مدل اشتباه برای داده های شما. برای مثال، اگر یک مدل پیشبینی 2 دستهای انتخاب شده باشد اما ستون هدف شما بیش از 2 برچسب منحصربهفرد داشته باشد، SageMaker Canvas اخطار اعتبارسنجی زیر را ارائه میکند.
- اگر نوع مدل پیشبینی دسته ۲ یا ۳+ است، باید اعتبارسنجی کنید برچسب های منحصر به فرد بیش از حد برای ستون هدف شما. حداکثر تعداد کلاسهای منحصربهفرد 2000 است. اگر ستونی با بیش از 2000 مقدار منحصر به فرد را در ستون هدف خود انتخاب کنید، Canvas اخطار اعتبارسنجی زیر را ارائه میکند.
- علاوه بر بسیاری از برچسب های هدف منحصر به فرد، باید مراقب آنها نیز باشید بسیاری از برچسب های هدف منحصر به فرد برای تعداد ردیف های داده های شما. SageMaker Canvas نسبت برچسب هدف به تعداد کل ردیفها را کمتر از 10% اعمال میکند. این اطمینان حاصل می کند که شما برای هر دسته برای یک مدل با کیفیت بالا نماینده کافی دارید و پتانسیل بیش از حد برازش را کاهش می دهد. مدل شما زمانی بیش از حد برازش در نظر گرفته میشود که روی دادههای آموزشی به خوبی پیشبینی کند، اما روی دادههای جدیدی که قبلاً ندیده است، پیشبینی نمیکند. مراجعه کنید اینجا کلیک نمایید برای کسب اطلاعات بیشتر.
- در نهایت، آخرین بررسی برای ستون هدف است ردیف های نامعتبر زیاد. اگر ستون هدف شما بیش از 10 درصد از دادههای مفقود یا نامعتبر داشته باشد، بر عملکرد مدل شما تأثیر میگذارد و در برخی موارد باعث میشود ساخت مدل شما با شکست مواجه شود. مثال زیر مقادیر زیادی از دست رفته (90% از دست رفته) در ستون هدف دارد و شما اخطار اعتبارسنجی زیر را دریافت می کنید.
اگر هر یک از اخطارهای بالا را برای ستون هدف خود دریافت کردید، از مراحل زیر برای کاهش مشکلات استفاده کنید:
- آیا از ستون هدف درست استفاده می کنید؟
- آیا نوع مدل را درست انتخاب کردید؟
- آیا میتوانید تعداد ردیفهای مجموعه داده خود را در هر برچسب هدف افزایش دهید؟
- آیا می توانید برچسب های مشابه را با هم ادغام یا گروه بندی کنید؟
- آیا می توانید مقادیر از دست رفته/نامعتبر را پر کنید؟
- آیا داده های کافی دارید که بتوانید مقادیر گمشده/نامعتبر را حذف کنید؟
- اگر همه گزینههای بالا هشدار را پاک نمیکنند، باید از مجموعه داده دیگری استفاده کنید.
به اسناد تبدیل داده SageMaker Canvas برای انجام مراحل انتساب ذکر شده در بالا.
اعتبارسنجی تمام ستون ها
به غیر از ستون هدف، ممکن است با سایر ستون های داده (ستون های ویژگی) نیز با مشکلات کیفیت داده مواجه شوید. ستون های ویژگی ها داده های ورودی هستند که برای پیش بینی ML استفاده می شوند.
- هر مجموعه داده باید حداقل 1 ستون ویژگی و 1 ستون هدف (در مجموع 2 ستون) داشته باشد. در غیر این صورت، SageMaker Canvas به شما یک تعداد ستون ها در داده های شما بسیار کم است هشدار قبل از اینکه بتوانید به ساخت مدل ادامه دهید، باید این شرط را برآورده کنید.
- پس از آن، باید مطمئن شوید که داده های شما حداقل 1 ستون عددی دارند. اگر نه، پس شما آن را دریافت خواهید کرد تمام ستون های ویژگی ستون های متنی هستند هشدار این به این دلیل است که ستونهای متنی معمولاً در طول ساختهای استاندارد حذف میشوند و در نتیجه مدل بدون ویژگی برای آموزش باقی میماند. بنابراین، این امر باعث از کار افتادن ساختمان مدل شما می شود. میتوانید از SageMaker Canvas برای کدگذاری برخی از ستونهای متن به اعداد استفاده کنید یا از ساخت سریع به جای ساخت استاندارد استفاده کنید.
- سومین نوع هشداری که ممکن است برای ستون های ویژگی دریافت کنید، این است بدون ردیف کامل. این اعتبار سنجی بررسی می کند که آیا حداقل یک ردیف بدون مقادیر از دست رفته دارید یا خیر. SageMaker Canvas به حداقل یک ردیف کامل نیاز دارد، در غیر این صورت شما ساخت سریع شکست خواهد خورد. سعی کنید قبل از ساخت مدل، مقادیر از دست رفته را پر کنید.
- آخرین نوع اعتبارسنجی است یک یا چند نام ستون حاوی زیرخط دوتایی است. این یک نیاز خاص SageMaker Canvas است. اگر زیرخط دوتایی (__) در سرصفحه های ستون خود دارید، این امر باعث شما می شود ساخت سریع شکست خوردن نام ستون ها را تغییر دهید تا زیرخط های دوتایی حذف شوند و سپس دوباره امتحان کنید.
پاک کردن
برای جلوگیری از متحمل شدن در آینده هزینه های جلسه، از SageMaker Canvas خارج شوید.
نتیجه
SageMaker Canvas یک راه حل ML بدون کد است که به تحلیلگران کسب و کار اجازه می دهد تا مدل های ML دقیقی ایجاد کنند و پیش بینی هایی را از طریق یک رابط بصری، نقطه و کلیک ایجاد کنند. ما به شما نشان دادیم که چگونه SageMaker Canvas به شما کمک میکند تا از کیفیت دادهها مطمئن شوید و مشکلات دادهها را با اعتبارسنجی فعال مجموعه داده کاهش دهید. با شناسایی زودهنگام مشکلات، SageMaker Canvas به شما کمک می کند تا مدل های ML با کیفیت بسازید و تکرارهای ساخت را بدون تخصص در علم داده و برنامه نویسی کاهش دهید. برای آشنایی بیشتر با این ویژگی جدید، به ادامه مطلب مراجعه کنید مستندات SageMaker Canvas.
برای شروع و کسب اطلاعات بیشتر در مورد SageMaker Canvas، به منابع زیر مراجعه کنید:
درباره نویسندگان
هریهاران سورش یک معمار ارشد راه حل در AWS است. او علاقه زیادی به پایگاه داده ها، یادگیری ماشینی و طراحی راه حل های نوآورانه دارد. قبل از پیوستن به AWS، Hariharan یک معمار محصول، متخصص پیاده سازی بانکداری اصلی و توسعه دهنده بود و بیش از 11 سال با سازمان های BFSI کار کرد. او خارج از تکنولوژی، از پاراگلایدر و دوچرخه سواری لذت می برد.
سایناث میریالا یک مدیر ارشد حساب فنی در AWS است که برای مشتریان خودرو در ایالات متحده کار می کند. Sainath علاقه زیادی به طراحی و ساخت برنامه های کاربردی توزیع شده در مقیاس بزرگ با استفاده از AI/ML دارد. Sainath در اوقات فراغت خود با خانواده و دوستان خود وقت می گذراند.
جیمز وو یک معمار ارشد راه حل متخصص AI/ML در AWS است. کمک به مشتریان در طراحی و ساخت راه حل های AI/ML. کار جیمز طیف گستردهای از موارد استفاده از ML را پوشش میدهد، با علاقه اولیه به بینایی رایانه، یادگیری عمیق، و مقیاسبندی ML در سراسر سازمان. قبل از پیوستن به AWS، جیمز بیش از 10 سال معمار، توسعهدهنده و رهبر فناوری بود، از جمله 6 سال در مهندسی و 4 سال در صنایع بازاریابی و تبلیغات.
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آمازون SageMaker
- آمازون SageMaker Canvas
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- متوسط (200)
- فراگیری ماشین
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- نحو
- زفیرنت