با Amazon SageMaker Ground Truth داده های با کیفیت بالا برای مدل های ML ایجاد کنید

بازنشر افلاطون

دنبال: 0

یادگیری ماشینی (ML) در سال‌های اخیر کسب‌وکار را در صنایع بهبود بخشیده است - از سیستم توصیه‌های موجود در شما نخست ویدئو حساب، برای خلاصه سازی اسناد و جستجوی کارآمد با چککمک صوتی با این حال، این سوال باقی می ماند که چگونه این فناوری را در کسب و کار خود بگنجانید. برخلاف روش‌های سنتی مبتنی بر قانون، ML به‌طور خودکار الگوهایی را از داده‌ها استنتاج می‌کند تا وظیفه مورد نظر شما را انجام دهد. اگرچه این امر نیاز به تنظیم قوانین برای اتوماسیون را دور می زند، اما به این معنی است که مدل های ML فقط می توانند به اندازه داده هایی باشند که بر روی آنها آموزش دیده اند. با این حال، ایجاد داده اغلب یک کار چالش برانگیز است. در آزمایشگاه راه حل های یادگیری ماشین آمازون، ما بارها و بارها با این مشکل مواجه شده ایم و می خواهیم این سفر را برای مشتریان خود آسان کنیم. اگر می خواهید این فرآیند را تخلیه کنید، می توانید از آن استفاده کنید Amazon SageMaker Ground Truth Plus.

در پایان این پست، شما قادر خواهید بود به موارد زیر دست یابید:

فرآیندهای تجاری مربوط به راه اندازی خط لوله جمع آوری داده ها را درک کنید
خدمات AWS Cloud را برای پشتیبانی و تسریع خط لوله برچسب گذاری داده خود شناسایی کنید
یک کار جمع‌آوری داده و برچسب‌گذاری برای موارد استفاده سفارشی اجرا کنید
داده‌های با کیفیت بالا را با پیروی از بهترین شیوه‌های تجاری و فنی ایجاد کنید

در طول این پست، ما بر فرآیند ایجاد داده تمرکز می کنیم و برای مدیریت زیرساخت ها و اجزای فرآیند به خدمات AWS تکیه می کنیم. یعنی استفاده می کنیم Amazon SageMaker Ground Truth برای مدیریت خط لوله زیرساخت برچسب‌گذاری و رابط کاربری. این سرویس از یک رویکرد نقطه و رفتن برای جمع آوری داده های شما استفاده می کند سرویس ذخیره سازی ساده آمازون (Amazon S3) و یک گردش کار برچسب گذاری را راه اندازی کنید. برای برچسب‌گذاری، انعطاف‌پذیری داخلی را در اختیار شما قرار می‌دهد تا با استفاده از تیم خصوصی خود، برچسب‌های داده را به دست آورید. آمازون مکانیک ترک نیرو، یا فروشنده برچسب‌گذاری ترجیحی شما از بازار AWS. در آخر می توانید استفاده کنید AWS لامبدا و نوت بوک های آمازون SageMaker برای پردازش، تجسم یا کنترل کیفیت داده ها - چه قبل یا بعد از برچسب زدن.

اکنون که همه قطعات گذاشته شده اند، بیایید روند را شروع کنیم!

فرآیند ایجاد داده

برخلاف تصور رایج، اولین قدم برای ایجاد داده، جمع آوری داده نیست. کار کردن به عقب از کاربران برای بیان مشکل بسیار مهم است. به عنوان مثال، کاربران در آرتیفکت نهایی به چه چیزی اهمیت می دهند؟ کارشناسان بر این باورند که سیگنال های مربوط به مورد استفاده در کجای داده ها قرار دارند؟ چه اطلاعاتی در مورد محیط کاربری مورد استفاده می تواند برای مدل ارائه شود؟ اگر پاسخ این سوالات را نمی دانید، نگران نباشید. به خودتان زمان بدهید تا با کاربران و کارشناسان حوزه صحبت کنید تا تفاوت های ظریف را درک کنید. این درک اولیه شما را در مسیر درست هدایت می کند و شما را برای موفقیت آماده می کند.

برای این پست، ما فرض می کنیم که شما این فرآیند اولیه مشخصات مورد نیاز کاربر را پوشش داده اید. سه بخش بعدی شما را در فرآیند بعدی ایجاد داده های با کیفیت راهنمایی می کند: برنامه ریزی، ایجاد داده منبع و حاشیه نویسی داده ها. حلقه‌های آزمایشی در مراحل ایجاد داده و حاشیه‌نویسی برای اطمینان از ایجاد کارآمد داده‌های برچسب‌دار حیاتی هستند. این شامل تکرار بین ایجاد داده، حاشیه نویسی، تضمین کیفیت و به روز رسانی خط لوله در صورت لزوم است.

شکل زیر نمای کلی از مراحل مورد نیاز در خط لوله ایجاد داده های معمولی را ارائه می دهد. شما می توانید با استفاده از case به عقب کار کنید تا داده های مورد نیاز خود را شناسایی کنید (مشخصات مورد نیاز)، فرآیندی برای به دست آوردن داده ها (Planning) ایجاد کنید، فرآیند واقعی جمع آوری داده ها را پیاده سازی کنید (Data Collection and Annotation) و نتایج را ارزیابی کنید. اجرای آزمایشی، برجسته شده با خطوط چین، به شما امکان می‌دهد تا زمانی که خط لوله جمع‌آوری داده با کیفیت بالا ایجاد شود، روند را تکرار کنید.

مروری بر مراحل مورد نیاز در خط لوله ایجاد داده های معمولی.

برنامه ریزی

یک فرآیند استاندارد ایجاد داده‌ها در صورت ناکارآمدی می‌تواند زمان‌بر و اتلاف منابع انسانی ارزشمند باشد. چرا وقت گیر خواهد بود؟ برای پاسخ به این سوال، باید دامنه فرآیند ایجاد داده را درک کنیم. برای کمک به شما، ما یک چک لیست سطح بالا و شرح اجزای کلیدی و ذینفعان را جمع آوری کرده ایم که باید در نظر بگیرید. پاسخ به این سوالات در ابتدا ممکن است دشوار باشد. بسته به مورد استفاده شما، فقط برخی از این موارد ممکن است قابل اجرا باشند.

برای تاییدیه های مورد نیاز، نقطه تماس قانونی را شناسایی کنید - استفاده از داده‌ها برای برنامه شما می‌تواند مستلزم بررسی مجوز یا قرارداد فروشنده برای اطمینان از انطباق با خط‌مشی‌های شرکت و موارد استفاده باشد. مهم است که پشتیبانی قانونی خود را در طول مراحل کسب داده و حاشیه نویسی فرآیند شناسایی کنید.
نقطه تماس امنیتی برای مدیریت داده ها را شناسایی کنید -نشت داده های خریداری شده ممکن است منجر به جریمه های جدی و عواقبی برای شرکت شما شود. مهم است که پشتیبانی امنیتی خود را در طول مراحل کسب داده و حاشیه نویسی شناسایی کنید تا از اقدامات ایمن اطمینان حاصل کنید.
جزئیات مورد نیاز استفاده و تعریف داده های منبع و دستورالعمل های حاشیه نویسی - ایجاد و حاشیه نویسی داده ها به دلیل ویژگی بالای مورد نیاز دشوار است. ذینفعان، از جمله تولیدکنندگان داده و حاشیه نویسان، باید کاملاً همسو باشند تا از هدر رفتن منابع جلوگیری شود. برای این منظور، استفاده از یک سند راهنما که تمام جنبه‌های کار حاشیه نویسی را مشخص می‌کند، معمول است: دستورالعمل‌های دقیق، موارد لبه، نمونه‌ای از راهنما و غیره.
انتظارات را برای جمع آوری داده های منبع خود هماهنگ کنید - موارد زیر را در نظر بگیرید:
- انجام تحقیق در مورد منابع داده بالقوه - به عنوان مثال، مجموعه داده های عمومی، مجموعه داده های موجود از سایر تیم های داخلی، داده های خود جمع آوری شده یا خریداری شده از فروشندگان.
- ارزیابی کیفیت را انجام دهید - یک خط لوله تجزیه و تحلیل در رابطه با مورد استفاده نهایی ایجاد کنید.
انتظارات را برای ایجاد حاشیه نویسی داده ها مطابقت دهید - موارد زیر را در نظر بگیرید:
- ذینفعان فنی را شناسایی کنید - این معمولاً یک فرد یا تیم در شرکت شما است که قادر به استفاده از اسناد فنی در مورد Ground Truth برای اجرای خط لوله حاشیه نویسی است. این ذینفعان همچنین مسئول ارزیابی کیفیت داده های مشروح شده هستند تا مطمئن شوند که نیازهای برنامه ML پایین دستی شما را برآورده می کند.
- حاشیه نویسان داده ها را شناسایی کنید - این افراد از دستورالعمل های از پیش تعیین شده برای اضافه کردن برچسب به داده های منبع شما در Ground Truth استفاده می کنند. آنها ممکن است بسته به موارد استفاده و دستورالعمل های حاشیه نویسی شما نیاز به دانش دامنه داشته باشند. شما می توانید از نیروی کار داخلی شرکت خود استفاده کنید یا هزینه آن را بپردازید نیروی کار تحت مدیریت یک فروشنده خارجی.
از نظارت بر فرآیند ایجاد داده اطمینان حاصل کنید - همانطور که از نکات قبل می بینید، ایجاد داده یک فرآیند دقیق است که ذینفعان متخصص متعددی را شامل می شود. بنابراین، نظارت بر آن از انتها به پایان برای رسیدن به نتیجه مطلوب بسیار مهم است. داشتن یک فرد یا تیم اختصاصی برای نظارت بر فرآیند می تواند به شما کمک کند تا از یک فرآیند ایجاد داده منسجم و کارآمد اطمینان حاصل کنید.

بسته به مسیری که تصمیم دارید طی کنید، باید موارد زیر را نیز در نظر بگیرید:

مجموعه داده منبع را ایجاد کنید - این به مواردی اشاره دارد که داده‌های موجود برای کار مورد نظر مناسب نیستند، یا محدودیت‌های قانونی مانع از استفاده شما از آن می‌شوند. باید از تیم های داخلی یا فروشندگان خارجی (نقطه بعدی) استفاده شود. این اغلب برای حوزه های بسیار تخصصی یا مناطقی که تحقیقات عمومی پایینی دارند، صادق است. به عنوان مثال، سؤالات رایج یک پزشک، دراز کشیدن لباس، یا کارشناسان ورزشی. می تواند داخلی یا خارجی باشد.
درباره فروشندگان تحقیق کنید و یک فرآیند سوار شدن را انجام دهید - هنگامی که از فروشندگان خارجی استفاده می شود، یک فرآیند قرارداد و سوار شدن باید بین هر دو نهاد تنظیم شود.

در این بخش، مؤلفه‌ها و ذینفعانی را که باید در نظر بگیریم، بررسی کردیم. با این حال، روند واقعی چگونه به نظر می رسد؟ در شکل زیر، یک گردش کار فرآیند برای ایجاد و حاشیه نویسی داده ها را ترسیم می کنیم. رویکرد تکراری از دسته‌های کوچکی از داده‌ها به نام پایلوت برای کاهش زمان چرخش، تشخیص زودهنگام خطاها و جلوگیری از هدر رفتن منابع در ایجاد داده‌های با کیفیت پایین استفاده می‌کند. در ادامه این پست به شرح این دورهای آزمایشی می پردازیم. ما همچنین برخی از بهترین شیوه ها را برای ایجاد داده، حاشیه نویسی و کنترل کیفیت پوشش می دهیم.

شکل زیر توسعه تکراری خط لوله ایجاد داده را نشان می دهد. به صورت عمودی، بلوک منبع داده (سبز) و بلوک حاشیه نویسی (آبی) را پیدا می کنیم. هر دو بلوک دارای دور آزمایشی مستقل هستند (ایجاد داده/ حاشیه نویسی، QAQC و به روز رسانی). به طور فزاینده ای داده های با منبع بالاتر ایجاد می شود و می توان از آنها برای ساخت حاشیه نویسی با کیفیت بالاتر استفاده کرد.

در طول توسعه تکراری خط لوله ایجاد داده یا حاشیه نویسی، دسته های کوچکی از داده ها برای خلبان های مستقل استفاده می شود. هر دور آزمایشی دارای یک مرحله ایجاد داده یا حاشیه نویسی، برخی تضمین کیفیت و کنترل کیفیت نتایج و یک مرحله به روز رسانی برای اصلاح فرآیند است. پس از اینکه این فرآیندها از طریق آزمایش‌های متوالی تکمیل شدند، می‌توانید به ایجاد داده‌ها و حاشیه‌نویسی در مقیاس بزرگ ادامه دهید.

مروری بر توسعه تکراری در خط لوله ایجاد داده

ایجاد داده منبع

فرآیند ایجاد ورودی حول مرحله بندی موارد مورد علاقه شما می چرخد که به نوع کار شما بستگی دارد. اینها می توانند تصاویر (اسکن روزنامه)، فیلم ها (صحنه های ترافیک)، ابرهای نقطه سه بعدی (اسکن های پزشکی)، یا به سادگی متن (تراک های زیرنویس، رونویسی) باشند. به طور کلی، هنگام تنظیم موارد مرتبط با کار، از موارد زیر اطمینان حاصل کنید:

مورد استفاده در دنیای واقعی را برای سیستم AI/ML نهایی منعکس کنید - تنظیم برای جمع آوری تصاویر یا فیلم ها برای داده های آموزشی شما باید دقیقاً با تنظیمات داده های ورودی شما در برنامه واقعی مطابقت داشته باشد. این به معنای داشتن سطوح قرارگیری ثابت، منابع روشنایی یا زوایای دوربین است.
منابع تنوع را در نظر بگیرید و به حداقل برسانید - موارد زیر را در نظر بگیرید:
- توسعه بهترین شیوه ها برای حفظ استانداردهای جمع آوری داده ها - بسته به جزئیات مورد استفاده شما، ممکن است لازم باشد الزاماتی را برای تضمین سازگاری بین نقاط داده خود مشخص کنید. برای مثال، اگر در حال جمع‌آوری داده‌های تصویری یا ویدیویی از نقاط تک دوربین هستید، ممکن است لازم باشد از قرارگیری ثابت اشیاء مورد علاقه خود مطمئن شوید یا قبل از گرفتن داده‌ها به بررسی کیفیت دوربین نیاز داشته باشید. این می تواند از مشکلاتی مانند کج شدن یا تاری دوربین جلوگیری کند و هزینه های پایین دست مانند حذف تصاویر خارج از کادر یا تار و همچنین نیاز به مرکز دستی قاب تصویر در ناحیه مورد نظر خود را به حداقل برساند.
- منابع زمان آزمون از پیش دستیابی متغیر – اگر در طول زمان آزمون، تغییرپذیری را در هر یک از ویژگی‌های ذکر شده پیش‌بینی می‌کنید، مطمئن شوید که می‌توانید آن منابع تغییرپذیری را در طول ایجاد داده‌های آموزشی دریافت کنید. به عنوان مثال، اگر انتظار دارید که برنامه ML شما در تنظیمات نوری مختلف کار کند، باید تصاویر و فیلم های آموزشی را در تنظیمات نوری مختلف ایجاد کنید. بسته به مورد استفاده، تنوع در موقعیت دوربین نیز می تواند بر کیفیت برچسب های شما تأثیر بگذارد.
دانش قبلی حوزه را در صورت موجود بودن ترکیب کنید - موارد زیر را در نظر بگیرید:
- ورودی های منابع خطا - متخصصان حوزه می‌توانند بر اساس سال‌ها تجربه خود اطلاعاتی در مورد منابع خطا ارائه دهند. آن‌ها می‌توانند در مورد بهترین شیوه‌ها برای دو نکته قبلی بازخورد ارائه کنند: چه تنظیماتی بهترین حالت استفاده در دنیای واقعی را نشان می‌دهد؟ منابع احتمالی تنوع در طول جمع آوری داده ها یا در زمان استفاده چیست؟
- بهترین شیوه های جمع آوری داده های خاص دامنه – اگرچه ممکن است ذینفعان فنی شما از قبل ایده خوبی از جنبه‌های فنی برای تمرکز بر روی تصاویر یا ویدیوهای جمع‌آوری‌شده داشته باشند، متخصصان حوزه می‌توانند بازخوردی را در مورد بهترین نحوه مرحله‌بندی یا جمع‌آوری داده‌ها به گونه‌ای که این نیازها برآورده شوند، ارائه دهند.

کنترل کیفیت و تضمین کیفیت داده های ایجاد شده

اکنون که خط لوله جمع‌آوری داده‌ها را راه‌اندازی کرده‌اید، ممکن است وسوسه انگیز باشد که ادامه دهید و تا حد امکان داده‌ها را جمع‌آوری کنید. یک دقیقه صبر کن! ابتدا باید بررسی کنیم که آیا داده‌های جمع‌آوری‌شده از طریق راه‌اندازی برای مورد استفاده واقعی شما مناسب است یا خیر. ما می‌توانیم از برخی نمونه‌های اولیه استفاده کنیم و از طریق بینش‌هایی که از تجزیه و تحلیل داده‌های نمونه به دست آورده‌ایم، به‌طور مکرر تنظیمات را بهبود ببخشیم. در طول فرآیند آزمایشی با ذینفعان فنی، تجاری و حاشیه نویسی خود از نزدیک همکاری کنید. این اطمینان حاصل می کند که خط لوله نتیجه شما نیازهای تجاری را برآورده می کند و در عین حال داده های برچسب دار آماده ML را در حداقل هزینه های سربار تولید می کند.

حاشیه نویسی

حاشیه نویسی ورودی ها جایی است که ما لمس جادویی را به داده های خود اضافه می کنیم - برچسب ها! بسته به نوع کار و فرآیند ایجاد داده، ممکن است به حاشیه نویس های دستی نیاز داشته باشید، یا می توانید از روش های خودکار خارج از قفسه استفاده کنید. خط لوله حاشیه نویسی داده می تواند از نظر فنی یک کار چالش برانگیز باشد. Ground Truth این سفر را برای ذینفعان فنی شما آسان می کند مجموعه‌ای داخلی از گردش‌های کاری برچسب‌گذاری برای منابع داده رایج. با چند مرحله اضافی، شما را قادر به ساخت نیز می کند گردش کار برچسب گذاری سفارشی فراتر از گزینه های از پیش تنظیم شده

هنگام ایجاد یک گردش کار حاشیه نویسی مناسب، سوالات زیر را از خود بپرسید:

آیا من به یک فرآیند حاشیه نویسی دستی برای داده های خود نیاز دارم؟ در برخی موارد، خدمات برچسب زدن خودکار ممکن است برای کار در دست کافی باشد. بررسی مستندات و ابزارهای موجود می تواند به شما کمک کند تشخیص دهید که آیا حاشیه نویسی دستی برای مورد استفاده شما ضروری است یا خیر (برای اطلاعات بیشتر، رجوع کنید به برچسب گذاری داده ها چیست؟). فرآیند ایجاد داده‌ها می‌تواند سطوح مختلفی از کنترل را در مورد جزئیات حاشیه‌نویسی داده‌های شما فراهم کند. بسته به این فرآیند، گاهی اوقات می توانید نیاز به حاشیه نویسی دستی را نیز دور بزنید. برای اطلاعات بیشتر مراجعه کنید با استفاده از Amazon SageMaker Ground Truth یک مجموعه داده پرسش و پاسخ سفارشی بسازید تا مدل NLU پرسش و پاسخ Hugging Face را آموزش دهید..
چه چیزی حقیقت پایه من را تشکیل می دهد؟ در بیشتر موارد، حقیقت اصلی از فرآیند حاشیه نویسی شما ناشی می شود - این تمام موضوع است! در برخی دیگر، کاربر ممکن است به برچسب های حقیقت زمینی دسترسی داشته باشد. این می تواند به طور قابل توجهی روند تضمین کیفیت شما را تسریع کند یا هزینه سربار مورد نیاز برای حاشیه نویسی های دستی متعدد را کاهش دهد.
حد بالایی برای میزان انحراف از حالت حقیقت پایه من چیست؟ با کاربران نهایی خود کار کنید تا خطاهای معمولی پیرامون این برچسب ها، منابع چنین خطاهایی و کاهش مطلوب خطاها را درک کنید. این به شما کمک می کند تا تشخیص دهید کدام جنبه از کار برچسب گذاری چالش برانگیزتر است یا احتمالاً دارای خطاهای حاشیه نویسی است.
آیا قوانین قبلی وجود دارد که توسط کاربران یا متخصصان میدانی برای برچسب زدن این موارد استفاده می شود؟ از این دستورالعمل ها برای ایجاد مجموعه ای از دستورالعمل ها برای حاشیه نویسان دستی خود استفاده کنید و اصلاح کنید.

آزمایشی فرآیند حاشیه نویسی ورودی

هنگام اجرای آزمایشی فرآیند حاشیه نویسی ورودی، موارد زیر را در نظر بگیرید:

دستورالعمل ها را با حاشیه نویسان و تمرین کنندگان میدانی مرور کنید - دستورالعمل ها باید مختصر و مشخص باشد. از کاربران خود بازخورد بخواهید (آیا دستورالعمل‌ها دقیق هستند؟ آیا می‌توانیم دستورالعمل‌ها را بازبینی کنیم تا مطمئن شویم که برای تمرین‌کنندگان غیرحوزه‌ای قابل درک است؟) و حاشیه‌نویس‌ها (آیا همه چیز قابل درک است؟ آیا تکلیف مشخص است؟). در صورت امکان، نمونه‌ای از داده‌های برچسب‌گذاری شده خوب و بد را اضافه کنید تا به حاشیه‌نویسان کمک کنید تا آنچه را که انتظار می‌رود و اشتباهات رایج برچسب‌گذاری ممکن است شبیه به چه شکلی باشند، اضافه کنید.
جمع آوری داده ها برای حاشیه نویسی - داده ها را با مشتری خود مرور کنید تا مطمئن شوید که استانداردهای مورد انتظار را برآورده می کند و با نتایج مورد انتظار از حاشیه نویسی دستی هماهنگ شوید.
نمونه هایی را برای مجموعه حاشیه نویس های دستی خود به عنوان آزمایشی ارائه کنید – واریانس معمولی در میان حاشیه نویسان در این مجموعه مثال ها چیست؟ واریانس هر حاشیه نویسی را در یک تصویر مشخص مطالعه کنید تا روندهای سازگاری در میان حاشیه نویسان را شناسایی کنید. سپس واریانس ها را در بین تصاویر یا فریم های ویدئویی مقایسه کنید تا تشخیص دهید قرار دادن کدام برچسب ها چالش برانگیز است.

کنترل کیفیت حاشیه نویسی ها

کنترل کیفیت حاشیه نویسی دارای دو جزء اصلی است: ارزیابی سازگاری بین حاشیه نویسان و ارزیابی کیفیت خود حاشیه نویسی.

شما می توانید چندین حاشیه نویس را به یک کار اختصاص دهید (به عنوان مثال، سه حاشیه نویس به نکات کلیدی روی یک تصویر برچسب می زنند)، و مقدار متوسط را در کنار انحراف استاندارد این برچسب ها در میان حاشیه نویس ها اندازه گیری کنید. انجام این کار به شما کمک می کند هر گونه حاشیه نویسی را شناسایی کنید (برچسب نادرست استفاده شده، یا برچسب دور از حاشیه نویسی متوسط)، که می تواند نتایج قابل اجرا را راهنمایی کند، مانند اصلاح دستورالعمل های خود یا ارائه آموزش بیشتر به حاشیه نویسان خاص.

ارزیابی کیفیت حاشیه نویسی به خودی خود به تنوع حاشیه نویس و (در صورت وجود) در دسترس بودن متخصصان حوزه یا اطلاعات واقعی مربوط می شود. آیا برچسب های خاصی (در تمام تصاویر شما) وجود دارد که میانگین واریانس بین حاشیه نویس ها به طور مداوم بالا باشد؟ آیا هر برچسبی دور از انتظارات شما در مورد جایی است که باید باشد یا چگونه باید باشد؟

بر اساس تجربه ما، یک حلقه کنترل کیفیت معمولی برای حاشیه نویسی داده ها می تواند به شکل زیر باشد:

دستورالعمل ها یا مرحله بندی تصویر را بر اساس نتایج آزمایشی تکرار کنید - آیا اشیایی مسدود شده اند یا صحنه سازی تصویر با انتظارات حاشیه نویسان یا کاربران مطابقت ندارد؟ آیا دستورالعمل ها گمراه کننده هستند، یا هیچ برچسب یا خطای رایجی را در تصاویر نمونه خود از دست داده اید؟ آیا می توانید دستورالعمل ها را برای حاشیه نویسان خود اصلاح کنید؟
اگر راضی هستید که به هر مشکلی در اجرای آزمایشی رسیدگی کرده اید، یک دسته حاشیه نویسی انجام دهید - برای آزمایش نتایج حاصل از دسته، همان رویکرد ارزیابی کیفیت ارزیابی متغیرهای بین حاشیه‌نویس و برچسب بین تصویر را دنبال کنید.

نتیجه

این پست به عنوان راهنمایی برای ذینفعان کسب و کار است تا پیچیدگی های ایجاد داده برای برنامه های AI/ML را درک کنند. فرآیندهای توصیف شده همچنین به عنوان راهنمایی برای متخصصان فنی برای تولید داده های با کیفیت و در عین حال بهینه سازی محدودیت های تجاری مانند پرسنل و هزینه ها عمل می کند. اگر به خوبی انجام نشود، خط لوله ایجاد داده و برچسب گذاری می تواند بیش از 4 تا 6 ماه طول بکشد.

با رهنمودها و پیشنهادات ذکر شده در این پست، می‌توانید از موانع جلوگیری کنید، زمان تکمیل را کاهش دهید و هزینه‌های سفر خود را برای ایجاد داده‌های با کیفیت بالا به حداقل برسانید.

درباره نویسندگان

جاسلین گروال یک دانشمند کاربردی در خدمات وب آمازون است، جایی که او با مشتریان AWS برای حل مشکلات دنیای واقعی با استفاده از یادگیری ماشین، با تمرکز ویژه بر پزشکی دقیق و ژنومیک کار می کند. او پیشینه قوی در بیوانفورماتیک، انکولوژی و ژنومیک بالینی دارد. او علاقه زیادی به استفاده از AI/ML و خدمات ابری برای بهبود مراقبت از بیمار دارد.

بوریس آرونچیک مدیر آزمایشگاه راه‌حل‌های یادگیری ماشین هوش مصنوعی آمازون است، جایی که تیمی از دانشمندان و مهندسان ML را رهبری می‌کند تا به مشتریان AWS کمک کند تا اهداف تجاری را با استفاده از راه‌حل‌های AI/ML درک کنند.

میگل رومرو کالوو دانشمند کاربردی در آزمایشگاه راه حل های آمازون ام ال جایی که او با تیم های داخلی AWS و مشتریان استراتژیک شریک می شود تا تجارت خود را از طریق ML و پذیرش ابری سرعت بخشد.

لین لی چئونگ یک دانشمند و مدیر ارشد با تیم آمازون ML Solutions Lab در خدمات وب آمازون است. او با مشتریان استراتژیک AWS کار می کند تا هوش مصنوعی و یادگیری ماشینی را برای کشف بینش های جدید و حل مشکلات پیچیده کاوش و استفاده کند.

تمبر زمان: اکتبر 3، 2022اکتبر 3، 2022

تمبر زمان: مار 21، 2023

رویکردهای آزمایشی برای مدل‌های Amazon SageMaker ML

خوشه منبع:

آموزش ماشین AWS

گره منبع: 1723753

تمبر زمان: اکتبر 14، 2022

استقرار پاسخگویی به سوالات سلف سرویس با QnABot در راه حل AWS که توسط آمازون لکس با آمازون کندرا و مدل های زبان بزرگ طراحی شده است | خدمات وب آمازون

خوشه منبع:

آموزش ماشین AWS

گره منبع: 1882950

تمبر زمان: اوت 30، 2023

استقرار مدل های پایه با Amazon SageMaker، تکرار و نظارت با TruEra | خدمات وب آمازون

خوشه منبع:

آموزش ماشین AWS

گره منبع: 1928904

تمبر زمان: دسامبر 22، 2023

با Amazon SageMaker Ground Truth داده های با کیفیت بالا برای مدل های ML ایجاد کنید

بازنشر افلاطون

فرآیند ایجاد داده

برنامه ریزی

ایجاد داده منبع

کنترل کیفیت و تضمین کیفیت داده های ایجاد شده

حاشیه نویسی

آزمایشی فرآیند حاشیه نویسی ورودی

کنترل کیفیت حاشیه نویسی ها

نتیجه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

AWS و Mistral AI متعهد به دموکراتیک کردن هوش مصنوعی مولد با همکاری تقویت شده هستند | خدمات وب آمازون

با استفاده از رابط Gmail برای Amazon Kendra، جستجوی هوشمند در ایمیل‌ها در فضای کاری Google خود انجام دهید

رویکردهای آزمایشی برای مدل‌های Amazon SageMaker ML

استقرار مدل های پایه با Amazon SageMaker، تکرار و نظارت با TruEra | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب