ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون

تور PGA به بهبود تجربه گلف با داده‌های بی‌درنگ ادامه می‌دهد که طرفداران را به بازی نزدیک‌تر می‌کند. برای ارائه تجربیات غنی تر، آنها در حال توسعه نسل بعدی سیستم ردیابی موقعیت توپ هستند که به طور خودکار موقعیت توپ را در زمین سبز ردیابی می کند.

TOUR در حال حاضر از ShotLink مجهز به CDW استفاده می‌کند، یک سیستم امتیازدهی برتر که از یک سیستم دوربین پیچیده با محاسبه در محل استفاده می‌کند تا موقعیت شروع و پایان هر عکس را از نزدیک ردیابی کند. TOUR می‌خواست تکنیک‌های بینایی کامپیوتر و یادگیری ماشین (ML) را برای توسعه نسل بعدی خط لوله مبتنی بر ابر برای قرار دادن توپ‌های گلف در فضای سبز کشف کند.

مرکز نوآوری هوش مصنوعی آمازون (GAIIC) اثربخشی این تکنیک‌ها را در یک مجموعه داده نمونه از رویداد اخیر PGA TOUR نشان داد. GAIIC یک خط لوله مدولار را طراحی کرد که مجموعه‌ای از شبکه‌های عصبی کانولوشن عمیق را تشکیل می‌دهد که با موفقیت بازیکنان را در میدان دید دوربین بومی‌سازی می‌کند، تعیین می‌کند کدام بازیکن قرار است و توپ را در حالی که به سمت جام حرکت می‌کند ردیابی می‌کند.

در این پست، توسعه این خط لوله، داده های خام، طراحی شبکه های عصبی کانولوشنال شامل خط لوله، و ارزیابی عملکرد آن را شرح می دهیم.

داده ها

تور 3 روز ویدیوی پیوسته از یک تورنمنت اخیر را از سه دوربین 4K که در اطراف سبزه روی یک سوراخ قرار گرفته بودند ارائه کرد. شکل زیر یک فریم از یک دوربین را نشان می‌دهد که برش داده شده و بزرگ‌نمایی شده است تا پخش کننده به راحتی قابل مشاهده باشد. توجه داشته باشید که علیرغم وضوح بالای دوربین ها، به دلیل دوری از رنگ سبز، توپ کوچک به نظر می رسد (معمولاً 3×3، 4×4 یا 5×5 پیکسل) و مکان یابی دقیق اهداف با این اندازه دشوار است.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

علاوه بر فید دوربین، TOUR داده‌های امتیازدهی مشروح در هر عکس، از جمله مکان جهانی موقعیت استراحت و مهر زمانی را به GAIIC ارائه کرد. این امکان تجسم هر ضربه زدن روی رنگ سبز و همچنین توانایی کشیدن تمام کلیپ‌های ویدیویی بازیکنانی که قرار می‌دهند را می‌دهد، که می‌توان به صورت دستی برچسب‌گذاری شده و برای آموزش مدل‌های تشخیص که خط لوله را تشکیل می‌دهند، استفاده کرد. شکل زیر سه نمای دوربین را با همپوشانی های تقریبی مسیر ارسال توپ، در خلاف جهت عقربه های ساعت از بالا سمت چپ نشان می دهد. پین هر روز جابه‌جا می‌شود، جایی که روز 1 مربوط به آبی، روز 2 به قرمز و روز 3 به نارنجی است.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

نمای کلی خط لوله

سیستم کلی هم از یک خط لوله آموزشی و هم از خط لوله استنتاج تشکیل شده است. نمودار زیر معماری خط لوله آموزشی را نشان می دهد. نقطه شروع، دریافت داده های ویدئویی است، یا از یک ماژول استریم مانند آمازون کینسیس برای ویدیوی زنده یا قرار دادن مستقیم در سرویس ذخیره سازی ساده آمازون (Amazon S3) برای ویدیوی تاریخی. خط لوله آموزشی نیاز به پیش پردازش ویدئو و برچسب گذاری دستی تصاویر با Amazon SageMaker Ground Truth. مدل ها را می توان با آمازون SageMaker و مصنوعات آنها با آمازون S3 ذخیره شده است.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

خط لوله استنتاج، که در نمودار زیر نشان داده شده است، از تعدادی ماژول تشکیل شده است که به طور متوالی اطلاعات را از ویدیوی خام استخراج می کنند و در نهایت مختصات جهانی توپ را در حالت استراحت پیش بینی می کنند. در ابتدا، رنگ سبز از میدان دید بزرگتر هر دوربین بریده می شود تا ناحیه پیکسلی که مدل ها باید در آن بازیکنان و توپ ها را جستجو کنند، کاهش یابد. سپس، یک شبکه عصبی کانولوشن عمیق (CNN) برای یافتن مکان افراد در میدان دید استفاده می شود. CNN دیگری برای پیش‌بینی اینکه کدام نوع از افراد پیدا شده است استفاده می‌شود تا مشخص شود آیا کسی در شرف زدن است یا خیر. پس از اینکه یک ضربه گیر احتمالی در میدان دید بومی سازی شد، از همان شبکه برای پیش بینی موقعیت توپ در نزدیکی توپگر استفاده می شود. سومین CNN توپ را در طول حرکت آن ردیابی می کند و در نهایت، یک تابع تبدیل از موقعیت پیکسل دوربین به مختصات GPS اعمال می شود.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

تشخیص بازیکن

اگرچه می‌توان یک سی‌ان‌ان را برای تشخیص توپ در یک فریم 4K در یک بازه زمانی مشخص اجرا کرد، با توجه به اندازه زاویه‌ای توپ در این فواصل دوربین، هر جسم سفید کوچکی باعث تشخیص می‌شود و در نتیجه آلارم‌های کاذب بسیاری ایجاد می‌شود. برای جلوگیری از جستجوی کل قاب تصویر برای توپ، می توان از همبستگی بین ژست بازیکن و مکان توپ استفاده کرد. توپی که قرار است قرار گیرد باید در کنار بازیکن باشد، بنابراین یافتن بازیکنان در میدان دید، ناحیه پیکسلی را که آشکارساز باید در آن توپ را جستجو کند، بسیار محدود می‌کند.

همانطور که در شکل زیر نشان داده شده است، توانستیم از یک CNN استفاده کنیم که از قبل برای پیش‌بینی جعبه‌های مرزی در اطراف همه افراد در یک صحنه آموزش داده شده بود. متأسفانه، اغلب بیش از یک توپ در زمین سبز وجود دارد، بنابراین منطق بیشتری فراتر از یافتن همه افراد و جستجوی یک توپ لازم است. این به CNN دیگری نیاز دارد تا پخش کننده ای را که در حال حاضر قرار داده بود پیدا کند.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

طبقه بندی بازیکنان و تشخیص توپ

برای محدودتر کردن موقعیت توپ، یک سی‌ان‌ان تشخیص شی از پیش آموزش‌دیده (YOLO v7) را به‌خوبی تنظیم کردیم تا همه افراد روی زمین سبز را طبقه‌بندی کنیم. یکی از اجزای مهم این فرآیند برچسب زدن دستی مجموعه ای از تصاویر با استفاده از SageMaker Ground Truth بود. این برچسب‌ها به CNN اجازه می‌داد تا پخش کننده را با دقت بالا طبقه‌بندی کند. در فرآیند برچسب‌گذاری، توپ به همراه بازیکن در حال قرار دادن مشخص شد، بنابراین این سی‌ان‌ان قادر به تشخیص توپ نیز بود، یک جعبه محدودکننده اولیه در اطراف توپ قبل از ضربه زدن ترسیم کرد و اطلاعات موقعیت را به سی‌ان‌ان ردیابی توپ پایین‌دست داد. .

ما از چهار برچسب مختلف برای حاشیه نویسی اشیاء در تصاویر استفاده می کنیم:

  • بازیکن قرار دادن - بازیکنی که یک باشگاه در دست دارد و در موقعیت قرار دارد
  • بازیکن-نگذار - بازیکنی که در موقعیت قرار دادن نیست (ممکن است یک باشگاه نیز در اختیار داشته باشد)
  • شخص دیگر - هر شخص دیگری که بازیکن نیست
  • توپ گلف - توپ گلف

شکل زیر نشان می‌دهد که یک CNN با استفاده از برچسب‌های SageMaker Ground Truth برای طبقه‌بندی هر فرد در میدان دید به‌خوبی تنظیم شده است. این امر به دلیل گستره وسیعی از ظاهر بصری بازیکنان، بازیکنان و طرفداران دشوار است. پس از طبقه‌بندی یک بازیکن به‌عنوان بازیکن، یک سی‌ان‌ان به‌خوبی تنظیم شده برای تشخیص توپ روی ناحیه کوچک بلافاصله اطراف آن پخش‌کننده اعمال شد.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

ردیابی مسیر توپ

سومین CNN، یک معماری ResNet که از قبل برای ردیابی حرکت آموزش داده شده بود، برای ردیابی توپ پس از قرار دادن آن استفاده شد. ردیابی حرکت یک مشکل کاملاً تحقیق شده است، بنابراین این شبکه در صورت ادغام در خط لوله بدون تنظیم دقیق بیشتر عملکرد خوبی داشت.

خروجی خط لوله

آبشار سی‌ان‌ان‌ها جعبه‌های مرزی را در اطراف افراد قرار می‌دهد، افراد را در رنگ سبز طبقه‌بندی می‌کند، موقعیت اولیه توپ را تشخیص می‌دهد و هنگامی که توپ شروع به حرکت کرد، آن را ردیابی می‌کند. شکل زیر خروجی ویدیوی برچسب گذاری شده خط لوله را نشان می دهد. موقعیت پیکسل های توپ در حین حرکت ردیابی و ثبت می شود. توجه داشته باشید که افراد روی سبز با کادرهای محدود ردیابی و مشخص می شوند. برنده در پایین به درستی به عنوان "بازیکن قرار دادن" برچسب گذاری شده است، و توپ متحرک توسط یک جعبه کوچک آبی رنگ ردیابی و مشخص می شود.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

عملکرد

برای ارزیابی عملکرد اجزای خط لوله، داشتن داده های برچسب گذاری شده ضروری است. اگرچه موقعیت جهانی حقیقت زمینی توپ در اختیار ما قرار گرفته بود، اما نقاط میانی برای حقیقت زمین، مانند موقعیت پیکسل نهایی توپ یا مکان پیکسل بازیکنی که قرار می دهد، نداشتیم. با کار برچسب‌زنی که انجام دادیم، داده‌های حقیقت زمینی را برای این خروجی‌های میانی خط لوله توسعه دادیم که به ما امکان می‌دهد عملکرد را اندازه‌گیری کنیم.

طبقه بندی بازیکنان و دقت تشخیص توپ

برای شناسایی بازیکنی که قرار است توپ و مکان اولیه توپ را شناسایی کنیم، یک مجموعه داده را برچسب گذاری کردیم و یک مدل YOLO v7 CNN را همانطور که قبلاً توضیح داده شد، تنظیم دقیق کردیم. همانطور که در شکل زیر نشان داده شده است، این مدل خروجی ماژول تشخیص شخص قبلی را به چهار کلاس طبقه بندی کرد: بازیکنی که قرار می دهد، بازیکنی که قرار نمی دهد، افراد دیگر و توپ گلف.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

عملکرد این ماژول با یک ماتریس سردرگمی که در شکل زیر نشان داده شده است، ارزیابی شده است. مقادیر موجود در کادرهای مورب نشان می‌دهند که کلاس پیش‌بینی‌شده چقدر با کلاس واقعی از برچسب‌های حقیقت زمینی مطابقت دارد. این مدل دارای 89% یادآوری یا بهتر برای هر کلاس فردی و 79% یادآوری برای توپ‌های گلف است (که قابل انتظار است زیرا مدل از قبل روی نمونه‌هایی با افراد آموزش داده شده است، اما در نمونه‌هایی با توپ گلف، این را می‌توان بهبود بخشید. توپ های گلف با برچسب بیشتر در مجموعه آموزشی).

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

مرحله بعدی فعال کردن ردیاب توپ است. از آنجا که خروجی تشخیص توپ یک احتمال اطمینان است، همچنین می توان آستانه را برای "توپ شناسایی شده" تنظیم کرد و مشاهده کرد که چگونه نتایج را تغییر می دهد، که در شکل زیر خلاصه شده است. در این روش یک معاوضه وجود دارد زیرا آستانه بالاتر لزوماً آلارم‌های کاذب کمتری خواهد داشت، اما برخی از نمونه‌های کمتر مطمئن توپ را نیز از دست می‌دهد. ما آستانه های 20% و 50% اطمینان را آزمایش کردیم و تشخیص توپ را به ترتیب 78% و 61% یافتیم. با این معیار، آستانه 20 درصد بهتر است. این مبادله از این جهت آشکار است که برای آستانه اطمینان 20 درصد، 80 درصد از کل تشخیص ها در واقع توپ بودند (20 درصد مثبت کاذب)، در حالی که برای آستانه اطمینان 50 درصد، 90 درصد توپ بودند (10 درصد مثبت کاذب). برای موارد مثبت کاذب کمتر، آستانه اطمینان 50 درصد بهتر است. هر دوی این اقدامات را می توان با داده های برچسب گذاری شده بیشتر برای مجموعه آموزشی بزرگتر بهبود بخشید.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

توان عملیاتی خط لوله تشخیص حدود 10 فریم در ثانیه است، بنابراین در شکل فعلی، یک نمونه به اندازه کافی سریع نیست که به طور مداوم روی ورودی با سرعت 50 فریم در ثانیه اجرا شود. دستیابی به علامت 7 ثانیه برای خروجی پس از مراحل توپ نیاز به بهینه سازی بیشتر برای تأخیر دارد، شاید با اجرای چندین نسخه از خط لوله به صورت موازی و فشرده سازی مدل های CNN از طریق کوانتیزاسیون (به عنوان مثال).

دقت ردیابی مسیر توپ

مدل CNN از پیش آموزش دیده از MMTracking به خوبی کار می کند، اما موارد شکست جالبی وجود دارد. شکل زیر یک مورد را نشان می دهد که در آن ردیاب روی توپ شروع می شود، جعبه مرزی خود را گسترش می دهد تا هم سر و هم توپ را در بر بگیرد و سپس متأسفانه سر پرتاب کننده را دنبال می کند و توپ را فراموش می کند. در این مورد، سر پرتاب کننده سفید به نظر می رسد (احتمالاً به دلیل انعکاس چشمی)، بنابراین سردرگمی قابل درک است. داده های برچسب گذاری شده برای ردیابی و تنظیم دقیق ردیابی CNN می تواند به بهبود این امر در آینده کمک کند.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

نتیجه

در این پست، توسعه یک خط لوله مدولار را مورد بحث قرار دادیم که بازیکنان را در میدان دید دوربین قرار می‌دهد، تعیین می‌کند کدام بازیکن قرار می‌دهد و توپ را در حالی که به سمت جام حرکت می‌کند، ردیابی می‌کند.

برای اطلاعات بیشتر در مورد همکاری AWS با PGA TOUR، مراجعه کنید PGA TOUR با AWS آماده می شود تا تجربه طرفداران را دوباره تصور کنید.


درباره نویسنده

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.جیمز گلدن یک دانشمند کاربردی در Amazon Bedrock با پیشینه یادگیری ماشین و علوم اعصاب است.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.هنری وانگ یک دانشمند کاربردی در مرکز نوآوری هوش مصنوعی آمازون است که در آنجا به تحقیق و ساخت راه‌حل‌های هوش مصنوعی مولد برای مشتریان AWS می‌پردازد. او روی ورزش و صنعت رسانه و سرگرمی تمرکز دارد و در گذشته با لیگ های ورزشی، تیم ها و پخش کننده های مختلف کار کرده است. او در اوقات فراغت خود دوست دارد تنیس و گلف بازی کند.

ردیابی موقعیت توپ در ابر با تور PGA | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.تریامبک گنگوپادهای یک دانشمند کاربردی در مرکز نوآوری AWS Generative AI است، جایی که او با سازمان ها در طیف متنوعی از صنایع همکاری می کند. نقش او شامل انجام تحقیقات و توسعه راه‌حل‌های هوش مصنوعی برای مقابله با چالش‌های مهم تجاری و تسریع پذیرش هوش مصنوعی است.

تمبر زمان:

بیشتر از آموزش ماشین AWS