Etykietowanie maski segmentacji kilkoma kliknięciami w Amazon SageMaker Ground Truth Plus

Etykietowanie maski segmentacji kilkoma kliknięciami w Amazon SageMaker Ground Truth Plus

Amazon SageMaker Ground Truth Plus to zarządzana usługa etykietowania danych, która ułatwia etykietowanie danych dla aplikacji uczenia maszynowego (ML). Jednym z typowych przypadków użycia jest segmentacja semantyczna, która jest techniką komputerowego uczenia maszynowego, która polega na przypisywaniu etykiet klas do poszczególnych pikseli na obrazie. Na przykład w klatkach wideo zarejestrowanych przez poruszający się pojazd etykiety klasy mogą obejmować pojazdy, pieszych, drogi, sygnalizację świetlną, budynki lub tła. Zapewnia bardzo precyzyjne zrozumienie lokalizacji różnych obiektów na obrazie i jest często wykorzystywane do budowy systemów percepcji dla pojazdów autonomicznych lub robotyki. Aby zbudować model ML do segmentacji semantycznej, należy najpierw oznaczyć etykietą dużą ilość danych na poziomie piksela. Ten proces etykietowania jest złożony. Wymaga to wykwalifikowanych osób etykietujących i znacznej ilości czasu — dokładne etykietowanie niektórych obrazów może zająć nawet 2 godziny lub więcej!

W 2019, wydaliśmy interaktywne narzędzie do etykietowania oparte na uczeniu maszynowym o nazwie Auto-segment for Ground Truth który pozwala szybko i łatwo tworzyć wysokiej jakości maski segmentacji. Aby uzyskać więcej informacji, zobacz Narzędzie do automatycznej segmentacji. Ta funkcja działa, umożliwiając kliknięcie górnych, lewych, dolnych i najbardziej wysuniętych na prawo „skrajnych punktów” obiektu. Model ML działający w tle pobierze dane wprowadzone przez użytkownika i zwróci wysokiej jakości maskę segmentacji, która natychmiast zostanie wyrenderowana w narzędziu do etykietowania Ground Truth. Ta funkcja pozwala jednak na umieszczenie tylko czterech kliknięć. W niektórych przypadkach maska ​​wygenerowana przez uczenie maszynowe może nieumyślnie pominąć pewne części obrazu, na przykład wokół krawędzi obiektu, gdzie krawędzie są niewyraźne lub gdzie kolor, nasycenie lub cienie wtapiają się w otoczenie.

Ekstremalne klikanie punktowe z elastyczną liczbą kliknięć korekcyjnych

Teraz udoskonaliliśmy narzędzie, aby umożliwić dodatkowe kliknięcia punktów granicznych, co zapewnia informacje zwrotne w czasie rzeczywistym dla modelu ML. Pozwala to na utworzenie dokładniejszej maski segmentacji. W poniższym przykładzie początkowy wynik segmentacji nie jest dokładny z powodu słabych granic w pobliżu cienia. Co ważne, to narzędzie działa w trybie, który pozwala na otrzymywanie informacji zwrotnych w czasie rzeczywistym – nie wymaga określania wszystkich punktów na raz. Zamiast tego możesz najpierw wykonać cztery kliknięcia myszką, co spowoduje, że model ML wytworzy maskę segmentacji. Następnie możesz sprawdzić tę maskę, zlokalizować wszelkie potencjalne nieścisłości, a następnie umieścić dodatkowe kliknięcia w razie potrzeby, aby „przesunąć” model do prawidłowego wyniku.

Etykietowanie maski segmentacji za pomocą kilku kliknięć w Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Nasze poprzednie narzędzie do etykietowania umożliwiało umieszczenie dokładnie czterech kliknięć myszką (czerwone kropki). Początkowy wynik segmentacji (zacieniony czerwony obszar) nie jest dokładny z powodu słabych granic w pobliżu cienia (lewy dolny róg czerwonej maski).

Dzięki naszemu ulepszonemu narzędziu do etykietowania użytkownik ponownie najpierw wykonuje cztery kliknięcia myszką (czerwone kropki na górnym rysunku). Następnie masz możliwość sprawdzenia wynikowej maski segmentacji (zacieniony czerwony obszar na górnym rysunku). Możesz wykonać dodatkowe kliknięcia myszką (zielone kropki na dolnym rysunku), aby model udoskonalił maskę (zacieniony czerwony obszar na dolnym rysunku).

Etykietowanie maski segmentacji za pomocą kilku kliknięć w Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

W porównaniu z oryginalną wersją narzędzia, ulepszona wersja zapewnia lepsze wyniki, gdy obiekty są odkształcalne, nie są wypukłe i różnią się kształtem i wyglądem.

Przeprowadziliśmy symulację wydajności tego ulepszonego narzędzia na przykładowych danych, uruchamiając najpierw narzędzie linii bazowej (tylko z czterema skrajnymi kliknięciami) w celu wygenerowania maski segmentacji i oceniliśmy jej średnie przecięcie nad sumą (mIoU), powszechną miarę dokładności masek segmentacji. Następnie zastosowaliśmy symulowane kliknięcia korekcyjne i oceniliśmy poprawę w mIoU po każdym symulowanym kliknięciu. Poniższa tabela podsumowuje te wyniki. Pierwszy wiersz pokazuje mIoU, a drugi błąd (który jest podawany jako 100% minus mIoU). Za pomocą zaledwie pięciu dodatkowych kliknięć myszką możemy zmniejszyć błąd o 9% w przypadku tego zadania!

. . Liczba kliknięć korekcyjnych .
. Baseline 1 2 3 4 5
miliony U 72.72 76.56 77.62 78.89 80.57 81.73
Błąd 27% 23% 22% 21% 19% 18%

Integracja z Ground Truth i profilowaniem wydajności

Aby zintegrować ten model z Ground Truth, postępujemy zgodnie ze standardowym wzorcem architektury, jak pokazano na poniższym diagramie. Najpierw budujemy model ML w obrazie Dockera i wdrażamy go Rejestr elastycznego pojemnika Amazon (Amazon ECR), w pełni zarządzany rejestr kontenerów platformy Docker, który ułatwia przechowywanie, udostępnianie i wdrażanie obrazów kontenerów. Używając Zestaw narzędzi do wnioskowania SageMaker w budowaniu obrazu Dockera pozwala nam łatwo korzystać z najlepszych praktyk w zakresie udostępniania modeli i osiągać wnioskowanie o niskim opóźnieniu. Następnie tworzymy Amazon Sage Maker punkt końcowy w czasie rzeczywistym do hostowania modelu. Przedstawiamy an AWS Lambda działać jako proxy przed punktem końcowym SageMaker, oferując różne rodzaje transformacji danych. Na koniec używamy Brama Amazon API jako sposób na integrację z naszym interfejsem, aplikacją do etykietowania Ground Truth, aby zapewnić bezpieczne uwierzytelnianie naszego zaplecza.

Etykietowanie maski segmentacji za pomocą kilku kliknięć w Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Możesz zastosować ten ogólny wzorzec we własnych przypadkach użycia specjalnie zaprojektowanych narzędzi uczenia maszynowego i zintegrować je z niestandardowymi interfejsami użytkownika zadania Ground Truth. Aby uzyskać więcej informacji, patrz Zbuduj niestandardowy obieg pracy z etykietowaniem danych dzięki Amazon SageMaker Ground Truth.

Po udostępnieniu tej architektury i wdrożeniu naszego modelu przy użyciu Zestaw programistyczny AWS Cloud (AWS CDK), oceniliśmy charakterystykę opóźnień naszego modelu z różnymi typami instancji SageMaker. Jest to bardzo proste, ponieważ używamy punktów końcowych wnioskowania SageMaker w czasie rzeczywistym do obsługi naszego modelu. Punkty końcowe wnioskowania w czasie rzeczywistym SageMaker bezproblemowo integrują się z Amazon Cloud Watch i emitować takie metryki, jak wykorzystanie pamięci i opóźnienie modelu bez wymaganej konfiguracji (patrz Metryki wywołań punktów końcowych SageMaker po więcej szczegółów).

Na poniższym rysunku pokazujemy metrykę ModelLatency natywnie emitowaną przez punkty końcowe wnioskowania SageMaker w czasie rzeczywistym. Możemy łatwo użyć różnych funkcji matematycznych metryk w CloudWatch, aby pokazać percentyle opóźnień, takie jak opóźnienie p50 lub p90.

Etykietowanie maski segmentacji za pomocą kilku kliknięć w Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Poniższa tabela podsumowuje te wyniki dla naszego ulepszonego narzędzia do ekstremalnego klikania do segmentacji semantycznej dla trzech typów instancji: p2.xlarge, p3.2xlarge i g4dn.xlarge. Chociaż instancja p3.2xlarge zapewnia najniższe opóźnienia, instancja g4dn.xlarge zapewnia najlepszy stosunek kosztów do wydajności. Instancja g4dn.xlarge jest tylko o 8% wolniejsza (35 milisekund) niż instancja p3.2xlarge, ale w przeliczeniu na godzinę jest o 81% tańsza niż instancja p3.2xlarge (patrz Cennik Amazon SageMaker aby uzyskać więcej informacji na temat typów instancji SageMaker i cen).

Typ instancji SageMaker p90 Opóźnienie (ms)
1 p2.xduże 751
2 p3.2xduży 424
3 g4dn.xlarge 459

Wnioski

W tym poście wprowadziliśmy rozszerzenie funkcji automatycznego segmentowania Ground Truth dla zadań adnotacji segmentacji semantycznej. Podczas gdy oryginalna wersja narzędzia pozwala na wykonanie dokładnie czterech kliknięć myszką, co powoduje, że model zapewnia wysokiej jakości maskę segmentacji, rozszerzenie umożliwia wykonywanie kliknięć korekcyjnych, a tym samym aktualizowanie i kierowanie modelem ML w celu uzyskania lepszych prognoz. Przedstawiliśmy również podstawowy wzorzec architektoniczny, którego można użyć do wdrożenia i zintegrowania interaktywnych narzędzi z interfejsami użytkownika do etykietowania Ground Truth. Na koniec podsumowaliśmy opóźnienie modelu i pokazaliśmy, w jaki sposób wykorzystanie punktów końcowych wnioskowania w czasie rzeczywistym SageMaker ułatwia monitorowanie wydajności modelu.

Aby dowiedzieć się więcej o tym, jak to narzędzie może obniżyć koszty etykietowania i zwiększyć dokładność, odwiedź stronę Etykietowanie danych Amazon SageMaker rozpocząć konsultacje już dziś.


O autorach

Etykietowanie maski segmentacji za pomocą kilku kliknięć w Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Jonathana Bucka jest inżynierem oprogramowania w Amazon Web Services pracującym na styku uczenia maszynowego i systemów rozproszonych. Jego praca obejmuje tworzenie modeli uczenia maszynowego i opracowywanie nowatorskich aplikacji opartych na uczeniu maszynowym, aby udostępniać klientom najnowsze możliwości.

Etykietowanie maski segmentacji za pomocą kilku kliknięć w Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Li Erran Li jest menedżerem nauk stosowanych w usługach human-in-the-loop, AWS AI, Amazon. Jego zainteresowania badawcze to głębokie uczenie się 3D oraz uczenie się reprezentacji wizji i języka. Wcześniej był starszym naukowcem w Alexa AI, szefem uczenia maszynowego w Scale AI i głównym naukowcem w Pony.ai. Wcześniej pracował w zespole percepcyjnym w Uber ATG i zespole platformy uczenia maszynowego w Uber, pracując nad uczeniem maszynowym dla autonomicznej jazdy, systemami uczenia maszynowego i strategicznymi inicjatywami AI. Karierę rozpoczął w Bell Labs i był adiunktem na Uniwersytecie Columbia. Współprowadził tutoriale w ICML'17 i ICCV'19 oraz współorganizował kilka warsztatów w NeurIPS, ICML, CVPR, ICCV na temat uczenia maszynowego dla autonomicznej jazdy, wizji 3D i robotyki, systemów uczenia maszynowego i przeciwstawnego uczenia maszynowego. Ma doktorat z informatyki na Cornell University. Jest stypendystą ACM i IEEE Fellow.

Znak czasu:

Więcej z Uczenie maszynowe AWS