Twórz wysokiej jakości dane dla modeli ML za pomocą Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Twórz wysokiej jakości dane dla modeli ML za pomocą Amazon SageMaker Ground Truth

Uczenie maszynowe (ML) usprawniło działalność biznesową w różnych branżach w ostatnich latach — od systemu rekomendacji na Twoim Prime Video konto, do podsumowania dokumentów i efektywnego wyszukiwania za pomocą Alexapomoc głosowa użytkownika. Pozostaje jednak pytanie, jak włączyć tę technologię do swojego biznesu. W przeciwieństwie do tradycyjnych metod opartych na regułach, ML automatycznie wyprowadza wzorce z danych, aby wykonać interesujące Cię zadanie. Chociaż omija to potrzebę nadzorowania reguł automatyzacji, oznacza to również, że modele ML mogą być tylko tak dobre, jak dane, na których są trenowane. Jednak tworzenie danych jest często trudnym zadaniem. Na Laboratorium rozwiązań do uczenia maszynowego Amazon Amazon, wielokrotnie napotykaliśmy ten problem i chcemy ułatwić tę podróż naszym klientom. Jeśli chcesz odciążyć ten proces, możesz użyć Amazon SageMaker Ground Truth Plus.

Pod koniec tego posta będziesz w stanie osiągnąć następujące rzeczy:

  • Zrozumieć procesy biznesowe związane z konfiguracją potoku akwizycji danych
  • Zidentyfikuj usługi AWS Cloud do obsługi i przyspieszenia potoku etykietowania danych
  • Uruchom zadanie pozyskiwania danych i etykietowania dla niestandardowych przypadków użycia
  • Twórz wysokiej jakości dane zgodnie z najlepszymi praktykami biznesowymi i technicznymi

W tym poście skupiamy się na procesie tworzenia danych i polegamy na usługach AWS do obsługi infrastruktury i komponentów procesu. Mianowicie używamy Amazon SageMaker Ground Prawda do obsługi potoku infrastruktury etykietowania i interfejsu użytkownika. Ta usługa wykorzystuje podejście „wskaż i idź” do zbierania danych z Usługa Amazon Simple Storage (Amazon S3) i skonfiguruj przepływ pracy etykietowania. W przypadku etykietowania zapewnia wbudowaną elastyczność pozyskiwania etykiet danych za pomocą prywatnego zespołu, a Amazon Mechanical Turk siły lub preferowanego dostawcy etykiet z Rynek AWS. Wreszcie możesz użyć AWS Lambda i Notatniki Amazon SageMaker do przetwarzania, wizualizacji lub kontroli jakości danych — zarówno przed, jak i po etykietowaniu.

Teraz, gdy wszystkie elementy zostały już ułożone, zacznijmy proces!

Proces tworzenia danych

Wbrew powszechnej intuicji pierwszym krokiem do tworzenia danych nie jest ich zbieranie. Praca wstecz od użytkowników w celu wyartykułowania problemu jest kluczowa. Na przykład, na czym zależy użytkownikom w końcowym artefakcie? Gdzie eksperci uważają, że sygnały istotne dla przypadku użycia znajdują się w danych? Jakie informacje o środowisku przypadków użycia można dostarczyć do modelu? Jeśli nie znasz odpowiedzi na te pytania, nie martw się. Daj sobie trochę czasu na rozmowę z użytkownikami i ekspertami w terenie, aby zrozumieć niuanse. To wstępne zrozumienie nakieruje cię we właściwym kierunku i przygotuje cię na sukces.

W tym poście zakładamy, że omówiłeś ten wstępny proces specyfikacji wymagań użytkownika. Kolejne trzy sekcje przeprowadzą Cię przez kolejny proces tworzenia danych jakościowych: planowanie, tworzenie danych źródłowych i adnotacje do danych. Pętle pilotażowe na etapie tworzenia danych i adnotacji mają kluczowe znaczenie dla zapewnienia wydajnego tworzenia danych oznaczonych etykietami. Obejmuje to iterację między tworzeniem danych, adnotacjami, zapewnianiem jakości i aktualizowaniem potoku w razie potrzeby.

Poniższy rysunek przedstawia omówienie kroków wymaganych w typowym potoku tworzenia danych. Możesz cofnąć się od przypadku użycia, aby zidentyfikować potrzebne dane (Specyfikacja wymagań), zbudować proces pozyskiwania danych (Planowanie), wdrożyć rzeczywisty proces pozyskiwania danych (Zbieranie danych i adnotacje) oraz ocenić wyniki. Przebiegi pilotażowe, wyróżnione liniami przerywanymi, umożliwiają iterację procesu do momentu opracowania wysokiej jakości potoku akwizycji danych.

Omówienie kroków wymaganych w typowym potoku tworzenia danych.

Planowanie

Standardowy proces tworzenia danych może być czasochłonny i marnować cenne zasoby ludzkie, jeśli jest prowadzony nieefektywnie. Dlaczego miałoby to być czasochłonne? Aby odpowiedzieć na to pytanie, musimy zrozumieć zakres procesu tworzenia danych. Aby Ci pomóc, zebraliśmy listę kontrolną wysokiego poziomu oraz opis kluczowych komponentów i interesariuszy, które musisz wziąć pod uwagę. Na początku odpowiedzi na te pytania mogą być trudne. W zależności od przypadku użycia tylko niektóre z nich mogą mieć zastosowanie.

  • Zidentyfikuj prawny punkt kontaktowy w celu uzyskania wymaganych zgód – Wykorzystanie danych do aplikacji może wymagać przeglądu licencji lub umowy z dostawcą w celu zapewnienia zgodności z zasadami firmy i przypadkami użycia. Ważne jest, aby zidentyfikować swoje wsparcie prawne na wszystkich etapach pozyskiwania danych i adnotacji w procesie.
  • Zidentyfikuj punkt kontaktowy ds. bezpieczeństwa w celu obsługi danych – Wyciek zakupionych danych może skutkować poważnymi grzywnami i reperkusjami dla Twojej firmy. Aby zapewnić bezpieczne praktyki, ważne jest, aby zidentyfikować swoje wsparcie bezpieczeństwa przez cały proces pozyskiwania danych i adnotacji.
  • Szczegółowo opisuj wymagania dotyczące przypadków użycia i zdefiniuj dane źródłowe oraz wytyczne dotyczące adnotacji – Tworzenie i opisywanie danych jest trudne ze względu na wymaganą wysoką szczegółowość. Interesariusze, w tym twórcy danych i adnotatorzy, muszą być całkowicie zjednoczeni, aby uniknąć marnowania zasobów. W tym celu powszechną praktyką jest używanie dokumentu z wytycznymi, który określa każdy aspekt zadania adnotacji: dokładne instrukcje, przypadki brzegowe, przykładowy przewodnik i tak dalej.
  • Dostosuj się do oczekiwań dotyczących gromadzenia danych źródłowych - Rozważ następujące:
    • Przeprowadź badania dotyczące potencjalnych źródeł danych – Na przykład publiczne zbiory danych, istniejące zbiory danych od innych zespołów wewnętrznych, dane zebrane samodzielnie lub zakupione od dostawców.
    • Wykonaj ocenę jakości – Utwórz potok analizy w odniesieniu do ostatecznego przypadku użycia.
  • Dopasuj oczekiwania dotyczące tworzenia adnotacji do danych - Rozważ następujące:
    • Zidentyfikuj interesariuszy technicznych – Jest to zazwyczaj osoba lub zespół w Twojej firmie, który może wykorzystać dokumentację techniczną dotyczącą Ground Truth do wdrożenia potoku adnotacji. Interesariusze ci są również odpowiedzialni za ocenę jakości danych z adnotacjami, aby upewnić się, że spełniają one potrzeby Twojej dalszej aplikacji ML.
    • Zidentyfikuj adnotatorów danych – Osoby te używają z góry określonych instrukcji, aby dodać etykiety do danych źródłowych w ramach Ground Truth. Mogą potrzebować wiedzy o domenie w zależności od przypadku użycia i wskazówek dotyczących adnotacji. Możesz użyć siły roboczej w firmie lub zapłacić za kadra zarządzana przez zewnętrznego dostawcę.
  • Zapewnij nadzór nad procesem tworzenia danych – Jak widać z poprzednich punktów, tworzenie danych to szczegółowy proces, w który zaangażowanych jest wielu wyspecjalizowanych interesariuszy. Dlatego ważne jest, aby monitorować go od końca do końca, aby osiągnąć pożądany rezultat. Posiadanie dedykowanej osoby lub zespołu nadzorującego proces może pomóc w zapewnieniu spójnego, wydajnego procesu tworzenia danych.

W zależności od trasy, którą zdecydujesz się obrać, musisz również wziąć pod uwagę następujące kwestie:

  • Utwórz źródłowy zbiór danych – Odnosi się to do sytuacji, w których istniejące dane nie są odpowiednie dla danego zadania lub ograniczenia prawne uniemożliwiają korzystanie z nich. Należy użyć zespołów wewnętrznych lub dostawców zewnętrznych (następny punkt). Dzieje się tak często w przypadku wysoce wyspecjalizowanych dziedzin lub obszarów o niskim poziomie badań publicznych. Na przykład częste pytania lekarza, ubiór odzieży lub eksperci sportowi. Może być wewnętrzny lub zewnętrzny.
  • Zbadaj dostawców i przeprowadź proces onboardingu – W przypadku korzystania z usług zewnętrznych dostawców należy ustanowić proces zawierania umów i onboardingu między obydwoma podmiotami.

W tej sekcji dokonaliśmy przeglądu komponentów i interesariuszy, które musimy wziąć pod uwagę. Jak jednak wygląda rzeczywisty proces? Na poniższym rysunku przedstawiamy przebieg procesu tworzenia danych i adnotacji. Podejście iteracyjne wykorzystuje małe partie danych zwane pilotami, aby skrócić czas realizacji, wcześnie wykryć błędy i uniknąć marnowania zasobów na tworzenie danych o niskiej jakości. Opisujemy te rundy pilotażowe w dalszej części tego postu. Omówimy również niektóre najlepsze praktyki dotyczące tworzenia danych, adnotacji i kontroli jakości.

Poniższy rysunek ilustruje iteracyjne opracowywanie potoku tworzenia danych. Pionowo znajdujemy blok źródła danych (zielony) i blok adnotacji (niebieski). Oba bloki mają niezależne rundy pilotażowe (Tworzenie danych/Adnotacje, QAQC i Aktualizacja). Tworzone są coraz wyższe dane źródłowe, które można wykorzystać do tworzenia adnotacji o coraz wyższej jakości.

Podczas iteracyjnego opracowywania potoku tworzenia danych lub adnotacji małe partie danych są używane dla niezależnych programów pilotażowych. Każda runda pilotażowa obejmuje fazę tworzenia danych lub adnotacji, pewne zapewnienie jakości i kontrolę jakości wyników oraz etap aktualizacji w celu udoskonalenia procesu. Po dopracowaniu tych procesów w kolejnych programach pilotażowych można przystąpić do tworzenia danych i adnotacji na dużą skalę.

Omówienie rozwoju iteracyjnego w potoku tworzenia danych.

Tworzenie danych źródłowych

Proces tworzenia danych wejściowych polega na przygotowaniu interesujących Cię elementów, które zależą od typu zadania. Mogą to być obrazy (skany z gazet), filmy (sceny drogowe), chmury punktów 3D (skany medyczne) lub po prostu tekst (ścieżki napisów, transkrypcje). Ogólnie rzecz biorąc, przygotowując elementy związane z zadaniami, upewnij się, że:

  • Odzwierciedlaj rzeczywisty przypadek użycia dla ewentualnego systemu AI/ML – Konfiguracja do zbierania obrazów lub filmów do danych treningowych powinna być ściśle zgodna z konfiguracją danych wejściowych w rzeczywistej aplikacji. Oznacza to posiadanie spójnych powierzchni rozmieszczenia, źródeł światła lub kątów kamery.
  • Uwzględnij i minimalizuj źródła zmienności - Rozważ następujące:
    • Opracuj najlepsze praktyki w zakresie utrzymywania standardów gromadzenia danych – W zależności od szczegółowości przypadku użycia może być konieczne określenie wymagań, aby zagwarantować spójność między punktami danych. Na przykład, jeśli zbierasz dane obrazu lub wideo z pojedynczych punktów kamery, może być konieczne upewnienie się, że obiekty zainteresowania są spójne lub wymagane jest sprawdzenie jakości kamery przed rundą przechwytywania danych. Pozwala to uniknąć problemów, takich jak przechylenie lub rozmycie kamery, oraz zminimalizować dodatkowe koszty, takie jak usuwanie poza ramką lub zamazanych obrazów, a także konieczność ręcznego wyśrodkowania ramki obrazu w obszarze, który Cię interesuje.
    • Wywłaszczanie źródeł zmienności w czasie testu – Jeśli przewidujesz zmienność któregokolwiek z wymienionych dotychczas atrybutów w czasie testu, upewnij się, że możesz uchwycić te źródła zmienności podczas tworzenia danych treningowych. Na przykład, jeśli oczekujesz, że Twoja aplikacja ML będzie działać w wielu różnych ustawieniach oświetlenia, powinieneś starać się tworzyć obrazy i filmy szkoleniowe przy różnych ustawieniach oświetlenia. W zależności od przypadku zastosowania, zmienność położenia kamery może również wpływać na jakość etykiet.
  • Uwzględnij wcześniejszą wiedzę o domenie, jeśli jest dostępna - Rozważ następujące:
    • Dane wejściowe dotyczące źródeł błędów – Praktycy domeny mogą zapewnić wgląd w źródła błędów w oparciu o swoje wieloletnie doświadczenie. Mogą przekazać opinię na temat najlepszych praktyk dotyczących dwóch poprzednich punktów: Jakie ustawienia najlepiej odzwierciedlają rzeczywisty przypadek użycia? Jakie są możliwe źródła zmienności podczas zbierania danych lub w czasie korzystania?
    • Najlepsze praktyki w zakresie gromadzenia danych w poszczególnych domenach – Chociaż Twoi interesariusze techniczni mogą już mieć dobre pojęcie o aspektach technicznych, na których należy się skoncentrować w zebranych obrazach lub filmach, praktycy dziedzinowi mogą przekazać informacje zwrotne na temat tego, jak najlepiej zaaranżować lub zebrać dane, aby te potrzeby zostały zaspokojone.

Kontrola jakości i zapewnienie jakości tworzonych danych

Teraz, gdy masz już skonfigurowany potok zbierania danych, kuszące może być zebranie jak największej ilości danych. Poczekaj minutę! Najpierw musimy sprawdzić, czy dane zebrane podczas konfiguracji są odpowiednie dla Twojego przypadku użycia. Możemy użyć kilku początkowych próbek i iteracyjnie ulepszyć konfigurację dzięki wglądowi, który uzyskaliśmy z analizy tych przykładowych danych. Współpracuj ściśle z interesariuszami technicznymi, biznesowymi i adnotacjami podczas procesu pilotażowego. Dzięki temu uzyskany potok będzie spełniał potrzeby biznesowe, jednocześnie generując dane z etykietami gotowymi do ML przy minimalnych kosztach ogólnych.

Adnotacje

Adnotacja danych wejściowych to miejsce, w którym dodajemy magiczny akcent do naszych danych — etykiety! W zależności od typu zadania i procesu tworzenia danych możesz potrzebować ręcznych adnotatorów lub możesz skorzystać z gotowych, zautomatyzowanych metod. Sam potok adnotacji danych może być technicznie trudnym zadaniem. Ground Truth ułatwia tę podróż interesariuszom technicznym dzięki wbudowany repertuar przepływów pracy etykietowania dla typowych źródeł danych. Dzięki kilku dodatkowym krokom umożliwia również budowanie niestandardowe przepływy pracy związane z etykietowaniem poza wstępnie skonfigurowanymi opcjami.

Zadaj sobie następujące pytania podczas opracowywania odpowiedniego przepływu pracy adnotacji:

  • Czy potrzebuję ręcznego procesu dodawania adnotacji do moich danych? W niektórych przypadkach zautomatyzowane usługi etykietowania mogą być wystarczające do wykonania danego zadania. Przejrzenie dokumentacji i dostępnych narzędzi może pomóc w określeniu, czy ręczne wprowadzanie adnotacji jest konieczne w danym przypadku użycia (aby uzyskać więcej informacji, zobacz Co to jest etykietowanie danych?). Proces tworzenia danych może umożliwić różne poziomy kontroli szczegółowości adnotacji danych. W zależności od tego procesu możesz czasami ominąć potrzebę ręcznego dodawania adnotacji. Aby uzyskać więcej informacji, zobacz Zbuduj niestandardowy zbiór danych pytań i odpowiedzi za pomocą Amazon SageMaker Ground Truth, aby wytrenować model NLU pytań i odpowiedzi Hugging Face.
  • Co tworzy moją podstawową prawdę? W większości przypadków podstawowa prawda będzie pochodzić z procesu adnotacji — o to właśnie chodzi! W innych użytkownik może mieć dostęp do etykiet prawdy uziemienia. Może to znacznie przyspieszyć proces zapewniania jakości lub zmniejszyć nakład pracy związany z wieloma ręcznymi adnotacjami.
  • Jaka jest górna granica odchylenia od podstawowego stanu prawdy? Współpracuj z użytkownikami końcowymi, aby zrozumieć typowe błędy związane z tymi etykietami, źródła takich błędów i pożądaną redukcję błędów. Pomoże Ci to określić, które aspekty zadania etykietowania są najtrudniejsze lub mogą zawierać błędy adnotacji.
  • Czy istnieją wcześniej istniejące zasady stosowane przez użytkowników lub praktyków terenowych do oznaczania tych elementów? Skorzystaj z tych wskazówek i doprecyzuj je, aby utworzyć zestaw instrukcji dla ręcznych adnotatorów.

Pilotaż procesu wprowadzania adnotacji

Podczas pilotażowego procesu wprowadzania adnotacji weź pod uwagę następujące kwestie:

  • Zapoznaj się z instrukcjami z adnotatorami i praktykami terenowymi – Instrukcje powinny być zwięzłe i konkretne. Poproś o informacje zwrotne od swoich użytkowników (Czy instrukcje są dokładne? Czy możemy zmienić instrukcje, aby upewnić się, że są zrozumiałe dla praktyków spoza danej dziedziny?) i adnotatorów (Czy wszystko jest zrozumiałe? Czy zadanie jest jasne?). Jeśli to możliwe, dodaj przykład dobrych i złych danych oznaczonych etykietami, aby pomóc adnotatorom określić, czego się oczekuje i jak mogą wyglądać typowe błędy etykietowania.
  • Zbieraj dane do adnotacji – Przejrzyj dane z klientem, aby upewnić się, że spełniają one oczekiwane standardy i dostosuj się do oczekiwanych wyników z adnotacji ręcznej.
  • Podaj przykłady do swojej puli ręcznych adnotatorów w ramach testu – Jaka jest typowa wariancja między adnotatorami w tym zestawie przykładów? Zbadaj wariancję dla każdej adnotacji na danym obrazie, aby zidentyfikować trendy spójności między adnotatorami. Następnie porównaj różnice między obrazami lub klatkami wideo, aby określić, które etykiety są trudne do umieszczenia.

Kontrola jakości adnotacji

Kontrola jakości adnotacji składa się z dwóch głównych elementów: oceny spójności między adnotatorami oraz oceny jakości samych adnotacji.

Do tego samego zadania można przypisać wiele adnotatorów (na przykład trzy adnotatory oznaczają kluczowe punkty na tym samym obrazie) i mierzyć średnią wartość wraz z odchyleniem standardowym tych etykiet wśród adnotatorów. Pomoże to w zidentyfikowaniu wszelkich adnotacji odstających (użyta nieprawidłowa etykieta lub etykieta odległa od średniej adnotacji), które mogą kierować możliwymi do wykonania wynikami, takimi jak doprecyzowanie instrukcji lub zapewnienie dalszego szkolenia niektórym adnotatorom.

Ocena jakości samych adnotacji jest powiązana ze zmiennością adnotacji i (jeśli są dostępne) dostępnością ekspertów dziedzinowych lub informacji podstawowych. Czy istnieją pewne etykiety (na wszystkich Twoich obrazach), w których średnia rozbieżność między adnotatorami jest stale wysoka? Czy jakiekolwiek etykiety odbiegają od Twoich oczekiwań co do tego, gdzie powinny być lub jak powinny wyglądać?

Z naszego doświadczenia wynika, że ​​typowa pętla kontroli jakości dla adnotacji danych może wyglądać tak:

  • Wykonaj iterację instrukcji lub inscenizacji obrazu na podstawie wyników z przebiegu testowego – Czy jakieś obiekty są zasłonięte lub czy inscenizacja obrazu nie odpowiada oczekiwaniom adnotatorów lub użytkowników? Czy instrukcje wprowadzają w błąd, czy w przykładowych obrazach brakuje etykiet lub typowych błędów? Czy możesz doprecyzować instrukcje dla swoich adnotatorów?
  • Jeśli jesteś przekonany, że rozwiązałeś jakiekolwiek problemy z przebiegu testowego, zrób serię adnotacji – W przypadku testowania wyników z partii należy postępować zgodnie z tym samym podejściem do oceny jakości, jak ocenianie zmienności między adnotatorami i etykietami między obrazami.

Wnioski

Ten post służy jako przewodnik dla interesariuszy biznesowych, aby zrozumieć złożoność tworzenia danych dla aplikacji AI/ML. Opisane procesy służą również jako przewodnik dla praktyków technicznych do generowania danych jakościowych przy jednoczesnej optymalizacji ograniczeń biznesowych, takich jak personel i koszty. Jeśli nie zostanie to zrobione dobrze, proces tworzenia i etykietowania danych może zająć nawet 4–6 miesięcy.

Dzięki wskazówkom i sugestiom przedstawionym w tym poście możesz zapobiegać utrudnieniom na drodze, skrócić czas realizacji i zminimalizować koszty na drodze do tworzenia wysokiej jakości danych.


O autorach

Twórz wysokiej jakości dane dla modeli ML za pomocą Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Jasleen Grewal jest naukowcem stosowanym w Amazon Web Services, gdzie współpracuje z klientami AWS, aby rozwiązywać rzeczywiste problemy za pomocą uczenia maszynowego, ze szczególnym uwzględnieniem medycyny precyzyjnej i genomiki. Ma duże doświadczenie w bioinformatyce, onkologii i genomice klinicznej. Jej pasją jest wykorzystywanie AI/ML i usług w chmurze do poprawy opieki nad pacjentem.

Twórz wysokiej jakości dane dla modeli ML za pomocą Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Borys Aronczik jest menedżerem w laboratorium Amazon AI Machine Learning Solutions, gdzie kieruje zespołem naukowców i inżynierów ML, którzy pomagają klientom AWS realizować cele biznesowe z wykorzystaniem rozwiązań AI/ML.

Twórz wysokiej jakości dane dla modeli ML za pomocą Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Miguela Romero Calvo jest naukowcem stosowanym w Laboratorium rozwiązań Amazon ML gdzie współpracuje z wewnętrznymi zespołami AWS i klientami strategicznymi, aby przyspieszyć ich działalność poprzez wdrożenie ML i chmury.

Twórz wysokiej jakości dane dla modeli ML za pomocą Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Lin Lee Cheonga jest starszym naukowcem i menedżerem w zespole Amazon ML Solutions Lab w Amazon Web Services. Współpracuje ze strategicznymi klientami AWS, badając i stosując sztuczną inteligencję i uczenie maszynowe w celu odkrywania nowych spostrzeżeń i rozwiązywania złożonych problemów.

Znak czasu:

Więcej z Uczenie maszynowe AWS