Zwiększanie produktywności programistów: jak Deloitte wykorzystuje Amazon SageMaker Canvas do uczenia maszynowego bez kodu lub z małą ilością kodu

Opublikowane ponownie przez Plato

Obserwuje: 0

Możliwość szybkiego tworzenia i wdrażania modeli uczenia maszynowego (ML) staje się coraz ważniejsza w dzisiejszym świecie opartym na danych. Jednak budowanie modeli uczenia maszynowego wymaga znacznego czasu, wysiłku i specjalistycznej wiedzy. Od gromadzenia i czyszczenia danych po inżynierię funkcji, budowanie modeli, dostrajanie i wdrażanie – ukończenie projektów ML często zajmuje programistom miesiące. A doświadczonych analityków danych może być trudno znaleźć.

W tym miejscu niezbędnym narzędziem staje się pakiet AWS obejmujący usługi uczenia maszynowego z małą ilością kodu i bez kodu. Za pomocą zaledwie kilku kliknięć Płótno Amazon SageMaker, możesz skorzystać z możliwości uczenia maszynowego bez konieczności pisania żadnego kodu.

Jako strategiczny integrator systemów z głębokim doświadczeniem w zakresie uczenia maszynowego, Deloitte wykorzystuje narzędzia uczenia maszynowego bez kodu i o niskim kodzie oferowane przez AWS, aby efektywnie budować i wdrażać modele uczenia maszynowego dla klientów Deloitte i zasobów wewnętrznych. Narzędzia te pozwalają Deloitte opracowywać rozwiązania ML bez konieczności ręcznego kodowania modeli i potoków. Może to pomóc przyspieszyć terminy realizacji projektów i umożliwić Deloitte przejęcie większej liczby prac dla klientów.

Oto kilka konkretnych powodów, dla których Deloitte korzysta z tych narzędzi:

Dostępność dla nieprogramistów – Narzędzia niewymagające kodu umożliwiają budowanie modelu ML osobom niebędącym programistami. Członkowie zespołu posiadający jedynie wiedzę dziedzinową i bardzo niewielkie umiejętności kodowania mogą opracowywać modele uczenia maszynowego.
Szybkie przyjęcie nowych technologii – Dostępność i ciągłe udoskonalanie gotowych do użycia modeli i AutoML pomaga zapewnić, że użytkownicy stale korzystają z technologii wiodącej klasy.
Opłacalny rozwój – Narzędzia niewymagające kodu pomagają obniżyć koszty i czas potrzebny na rozwój modelu ML, czyniąc go bardziej dostępnym dla klientów, co może pomóc im osiągnąć wyższy zwrot z inwestycji.

Ponadto narzędzia te zapewniają kompleksowe rozwiązanie przyspieszające przepływ pracy, umożliwiając:

Szybsze przygotowanie danych – SageMaker Canvas posiada ponad 300 wbudowanych transformacji i możliwość wykorzystania języka naturalnego, co może przyspieszyć przygotowanie danych i przygotowanie danych do budowy modelu.
Szybsze budowanie modelu – SageMaker Canvas oferuje gotowe modele lub Amazon AutoML technologia, która umożliwia budowanie niestandardowych modeli na danych przedsiębiorstwa za pomocą zaledwie kilku kliknięć. Pomaga to przyspieszyć proces w porównaniu do modeli kodowania od podstaw.
Łatwiejsze wdrożenie – SageMaker Canvas oferuje możliwość wdrażania gotowych do produkcji modeli w formacie Amazon Sagmaker endpoint za pomocą kilku kliknięć, jednocześnie go rejestrując Rejestr modelu Amazon SageMaker.

Wiświeśwara Waza, CTO Cloud w Deloitte, mówi:

„Dzięki usługom uczenia maszynowego bez kodu AWS, takim jak SageMaker Canvas i SageMaker Data Wrangler, w Deloitte Consulting odblokowaliśmy nową wydajność, zwiększając szybkość programowania i produktywność wdrożeń o 30–40% w naszych projektach skierowanych do klientów i projektów wewnętrznych.”

W tym poście demonstrujemy możliwości budowania kompleksowego modelu uczenia maszynowego bez kodu przy użyciu SageMaker Canvas, pokazując, jak zbudować model klasyfikacyjny do przewidywania, czy klient nie spłaci pożyczki. Dzięki dokładniejszemu przewidywaniu niespłacalności kredytów model może pomóc firmie świadczącej usługi finansowe zarządzać ryzykiem, odpowiednio wyceniać kredyty, usprawniać działalność operacyjną, świadczyć dodatkowe usługi i zdobywać przewagę konkurencyjną. Pokazujemy, jak SageMaker Canvas może pomóc w szybkim przejściu od surowych danych do wdrożonego binarnego modelu klasyfikacji w celu przewidywania niespłacalności kredytów.

SageMaker Canvas oferuje kompleksowe możliwości przygotowywania danych obsługiwane przez Pogromca danych Amazon SageMaker w obszarze roboczym SageMaker Canvas. Dzięki temu możesz przejść przez wszystkie fazy standardowego przepływu pracy ML, od przygotowania danych po budowanie i wdrażanie modelu, na jednej platformie.

Przygotowanie danych jest zazwyczaj najbardziej czasochłonną fazą przepływu pracy ML. Aby skrócić czas poświęcany na przygotowanie danych, SageMaker Canvas umożliwia przygotowanie danych przy użyciu ponad 300 wbudowanych transformacji. Alternatywnie, możesz pisać podpowiedzi w języku naturalnym, na przykład „usuń wiersze z kolumny c, które są wartościami odstającymi” i wyświetli fragment kodu niezbędny na tym etapie przygotowywania danych. Następnie możesz dodać to do przepływu pracy związanego z przygotowaniem danych za pomocą kilku kliknięć. W tym poście pokażemy Ci również, jak z tego skorzystać.

Omówienie rozwiązania

Poniższy diagram opisuje architekturę modelu klasyfikacji niespłacanych kredytów przy użyciu narzędzi SageMaker z małą ilością kodu i bez kodu.

Zwiększanie produktywności programistów: jak Deloitte wykorzystuje Amazon SageMaker Canvas do uczenia maszynowego bez kodu/z małą ilością kodu | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zaczynając od zbioru danych zawierającego szczegółowe informacje na temat danych dotyczących spłaty kredytu Usługa Amazon Simple Storage (Amazon S3), używamy SageMaker Canvas, aby uzyskać wgląd w dane. Następnie przeprowadzamy inżynierię funkcji, aby zastosować przekształcenia, takie jak kodowanie cech kategorycznych, usuwanie niepotrzebnych funkcji i nie tylko. Następnie przechowujemy oczyszczone dane z powrotem w Amazon S3. Wyczyszczony zbiór danych wykorzystujemy do stworzenia modelu klasyfikacyjnego do przewidywania niespłacalności kredytów. Następnie mamy gotowy do produkcji model do wnioskowania.

Wymagania wstępne

Upewnij się, że poniższe warunki wstępne są kompletne i czy włączono opcję Płótno Gotowe modele opcja podczas konfigurowania domeny SageMaker. Jeśli masz już skonfigurowaną domenę, edytować ustawienia domeny i idź do Ustawienia płótna włączyć Włącz gotowe do użycia modele Canvas opcja. Dodatkowo skonfiguruj i utwórz aplikację SageMaker Canvas, następnie poproś i włącz Dostęp do modelu antropicznego Claude'a on Amazońska skała macierzysta.

Dataset

Korzystamy z publicznego zbioru danych z kaggle który zawiera informacje o pożyczkach finansowych. Każdy wiersz w zbiorze danych reprezentuje pojedynczą pożyczkę, a kolumny zawierają szczegółowe informacje o każdej transakcji. Pobierz ten zestaw danych i zapisz go w wybranym zasobniku S3. W poniższej tabeli wymieniono pola w zestawie danych.

Nazwa kolumny	DataType	Opis
`Person_age`	Liczba całkowita	Wiek osoby, która zaciągnęła pożyczkę
`Person_income`	Liczba całkowita	Dochód kredytobiorcy
`Person_home_ownership`	sznur	Status własności domu (własny lub wynajmowany)
`Person_emp_length`	Dziesiętny	Liczba lat ich zatrudnienia
`Loan_intent`	sznur	Powód pożyczki (osobisty, medyczny, edukacyjny itd.)
`Loan_grade`	sznur	Ocena kredytu (A–E)
`Loan_int_rate`	Dziesiętny	Oprocentowanie
`Loan_amnt`	Liczba całkowita	Całkowita kwota pożyczki
`Loan_status`	Liczba całkowita	Cel (niezależnie od tego, czy nie wywiązał się ze zobowiązania, czy nie)
`Loan_percent_income`	Dziesiętny	Kwota pożyczki w stosunku do procentu dochodów
`Cb_person_default_on_file`	Liczba całkowita	Poprzednie ustawienia domyślne (jeśli istnieją)
`Cb_person_credit_history_length`	sznur	Długość historii kredytowej

Uprość przygotowywanie danych dzięki SageMaker Canvas

Przygotowanie danych może zająć do 80% wysiłku w projektach ML. Właściwe przygotowanie danych prowadzi do lepszej wydajności modelu i dokładniejszych przewidywań. SageMaker Canvas umożliwia interaktywną eksplorację, transformację i przygotowanie danych bez konieczności pisania kodu SQL lub Python.

Wykonaj następujące kroki, aby przygotować dane:

W konsoli SageMaker Canvas wybierz Przygotowywanie danych w okienku nawigacji.
Na Stwórz menu, wybierz dokument.
W razie zamówieenia projektu Nazwa zestawu danychwprowadź nazwę zbioru danych.
Dodaj Stwórz.
Wybierz Amazon S3 jako źródło danych i podłącz je do zbioru danych.
Po załadowaniu zestawu danych utwórz przepływ danych przy użyciu tego zestawu danych.
Przejdź do zakładki analizy i utwórz plik Raport dotyczący jakości danych i statystyk.

Jest to zalecany krok w celu analizy jakości wejściowego zbioru danych. Wyniki tego raportu umożliwiają natychmiastowe uzyskanie szczegółowych informacji opartych na technologii ML, takich jak zniekształcenia danych, duplikaty danych, brakujące wartości i wiele innych. Poniższy zrzut ekranu przedstawia przykład wygenerowanego raportu dla zbioru danych pożyczki.

Generując te spostrzeżenia w Twoim imieniu, SageMaker Canvas udostępnia zestaw problemów w danych, które wymagają naprawy w fazie przygotowania danych. Aby wybrać dwa najważniejsze problemy zidentyfikowane przez SageMaker Canvas, musisz zakodować funkcje kategoryczne i usunąć zduplikowane wiersze, aby jakość modelu była wysoka. Możesz wykonać obie te czynności i wiele więcej w ramach wizualnego przepływu pracy za pomocą SageMaker Canvas.

Najpierw jednokrotne kodowanie pliku loan_intent, loan_grade, person_home_ownership
Możesz rzucić cb_person_cred_history_length kolumnie, ponieważ ma ona najmniejszą moc przewidywania, jak pokazano w raporcie dotyczącym jakości i statystyk danych.

SageMaker Canvas dodał ostatnio plik Czatuj z danymi opcja. Ta funkcja wykorzystuje możliwości modeli podstawowych do interpretacji zapytań w języku naturalnym i generowania kodu w języku Python w celu zastosowania transformacji inżynierii funkcji. Ta funkcja jest obsługiwana przez Amazon Bedrock i można ją skonfigurować tak, aby działała całkowicie w środowisku VPC, dzięki czemu dane nigdy nie opuszczą Twojego środowiska.
Aby użyć tej funkcji do usunięcia zduplikowanych wierszy, wybierz znak plus obok Upuść kolumnę przekształć, a następnie wybierz Czatuj z danymi.
Wpisz zapytanie w języku naturalnym (na przykład „Usuń zduplikowane wiersze ze zbioru danych”).
Przejrzyj wygenerowaną transformację i wybierz Dodaj do kroków , aby dodać transformację do przepływu.
Na koniec wyeksportuj wynik tych transformacji do Amazon S3 lub opcjonalnie Sklep funkcji Amazon SageMaker aby korzystać z tych funkcji w wielu projektach.

Możesz także dodać kolejny krok, aby utworzyć miejsce docelowe Amazon S3 dla zbioru danych, aby skalować przepływ pracy dla dużego zbioru danych. Poniższy diagram przedstawia przepływ danych SageMaker Canvas po dodaniu transformacji wizualnych.

Zakończyłeś cały etap przetwarzania danych i inżynierii funkcji, korzystając z wizualnych procesów roboczych w SageMaker Canvas. Pomaga to skrócić czas, jaki inżynier danych spędza na czyszczeniu i przygotowywaniu danych do opracowania modelu, z tygodni do dni. Następnym krokiem jest zbudowanie modelu ML.

Zbuduj model za pomocą SageMaker Canvas

Amazon SageMaker Canvas zapewnia kompleksowy przepływ pracy bez kodu, umożliwiający budowanie, analizowanie, testowanie i wdrażanie tego binarnego modelu klasyfikacji. Wykonaj następujące kroki:

Utwórz zbiór danych w SageMaker Canvas.
Określ lokalizację S3 użytą do wyeksportowania danych lub lokalizację S3 znajdującą się w miejscu docelowym zadania SageMaker Canvas.

Teraz jesteś gotowy do zbudowania modelu.
Dodaj modele w okienku nawigacji i wybierz Nowy model.
Nazwij model i wybierz Analiza predykcyjna jako typ modelu.
Wybierz zbiór danych utworzony w poprzednim kroku.

Kolejnym krokiem jest skonfigurowanie typu modelu.
Wybierz kolumnę docelową, a typ modelu zostanie automatycznie ustawiony jako 2 prognozy kategorii.
Wybierz typ kompilacji, Wersja standardowa or Szybka budowa.

SageMaker Canvas wyświetla oczekiwany czas kompilacji zaraz po rozpoczęciu budowania modelu. Kompilacja standardowa trwa zwykle od 2 do 4 godzin; w przypadku mniejszych zestawów danych możesz skorzystać z opcji Szybka kompilacja, która zajmuje tylko 2–15 minut. W przypadku tego konkretnego zestawu danych utworzenie modelu powinno zająć około 45 minut. SageMaker Canvas informuje Cię o postępie procesu kompilacji.
Po zbudowaniu modelu można sprawdzić jego wydajność.

SageMaker Canvas zapewnia różne wskaźniki, takie jak dokładność, precyzja i wynik F1, w zależności od typu modelu. Poniższy zrzut ekranu przedstawia dokładność i kilka innych zaawansowanych metryk dla tego binarnego modelu klasyfikacji.
Następnym krokiem jest dokonanie prognoz testowych.
SageMaker Canvas umożliwia tworzenie prognoz zbiorczych na wielu danych wejściowych lub pojedynczej prognozy w celu szybkiej weryfikacji jakości modelu. Poniższy zrzut ekranu przedstawia przykładowe wnioskowanie.
Ostatnim krokiem jest wdrożenie przeszkolonego modelu.
SageMaker Canvas wdraża model na punktach końcowych SageMaker i masz teraz model produkcyjny gotowy do wnioskowania. Poniższy zrzut ekranu przedstawia wdrożony punkt końcowy.

Po wdrożeniu modelu możesz go wywołać za pośrednictwem zestawu SDK AWS lub Interfejs wiersza poleceń AWS (AWS CLI) lub wykonuj wywołania API do dowolnej wybranej aplikacji, aby z pewnością przewidzieć ryzyko potencjalnego pożyczkobiorcy. Aby uzyskać więcej informacji na temat testowania modelu, zobacz Wywołuj punkty końcowe w czasie rzeczywistym.

Sprzątać

Aby uniknąć ponoszenia dodatkowych opłat, wyloguj się z SageMaker Canvas or usuń domenę SageMaker który powstał. Dodatkowo, usuń punkt końcowy modelu SageMaker i usuń zbiór danych przesłany do Amazon S3.

Wnioski

ML bez kodu przyspiesza rozwój, upraszcza wdrażanie, nie wymaga umiejętności programowania, zwiększa standaryzację i zmniejsza koszty. Te korzyści sprawiły, że ML bez kodu stało się atrakcyjne dla Deloitte w celu ulepszenia oferty usług ML i skróciły czas tworzenia modeli ML o 30–40%.

Deloitte to strategiczny globalny integrator systemów, zatrudniający ponad 17,000 XNUMX certyfikowanych specjalistów AWS na całym świecie. Wciąż podnosi poprzeczkę poprzez udział w Programie Kompetencyjnym AWS 25 kompetencji, w tym Machine Learning. Połącz się z Deloitte aby rozpocząć korzystanie z rozwiązań AWS no-code i low-code w swoim przedsiębiorstwie.

O autorach

Chida Sadayappan kieruje praktyką Deloitte Cloud AI/Machine Learning. Wnosi do projektów duże doświadczenie w zakresie przemyślanego przywództwa i chętnie wspiera interesariuszy kadry kierowniczej w osiąganiu celów w zakresie poprawy wydajności i modernizacji w różnych branżach korzystających ze sztucznej inteligencji/ML. Chida to seryjny przedsiębiorca z branży technologicznej i zapalony twórca społeczności w ekosystemach startupów i programistów.

Kuldeep Singh, główny globalny lider AI/ML w AWS z ponad 20-letnim doświadczeniem w technologii, umiejętnie łączy swoją wiedzę specjalistyczną w zakresie sprzedaży i przedsiębiorczości z głębokim zrozumieniem sztucznej inteligencji, uczenia maszynowego i cyberbezpieczeństwa. Specjalizuje się w tworzeniu strategicznych globalnych partnerstw, opracowywaniu rozwiązań i strategii transformacyjnych w różnych branżach, ze szczególnym uwzględnieniem generatywnej sztucznej inteligencji i GSI.

Kasi Muthu jest starszym architektem rozwiązań partnerskich skupiającym się na danych i sztucznej inteligencji/ML w AWS z siedzibą w Houston w Teksasie. Jego pasją jest pomaganie partnerom i klientom w przyspieszaniu ich podróży związanej z danymi w chmurze. Jest zaufanym doradcą w tej dziedzinie i ma duże doświadczenie w projektowaniu i budowaniu skalowalnych, odpornych i wydajnych obciążeń w chmurze. Poza pracą lubi spędzać czas z rodziną.