Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart

Amazon SageMaker JumpStart udostępnia przeszkolone modele typu open source dla szerokiego zakresu typów problemów, które ułatwiają rozpoczęcie pracy z uczeniem maszynowym (ML). JumpStart zapewnia również szablony rozwiązań, które konfigurują infrastrukturę dla typowych przypadków użycia oraz wykonywalne przykładowe notatniki dla ML z Amazon Sage Maker.

Jako użytkownik biznesowy możesz wykonywać następujące czynności dzięki rozwiązaniom JumpStart:

  • Poznaj rozwiązania i oceń, które dobrze pasują do Twoich potrzeb biznesowych.
  • Uruchamiaj rozwiązania jednym kliknięciem Studio Amazon SageMaker. To uruchamia Tworzenie chmury AWS szablon do tworzenia wymaganych zasobów.
  • Zmodyfikuj rozwiązanie tak, aby spełniało Twoje potrzeby, korzystając z dostępu do bazowego notesu i zasobów modeli.
  • Po zakończeniu usuń zdobyte zasoby.

Ten post koncentruje się na pięciu rozwiązaniach ML, które zostały niedawno dodane, aby sprostać pięciu różnym wyzwaniom biznesowym. W chwili pisania tego tekstu JumpStart oferuje 23 rozwiązania biznesowe, od wykrywania oszustw w transakcjach finansowych po rozpoznawanie pisma ręcznego. Liczba rozwiązań oferowanych przez JumpStart regularnie rośnie wraz z dodawaniem kolejnych rozwiązań.

Omówienie rozwiązania

Pięć nowych rozwiązań to:

  • Optymalizacja cen – Oferuje konfigurowalne modele ML, które pomagają podejmować optymalne decyzje dotyczące ustalania ceny produktu lub usługi w celu osiągnięcia celu biznesowego, takiego jak maksymalizacja przychodów, zysków lub innych niestandardowych wskaźników.
  • Przewidywanie gatunków ptaków – Pokazuje, jak można trenować i dostrajać model wykrywania obiektów. Pokazuje dostrajanie modelu poprzez powiększanie obrazu szkoleniowego i przedstawia wykresy poprawy dokładności, które występują w iteracjach (epokach) zadania szkoleniowego.
  • Przewidywanie przeżycia raka płuc – Pokazuje, w jaki sposób można wprowadzić funkcje radiomiczne 2D i 3D oraz dane demograficzne pacjenta do algorytmu ML, aby przewidzieć szanse przeżycia raka płuc pacjenta. Wyniki tej prognozy mogą pomóc dostawcom w podjęciu odpowiednich proaktywnych środków.
  • Klasyfikacja płatności finansowych – Pokazuje, jak trenować i wdrażać model ML do klasyfikowania transakcji finansowych na podstawie informacji o transakcjach. Tego rozwiązania można również użyć jako etapu pośredniego w wykrywaniu oszustw, personalizacji lub wykrywaniu anomalii.
  • Przewidywanie rezygnacji dla klientów korzystających z telefonów komórkowych – Pokazuje, jak szybko opracować model prognozowania rezygnacji przy użyciu zestawu danych transakcji połączeń komórkowych. To prosty przykład dla użytkowników, którzy są nowicjuszami w ML.

Wymagania wstępne

Aby korzystać z tych rozwiązań, upewnij się, że masz dostęp do programu Studio z rolą wykonawczą, która umożliwia uruchamianie funkcji SageMaker. W przypadku roli użytkownika w Studio upewnij się, że Projekty SageMaker i JumpStart opcja jest włączona.

W kolejnych sekcjach omówimy każde z pięciu nowych rozwiązań i szczegółowo omówimy, jak to działa, wraz z kilkoma zaleceniami dotyczącymi wykorzystania go do własnych potrzeb biznesowych.

Optymalizacja cen

Firmy lubią używać różnych dźwigni, aby uzyskać najlepsze wyniki. Na przykład cena produktu lub usługi jest dźwignią, którą firma może kontrolować. Pytanie brzmi, jak zdecydować, za jaką cenę ustawić produkt lub usługę, aby zmaksymalizować cel biznesowy, taki jak zysk lub przychód.

To rozwiązanie zapewnia konfigurowalne modele ML, które pomagają podejmować optymalne decyzje dotyczące ustalania ceny produktu lub usługi w celu osiągnięcia celu, takiego jak maksymalizacja przychodów, zysków lub innych niestandardowych wskaźników. Rozwiązanie wykorzystuje metody uczenia maszynowego i wnioskowania przyczynowego do uczenia się relacji cena-wolumen na podstawie danych historycznych i jest w stanie tworzyć dynamiczne rekomendacje cenowe w czasie rzeczywistym w celu optymalizacji niestandardowych wskaźników obiektywnych.

Poniższy zrzut ekranu przedstawia przykładowe dane wejściowe.

Rozwiązanie składa się z trzech części:

  • Estymacja elastyczności cenowej – Szacuje się to na podstawie wnioskowania przyczynowego za pomocą algorytmu podwójnego ML
  • Prognoza wolumenu – Jest to prognozowane za pomocą algorytmu Proroka
  • Optymalizacja cen – Osiąga się to poprzez symulację „co, jeśli” w różnych scenariuszach cenowych

Rozwiązanie zapewnia zalecaną cenę na następny dzień w celu maksymalizacji przychodów. Ponadto wyniki zawierają szacowaną elastyczność cenową, która jest wartością wskazującą na wpływ ceny na wolumen, oraz model prognostyczny, który jest w stanie prognozować wolumen na następny dzień. Poniższy wykres pokazuje, w jaki sposób model przyczynowy, który uwzględnia obliczoną elastyczność cenową, działa znacznie lepiej w ramach analizy warunkowej (z dużymi odchyleniami od ceny zachowania) niż model predykcyjny, który wykorzystuje Prophet do prognozowania wolumenu przy użyciu danych szeregów czasowych.

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Możesz zastosować to rozwiązanie w swojej firmie w następujących przypadkach użycia:

  • Określ optymalną cenę towaru dla sklepu detalicznego
  • Oszacuj wpływ kuponów rabatowych na zakupy klientów
  • Przewiduj wpływ różnych metod motywacyjnych w dowolnym biznesie

Przewidywanie gatunków ptaków

Obecnie istnieje kilka aplikacji komputerowych (CV) dla firm. Jedną z tych aplikacji jest wykrywanie obiektów, gdzie algorytm ML wykrywa lokalizację obiektu na obrazie, rysując wokół niego ramkę ograniczającą i identyfikuje typ obiektu. Nauczenie się, jak zastosować model wykrywania obiektów i dostroić go, może mieć wielką wartość dla organizacji, która potrzebuje CV.

To rozwiązanie stanowi przykład tłumaczenia specyfikacji obwiedni podczas dostarczania obrazów do algorytmu SageMaker. To rozwiązanie pokazuje również, jak ulepszyć model wykrywania obiektów przez dodanie obrazów szkoleniowych, które są odwrócone w poziomie (obrazy lustrzane).

Dostępny jest notatnik do eksperymentowania z wyzwaniami wykrywania obiektów, gdy istnieje duża liczba klas (200 gatunków ptaków). Notatnik pokazuje również, jak sporządzić wykres poprawy dokładności, która pojawia się w różnych epokach zadania szkoleniowego. Poniższy obraz przedstawia przykładowe obrazy z zestawu danych ptaków.

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

To rozwiązanie składa się z pięciu kroków:

  1. Przygotuj dane, w tym pobierz i RecordIO generowanie plików.
  2. Twórz i trenuj model wykrywania obiektów.
  3. Wdróż punkt końcowy i oceń wydajność modelu.
  4. Ponownie utwórz i wytrenuj model wykrywania obiektów za pomocą rozszerzonego zestawu danych.
  5. Wdróż punkt końcowy i oceń wydajność modelu rozszerzonego.

Otrzymasz następujące dane wyjściowe:

  • Wyniki wykrywania obiektów za pomocą łączenia pudełek z obrazem testowym
  • Wyszkolony model wykrywania obiektów
  • Wyszkolony model wykrywania obiektów z dodatkowym rozszerzonym (odwróconym) zestawem danych
  • Dwa oddzielne punkty końcowe wdrożone z jednym z każdego modelu

Poniższy wykres przedstawia ulepszenie modelu względem iteracji modelu (epok) podczas uczenia.

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Poniższe przykłady pochodzą z dwóch obrazów testowych.

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Możesz zastosować to rozwiązanie w swojej firmie w następujących przypadkach użycia:

  • Wykrywaj obiekty na przenośniku taśmowym w przemyśle opakowaniowym
  • Wykryj dodatki do pizzy
  • Wdrażaj aplikacje operacyjne łańcucha dostaw, które obejmują wykrywanie obiektów

Przewidywanie przeżycia raka płuc

COVID-19 zwrócił znacznie większą uwagę na wyzwania medyczne związane z płucami. Wywarła również dużą presję na szpitale, lekarzy, pielęgniarki i radiologów. Wyobraź sobie możliwość zastosowania uczenia maszynowego jako potężnego narzędzia wspomagającego lekarzy i przyspieszającego ich pracę. W tym rozwiązaniu pokazujemy, w jaki sposób cechy radiomiczne 2D i 3D oraz dane demograficzne pacjenta można wprowadzić do algorytmu ML, aby przewidzieć szanse przeżycia raka płuca pacjenta. Wyniki tej prognozy mogą pomóc dostawcom w podjęciu odpowiednich proaktywnych środków.

To rozwiązanie pokazuje, jak zbudować skalowalny potok ML dla zestawu danych radiogenomiki niedrobnokomórkowego raka płuc (NSCLC), który składa się z danych sekwencjonowania RNA, danych klinicznych (odzwierciedlających dane EHR) i obrazów medycznych. Używanie wielu typów danych do tworzenia modelu maszyny jest określane jako multimodalny ML. To rozwiązanie pozwala przewidzieć wynik przeżycia pacjentów, u których zdiagnozowano niedrobnokomórkowego raka płuca.

Poniższy obraz przedstawia przykład danych wejściowych z zestawu danych radiogenomiki niedrobnokomórkowego raka płuc (NSCLC).

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Jako część roztworu, całkowity RNA został wyekstrahowany z tkanki guza i przeanalizowany za pomocą technologii sekwencjonowania RNA. Chociaż oryginalne dane zawierają ponad 22,000 21 genów, przechowujemy 10 genów z XNUMX wysoce koekspresjonowanych klastrów genów (metagenów), które zostały zidentyfikowane, zweryfikowane w publicznie dostępnych kohortach ekspresji genów i skorelowane z prognozą.

Dokumentacja kliniczna jest przechowywana w formacie CSV. Każdy wiersz odpowiada pacjentowi, a kolumny zawierają informacje o pacjentach, w tym dane demograficzne, stadium guza i stan przeżycia.

W przypadku danych genomowych przechowujemy 21 genów z 10 klastrów genów o wysokiej koekspresji (metagenów), które zostały zidentyfikowane, zweryfikowane w publicznie dostępnych kohortach ekspresji genów i skorelowane z prognozą.

W przypadku danych obrazowania medycznego tworzymy funkcje radiomiczne 3D na poziomie pacjenta, które wyjaśniają rozmiar, kształt i wizualne atrybuty guzów obserwowanych na skanach CT. Dla każdego badania pacjenta wykonywane są następujące kroki:

  1. Przeczytaj pliki przekrojów 2D DICOM zarówno dla skanowania CT, jak i segmentacji guza, połącz je z objętościami 3D, zapisz objętości w formacie NIfTI.
  2. Dopasuj objętość CT i segmentację guza, abyśmy mogli skoncentrować obliczenia wewnątrz guza.
  3. Oblicz cechy radiomiczne opisujące region guza za pomocą biblioteki piradiomicznej.
  4. Wyodrębnij 120 cech radiomicznych z ośmiu klas, takich jak statystyczne reprezentacje rozkładu i współwystępowania intensywności w interesującym obszarze guza oraz pomiary oparte na kształcie opisujące morfologicznie guz.

Aby stworzyć wielomodalny widok pacjenta do treningu modelowego, łączymy wektory cech z trzech modalności. Następnie przetwarzamy dane. Najpierw normalizujemy zakres niezależnych funkcji za pomocą skalowania funkcji. Następnie przeprowadzamy analizę głównych składowych (PCA) cech, aby zmniejszyć wymiarowość i zidentyfikować najbardziej dyskryminujące cechy, które przyczyniają się do 95% wariancji danych.

Skutkuje to redukcją wymiarowości z 215 cech do 45 głównych komponentów, które stanowią cechy dla nadzorowanej osoby uczącej się.

Rozwiązanie tworzy model ML, który prognozuje stan przeżycia pacjentów z NSCLC (martwych lub żywych) w formie prawdopodobieństwa. Oprócz modelu i predykcji generujemy również raporty wyjaśniające model. Rurociąg obrazowania medycznego wytwarza objętości 3D CT płuc i segmentację guza do celów wizualizacji.

Możesz zastosować to rozwiązanie do przypadków użycia w opiece zdrowotnej i naukach przyrodniczych.

Klasyfikacja płatności finansowych

Pomocne może być uwzględnienie wszystkich transakcji finansowych firmy lub konsumenta i uporządkowanie ich w różne kategorie. Może pomóc użytkownikowi dowiedzieć się, ile wydali w danej kategorii, a także może wywołać alerty, gdy transakcje lub wydatki w danej kategorii niespodziewanie wzrosną lub zmaleją.

To rozwiązanie pokazuje, jak trenować i wdrażać model ML do klasyfikowania transakcji finansowych na podstawie informacji o transakcjach. Wiele banków świadczy to jako usługę, która umożliwia użytkownikom końcowym przegląd ich nawyków związanych z wydatkami. Tego rozwiązania można również użyć jako etapu pośredniego w wykrywaniu oszustw, personalizacji lub wykrywaniu anomalii. Używamy SageMaker do trenowania i wdrażania modelu XGBoost z wymaganą podstawową infrastrukturą.

Syntetyczny zbiór danych, który mamy zademonstrować to rozwiązanie, ma następujące cechy:

  • kategoria_transakcji – Kategoria transakcji, spośród 19 opcji: Uncategorized, Entertainment, Education, Shopping, Personal Care, Health and Fitness, Food and Dining, Gifts and Donations, Investments, Bills and Utilities, Auto and Transport, Travel, Fees and Charges, Business Services, Personal Services, Taxes, Gambling, Home, Pension and insurances.
  • ID_odbiorcy – Identyfikator strony odbierającej. Identyfikator składa się z 16 cyfr.
  • nadawca_id – Identyfikator strony wysyłającej. Identyfikator składa się z 16 cyfr.
  • ilość – Kwota, która jest przekazywana.
  • znak czasu – Sygnatura czasowa transakcji w formacie RRRR-MM-DD GG:MM:SS.

Pierwsze pięć obserwacji zestawu danych przedstawia się następująco:

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

W tym rozwiązaniu wykorzystujemy XGBoost, popularną i wydajną implementację open-source algorytmu drzew wzmocnionych gradientem. Wzmocnienie gradientu to nadzorowany algorytm uczenia, który próbuje dokładnie przewidzieć zmienną docelową, łącząc zestaw oszacowań z zestawu prostszych i słabszych modeli. Jego implementacja jest dostępna we wbudowanych algorytmach SageMaker.

Rozwiązanie klasyfikacji płatności finansowych składa się z czterech kroków:

  1. Przygotuj dane.
  2. Zbuduj sklep z funkcjami.
  3. Utwórz i wytrenuj model XGBoost.
  4. Wdróż punkt końcowy i oceń wydajność modelu.

Otrzymujemy następujący wynik:

  • Wyszkolony model XGBoost oparty na naszym przykładowym zestawie danych
  • Punkt końcowy SageMaker, który może przewidzieć kategorię transakcji

Po uruchomieniu tego rozwiązania powinien pojawić się raport klasyfikacji podobny do poniższego.

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Możliwe zastosowania dla Twojej firmy obejmują:

  • Różne aplikacje finansowe w bankowości detalicznej i inwestycyjnej
  • Kiedy transakcje muszą być klasyfikowane w dowolnym przypadku użycia (nie tylko finansowego)

Przewidywanie rezygnacji dla klientów korzystających z telefonów komórkowych

Przewidywanie rezygnacji klientów jest bardzo powszechną potrzebą biznesową. Liczne badania pokazują, że koszt utrzymania dotychczasowego klienta jest znacznie niższy niż pozyskanie nowego. Wyzwanie często pochodzi od firm, które mają trudności ze zrozumieniem, dlaczego klient odchodzi, lub budowaniem modelu, który przewiduje odchodzenie.

W tym przykładzie użytkownicy, którzy są nowicjuszami w ML, mogą zobaczyć, jak można szybko opracować model prognozowania rezygnacji przy użyciu zestawu danych transakcji połączeń komórkowych. To rozwiązanie wykorzystuje SageMaker do trenowania i wdrażania modelu XGBoost na zestawie danych profilu klienta, aby przewidzieć, czy klient prawdopodobnie odejdzie z operatora telefonii komórkowej.

Zbiór danych, z którego korzysta to rozwiązanie, jest publicznie dostępny i jest wymieniony w książce Discovering Knowledge in Data autorstwa Daniela T. Larose'a. Autor przypisuje go do repozytorium zbiorów danych uczenia maszynowego Uniwersytetu Kalifornijskiego w Irvine.

Ten zestaw danych używa następujących 21 atrybutów do opisania profilu klienta nieznanego amerykańskiego operatora komórkowego.

  • Stan: stan USA, w którym mieszka klient, oznaczony dwuliterowym skrótem; na przykład OH lub NJ
  • Długość konta: liczba dni, przez które to konto było aktywne
  • Numer kierunkowy: trzycyfrowy numer kierunkowy odpowiedniego numeru telefonu klienta
  • Telefon: pozostały siedmiocyfrowy numer telefonu
  • Plan międzynarodowy: czy klient ma plan taryfowy międzynarodowy: tak/nie
  • Plan VMail: czy klient posiada funkcję poczty głosowej: tak/nie
  • Wiadomość VMail: średnia liczba wiadomości poczty głosowej na miesiąc
  • Minuty dzienne: łączna liczba minut rozmów wykorzystanych w ciągu dnia
  • Połączenia dzienne: łączna liczba połączeń wykonanych w ciągu dnia
  • Opłata dzienna: naliczany koszt połączeń w ciągu dnia
  • Eve Mins, Eve Calls, Eve Charge: naliczony koszt za połączenia wykonane wieczorem
  • Minusy nocne, połączenia nocne, opłata nocna: naliczany koszt połączeń wykonywanych w nocy
  • Intl Mins, Intl Calls, Intl Charge: naliczany koszt za połączenia międzynarodowe
  • Połączenia CustServ: liczba połączeń z Biurem Obsługi Klienta
  • Churn?: czy klient opuścił usługę: prawda/fałsz

To rozwiązanie składa się z trzech etapów:

  1. Przygotuj dane.
  2. Utwórz i wytrenuj model XGBoost.
  3. Wdróż punkt końcowy i oceń wydajność modelu.

Otrzymujemy następujący wynik:

  • Wyszkolony model XGBoost oparty na naszym przykładowym zestawie danych do przewidywania rezygnacji użytkowników
  • Punkt końcowy SageMaker, który może przewidzieć rezygnację użytkowników

Model ten pomaga oszacować, ilu z 5,000 klientów telefonii komórkowej prawdopodobnie przestanie korzystać z dotychczasowego operatora telefonii komórkowej.

Poniższy wykres przedstawia rozkład prawdopodobieństwa odejścia jako dane wyjściowe z modelu.

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Możesz zastosować to do swojej firmy w następujących przypadkach użycia:

  • Przewiduj odpływ klientów we własnym biznesie
  • Określ, którzy klienci mogą otwierać Twój marketingowy e-mail, a którzy nie (klasyfikacja binarna)
  • Przewiduj, którzy uczniowie prawdopodobnie zrezygnują z kursu

Oczyść zasoby

Gdy skończysz uruchamiać rozwiązanie w JumpStart, pamiętaj, aby wybrać Usuń wszystkie zasoby więc wszystkie zasoby, które utworzyłeś w procesie, zostaną usunięte, a rozliczenie zostanie zatrzymane.

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Podsumowanie

Ten post pokazał Ci, jak rozwiązywać różne problemy biznesowe za pomocą ML, opartego na rozwiązaniach JumpStart. Chociaż ten post skupiał się na pięciu nowych rozwiązaniach, które zostały niedawno dodane do JumpStart, dostępnych jest łącznie 23 rozwiązania. Zachęcamy do zalogowania się do Studio i samodzielnego przyjrzenia się rozwiązaniom JumpStart i czerpania z nich natychmiastowej wartości. Aby uzyskać więcej informacji, zobacz Studio Amazon SageMaker i SageMaker Szybki start.

Uwaga: jeśli nie widzisz wszystkich powyższych pięciu rozwiązań w konsoli JumpStart w swoim regionie AWS, poczekaj tydzień i sprawdź ponownie. Wypuszczamy je do różnych regionów w sposób etapowy.


O autorach

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Dr Raju Penmatcha jest specjalistą ds. rozwiązań AI/ML w zakresie platform AI w AWS. Pracuje nad pakietem usług typu low-code/no-code w SageMaker, które pomagają klientom w łatwym tworzeniu i wdrażaniu modeli i rozwiązań uczenia maszynowego. Kiedy nie pomaga klientom, lubi podróżować do nowych miejsc.

Kompleksowo rozwiązuj problemy biznesowe dzięki uczeniu maszynowemu w rozwiązaniach Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Manan Szach jest kierownikiem ds. rozwoju oprogramowania w Amazon Web Services. Jest entuzjastą ML i skupia się na budowaniu produktów AI/ML bez kodu/low-code. Stara się umożliwić innym utalentowanym, technicznym ludziom tworzenie wspaniałego oprogramowania.

Znak czasu:

Więcej z Uczenie maszynowe AWS