Jak Kustomer wykorzystuje niestandardowe obrazy Dockera i Amazon SageMaker do tworzenia potoku klasyfikacji tekstu

Opublikowane ponownie przez Plato

Obserwuje: 0

To jest post gościnny autorstwa starszego inżyniera ds. oprogramowania i uczenia maszynowego firmy Kustomer, Iana Lantzy’ego oraz zespołu AWS Umesha Kalaspurkara, Prasada Shetty’ego i Jonathana Greifenbergera.

Według własnych słów Kustomera: „Kustomer to wielokanałowa platforma SaaS CRM, która na nowo definiuje obsługę klienta korporacyjnego w celu zapewnienia wyjątkowych doświadczeń. Zbudowane w oparciu o inteligentną automatyzację, skalujemy się, aby sprostać potrzebom każdego contact center i firmy, ujednolicając dane z wielu źródeł i umożliwiając firmom świadczenie bez wysiłku, spójnych i spersonalizowanych usług i wsparcia za pośrednictwem jednego widoku osi czasu.

Firma Kustomer chciała mieć możliwość szybkiego analizowania dużych ilości komunikatów dotyczących wsparcia dla swoich klientów biznesowych — organizacji zajmujących się obsługą klienta i usługami — oraz automatyzacji odkrywania informacji, takich jak zamiary klienta końcowego, problem z obsługą klienta i inne istotne informacje dotyczące konsumenta. Zrozumienie tych cech może pomóc organizacjom CX zarządzać tysiącami przychodzących e-maili z pomocą techniczną poprzez automatyczną klasyfikację i kategoryzację treści. Klient wykorzystuje dźwignię finansową Amazon Sage Maker zarządzać analizą przychodzącej komunikacji wsparcia za pośrednictwem sztucznej inteligencji IQ klienta platforma. Usługa klasyfikacji konwersacji Kustomer IQ umożliwia kontekstualizację rozmów i automatyzację nudnych i powtarzalnych zadań, redukując rozproszenie uwagi agenta i całkowity koszt kontaktu. Ta i inne usługi IQ firmy Kustomer zwiększyły produktywność i automatyzację wśród klientów biznesowych.

W tym poście mówimy o tym, jak Kustomer wykorzystuje niestandardowe obrazy Dockera do uczenia i wnioskowania SageMaker, co ułatwia integrację i usprawnia proces. Dzięki takiemu podejściu klienci biznesowi Kustomer automatycznie klasyfikują ponad 50 tys. e-maili dotyczących pomocy technicznej każdego miesiąca z dokładnością do 70%.

Kontekst i wyzwania

Kustomer korzysta z niestandardowego potoku klasyfikacji tekstu w ramach usługi klasyfikacji konwersacji. Pomaga im to zarządzać tysiącami żądań dziennie poprzez automatyczną klasyfikację i kategoryzację z wykorzystaniem orkiestracji szkoleń i wnioskowania SageMaker. Mechanizm szkoleniowy klasyfikacji konwersacji wykorzystuje niestandardowe obrazy platformy Docker do przetwarzania danych i uczenia modeli przy użyciu konwersacji historycznych, a następnie przewiduje tematy, kategorie i inne niestandardowe etykiety potrzebne konkretnemu agentowi w celu klasyfikowania konwersacji. Następnie silnik predykcyjny wykorzystuje wyszkolone modele z innym niestandardowym obrazem okna dokowanego do kategoryzowania rozmów, których organizacje używają do automatyzacji raportowania lub kierowania rozmów do konkretnego zespołu na podstawie jego tematu.

Proces kategoryzacji SageMaker rozpoczyna się od ustalenia potoku uczenia i wnioskowania, który może zapewnić klasyfikację tekstu i rekomendacje kontekstowe. Typowa konfiguracja zostałaby wdrożona przy użyciu rozwiązań bezserwerowych, takich jak AWS Lambda do wstępnego i końcowego przetwarzania danych, ponieważ ma minimalne wymagania dotyczące udostępniania i skuteczny model cenowy na żądanie. Jednak użycie SageMaker z zależnościami takimi jak TensorFlow, NumPy i Pandas może szybko zwiększyć rozmiar pakietu modelu, sprawiając, że ogólny proces wdrażania będzie uciążliwy i trudny w zarządzaniu. Aby pokonać te wyzwania, Kustomer użył niestandardowych obrazów platformy Docker.

Niestandardowe obrazy Dockera zapewniają znaczne korzyści:

Umożliwia tworzenie większych skompresowanych pakietów (ponad 10 GB), które mogą zawierać popularne platformy uczenia maszynowego (ML), takie jak TensorFlow, MXNet, PyTorch i inne.
Umożliwia przeniesienie niestandardowego kodu lub algorytmów opracowanych lokalnie Studio Amazon SageMaker notesy do szybkiej iteracji i szkolenia modeli.
Pozwala uniknąć opóźnień w przetwarzaniu wstępnym spowodowanych w Lambdzie podczas rozpakowywania pakietów wdrożeniowych.
Oferuje elastyczność umożliwiającą bezproblemową integrację z systemami wewnętrznymi.
Przyszła kompatybilność i skalowalność ułatwiają konwersję usługi za pomocą Dockera, zamiast konieczności pakowania plików .zip w funkcji Lambda.
Skraca czas realizacji potoku wdrażania CI/CD.
Zapewnia znajomość Dockera w zespole i łatwość użycia.
Zapewnia dostęp do magazynów danych za pośrednictwem interfejsów API i środowiska wykonawczego zaplecza.
Oferuje lepszą obsługę interwencji w przypadku przetwarzania wstępnego lub końcowego, ponieważ Lambda wymagałaby oddzielnej usługi obliczeniowej dla każdego procesu (takiej jak szkolenie lub wdrożenie).

Omówienie rozwiązania

Kategoryzacja i etykietowanie wiadomości e-mail z pomocą techniczną to kluczowy krok w procesie obsługi klienta. Pozwala firmom kierować rozmowy do właściwych zespołów i na wysokim poziomie zrozumieć, w jakiej sprawie kontaktują się z nimi klienci. Klienci biznesowi Kustomer codziennie prowadzą tysiące rozmów, więc klasyfikacja na dużą skalę jest wyzwaniem. Automatyzacja tego procesu pomaga agentom zwiększyć skuteczność i zapewniać bardziej spójne wsparcie, a także pomaga klientom, szybciej łącząc ich z właściwymi osobami.

Poniższy diagram ilustruje architekturę rozwiązania:

Proces klasyfikacji konwersacji rozpoczyna się od udzielenia przez klienta biznesowego pozwolenia Kustomerowi na skonfigurowanie potoku szkolenia i wnioskowania, który może mu pomóc w klasyfikacji tekstu i rekomendacjach kontekstowych. Kustomer udostępnia swoim klientom interfejs użytkownika w celu monitorowania procesu uczenia i wnioskowania, który jest wdrażany przy użyciu SageMaker wraz z modelami TensorFlow i niestandardowymi obrazami Dockera. Proces budowania i używania klasyfikatora jest podzielony na pięć głównych przepływów pracy, które są koordynowane przez usługę procesu roboczego działającą na Amazon ECS. Aby koordynować zdarzenia potoku i wyzwalać szkolenie i wdrażanie modelu, proces roboczy używa pliku Amazon SQS kolejkę i integruje się bezpośrednio z SageMakerem przy użyciu dostarczonego przez AWS zestawu SDK Node.js. Przepływy pracy to:

Eksport danych
Wstępne przetwarzanie danych
Trening
Rozlokowanie
Wnioskowanie

Eksport danych

Proces eksportu danych jest uruchamiany na żądanie i rozpoczyna się od procesu zatwierdzenia przez klienta biznesowego Kustomer w celu potwierdzenia wykorzystania danych e-mailowych do analizy. Dane istotne dla procesu klasyfikacji gromadzone są w początkowej wiadomości e-mail otrzymanej od klienta końcowego. Na przykład wiadomość e-mail dotycząca pomocy technicznej zazwyczaj zawiera pełne, spójne omówienie problemu ze szczegółami na jego temat. W ramach procesu eksportu wiadomości e-mail są zbierane z magazynu danych (MongoDB i Otwarte wyszukiwanie Amazona) i zapisano w Usługa Amazon Simple Storage (Amazonka S3).

Wstępne przetwarzanie danych

Etap wstępnego przetwarzania danych czyści zbiór danych na potrzeby procesów uczenia i wnioskowania, usuwając wszelkie znaczniki HTML z wiadomości e-mail klientów i poddając je wielu etapom czyszczenia i oczyszczania w celu wykrycia wszelkich zniekształconych kodów HTML. Proces ten obejmuje użycie Tokenizatory i transformatory Hugging Face. Po zakończeniu procesu czyszczenia wszelkie dodatkowe tokeny niestandardowe wymagane do szkolenia są dodawane do wyjściowego zestawu danych.

Na etapie wstępnego przetwarzania funkcja Lambda wywołuje niestandardowy obraz platformy Docker. Ten obraz składa się z wąskiej podstawy Pythona 3.8, pliku Klient interfejsu wykonawczego AWS Lambda Pythoni zależności, np numpy i Pandy. Niestandardowy obraz platformy Docker jest przechowywany w Rejestr elastycznego pojemnika Amazon (Amazon ECR), a następnie przesyłane do rurociągu CI/CD w celu wdrożenia. Wdrożona funkcja Lambda próbkuje dane, aby wygenerować trzy różne zbiory danych na klasyfikator:

Trening – Używane w rzeczywistym procesie szkoleniowym
Walidacja – Używane do walidacji podczas procesu szkoleniowego TensorFlow
Testowanie – Używane pod koniec procesu uczenia do porównań modeli metryk

Wygenerowane wyjściowe zestawy danych to pliki marynat Pandas, które są przechowywane w Amazon S3 do wykorzystania na etapie szkolenia.

Trening

Niestandardowy obraz szkoleniowy Kustomer wykorzystuje okno dokowane zoptymalizowane pod kątem procesora graficznego TensorFlow 2.7 obraz jako baza. Niestandardowy kod, zależności i modele podstawowe są uwzględniane przed przesłaniem niestandardowego obrazu szkoleniowego platformy Docker do ECR. Typy instancji P3 są używane w procesie szkolenia, a użycie obrazu bazowego zoptymalizowanego pod kątem procesora graficznego pomaga uczynić proces szkolenia tak efektywnym, jak to tylko możliwe. Amazon SageMaker jest używany z tym niestandardowym obrazem okna dokowanego do uczenia modeli TensorFlow, które są następnie przechowywane w S3. Niestandardowe metryki są również obliczane i zapisywane, aby pomóc w korzystaniu z dodatkowych możliwości, takich jak porównania modeli i automatyczne ponowne uczenie. Po zakończeniu etapu szkolenia pracownik AI zostaje powiadomiony, a klient biznesowy może rozpocząć proces wdrażania.

Rozlokowanie

Na potrzeby przepływu pracy wdrażania tworzony jest niestandardowy obraz wnioskowania platformy Docker przy użyciu obrazu podstawowego obsługującego TensorFlow (stworzonego specjalnie do szybkiego wnioskowania). Dołączono dodatkowy kod i zależności, takie jak numPy, Pandas, niestandardowe NL itp., aby zapewnić dodatkową funkcjonalność, taką jak formatowanie i czyszczenie danych wejściowych przed wnioskowaniem. FastAPI jest również częścią obrazu niestandardowego i służy do udostępniania punktów końcowych interfejsu API REST na potrzeby wnioskowania i kontroli stanu. Następnie SageMaker jest konfigurowany do wdrażania modeli TensorFlow zapisanych w S3 wraz z obrazem wnioskowania w instancjach AWS zoptymalizowanych pod kątem obliczeń ml.c5 w celu wygenerowania punktów końcowych wnioskowania o wysokiej wydajności. Każdy punkt końcowy jest tworzony do użytku przez pojedynczego klienta w celu izolowania jego modeli i danych.

Wnioskowanie

Po zakończeniu przepływu pracy wdrażania następuje przepływ pracy wnioskowania. Wszystkie pierwsze przychodzące wiadomości e-mail dotyczące pomocy technicznej są przekazywane przez interfejs API wnioskowania dla wdrożonych klasyfikatorów specyficznych dla tego klienta. Wdrożone klasyfikatory następnie dokonują klasyfikacji tekstu w każdej z tych wiadomości e-mail, a każda z nich generuje etykiety klasyfikacyjne dla klienta.

Możliwe ulepszenia i dostosowania

Kustomer rozważa rozszerzenie rozwiązania o następujące ulepszenia:

Dodatki DLC do przytulania twarzy – Kustomer korzysta obecnie z podstawowych obrazów Dockera TensorFlow na etapie wstępnego przetwarzania danych i planuje migrację do Kontenery do głębokiego uczenia się twarzy (DLC). Dzięki temu możesz natychmiast rozpocząć trenowanie modeli, pomijając skomplikowany proces tworzenia i optymalizowania środowisk szkoleniowych od zera. Aby uzyskać więcej informacji, zobacz Przytulanie twarzy na Amazon SageMaker.
Sprzężenie zwrotne – Można wdrożyć pętlę sprzężenia zwrotnego, stosując techniki aktywnego uczenia się lub uczenia się przez wzmacnianie, aby zwiększyć ogólną efektywność modelu.
Integracja z innymi systemami wewnętrznymi – Kustomer chce mieć możliwość integracji klasyfikacji tekstu z innymi systemami, takimi jak Inteligentne sugestie, czyli kolejna usługa Kustomer IQ, która przegląda setki skrótów i sugeruje skróty, które są najbardziej odpowiednie dla zapytania klienta, poprawiając czas reakcji i wydajność agentów.

Wnioski

W tym poście omówiliśmy, jak Kustomer wykorzystuje niestandardowe obrazy Dockera do uczenia i wnioskowania SageMaker, co ułatwia integrację i usprawnia proces. Pokazaliśmy, jak Kustomer wykorzystuje Lambda i SageMaker w niestandardowych obrazach Dockera, które pomagają wdrożyć proces klasyfikacji tekstu z przepływami pracy przetwarzania wstępnego i końcowego. Zapewnia to elastyczność w używaniu większych obrazów do tworzenia modelu, uczenia i wnioskowania. Obsługa obrazów kontenerów dla Lambda umożliwia jeszcze większe dostosowanie funkcji, otwierając wiele nowych przypadków użycia bezserwerowego uczenia maszynowego. Rozwiązanie wykorzystuje kilka usług AWS, w tym SageMaker, Lambda, obrazy Docker, Amazon ECR, Amazon ECS, Amazon SQS i Amazon S3.

Jeśli chcesz dowiedzieć się więcej o Kustomerze, zachęcamy do odwiedzenia strony stronie internetowej Klienta i eksplorować ich studium przypadku.

Kliknij tutaj aby rozpocząć swoją podróż z Amazon SageMaker. Aby uzyskać praktyczne doświadczenie, możesz odwołać się do Amazon SageMaker warsztaty.

O autorach

Umesh Kalaspurkar jest architektem rozwiązań z siedzibą w Nowym Jorku dla AWS. Wnosi ponad 20-letnie doświadczenie w projektowaniu i realizacji projektów w zakresie innowacji cyfrowych i transformacji w przedsiębiorstwach i start-upach. Jego motywacją jest pomaganie klientom w identyfikowaniu i pokonywaniu wyzwań. Poza pracą Umesh lubi być ojcem, jeździć na nartach i podróżować.

Iana Lantzy'ego jest starszym inżynierem ds. oprogramowania i uczenia maszynowego w firmie Kustomer i specjalizuje się w podejmowaniu zadań badawczych związanych z uczeniem maszynowym i przekształcaniu ich w usługi produkcyjne.

Prasad Shetty jest architektem rozwiązań z siedzibą w Bostonie dla AWS. Tworzył oprogramowanie i od ponad 20 lat kieruje modernizacją i innowacjami cyfrowymi w zakresie produktów i usług w przedsiębiorstwach. Pasjonuje się opracowywaniem strategii i wdrażaniem rozwiązań chmurowych oraz wykorzystywaniem technologii do tworzenia doskonałych doświadczeń klientów. W wolnym czasie Prasad lubi jeździć na rowerze i podróżować.

Jonathana Greifenbergera jest starszym menedżerem klienta z siedzibą w Nowym Jorku w AWS z 25-letnim doświadczeniem w branży IT. Jonathan kieruje zespołem, który pomaga klientom z różnych branż i branż w procesie wdrażania i modernizacji chmury.

Znak czasu: 23 lutego 2022 r.

Znak czasu: Kwiecień 18, 2023

Jak Kustomer wykorzystuje niestandardowe obrazy Dockera i Amazon SageMaker do budowy potoku klasyfikacji tekstu

Opublikowane ponownie przez Plato

Kontekst i wyzwania

Omówienie rozwiązania

Eksport danych

Wstępne przetwarzanie danych

Trening

Rozlokowanie

Wnioskowanie

Możliwe ulepszenia i dostosowania

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Zoptymalizuj hiperparametry za pomocą automatycznego dostrajania modelu Amazon SageMaker

Uruchom automatyczne dostrajanie modeli za pomocą Amazon SageMaker JumpStart

Tłumacz dokumenty w wielu językach źródłowych na wiele języków docelowych za pomocą usługi Amazon Translate

Dowiedz się, jak Amazon SageMaker Clarify pomaga wykrywać stronniczość

Nowe funkcje dla Amazon SageMaker Pipelines i Amazon SageMaker SDK

Amazon Rekognition wprowadza strumieniowe wydarzenia wideo, aby zapewnić alerty w czasie rzeczywistym w strumieniach wideo na żywo

Wzorce projektowe do szeregowego wnioskowania w Amazon SageMaker

Ogłaszamy zaktualizowane złącze Microsoft OneDrive (V2) dla Amazon Kendra

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto