How Kustomer Utilizes Custom Docker Images & Amazon SageMaker To Build A Text Classification Pipeline

Ponovno objavil Platon

Spremljevalci: 0

To je gostujoča objava Kustomerjevega višjega inženirja za programsko opremo in strojno učenje, Iana Lantzyja in ekipe AWS Umesha Kalaspurkarja, Prasada Shettyja in Jonathana Greifenbergerja.

Po Kustomerjevih besedah »Kustomer je večkanalna platforma SaaS CRM, ki na novo predstavlja storitve za stranke v podjetjih, da bi zagotovila izjemne izkušnje. Zgrajeni z inteligentno avtomatizacijo, se prilagajamo potrebam katerega koli kontaktnega centra in podjetja tako, da združujemo podatke iz več virov in podjetjem omogočamo zagotavljanje enostavnih, doslednih in prilagojenih storitev in podpore z enim pogledom na časovnico.«

Kustomer je želel možnost hitre analize velikih količin podpornih komunikacij za svoje poslovne stranke – uporabniške izkušnje in storitvene organizacije – ter avtomatizirati odkrivanje informacij, kot so namere končne stranke, težave s storitvami za stranke in drugi pomembni vpogledi, povezani s potrošnikom. Razumevanje teh značilnosti lahko pomaga organizacijam CX upravljati na tisoče dohodnih e-poštnih sporočil podpore s samodejnim razvrščanjem in kategoriziranjem vsebine. Kustomer vzvodi Amazon SageMaker za upravljanje analize dohodne komunikacije podpore prek njihovega AI IQ kupca platforma. Storitev za razvrščanje pogovorov Kustomer IQ je sposobna kontekstualizirati pogovore in avtomatizirati sicer dolgočasna in ponavljajoča se opravila, s čimer zmanjša motnje agentov in skupne stroške na stik. Ta in druge Kustomerjeve storitve IQ so povečale produktivnost in avtomatizacijo za njegove poslovne stranke.

V tej objavi govorimo o tem, kako Kustomer uporablja slike Docker po meri za usposabljanje in sklepanje SageMaker, kar olajša integracijo in poenostavi postopek. S tem pristopom Kustomerjeve poslovne stranke vsak mesec samodejno razvrstijo več kot 50 podpornih e-poštnih sporočil z do 70-odstotno natančnostjo.

Ozadje in izzivi

Kustomer uporablja cevovod za klasifikacijo besedila po meri za svojo storitev klasifikacije pogovorov. To jim pomaga upravljati na tisoče zahtev na dan prek samodejnega razvrščanja in kategorizacije z uporabo SageMakerjevega usposabljanja in orkestracije sklepanja. Mehanizem za usposabljanje za klasifikacijo pogovorov uporablja slike Docker po meri za obdelavo podatkov in usposabljanje modelov z uporabo zgodovinskih pogovorov ter nato predvidi teme, kategorije ali druge oznake po meri, ki jih potrebuje določen agent za razvrščanje pogovorov. Nato mehanizem za napovedovanje uporabi usposobljene modele z drugo sliko priklopne postaje po meri za kategorizacijo pogovorov, ki jih organizacije uporabljajo za avtomatizacijo poročanja ali usmerjanje pogovorov k določeni ekipi glede na njeno temo.

Postopek kategorizacije SageMaker se začne z vzpostavitvijo cevovoda za usposabljanje in sklepanje, ki lahko zagotovi klasifikacijo besedila in kontekstualna priporočila. Tipična nastavitev bi bila izvedena s pristopi brez strežnika, kot je AWS Lambda za predhodno in naknadno obdelavo podatkov, ker ima minimalno zahtevo glede zagotavljanja z učinkovitim cenovnim modelom na zahtevo. Vendar pa lahko uporaba SageMakerja z odvisnostmi, kot so TensorFlow, NumPy in Pandas, hitro poveča velikost paketa modela, zaradi česar je celoten postopek uvajanja okoren in ga je težko upravljati. Kustomer je za premagovanje teh izzivov uporabil slike Docker po meri.

Dockerjeve slike po meri zagotavljajo znatne prednosti:

Omogoča večje velikosti stisnjenih paketov (več kot 10 GB), ki lahko vsebujejo priljubljena ogrodja strojnega učenja (ML), kot so TensorFlow, MXNet, PyTorch ali drugi.
Omogoča vam, da prenesete kodo po meri ali algoritme, razvite lokalno Amazon SageMaker Studio zvezki za hitro ponavljanje in modeliranje.
Izogiba se zamudam pri predhodni obdelavi, ki jih povzroči Lambda med razpakiranjem paketov za uvajanje.
Ponuja prilagodljivost za brezhibno integracijo z notranjimi sistemi.
Prihodnja združljivost in razširljivost olajšata pretvorbo storitve z uporabo Dockerja, namesto da bi morali pakirati datoteke .zip v funkcijo Lambda.
Skrajša čas obtoka za cevovod za uvajanje CI/CD.
Zagotavlja poznavanje Dockerja znotraj ekipe in enostavnost uporabe.
Omogoča dostop do shramb podatkov prek API-jev in zalednega izvajalnega okolja.
Ponuja boljšo podporo za posredovanje pri kakršni koli predprocesiranju ali naknadni obdelavi, pri kateri bi Lambda zahtevala ločeno računalniško storitev za vsak proces (kot je usposabljanje ali uvajanje).

Pregled rešitev

Kategorizacija in označevanje e-poštnih sporočil podpore je ključni korak v procesu podpore strankam. Podjetjem omogoča, da pogovore usmerijo k pravim ekipam in na visoki ravni razumejo, o čem njihove stranke kontaktirajo z njimi. Kustomerjeve poslovne stranke vsak dan opravijo na tisoče pogovorov, zato je razvrščanje na lestvici izziv. Avtomatizacija tega procesa pomaga agentom, da so učinkovitejši in zagotavljajo bolj povezano podporo, svojim strankam pa pomaga tako, da jih hitreje poveže s pravimi ljudmi.

Naslednji diagram ponazarja arhitekturo rešitve:

Postopek klasifikacije pogovorov se začne tako, da poslovna stranka Kustomerju dovoli vzpostavitev cevovoda za usposabljanje in sklepanje, ki ji lahko pomaga pri klasifikaciji besedila in kontekstualnih priporočilih. Kustomer svojim strankam razkrije uporabniški vmesnik za spremljanje procesa usposabljanja in sklepanja, ki se izvaja z uporabo SageMakerja skupaj z modeli TensorFlow in slikami Docker po meri. Postopek izdelave in uporabe klasifikatorja je razdeljen na pet glavnih delovnih tokov, ki jih usklajuje delavska storitev, ki se izvaja na Amazon ECS. Za usklajevanje dogodkov v cevovodu ter sprožitev usposabljanja in uvajanja modela delavec uporablja an Amazon SQS čakalno vrsto in se neposredno integrira s SageMakerjem z uporabo SDK-ja Node.js, ki ga zagotavlja AWS. Delovni tokovi so:

Izvoz podatkov
Predobdelava podatkov
usposabljanje
Deployment
Sklepanje

Izvoz podatkov

Postopek izvoza podatkov poteka na zahtevo in se začne s postopkom odobritve Kustomerjeve poslovne stranke za potrditev uporabe e-poštnih podatkov za analizo. Podatki, pomembni za postopek razvrščanja, so zajeti prek začetnega e-poštnega sporočila, prejetega od končnega kupca. Na primer, e-poštno sporočilo podpore običajno vsebuje popolno koherentno misel o težavi s podrobnostmi o težavi. Kot del postopka izvoza se e-poštna sporočila zberejo iz podatkovne shrambe (MongoDB in Amazon OpenSearch) in shranjeno v Preprosta storitev shranjevanja Amazon (Amazon S3).

Predobdelava podatkov

Stopnja predhodne obdelave podatkov očisti nabor podatkov za usposabljanje in poteke dela sklepanja, tako da odstrani morebitne oznake HTML iz e-poštnih sporočil strank in jih poda v več korakov čiščenja in razkuževanja, da se odkrije morebitni napačno oblikovan HTML. Ta postopek vključuje uporabo Tokenizatorji in transformatorji Hugging Face. Ko je postopek čiščenja končan, se izhodnemu naboru podatkov dodajo vsi dodatni žetoni po meri, potrebni za usposabljanje.

Med fazo predprocesiranja funkcija Lambda prikliče sliko Docker po meri. Ta slika je sestavljena iz Python 3.8 slim base, the AWS Lambda Python Runtime Interface Client, in odvisnosti, kot je npr numpy in pand. Dockerjeva slika po meri je shranjena na Registar elastičnih zabojnikov Amazon (Amazon ECR) in nato napajan skozi cevovod CI/CD za uvajanje. Razporejena funkcija Lambda vzorči podatke za ustvarjanje treh različnih naborov podatkov na klasifikator:

usposabljanje – Uporablja se za dejanski proces usposabljanja
Potrditev – Uporablja se za validacijo med procesom usposabljanja TensorFlow
Test – Uporablja se proti koncu procesa usposabljanja za primerjave metričnih modelov

Ustvarjeni izhodni nabori podatkov so datoteke Pandas pickle, ki so shranjene v Amazon S3 za uporabo na stopnji usposabljanja.

usposabljanje

Kustomerjeva slika za usposabljanje po meri uporablja priklopno postajo TensorFlow 2.7, optimizirano za GPE slika kot osnova. Koda po meri, odvisnosti in osnovni modeli so vključeni, preden je slika za usposabljanje dockerja po meri naložena v ECR. Tipi instanc P3 se uporabljajo za proces usposabljanja in uporaba osnovne slike, optimizirane za GPE, pomaga narediti proces usposabljanja čim bolj učinkovit. Amazon SageMaker se uporablja s to sliko dockerja po meri za usposabljanje modelov TensorFlow, ki se nato shranijo v S3. Izračunane in shranjene so tudi meritve po meri za pomoč pri dodatnih zmožnostih, kot so primerjave modelov in samodejno ponovno usposabljanje. Ko je stopnja usposabljanja končana, je delavec z umetno inteligenco obveščen in poslovna stranka lahko začne potek dela uvajanja.

Deployment

Za delovni tok uvajanja se slika sklepanja dockerja po meri ustvari z uporabo osnovne slike strežnika TensorFlow (izdelane posebej za hitro sklepanje). Dodatna koda in odvisnosti, kot so numPy, Pandas, NL po meri itd., so vključene za zagotavljanje dodatnih funkcij, kot je oblikovanje in čiščenje vnosov pred sklepanjem. FastAPI je vključen tudi kot del slike po meri in se uporablja za zagotavljanje končnih točk API-ja REST za sklepanje in preverjanje stanja. SageMaker je nato konfiguriran za uvajanje modelov TensorFlow, shranjenih v S3, z inferencialno sliko na primerke ml.c5 AWS, optimizirane za izračun, za generiranje visoko zmogljivih končnih točk sklepanja. Vsaka končna točka je ustvarjena za uporabo s strani ene same stranke za izolacijo svojih modelov in podatkov.

Sklepanje

Ko je potek dela razmestitve končan, prevzame potek dela sklepanja. Vsa prva dohodna e-poštna sporočila podpore so posredovana prek API-ja sklepanja za razporejene klasifikatorje, specifične za to stranko. Razporejeni klasifikatorji nato izvedejo klasifikacijo besedila za vsako od teh e-poštnih sporočil, pri čemer vsak ustvari oznake klasifikacije za stranko.

Možne izboljšave in prilagoditve

Kustomer razmišlja o razširitvi rešitve z naslednjimi izboljšavami:

DLC-ji Hugging Face – Kustomer trenutno uporablja TensorFlowove osnovne slike Docker za stopnjo predprocesiranja podatkov in načrtuje prehod na Hugging Face Deep Learning Containers (DLC). To vam pomaga takoj začeti modele usposabljanja, s čimer preskočite zapleten proces gradnje in optimizacije okolja za usposabljanje od začetka. Za več informacij glejte Hugging Face na Amazon SageMaker.
Povratna zanka – Povratno zanko lahko implementirate z uporabo tehnik aktivnega učenja ali učenja z okrepitvijo, da povečate splošno učinkovitost modela.
Integracija z drugimi internimi sistemi – Kustomer želi možnost integracije besedilne klasifikacije z drugimi sistemi, kot je Smart Suggestions, ki je še ena storitev Kustomer IQ, ki pregleduje na stotine bližnjic in predlaga bližnjice, ki so najbolj pomembne za poizvedbo stranke, s čimer izboljša odzivni čas agenta in učinkovitost.

zaključek

V tej objavi smo razpravljali o tem, kako Kustomer uporablja slike Docker po meri za usposabljanje in sklepanje SageMaker, kar olajša integracijo in poenostavi postopek. Prikazali smo, kako Kustomer izkorišča Lambda in SageMaker s slikami Docker po meri, ki pomagajo implementirati postopek razvrščanja besedila s poteki dela pred- in naknadno obdelavo. To zagotavlja prilagodljivost za uporabo večjih slik za ustvarjanje modela, usposabljanje in sklepanje. Podpora za sliko vsebnika za Lambda vam omogoča, da svojo funkcijo še bolj prilagodite, kar odpira številne nove primere uporabe za brezstrežniško ML. Rešitev izkorišča več storitev AWS, vključno s SageMaker, Lambda, Docker images, Amazon ECR, Amazon ECS, Amazon SQS in Amazon S3.

Če želite izvedeti več o Kustomerju, vam priporočamo, da obiščete Spletno mesto Kustomer in raziščite njihovo Študije primerov.

klik tukaj da začnete svoje potovanje z Amazon SageMaker. Za praktične izkušnje se lahko obrnete na Amazon SageMaker delavnica.

O avtorjih

Umesh Kalaspurkar je arhitekt rešitev za AWS s sedežem v New Yorku. Prinaša več kot 20 let izkušenj pri načrtovanju in izvajanju projektov digitalnih inovacij in transformacije v podjetjih in startupih. Motivira ga pomoč strankam pri prepoznavanju in premagovanju izzivov. Zunaj službe Umesh uživa v vlogi očeta, uživa v smučanju in potovanjih.

Ian Lantzy je višji inženir programske opreme in strojnega učenja za Kustomer in je specializiran za sprejemanje raziskovalnih nalog strojnega učenja in njihovo spreminjanje v proizvodne storitve.

Prasad Shetty je bostonski arhitekt rešitev za AWS. Izdelal je programske izdelke in več kot 20 let vodil posodobitve in digitalne inovacije izdelkov in storitev v podjetjih. Navdušen je nad spodbujanjem in sprejemanjem strategije v oblaku ter izkoriščanjem tehnologije za ustvarjanje odličnih uporabniških izkušenj. V prostem času Prasad uživa v kolesarjenju in potovanjih.

Jonathan Greifenberger je višji vodja računa za AWS s sedežem v New Yorku s 25-letnimi izkušnjami v industriji IT. Jonathan vodi ekipo, ki pomaga strankam iz različnih panog in vertikal na njihovi poti sprejemanja in posodobitve oblaka.

Časovni žig: Februar 23, 2022

Časovni žig: April 18, 2023

Kako Kustomer uporablja slike Docker po meri & Amazon SageMaker za izgradnjo cevovoda za klasifikacijo besedila

Ponovno objavil Platon

Ozadje in izzivi

Pregled rešitev

Izvoz podatkov

Predobdelava podatkov

usposabljanje

Deployment

Sklepanje

Možne izboljšave in prilagoditve

zaključek

O avtorjih

Več od Strojno učenje AWS

Optimizirajte hiperparametre s samodejno nastavitvijo modela Amazon SageMaker

Zaženite samodejno prilagajanje modela z Amazon SageMaker JumpStart

Prevedite dokumente iz več izvornih jezikov v več ciljnih jezikov z uporabo Amazon Translate

Preberite, kako Amazon SageMaker Clarify pomaga zaznati pristranskost

New features for Amazon SageMaker Pipelines and the Amazon SageMaker SDK

Amazon Rekognition uvaja Streaming Video Events za zagotavljanje opozoril v realnem času o video tokovih v živo

Oblikovalski vzorci za serijsko sklepanje na Amazon SageMaker

Predstavljamo posodobljen priključek Microsoft OneDrive (V2) za Amazon Kendra

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun