Hvordan Kustomer bruker tilpassede Docker-bilder og Amazon SageMaker for å bygge en tekstklassifiseringspipeline

Publisert av Platon

Følgere: 0

Dette er et gjesteinnlegg av Kustomers Senior Software & Machine Learning Engineer, Ian Lantzy, og AWS-teamet Umesh Kalaspurkar, Prasad Shetty og Jonathan Greifenberger.

Med Kustomers egne ord, "Kustomer er omnikanal SaaS CRM-plattformen som redesigner bedriftskundeservice for å levere enestående opplevelser. Bygget med intelligent automatisering, skalerer vi for å møte behovene til ethvert kontaktsenter og virksomhet ved å forene data fra flere kilder og gjøre det mulig for selskaper å levere uanstrengt, konsistent og personlig service og støtte gjennom en enkelt tidslinjevisning.»

Kustomer ønsket muligheten til å raskt analysere store mengder støttekommunikasjon for bedriftskunder – kundeopplevelse og serviceorganisasjoner – og automatisere oppdagelse av informasjon som sluttkundens hensikt, kundeserviceproblem og annen relevant innsikt knyttet til forbrukeren. Å forstå disse egenskapene kan hjelpe CX-organisasjoner med å administrere tusenvis av innkommende støtte-e-poster ved automatisk å klassifisere og kategorisere innholdet. Kustomer utnytter Amazon SageMaker å administrere analysen av den innkommende støttekommunikasjonen via deres AI-baserte Kunde IQ plattform. Kustomer IQs samtaleklassifiseringstjeneste er i stand til å kontekstualisere samtaler og automatisere ellers kjedelige og repeterende oppgaver, noe som reduserer agentdistraksjon og den totale kostnaden per kontakt. Denne og Kustomers andre IQ-tjenester har økt produktiviteten og automatiseringen for bedriftskunder.

I dette innlegget snakker vi om hvordan Kustomer bruker tilpassede Docker-bilder for SageMaker-trening og inferens, noe som letter integrasjonen og effektiviserer prosessen. Med denne tilnærmingen klassifiserer Kustomers bedriftskunder automatisk over 50 70 støtte-e-poster hver måned med opptil XNUMX % nøyaktighet.

Bakgrunn og utfordringer

Kustomer bruker en tilpasset tekstklassifiseringspipeline for deres samtaleklassifiseringstjeneste. Dette hjelper dem med å håndtere tusenvis av forespørsler om dagen via automatisk klassifisering og kategorisering ved å bruke SageMakers trening og slutningsorkestrering. Treningsmotoren for samtaleklassifisering bruker tilpassede Docker-bilder til å behandle data og trene modeller ved hjelp av historiske samtaler, og forutsier deretter emnene, kategoriene eller andre tilpassede etiketter en bestemt agent trenger for å klassifisere samtalene. Deretter bruker prediksjonsmotoren de trente modellene med et annet tilpasset docker-bilde for å kategorisere samtaler, som organisasjoner bruker til å automatisere rapportering eller rute samtaler til et spesifikt team basert på emnet.

SageMaker-kategoriseringsprosessen starter med å etablere en opplærings- og slutningspipeline som kan gi tekstklassifisering og kontekstuelle anbefalinger. Et typisk oppsett vil bli implementert med serverløse tilnærminger som AWS Lambda for dataforbehandling og etterbehandling fordi den har et minimalt klargjøringskrav med en effektiv prismodell på forespørsel. Imidlertid kan bruk av SageMaker med avhengigheter som TensorFlow, NumPy og Pandas raskt øke modellpakkestørrelsen, noe som gjør den generelle distribusjonsprosessen tungvint og vanskelig å administrere. Kustomer brukte tilpassede Docker-bilder for å overvinne disse utfordringene.

Egendefinerte Docker-bilder gir betydelige fordeler:

Tillater større komprimerte pakkestørrelser (over 10 GB), som kan inneholde populære rammeverk for maskinlæring (ML) som TensorFlow, MXNet, PyTorch eller andre.
Lar deg ta med egendefinert kode eller algoritmer utviklet lokalt til Amazon SageMaker Studio notatbøker for rask iterasjon og modellopplæring.
Unngår forhåndsbehandlingsforsinkelser forårsaket i Lambda under utpakking av distribusjonspakker.
Tilbyr fleksibilitet til å integrere sømløst med interne systemer.
Fremtidig kompatibilitet og skalerbarhet gjør det enklere å konvertere en tjeneste ved hjelp av Docker i stedet for å måtte pakke .zip-filer i en Lambda-funksjon.
Reduserer behandlingstiden for en CI/CD-distribusjonspipeline.
Gir Docker-kjennskap i teamet og brukervennlighet.
Gir tilgang til datalagre via APIer og en backend-kjøretid.
Tilbyr bedre støtte for å gripe inn for enhver forbehandling eller etterbehandling som Lambda vil kreve en separat databehandlingstjeneste for hver prosess (som opplæring eller distribusjon).

Løsningsoversikt

Kategorisering og merking av support-e-poster er et kritisk trinn i kundestøtteprosessen. Det lar bedrifter rute samtaler til de riktige teamene, og forstå på et høyt nivå hva kundene deres kontakter dem om. Kustomers bedriftskunder håndterer tusenvis av samtaler hver dag, så det er en utfordring å klassifisere i stor skala. Automatisering av denne prosessen hjelper agenter med å bli mer effektive og gi mer helhetlig støtte, og hjelper kundene deres ved å koble dem til de rette personene raskere.

Følgende diagram illustrerer løsningsarkitekturen:

Samtaleklassifiseringsprosessen starter med at bedriftskunden gir Kustomer tillatelse til å sette opp en opplærings- og slutningspipeline som kan hjelpe dem med tekstklassifisering og kontekstuelle anbefalinger. Kustomer eksponerer et brukergrensesnitt for sine kunder for å overvåke opplærings- og slutningsprosessen, som implementeres ved hjelp av SageMaker sammen med TensorFlow-modeller og tilpassede Docker-bilder. Prosessen med å bygge og bruke en klassifikator er delt inn i fem hovedarbeidsflyter, som koordineres av en arbeidertjeneste som kjører på Amazon ECS. For å koordinere rørledningshendelsene og utløse opplæring og distribusjon av modellen, bruker arbeideren en Amazon SQS kø og integreres direkte med SageMaker ved å bruke den AWS-leverte Node.js SDK. Arbeidsflytene er:

Dataeksport
Forbehandling av data
Kurs
Utplassering
slutning

Dataeksport

Dataeksportprosessen kjøres på forespørsel og starter med en godkjenningsprosess fra Kustomers bedriftskunde for å bekrefte bruken av e-postdata for analyse. Data som er relevante for klassifiseringsprosessen fanges opp via den første e-posten mottatt fra sluttkunden. For eksempel inneholder en støtte-e-post vanligvis den fullstendige sammenhengen om problemet med detaljer om problemet. Som en del av eksportprosessen blir e-postene samlet fra datalageret (MongoDB og Amazon OpenSearch) og lagret i Amazon enkel lagringstjeneste (Amazon S3).

Forbehandling av data

Dataforbehandlingsstadiet renser datasettet for opplærings- og slutningsarbeidsflyter ved å fjerne alle HTML-tagger fra kunde-e-poster og mate dem gjennom flere rengjørings- og desinfiseringstrinn for å oppdage eventuell misformet HTML. Denne prosessen inkluderer bruk av Hugging Face tokenizers og transformatorer. Når renseprosessen er fullført, legges eventuelle ekstra egendefinerte tokens som kreves for opplæring til utdatasettet.

Under forbehandlingsstadiet påkaller en Lambda-funksjon et tilpasset Docker-bilde. Dette bildet består av en Python 3.8 slank base, den AWS Lambda Python Runtime Interface Client, og avhengigheter som f.eks nusset og pandaer. Det tilpassede Docker-bildet lagres på Amazon Elastic Container Registry (Amazon ECR) og deretter matet gjennom CI/CD-rørledningen for distribusjon. Den utplasserte Lambda-funksjonen prøver dataene for å generere tre distinkte datasett per klassifikator:

Kurs – Brukes til selve treningsprosessen
Validering – Brukes til validering under TensorFlow-treningsprosessen
Test – Brukes mot slutten av opplæringsprosessen for sammenligning av metriske modeller

De genererte utdatasettene er Pandas pickle-filer, som er lagret i Amazon S3 for å brukes av treningsstadiet.

Kurs

Kustomers tilpassede treningsbilde bruker en TensorFlow 2.7 GPU-optimalisert docker bilde som en base. Egendefinert kode, avhengigheter og basismodeller er inkludert før det tilpassede docker-opplæringsbildet lastes opp til ECR. P3-instanstyper brukes til treningsprosessen og bruk av et GPU-optimalisert basisbilde bidrar til å gjøre treningsprosessen så effektiv som mulig. Amazon SageMaker brukes med dette tilpassede docker-bildet for å trene TensorFlow-modeller som deretter lagres i S3. Egendefinerte beregninger blir også beregnet og lagret for å hjelpe med tilleggsfunksjoner som modellsammenligninger og automatisk omskolering. Når opplæringsstadiet er fullført, blir AI-arbeideren varslet og bedriftskunden kan starte distribusjonsarbeidsflyten.

Utplassering

For distribusjonsarbeidsflyten opprettes et tilpasset docker-slutningsbilde ved hjelp av et TensorFlow-serveringsgrunnbilde (bygget spesielt for rask slutning). Ytterligere kode og avhengigheter som numPy, Pandas, custom NL, etc. er inkludert for å gi ekstra funksjonalitet, for eksempel formatering og rengjøring av innganger før konklusjon. FastAPI er også inkludert som en del av det tilpassede bildet, og brukes til å gi REST API-endepunkter for slutninger og helsesjekker. SageMaker er deretter konfigurert til å distribuere TensorFlow-modellene som er lagret i S3 med slutningsbildet på dataoptimerte ml.c5 AWS-instanser for å generere høyytelses-endepunkter. Hvert endepunkt er laget for bruk av en enkelt kunde for å isolere modellene og dataene deres.

slutning

Når distribusjonsarbeidsflyten er fullført, tar slutningsarbeidsflyten over. Alle første innkommende støtte-e-poster sendes gjennom inferens-APIet for de utplasserte klassifikatorene som er spesifikke for den kunden. De utplasserte klassifikatorene utfører deretter tekstklassifisering på hver av disse e-postene, og hver genererer klassifiseringsetiketter for kunden.

Mulige forbedringer og tilpasninger

Kustomer vurderer å utvide løsningen med følgende forbedringer:

Hugging Face DLC-er – Kustomer bruker for tiden TensorFlows base Docker-bilder for dataforbehandlingsfasen og planlegger å migrere til Hugging Face Deep Learning Containers (DLC). Dette hjelper deg å starte treningsmodeller umiddelbart, og hopper over den kompliserte prosessen med å bygge og optimalisere treningsmiljøene fra bunnen av. For mer informasjon, se Hugging Face på Amazon SageMaker.
Feedback loop – Du kan implementere en tilbakemeldingssløyfe ved å bruke aktiv læring eller forsterkende læringsteknikker for å øke den generelle effektiviteten til modellen.
Integrasjon med andre interne systemer – Kustomer vil ha muligheten til å integrere tekstklassifiseringen med andre systemer som Smart Suggestions, som er en annen Kustomer IQ-tjeneste som ser gjennom hundrevis av snarveier og foreslår snarveiene som er mest relevante for en kundeforespørsel, og forbedrer agentens responstider og ytelse.

konklusjonen

I dette innlegget diskuterte vi hvordan Kustomer bruker tilpassede Docker-bilder for SageMaker-trening og inferens, noe som letter integrasjonen og effektiviserer prosessen. Vi demonstrerte hvordan Kustomer utnytter Lambda og SageMaker med tilpassede Docker-bilder som hjelper til med å implementere tekstklassifiseringsprosessen med for- og etterbehandlingsarbeidsflyter. Dette gir fleksibilitet for bruk av større bilder for modelloppretting, opplæring og slutninger. Container image-støtte for Lambda lar deg tilpasse funksjonen din enda mer, og åpner for mange nye bruksområder for serverløs ML. Løsningen utnytter flere AWS-tjenester, inkludert SageMaker, Lambda, Docker images, Amazon ECR, Amazon ECS, Amazon SQS og Amazon S3.

Hvis du ønsker å lære mer om Kustomer, oppfordrer vi deg til å besøke Kustomer nettsted og utforske deres casestudier.

Klikk her. for å starte reisen med Amazon SageMaker. For praktisk erfaring kan du referere til Amazon SageMaker verksted.

Om forfatterne

Umesh Kalaspurkar er en New York-basert løsningsarkitekt for AWS. Han kommer med mer enn 20 års erfaring innen design og levering av digital innovasjons- og transformasjonsprosjekter, på tvers av bedrifter og startups. Han motiveres av å hjelpe kundene med å identifisere og overvinne utfordringer. Utenom jobben liker Umesh å være far, gå på ski og reise.

Ian Lantzy er en senior programvare- og maskinlæringsingeniør for Kustomer og spesialiserer seg på å ta forskningsoppgaver for maskinlæring og gjøre dem om til produksjonstjenester.

Prasad Shetty er en Boston-basert løsningsarkitekt for AWS. Han har bygget programvareprodukter og har ledet modernisering og digital innovasjon innen produkter og tjenester på tvers av bedrifter i over 20 år. Han er lidenskapelig opptatt av å drive skystrategi og -adopsjon, og utnytte teknologi for å skape gode kundeopplevelser. På fritiden liker Prasad å sykle og reise.

Jonathan Greifenberger er en New York-basert Senior Account Manager for AWS med 25 års erfaring fra IT-bransjen. Jonathan leder et team som bistår kunder fra ulike bransjer og vertikaler på deres skyadopsjons- og moderniseringsreise.

Tidstempel: Februar 23, 2022

Tidstempel: Juni 27, 2023

Hvordan Kustomer bruker tilpassede Docker-bilder og Amazon SageMaker for å bygge en tekstklassifiseringspipeline

Publisert av Platon

Bakgrunn og utfordringer

Løsningsoversikt

Dataeksport

Forbehandling av data

Kurs

Utplassering

slutning

Mulige forbedringer og tilpasninger

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Bygg en tilpasset enhetsgjenkjenner for PDF-dokumenter ved å bruke Amazon Comprehend

Bruk AWS AI- og ML-tjenester for å fremme tilgjengelighet og inkludering av personer med syns- eller kommunikasjonshemming

Kunngjøring av den oppdaterte Salesforce-koblingen (V2) for Amazon Kendra

Kunngjør Visual Conversation Builder for Amazon Lex

Lag syntetiske data for datasynsrørledninger på AWS

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn