How Kustomer Utilizes Custom Docker Images & Amazon SageMaker To Build A Text Classification Pipeline

Genudgivet af Platon

Abonnenter: 0

Dette er et gæsteindlæg af Kustomers Senior Software & Machine Learning Engineer, Ian Lantzy, og AWS-teamet Umesh Kalaspurkar, Prasad Shetty og Jonathan Greifenberger.

Med Kustomers egne ord, "Kustomer er omnichannel SaaS CRM-platformen, der genskaber virksomhedens kundeservice for at levere enestående oplevelser. Bygget med intelligent automatisering skalerer vi for at imødekomme behovene i ethvert kontaktcenter og virksomhed ved at forene data fra flere kilder og gøre det muligt for virksomheder at levere ubesværet, konsistent og personlig service og support gennem en enkelt tidslinjevisning."

Kustomer ønskede muligheden for hurtigt at analysere store mængder supportkommunikation for deres virksomhedskunder – kundeoplevelse og serviceorganisationer – og automatisere opdagelse af information såsom slutkundens hensigt, kundeserviceproblem og anden relevant indsigt relateret til forbrugeren. Forståelse af disse egenskaber kan hjælpe CX-organisationer med at administrere tusindvis af indgående support-e-mails ved automatisk at klassificere og kategorisere indholdet. Kustomer udnytter Amazon SageMaker at styre analysen af den indgående supportkommunikation via deres AI-baserede Kustomer IQ platform. Kustomer IQs samtaleklassificeringstjeneste er i stand til at kontekstualisere samtaler og automatisere ellers kedelige og gentagne opgaver, hvilket reducerer agentens distraktion og den samlede pris pr. kontakt. Denne og Kustomers andre IQ-tjenester har øget produktiviteten og automatiseringen for deres erhvervskunder.

I dette indlæg taler vi om, hvordan Kustomer bruger tilpassede Docker-billeder til SageMaker-træning og inferens, hvilket letter integrationen og strømliner processen. Med denne tilgang klassificerer Kustomers erhvervskunder automatisk over 50 support-e-mails hver måned med op til 70 % nøjagtighed.

Baggrund og udfordringer

Kustomer bruger en tilpasset tekstklassificeringspipeline til deres samtaleklassificeringstjeneste. Dette hjælper dem med at administrere tusindvis af anmodninger om dagen via automatisk klassificering og kategorisering ved at bruge SageMakers trænings- og inferensorkestrering. Conversation Classification-træningsmotoren bruger brugerdefinerede Docker-billeder til at behandle data og træne modeller ved hjælp af historiske samtaler og forudsiger derefter de emner, kategorier eller andre tilpassede etiketter, som en bestemt agent har brug for for at klassificere samtalerne. Derefter bruger forudsigelsesmotoren de trænede modeller med et andet brugerdefineret docker-billede til at kategorisere samtaler, som organisationer bruger til at automatisere rapportering eller dirigere samtaler til et specifikt team baseret på dets emne.

SageMaker-kategoriseringsprocessen starter med at etablere en trænings- og slutningspipeline, der kan give tekstklassificering og kontekstuelle anbefalinger. En typisk opsætning vil blive implementeret med serverløse tilgange som AWS Lambda til dataforbehandling og efterbehandling, fordi den har et minimalt leveringskrav med en effektiv on-demand-prismodel. Brug af SageMaker med afhængigheder såsom TensorFlow, NumPy og Pandas kan dog hurtigt øge modelpakkestørrelsen, hvilket gør den overordnede implementeringsproces besværlig og svær at administrere. Kustomer brugte tilpassede Docker-billeder til at overvinde disse udfordringer.

Custom Docker-billeder giver væsentlige fordele:

Giver mulighed for større komprimerede pakkestørrelser (over 10 GB), som kan indeholde populære rammer for maskinlæring (ML) såsom TensorFlow, MXNet, PyTorch eller andre.
Giver dig mulighed for at bringe tilpasset kode eller algoritmer udviklet lokalt til Amazon SageMaker Studio notesbøger til hurtig iteration og modeltræning.
Undgår forbehandlingsforsinkelser forårsaget i Lambda under udpakning af implementeringspakker.
Tilbyder fleksibilitet til at integrere problemfrit med interne systemer.
Fremtidig kompatibilitet og skalerbarhed gør det nemmere at konvertere en tjeneste ved hjælp af Docker i stedet for at skulle pakke .zip-filer i en Lambda-funktion.
Reducerer ekspeditionstiden for en CI/CD-implementeringspipeline.
Giver Docker-kendskab inden for teamet og brugervenlighed.
Giver adgang til datalagre via API'er og en backend-runtime.
Tilbyder bedre støtte til at gribe ind for enhver forbehandling eller efterbehandling, som Lambda ville kræve en separat beregningstjeneste for hver proces (såsom træning eller implementering).

Løsningsoversigt

Kategorisering og mærkning af support-e-mails er et kritisk trin i kundesupportprocessen. Det giver virksomheder mulighed for at dirigere samtaler til de rigtige teams og på et højt niveau forstå, hvad deres kunder kontakter dem om. Kustomers erhvervskunder håndterer tusindvis af samtaler hver dag, så det er en udfordring at klassificere i skala. Automatisering af denne proces hjælper agenter med at være mere effektive og give mere sammenhængende support, og hjælper deres kunder ved at forbinde dem med de rigtige personer hurtigere.

Følgende diagram illustrerer løsningsarkitekturen:

Samtaleklassificeringsprocessen starter med, at erhvervskunden giver Kustomer tilladelse til at oprette en trænings- og slutningspipeline, der kan hjælpe dem med tekstklassificering og kontekstuelle anbefalinger. Kustomer eksponerer en brugergrænseflade til deres kunder for at overvåge trænings- og slutningsprocessen, som implementeres ved hjælp af SageMaker sammen med TensorFlow-modeller og brugerdefinerede Docker-billeder. Processen med at bygge og bruge en klassifikator er opdelt i fem hovedarbejdsgange, som koordineres af en medarbejderservice, der kører på Amazon ECS. For at koordinere pipeline-begivenhederne og udløse træning og implementering af modellen, bruger arbejderen en Amazon SQS køen og integreres direkte med SageMaker ved hjælp af den AWS-leverede Node.js SDK. Arbejdsgangene er:

Dataeksport
Dataforarbejdning
Kurser
Deployment
Inferens

Dataeksport

Dataeksportprocessen køres efter behov og starter med en godkendelsesproces fra Kustomers erhvervskunde for at bekræfte brugen af e-maildata til analyse. Data, der er relevante for klassificeringsprocessen, registreres via den første e-mail, der modtages fra slutkunden. For eksempel indeholder en support-e-mail typisk den fuldstændige sammenhængende tanke om problemet med detaljer om problemet. Som en del af eksportprocessen samles e-mails fra datalageret (MongoDB og Amazon OpenSearch) og gemt i Amazon Simple Storage Service (Amazon S3).

Dataforarbejdning

Dataforbehandlingsstadiet renser datasættet for trænings- og slutningsarbejdsgange ved at fjerne alle HTML-tags fra kunde-e-mails og føre dem gennem flere rengørings- og desinficeringstrin for at detektere misformet HTML. Denne proces omfatter brugen af Hugging Face tokenizere og transformere. Når udrensningsprocessen er fuldført, tilføjes eventuelle yderligere brugerdefinerede tokens, der kræves til træning, til outputdatasættet.

Under forbehandlingsfasen kalder en Lambda-funktion et brugerdefineret Docker-billede. Dette billede består af en Python 3.8 slim base, den AWS Lambda Python Runtime Interface Client, og afhængigheder som f.eks nusset , pandas. Det brugerdefinerede Docker-billede er gemt på Amazon Elastic Container Registry (Amazon ECR) og derefter ført gennem CI/CD-pipelinen til implementering. Den implementerede Lambda-funktion prøver dataene for at generere tre forskellige datasæt pr. klassifikator:

Kurser – Anvendes til selve træningsprocessen
Validering – Bruges til validering under TensorFlow-træningsprocessen
Test – Bruges mod slutningen af træningsprocessen til sammenligning af metriske modeller

De genererede outputdatasæt er Pandas pickle-filer, som er gemt i Amazon S3 for at blive brugt af træningsstadiet.

Kurser

Kustomers tilpassede træningsbillede bruger en TensorFlow 2.7 GPU-optimeret docker billede som base. Tilpasset kode, afhængigheder og basismodeller er inkluderet, før det tilpassede docker-træningsbillede uploades til ECR. P3-instanstyper bruges til træningsprocessen, og brug af et GPU-optimeret basisbillede er med til at gøre træningsprocessen så effektiv som muligt. Amazon SageMaker bruges med dette brugerdefinerede docker-billede til at træne TensorFlow-modeller, der derefter gemmes i S3. Tilpassede metrics beregnes og gemmes også for at hjælpe med yderligere funktioner såsom modelsammenligninger og automatisk genoptræning. Når træningsfasen er afsluttet, får AI-medarbejderen besked, og virksomhedskunden kan starte implementeringsarbejdsgangen.

Deployment

Til implementeringsworkflowet oprettes et brugerdefineret docker-inferensbillede ved hjælp af et TensorFlow-serveringsbasebillede (bygget specifikt til hurtig inferens). Yderligere kode og afhængigheder som numPy, Pandas, custom NL osv. er inkluderet for at give yderligere funktionalitet, såsom formatering og rensning af input før slutning. FastAPI er også inkluderet som en del af det brugerdefinerede billede og bruges til at levere REST API-endepunkterne til slutninger og sundhedstjek. SageMaker konfigureres derefter til at implementere TensorFlow-modellerne, der er gemt i S3 med inferensbilledet, på computeroptimerede ml.c5 AWS-instanser for at generere højtydende slutningsendepunkter. Hvert endepunkt er oprettet til brug af en enkelt kunde til at isolere deres modeller og data.

Inferens

Når implementeringsworkflowet er afsluttet, overtager inferensworkflowet. Alle første indgående support-e-mails sendes gennem inferens-API'en for de implementerede klassifikatorer, der er specifikke for den pågældende kunde. De implementerede klassificeringsprogrammer udfører derefter tekstklassificering på hver af disse e-mails, der hver genererer klassifikationsetiketter til kunden.

Mulige forbedringer og tilpasninger

Kustomer overvejer at udvide løsningen med følgende forbedringer:

Hugging Face DLC'er – Kustomer bruger i øjeblikket TensorFlows base Docker-billeder til dataforbehandlingsfasen og planlægger at migrere til Hugging Face Deep Learning Containers (DLC'er). Dette hjælper dig med at starte træningsmodeller med det samme, og springer den komplicerede proces med at bygge og optimere dine træningsmiljøer over fra bunden. For mere information, se Hugging Face på Amazon SageMaker.
Feedback loop – Du kan implementere en feedbackloop ved hjælp af aktiv læring eller forstærkende læringsteknikker for at øge modellens overordnede effektivitet.
Integration med andre interne systemer – Kustomer ønsker muligheden for at integrere tekstklassificeringen med andre systemer som Smart Suggestions, som er en anden Kustomer IQ-tjeneste, der ser gennem hundredvis af genveje og foreslår de genveje, der er mest relevante for en kundeforespørgsel, hvilket forbedrer agentens responstider og ydeevne.

Konklusion

I dette indlæg diskuterede vi, hvordan Kustomer bruger tilpassede Docker-billeder til SageMaker-træning og inferens, hvilket letter integrationen og strømliner processen. Vi demonstrerede, hvordan Kustomer udnytter Lambda og SageMaker med tilpassede Docker-billeder, der hjælper med at implementere tekstklassificeringsprocessen med forbehandlings- og efterbehandlingsarbejdsgange. Dette giver fleksibilitet til at bruge større billeder til modeloprettelse, træning og slutninger. Container image support til Lambda giver dig mulighed for at tilpasse din funktion endnu mere, hvilket åbner op for mange nye use cases for serverløs ML. Løsningen udnytter flere AWS-tjenester, herunder SageMaker, Lambda, Docker-billeder, Amazon ECR, Amazon ECS, Amazon SQS og Amazon S3.

Hvis du vil lære mere om Kustomer, opfordrer vi dig til at besøge Kustomer hjemmeside og udforske deres casestudier.

Klik link. for at starte din rejse med Amazon SageMaker. For praktisk oplevelse kan du henvise til Amazon SageMaker værksted.

Om forfatterne

Umesh Kalaspurkar er en New York-baseret løsningsarkitekt for AWS. Han kommer med mere end 20 års erfaring med design og levering af digitale innovations- og transformationsprojekter på tværs af virksomheder og startups. Han motiveres af at hjælpe kunder med at identificere og overkomme udfordringer. Uden for arbejdet nyder Umesh at være far, stå på ski og rejse.

Ian Lantzy er en Senior Software & Machine Learning-ingeniør for Kustomer og har specialiseret sig i at tage maskinlæringsforskningsopgaver og omdanne dem til produktionstjenester.

Prasad Shetty er en Boston-baseret Solutions Architect for AWS. Han har bygget softwareprodukter og har ledet modernisering og digital innovation inden for produkter og tjenester på tværs af virksomheder i over 20 år. Han brænder for at drive cloud-strategi og -adoption og udnytte teknologien til at skabe gode kundeoplevelser. I sin fritid nyder Prasad at cykle og rejse.

Jonathan Greifenberger er en New York-baseret Senior Account Manager for AWS med 25 års erfaring i it-branchen. Jonathan leder et team, der hjælper kunder fra forskellige brancher og vertikaler på deres cloud-adoption og moderniseringsrejse.

Tidsstempel: Februar 23, 2022

Tidsstempel: April 18, 2023

Hvordan Kustomer bruger tilpassede Docker-billeder og Amazon SageMaker til at bygge en tekstklassificeringspipeline

Genudgivet af Platon

Baggrund og udfordringer

Løsningsoversigt

Dataeksport

Dataforarbejdning

Kurser

Deployment

Inferens

Mulige forbedringer og tilpasninger

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Optimer hyperparametre med Amazon SageMaker Automatic Model Tuning

Kør automatisk modeljustering med Amazon SageMaker JumpStart

Oversæt flere kildesprogsdokumenter til flere målsprog ved hjælp af Amazon Translate

Lær, hvordan Amazon SageMaker Clarify hjælper med at opdage bias

Nye funktioner til Amazon SageMaker Pipelines og Amazon SageMaker SDK

Amazon Rekognition introducerer Streaming Video Events for at give realtidsadvarsler på live videostreams

Designmønstre til seriel inferens på Amazon SageMaker

Annoncering af det opdaterede Microsoft OneDrive-stik (V2) til Amazon Kendra

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto