How Kustomer Utilizes Custom Docker Images & Amazon SageMaker To Build A Text Classification Pipeline

Republicat de Platon

Urmaritori: 0

Aceasta este o postare pentru invitați a inginerului senior de software și învățare automată de la Kustomer, Ian Lantzy, și a echipei AWS Umesh Kalaspurkar, Prasad Shetty și Jonathan Greifenberger.

În propriile cuvinte ale lui Kustomer, „Kustomer este platforma omnicanal SaaS CRM care reinventează serviciul pentru clienți pentru întreprinderi pentru a oferi experiențe remarcabile. Construit cu automatizare inteligentă, ne extindem pentru a răspunde nevoilor oricărui centru de contact și companie, unificând datele din mai multe surse și permițând companiilor să ofere servicii și asistență fără efort, consistente și personalizate printr-o singură vizualizare cronologică.”

Kustomer dorea capacitatea de a analiza rapid volume mari de comunicații de asistență pentru clienții lor de afaceri — experiența clienților și organizațiile de servicii — și de a automatiza descoperirea de informații, cum ar fi intenția clientului final, problema serviciului clienți și alte informații relevante legate de consumator. Înțelegerea acestor caracteristici poate ajuta organizațiile CX să gestioneze mii de e-mailuri de asistență prin clasificarea și clasificarea automată a conținutului. Pârghiile clientului Amazon SageMaker pentru a gestiona analiza comunicațiilor de asistență primite prin intermediul AI bazate pe IA IQ-ul clientului platformă. Serviciul de clasificare a conversațiilor de la Kustomer IQ este capabil să contextualizeze conversațiile și să automatizeze sarcinile altfel obositoare și repetitive, reducând distragerea atenției agenților și costul total pe contact. Acesta și celelalte servicii IQ ale Kustomer au crescut productivitatea și automatizarea pentru clienții săi de afaceri.

În această postare, vorbim despre modul în care Kustomer utilizează imagini Docker personalizate pentru instruirea și inferența SageMaker, ceea ce ușurează integrarea și eficientizează procesul. Cu această abordare, clienții de afaceri Kustomer clasifică automat peste 50 de e-mailuri de asistență în fiecare lună, cu o precizie de până la 70%.

Context și provocări

Kustomer folosește un canal personalizat de clasificare a textului pentru serviciul său de clasificare a conversațiilor. Acest lucru îi ajută să gestioneze mii de solicitări pe zi prin clasificarea și clasificarea automată utilizând instruirea SageMaker și orchestrarea inferenței. Motorul de instruire Clasificarea conversațiilor folosește imagini Docker personalizate pentru a procesa date și a antrena modele folosind conversații istorice și apoi prezice subiectele, categoriile sau alte etichete personalizate de care un anumit agent are nevoie pentru a clasifica conversațiile. Apoi, motorul de predicție utilizează modelele antrenate cu o altă imagine docker personalizată pentru a clasifica conversațiile, pe care organizațiile le folosesc pentru a automatiza raportarea sau a direcționa conversațiile către o anumită echipă pe baza subiectului său.

Procesul de categorizare SageMaker începe prin stabilirea unui canal de instruire și inferență care poate oferi clasificarea textului și recomandări contextuale. O configurare tipică ar fi implementată cu abordări fără server precum AWS Lambdas pentru preprocesarea și postprocesarea datelor, deoarece are o cerință minimă de furnizare cu un model eficient de preț la cerere. Cu toate acestea, utilizarea SageMaker cu dependențe precum TensorFlow, NumPy și Pandas poate crește rapid dimensiunea pachetului modelului, făcând procesul general de implementare greoi și dificil de gestionat. Kustomer a folosit imagini Docker personalizate pentru a depăși aceste provocări.

Imaginile Docker personalizate oferă avantaje substanțiale:

Permite pachete de dimensiuni mai mari (peste 10 GB), care pot conține cadre populare de învățare automată (ML) precum TensorFlow, MXNet, PyTorch sau altele.
Vă permite să aduceți cod personalizat sau algoritmi dezvoltați local Amazon SageMaker Studio caiete pentru iterare rapidă și formare model.
Evită întârzierile de preprocesare cauzate în Lambda la despachetarea pachetelor de implementare.
Oferă flexibilitate pentru a se integra perfect cu sistemele interne.
Compatibilitatea și scalabilitatea viitoare facilitează conversia unui serviciu folosind Docker, mai degrabă decât a fi nevoie să ambalați fișiere .zip într-o funcție Lambda.
Reduce timpul de realizare pentru o conductă de implementare CI/CD.
Oferă familiaritate cu Docker în cadrul echipei și ușurință în utilizare.
Oferă acces la depozitele de date prin intermediul API-urilor și a unui timp de rulare backend.
Oferă un suport mai bun pentru intervenția pentru orice preprocesare sau postprocesare pentru care Lambda ar necesita un serviciu de calcul separat pentru fiecare proces (cum ar fi instruire sau implementare).

Prezentare generală a soluțiilor

Categorizarea și etichetarea e-mailurilor de asistență este un pas critic în procesul de asistență pentru clienți. Permite companiilor să direcționeze conversațiile către echipele potrivite și să înțeleagă la un nivel înalt despre ce îi contactează clienții. Clienții de afaceri ai Kustomer gestionează mii de conversații în fiecare zi, așa că clasificarea la scară este o provocare. Automatizarea acestui proces îi ajută pe agenți să fie mai eficienți și să ofere un suport mai coeziv și îi ajută pe clienții lor, conectându-i mai rapid cu oamenii potriviți.

Următoarea diagramă ilustrează arhitectura soluției:

Procesul de clasificare a conversațiilor începe cu clientul de afaceri care îi dă lui Kustomer permisiunea de a configura un canal de instruire și inferență care îl poate ajuta cu clasificarea textului și recomandările contextuale. Kustomer le expune clienților o interfață cu utilizatorul pentru a monitoriza procesul de instruire și inferență, care este implementat folosind SageMaker împreună cu modele TensorFlow și imagini Docker personalizate. Procesul de construire și utilizare a unui clasificator este împărțit în cinci fluxuri de lucru principale, care sunt coordonate de un serviciu de lucru care rulează pe Amazon ECS. Pentru a coordona evenimentele pipeline și a declanșa instruirea și implementarea modelului, lucrătorul folosește un Amazon SQS coadă și se integrează direct cu SageMaker folosind SDK-ul Node.js furnizat de AWS. Fluxurile de lucru sunt:

Export de date
Preprocesare de date
Pregătire
Implementare
deducție

Export de date

Procesul de export de date este rulat la cerere și începe cu un proces de aprobare din partea clientului de afaceri Kustomer pentru a confirma utilizarea datelor de e-mail pentru analiză. Datele relevante pentru procesul de clasificare sunt captate prin e-mailul inițial primit de la clientul final. De exemplu, un e-mail de asistență conține de obicei gândul complet coerent al problemei cu detalii despre problemă. Ca parte a procesului de export, e-mailurile sunt adunate din depozitul de date (MongoDB și Amazon OpenSearch) și salvat în Serviciul Amazon de stocare simplă (Amazon S3).

Preprocesare de date

Etapa de preprocesare a datelor curăță setul de date pentru fluxurile de lucru de instruire și inferență prin eliminarea oricăror etichete HTML din e-mailurile clienților și alimentându-le prin mai mulți pași de curățare și igienizare pentru a detecta orice HTML deformat. Acest proces include utilizarea de Tokenizer și transformatoare Hugging Face. Când procesul de curățare este finalizat, orice jetoane personalizate suplimentare necesare pentru antrenament sunt adăugate la setul de date de ieșire.

În timpul etapei de preprocesare, o funcție Lambda invocă o imagine Docker personalizată. Această imagine constă dintr-o bază subțire Python 3.8, the Client de interfață AWS Lambda Python Runtime, și dependențe precum NumPy și ursi panda. Imaginea personalizată Docker este stocată Registrul Amazon de containere elastice (Amazon ECR) și apoi alimentat prin conducta CI/CD pentru implementare. Funcția Lambda implementată eșantionează datele pentru a genera trei seturi de date distincte pentru fiecare clasificator:

Pregătire – Folosit pentru procesul propriu-zis de antrenament
Validare – Folosit pentru validare în timpul procesului de antrenament TensorFlow
Test – Folosit la sfârșitul procesului de instruire pentru compararea modelelor de metrici

Seturile de date de ieșire generate sunt fișiere Pandas pickle, care sunt stocate în Amazon S3 pentru a fi utilizate de etapa de antrenament.

Pregătire

Imaginea de instruire personalizată a lui Kustomer utilizează un docker optimizat pentru GPU TensorFlow 2.7 imagine ca bază. Codul personalizat, dependențele și modelele de bază sunt incluse înainte ca imaginea personalizată de instruire a docker să fie încărcată în ECR. Tipurile de instanță P3 sunt utilizate pentru procesul de antrenament, iar utilizarea unei imagini de bază optimizate pentru GPU ajută la eficientizarea procesului de antrenament. Amazon SageMaker este utilizat cu această imagine docker personalizată pentru a antrena modele TensorFlow care sunt apoi stocate în S3. Valorile personalizate sunt, de asemenea, calculate și salvate pentru a ajuta cu capabilități suplimentare, cum ar fi compararea modelelor și reinstruirea automată. Odată ce etapa de instruire este finalizată, lucrătorul AI este notificat, iar clientul de afaceri poate începe fluxul de lucru de implementare.

Implementare

Pentru fluxul de lucru de implementare, o imagine de inferență docker personalizată este creată folosind o imagine de bază de difuzare TensorFlow (creată special pentru inferență rapidă). Cod suplimentar și dependențe precum numPy, Pandas, NL personalizat etc. sunt incluse pentru a oferi funcționalități suplimentare, cum ar fi formatarea și curățarea intrărilor înainte de deducere. FastAPI este, de asemenea, inclus ca parte a imaginii personalizate și este folosit pentru a furniza punctele finale API REST pentru inferență și verificări de sănătate. SageMaker este apoi configurat pentru a implementa modelele TensorFlow salvate în S3 cu imaginea de inferență pe instanțe AWS ml.c5 optimizate pentru calcul pentru a genera puncte finale de inferență de înaltă performanță. Fiecare punct final este creat pentru a fi utilizat de către un singur client pentru a-și izola modelele și datele.

deducție

Odată ce fluxul de lucru de implementare este finalizat, fluxul de lucru de inferență preia controlul. Toate primele e-mailuri de asistență de intrare sunt transmise prin API-ul de inferență pentru clasificatorii implementați specifici acelui client. Clasificatorii implementați efectuează apoi clasificarea textului pe fiecare dintre aceste e-mailuri, fiecare generând etichete de clasificare pentru client.

Posibile îmbunătățiri și personalizări

Kustomer are în vedere extinderea soluției cu următoarele îmbunătățiri:

DLC-uri Hugging Face – Kustomer utilizează în prezent imaginile Docker de bază ale TensorFlow pentru etapa de preprocesare a datelor și intenționează să migreze la Containere de învățare profundă (DLC) Hugging Face. Acest lucru vă ajută să începeți modelele de antrenament imediat, sărind peste procesul complicat de construire și optimizare a mediilor de antrenament de la zero. Pentru mai multe informații, vezi Hugging Face pe Amazon SageMaker.
Bucla de feedback – Puteți implementa o buclă de feedback utilizând tehnici de învățare activă sau de întărire pentru a crește eficiența generală a modelului.
Integrare cu alte sisteme interne – Kustomer dorește capacitatea de a integra clasificarea textului cu alte sisteme precum Smart Suggestions, care este un alt serviciu Kustomer IQ care analizează sute de comenzi rapide și sugerează comenzile rapide care sunt cele mai relevante pentru o interogare a clientului, îmbunătățind timpii de răspuns și performanța agentului.

Concluzie

În această postare, am discutat despre modul în care Kustomer utilizează imagini Docker personalizate pentru instruirea și inferența SageMaker, ceea ce ușurează integrarea și eficientizează procesul. Am demonstrat cum Kustomer folosește Lambda și SageMaker cu imagini Docker personalizate care ajută la implementarea procesului de clasificare a textului cu fluxuri de lucru de preprocesare și postprocesare. Acest lucru oferă flexibilitate pentru utilizarea imaginilor mai mari pentru crearea modelului, antrenament și inferență. Suportul pentru imagini container pentru Lambda vă permite să vă personalizați și mai mult funcția, deschizând multe cazuri de utilizare noi pentru ML fără server. Soluția profită de mai multe servicii AWS, inclusiv SageMaker, Lambda, Docker images, Amazon ECR, Amazon ECS, Amazon SQS și Amazon S3.

Dacă doriți să aflați mai multe despre Kustomer, vă încurajăm să vizitați Site-ul clientului și să le exploreze studii de caz.

Clic aici pentru a vă începe călătoria cu Amazon SageMaker. Pentru o experiență practică, puteți face referire la Amazon SageMaker atelier.

Despre Autori

Umesh Kalaspurkar este un arhitect de soluții cu sediul în New York pentru AWS. El aduce peste 20 de ani de experiență în proiectarea și livrarea proiectelor de inovare și transformare digitală, în cadrul întreprinderilor și startup-urilor. El este motivat de a ajuta clienții să identifice și să depășească provocările. În afara serviciului, lui Umesh îi place să fie tată, să schieze și să călătorească.

Ian Lantzy este inginer senior de software și învățare automată pentru Kustomer și este specializat în preluarea sarcinilor de cercetare în învățarea automată și transformarea acestora în servicii de producție.

Prasad Shetty este un arhitect de soluții cu sediul în Boston pentru AWS. El a construit produse software și a condus modernizarea și inovația digitală în produse și servicii în cadrul întreprinderilor de peste 20 de ani. Este pasionat de conducerea strategiei cloud și de adoptare și de utilizarea tehnologiei pentru a crea experiențe excelente pentru clienți. În timpul liber, lui Prasad îi place să meargă cu bicicleta și să călătorească.

Jonathan Greifenberger este un Senior Account Manager cu sediul în New York pentru AWS, cu 25 de ani de experiență în industria IT. Jonathan conduce o echipă care ajută clienții din diverse industrii și verticale în călătoria lor de adoptare și modernizare a cloud-ului.

Timestamp-ul: 23 Februarie 2022

Timestamp-ul: Aprilie 18, 2023

Cum utilizează Kustomer imaginile Docker personalizate și Amazon SageMaker pentru a construi o conductă de clasificare a textului

Republicat de Platon

Context și provocări

Prezentare generală a soluțiilor

Export de date

Preprocesare de date

Pregătire

Implementare

deducție

Posibile îmbunătățiri și personalizări

Concluzie

Despre Autori

Mai mult de la Învățare automată AWS

Optimizați hiperparametrii cu Amazon SageMaker Automatic Model Tuning

Rulați reglarea automată a modelului cu Amazon SageMaker JumpStart

Traduceți documente în mai multe limbi sursă în mai multe limbi țintă folosind Amazon Translate

Aflați cum Amazon SageMaker Clarify ajută la detectarea părtinirii

Noi funcții pentru Amazon SageMaker Pipelines și Amazon SageMaker SDK

Amazon Rekognition introduce evenimente video în flux pentru a oferi alerte în timp real asupra fluxurilor video live

Design patterns for serial inference on Amazon SageMaker

Se anunță conectorul Microsoft OneDrive actualizat (V2) pentru Amazon Kendra

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont