Kustomer がカスタム Docker イメージと Amazon SageMaker を利用してテキスト分類パイプラインを構築する方法

プラトン再発行

フォロワー： 0

これは、Kustomer のシニアソフトウェア & 機械学習エンジニアである Ian Lantsy、AWS チームの Umesh Kalaspurkar、Prasad Shetty、Jonathan Greifenberger によるゲスト投稿です。

カストーマー自身の言葉では、「Kustomer は、優れたエクスペリエンスを提供するためにエンタープライズ顧客サービスを再考したオムニチャネル SaaS CRM プラットフォームです。インテリジェントな自動化によって構築された当社は、複数のソースからのデータを統合し、企業が単一のタイムラインビューを通じて簡単で一貫性のあるパーソナライズされたサービスとサポートを提供できるようにすることで、あらゆるコンタクトセンターやビジネスのニーズを満たすように拡張します。」

Kustomer は、企業顧客 (カスタマーエクスペリエンスおよびサービス組織) 向けの大量のサポートコミュニケーションを迅速に分析し、エンド顧客の意図、顧客サービスの問題、消費者に関連するその他の関連洞察などの情報の検出を自動化する機能を望んでいました。これらの特性を理解すると、CX 組織はコンテンツを自動的に分類して分類することで、数千件の受信サポートメールを管理するのに役立ちます。顧客の活用アマゾンセージメーカー AI ベースで受信したサポートコミュニケーションの分析を管理する顧客IQ プラットホーム。 Kustomer IQ の会話分類サービスは、会話の状況を把握し、退屈で反復的なタスクを自動化することで、エージェントの気を散らし、コンタクトごとの全体的なコストを削減できます。このサービスと Kustomer の他の IQ サービスにより、企業顧客の生産性と自動化が向上しました。

この投稿では、Kustomer が SageMaker のトレーニングと推論にカスタム Docker イメージを使用して、統合を容易にし、プロセスを合理化する方法について説明します。このアプローチにより、Kustomer の企業顧客は毎月 50 件を超えるサポートメールを最大 70% の精度で自動的に分類しています。

背景と課題

Kustomer は、会話分類サービスにカスタムテキスト分類パイプラインを使用しています。これにより、SageMaker のトレーニングと推論オーケストレーションを利用した自動分類と分類により、XNUMX 日に何千ものリクエストを管理することができます。会話分類トレーニングエンジンは、カスタム Docker イメージを使用してデータを処理し、過去の会話を使用してモデルをトレーニングし、会話を分類するために特定のエージェントが必要とするトピック、カテゴリ、またはその他のカスタムラベルを予測します。次に、予測エンジンは、トレーニングされたモデルと別のカスタム Docker イメージを利用して会話を分類します。組織はこれを使用して、レポートを自動化したり、トピックに基づいて会話を特定のチームにルーティングしたりします。

SageMaker の分類プロセスは、テキストの分類と状況に応じた推奨事項を提供できるトレーニングと推論のパイプラインを確立することから始まります。一般的なセットアップは、次のようなサーバーレスアプローチで実装されます。 AWSラムダ効果的なオンデマンド価格モデルを備えた最小限のプロビジョニング要件があるため、データの前処理と後処理に最適です。ただし、TensorFlow、NumPy、Pandas などの依存関係を持つ SageMaker を使用すると、モデルパッケージのサイズがすぐに大きくなり、全体的なデプロイメントプロセスが煩雑で管理が難しくなる可能性があります。 Kustomer はカスタム Docker イメージを使用してこれらの課題を克服しました。

カスタム Docker イメージには、次のような大きな利点があります。

TensorFlow、MXNet、PyTorch などの一般的な機械学習 (ML) フレームワークを含めることができる、より大きな圧縮パッケージサイズ (10 GB 以上) が可能です。
ローカルで開発されたカスタムコードまたはアルゴリズムを外部に持ち込むことができます。 Amazon SageMakerスタジオ迅速な反復とモデルのトレーニングのためのノートブック。
デプロイメントパッケージを解凍する際に Lambda で発生する前処理の遅延を回避します。
内部システムとシームレスに統合できる柔軟性を提供します。
将来の互換性とスケーラビリティにより、.zip ファイルを Lambda 関数にパッケージ化する必要がなく、Docker を使用してサービスを変換することが容易になります。
CI/CD デプロイメントパイプラインの所要時間を短縮します。
チーム内で Docker を使いやすくし、使いやすくします。
API およびバックエンドランタイムを介してデータストアへのアクセスを提供します。
Lambda がプロセスごとに個別のコンピューティングサービス (トレーニングやデプロイメントなど) を必要とする前処理または後処理の介入に対するサポートが向上しました。

ソリューションの概要

サポート電子メールの分類とラベル付けは、カスタマーサポートプロセスにおける重要なステップです。これにより、企業は会話を適切なチームにルーティングし、顧客が何について問い合わせているのかを高いレベルで理解できるようになります。 Kustomer の企業顧客は毎日何千もの会話を処理しているため、大規模な分類は困難です。このプロセスを自動化することで、エージェントはより効果的になり、より一貫性のあるサポートを提供できるようになり、顧客を適切な担当者に迅速につなぐことができるようになります。

次の図は、ソリューションアーキテクチャを示しています。

会話分類プロセスは、企業顧客が Kustomer に、テキスト分類と状況に応じた推奨事項を支援できるトレーニングと推論パイプラインを設定する許可を与えることから始まります。 Kustomer は、トレーニングと推論のプロセスを監視するためのユーザーインターフェイスを顧客に公開しています。これは、SageMaker と TensorFlow モデルおよびカスタム Docker イメージを使用して実装されています。分類器を構築して利用するプロセスは XNUMX つの主要なワークフローに分割されており、それらは上で実行されるワーカーサービスによって調整されます。アマゾンECS。パイプラインイベントを調整し、モデルのトレーニングとデプロイメントをトリガーするために、ワーカーはアマゾンSQS キューに追加され、AWS が提供する Node.js SDK を使用して SageMaker と直接統合されます。ワークフローは次のとおりです。

データのエクスポート
データ前処理
トレーニング
展開
推論

データのエクスポート

データエクスポートプロセスはオンデマンドで実行され、分析のための電子メールデータの使用を確認するための Kustomer の法人顧客からの承認プロセスから始まります。分類プロセスに関連するデータは、エンド顧客から受け取った最初の電子メールを介して取得されます。たとえば、サポート電子メールには通常、問題に関する完全に一貫した考えと、問題に関する詳細が含まれています。エクスポートプロセスの一環として、電子メールはデータストア (MongoDB と AmazonOpenSearch) に保存されました Amazon シンプルストレージサービス（Amazon S3）。

データ前処理

データの前処理ステージでは、顧客の電子メールから HTML タグを削除し、複数のクリーニングとサニタイズステップを経て不正な HTML を検出することで、トレーニングと推論のワークフロー用にデータセットをクリーンアップします。このプロセスには、ハグフェイストークナイザーとトランスフォーマー。クレンジングプロセスが完了すると、トレーニングに必要な追加のカスタムトークンが出力データセットに追加されます。

前処理段階で、Lambda 関数はカスタム Docker イメージを呼び出します。このイメージは、Python 3.8 スリムベースで構成されています。 AWS Lambda Python ランタイムインターフェイスクライアント、および次のような依存関係 NumPy & パンダ。カスタム Docker イメージは次の場所に保存されます。 Amazon エラスティックコンテナレジストリ (Amazon ECR) をデプロイするために CI/CD パイプラインを通じて供給されます。デプロイされた Lambda 関数はデータをサンプリングして、分類子ごとに XNUMX つの異なるデータセットを生成します。

トレーニング – 実際のトレーニングプロセスに使用されます
検証 – TensorFlow トレーニングプロセス中の検証に使用されます
ホイール試乗 – メトリクスモデルの比較のためにトレーニングプロセスの終わりに使用されます。

生成された出力データセットは Pandas pickle ファイルであり、トレーニング段階で使用されるために Amazon S3 に保存されます。

トレーニング

Kustomer のカスタムトレーニングイメージは TensorFlow 2.7 GPU に最適化された Docker を利用しています画像ベースとして。カスタムコード、依存関係、およびベースモデルは、カスタム Docker トレーニングイメージが ECR にアップロードされる前に組み込まれます。 P3 インスタンスタイプはトレーニングプロセスに使用され、GPU に最適化されたベースイメージを使用すると、トレーニングプロセスを可能な限り効率的に行うことができます。 Amazon SageMaker はこのカスタム Docker イメージとともに使用され、TensorFlow モデルをトレーニングし、S3 に保存されます。カスタムメトリクスも計算され、保存され、モデルの比較や自動再トレーニングなどの追加機能に役立ちます。トレーニング段階が完了すると、AI ワーカーに通知が届き、企業顧客は導入ワークフローを開始できるようになります。

展開

デプロイメントワークフローでは、TensorFlow サービングベースイメージ (高速推論用に特別に構築されたもの) を使用して、カスタム Docker 推論イメージが作成されます。推論前の入力のフォーマットとクリーニングなどの追加機能を提供するために、numPy、Pandas、カスタム NL などの追加のコードと依存関係が含まれています。 FastAPI もカスタムイメージの一部として含まれており、推論とヘルスチェック用の REST API エンドポイントを提供するために使用されます。次に、SageMaker は、推論イメージとともに S3 に保存された TensorFlow モデルをコンピューティングが最適化された ml.c5 AWS インスタンスにデプロイして、高性能の推論エンドポイントを生成するように構成されます。各エンドポイントは、単一の顧客がモデルとデータを分離するために使用するために作成されます。

推論

導入ワークフローが完了すると、推論ワークフローが引き継ぎます。最初に受信するすべてのサポート電子メールは、その顧客に固有のデプロイされた分類子の推論 API を介して渡されます。次に、展開された分類子はこれらの各電子メールに対してテキスト分類を実行し、それぞれが顧客用の分類ラベルを生成します。

可能な機能強化とカスタマイズ

Kustomer は、次の機能強化によりソリューションを拡張することを検討しています。

顔のDLCを抱き締める – Kustomer は現在、データ前処理段階で TensorFlow のベース Docker イメージを使用しており、次のバージョンに移行する予定です。ハグフェイスディープラーニングコンテナ（DLC）。これにより、トレーニング環境を最初から構築して最適化する複雑なプロセスを省略して、モデルのトレーニングをすぐに開始できます。詳細については、「」を参照してください。 AmazonSageMakerで顔を抱き締める.
フィードバックループ – アクティブラーニングまたは強化学習手法を使用してフィードバックループを実装し、モデルの全体的な効率を向上させることができます。
他の社内システムとの統合 – Kustomer は、テキスト分類を Smart Suggestions などの他のシステムと統合する機能を望んでいます。Smart Suggestions は、何百ものショートカットを調べて、顧客のクエリに最も関連性の高いショートカットを提案する別の Kustomer IQ サービスであり、エージェントの応答時間とパフォーマンスを向上させます。

まとめ

この投稿では、Kustomer が SageMaker のトレーニングと推論にカスタム Docker イメージを使用して、統合を容易にし、プロセスを合理化する方法について説明しました。 Kustomer がカスタム Docker イメージを使用して Lambda と SageMaker を活用し、前処理および後処理ワークフローによるテキスト分類プロセスの実装を支援する方法を実証しました。これにより、モデルの作成、トレーニング、推論に大きな画像を使用する柔軟性が得られます。 Lambda のコンテナイメージのサポートにより、関数をさらにカスタマイズできるようになり、サーバーレス ML の多くの新しいユースケースが開かれます。このソリューションは、SageMaker、Lambda、Docker イメージ、Amazon ECR、Amazon ECS、Amazon SQS、Amazon S3 などのいくつかの AWS サービスを利用します。

Kustomer についてさらに詳しく知りたい場合は、次のサイトにアクセスすることをお勧めします。カスタマーウェブサイトそして彼らのケーススタディ。

クリックこちら Amazon SageMaker を使って旅を始めましょう。実際の体験については、Amazon SageMaker を参照してください。ワークショップ。

著者について

ウメッシュ・カラスプルカル は、ニューヨークを拠点とする AWS のソリューションアーキテクトです。彼は、企業や新興企業にわたるデジタルイノベーションと変革プロジェクトの設計と実施において 20 年以上の経験を持っています。彼のモチベーションは、顧客が課題を特定して克服できるよう支援することにあります。仕事以外では、ウメッシュは父親であること、スキー、旅行を楽しんでいます。

イアン・ランツィー Kustomer のシニアソフトウェア & 機械学習エンジニアであり、機械学習の研究タスクを取得して実稼働サービスに変換することを専門としています。

プラサドシェティ ボストンを拠点とする AWS のソリューションアーキテクトです。彼は 20 年以上にわたり、ソフトウェア製品を構築し、企業全体の製品とサービスの最新化とデジタル革新を主導してきました。彼は、クラウド戦略と導入を推進し、テクノロジーを活用して優れた顧客エクスペリエンスを生み出すことに情熱を注いでいます。プラサドさんは余暇にはサイクリングや旅行を楽しんでいます。