この投稿は、BigBasket の Santosh Waddi と Nanda Kishore Thatikonda の共同執筆です。
ビッグバスケット はインド最大のオンライン食品および食料品店です。クイック コマース、スロット配信、毎日のサブスクリプションなど、複数の e コマース チャネルで運営されています。実店舗や自動販売機でもお買い求めいただけます。 50,000 のブランド、1,000 を超える製品という幅広い品揃えを提供し、500 以上の都市や町で事業を展開しています。 BigBasket は 10 万人以上の顧客にサービスを提供しています。
この投稿では、BigBasket がどのように使用されたかについて説明します。 アマゾンセージメーカー 日用消費財 (FMCG) 製品識別用のコンピューター ビジョン モデルをトレーニングすることで、トレーニング時間を約 50% 削減し、コストを 20% 節約することができました。
お客様の課題
現在、インドのほとんどのスーパーマーケットや実店舗では、レジカウンターでの手動チェックアウトが提供されています。これには 2 つの問題があります。
- 規模が拡大するにつれて、追加の人員、重量シール、店舗運営チームの繰り返しのトレーニングが必要になります。
- ほとんどの店舗では、チェックアウト カウンターと計量カウンターが異なるため、顧客の購入までの過程で摩擦が生じます。顧客は多くの場合、重量ステッカーを紛失してしまい、精算プロセスに進む前に計量カウンターに戻ってステッカーを再度受け取ります。
セルフレジの流れ
BigBasket は、カメラを使用して商品を独自に区別する AI を活用したチェックアウト システムを実店舗に導入しました。次の図は、チェックアウト プロセスの概要を示しています。
BigBasket チームは、コンピューター ビジョンのオブジェクト認識用のオープンソースの社内 ML アルゴリズムを実行して、AI 対応のチェックアウトを強化していました。 フレショ (物理的な)店舗。既存のセットアップを運用するには次の課題に直面していました。
- 新製品が継続的に導入されるため、コンピューター ビジョン モデルには新製品情報を継続的に組み込む必要がありました。このシステムは、12,000 以上の在庫管理単位 (SKU) からなる大規模なカタログを処理する必要があり、新しい SKU は毎月 600 以上のペースで継続的に追加されていました。
- 新製品に対応するために、最新のトレーニング データを使用して新しいモデルが毎月作成されました。新製品に適応するためにモデルを頻繁にトレーニングするにはコストと時間がかかりました。
- BigBasket は、市場投入までの時間を短縮するためにトレーニング サイクル時間を短縮したいと考えていました。 SKU の増加により、モデルにかかる時間は直線的に増加しており、トレーニングの頻度が非常に高く、長い時間がかかるため、市場投入までの時間に影響を及ぼしました。
- モデルのトレーニングのためのデータ拡張と、完全なエンドツーエンドのトレーニング サイクルを手動で管理することにより、大幅なオーバーヘッドが追加されていました。 BigBasket はこれをサードパーティのプラットフォームで実行していましたが、これには多大なコストがかかりました。
ソリューションの概要
これらの課題に対処するために、BigBasket に対し、SageMaker を使用して既存の日用消費財製品の検出および分類ソリューションを再構築することを推奨しました。 BigBasket は、本格的な運用に移行する前に、パフォーマンス、コスト、利便性の指標を評価するために SageMaker でパイロットを試みました。
彼らの目的は、SKU 検出のために既存のコンピューター ビジョン機械学習 (ML) モデルを微調整することでした。畳み込みニューラル ネットワーク (CNN) アーキテクチャを使用しました。 レスネット152 画像分類用。 SKU あたり約 300 枚の画像からなる大規模なデータセットがモデル トレーニング用に推定され、合計 4 万枚を超えるトレーニング画像が生成されました。特定の SKU については、より広範囲の環境条件を網羅するためにデータを増強しました。
次の図は、ソリューションのアーキテクチャを示しています。
完全なプロセスは、次の高レベルの手順に要約できます。
- データのクレンジング、注釈、および拡張を実行します。
- データを Amazon シンプル ストレージ サービス (Amazon S3)バケット。
- SageMaker を使用して、 光沢のためのAmazonFSx 効率的なデータ増強のために。
- データをトレーニング セット、検証セット、テスト セットに分割します。 Lustre には FSx を使用し、 Amazon リレーショナル データベース サービス (Amazon RDS) による高速並列データ アクセス。
- カスタムを使用する パイトーチ 他のオープンソース ライブラリを含む Docker コンテナ。
- SageMaker 分散データ並列処理 (SMDDP) 分散トレーニングを加速します。
- モデルのトレーニング メトリクスをログに記録します。
- 最終モデルを S3 バケットにコピーします。
ビッグバスケット使用 SageMaker ノートブック ML モデルをトレーニングし、既存のオープンソース PyTorch やその他のオープンソースの依存関係を SageMaker PyTorch コンテナに簡単に移植して、パイプラインをシームレスに実行することができました。これは、BigBasket チームが認識した最初の利点でした。SageMaker 環境での実行に互換性を持たせるためにコードに必要な変更がほとんどなかったためです。
モデル ネットワークは、ResNet 152 アーキテクチャとそれに続く完全に接続された層で構成されます。低レベルのフィーチャ レイヤーをフリーズし、ImageNet モデルからの転移学習を通じて取得した重みを保持しました。モデル パラメーターの合計は 66 万で、トレーニング可能なパラメーターは 23 万で構成されています。この転移学習ベースのアプローチにより、トレーニング時に使用する画像が減り、より高速な収束が可能になり、総トレーニング時間も短縮されました。
モデルの構築とトレーニング Amazon SageMakerスタジオ モデルの準備、構築、トレーニング、調整に必要なものすべてを備えた統合開発環境 (IDE) を提供しました。画像のトリミング、回転、反転などの手法を使用してトレーニング データを拡張すると、モデルのトレーニング データとモデルの精度が向上します。
AWS インフラストラクチャ向けに特別に設計された最適化された通信アルゴリズムを含む SMDDP ライブラリの使用により、モデルのトレーニングが 50% 高速化されました。モデルのトレーニングおよびデータ拡張中のデータの読み取り/書き込みパフォーマンスを向上させるために、高パフォーマンスのスループットを実現する FSx for Lustre を使用しました。
開始時のトレーニング データ サイズは 1.5 TB を超えていました。うちは2つ使いました アマゾン エラスティック コンピューティング クラウド (Amazon EC2) p4d.24 ラージ インスタンス 8 GPU と 40 GB GPU メモリを搭載。 SageMaker 分散トレーニングの場合、インスタンスは同じ AWS リージョンとアベイラビリティーゾーンにある必要があります。また、S3 バケットに保存されているトレーニング データは、同じアベイラビリティーゾーンに存在する必要があります。このアーキテクチャでは、BigBasket が他のインスタンス タイプに変更したり、現在のアーキテクチャにインスタンスを追加したりして、大幅なデータ増加に対応したり、トレーニング時間のさらなる短縮を実現したりすることもできます。
SMDDP ライブラリがトレーニング時間、コスト、複雑さを軽減するのにどのように役立ったか
従来の分散データ トレーニングでは、トレーニング フレームワークが GPU (ワーカー) にランクを割り当て、各 GPU 上にモデルのレプリカを作成します。各トレーニング反復中に、グローバル データ バッチが部分 (バッチ シャード) に分割され、その部分が各ワーカーに配布されます。次に、各ワーカーは、各 GPU 上のトレーニング スクリプトで定義された前方パスと後方パスを続行します。最後に、さまざまなモデル レプリカからのモデルの重みと勾配は、AllReduce と呼ばれる集合通信操作を通じて反復の最後に同期されます。各ワーカーと GPU がモデルの同期されたレプリカを取得した後、次の反復が開始されます。
SMDDP ライブラリは、この分散データ並列トレーニング プロセスのパフォーマンスを向上させる集合通信ライブラリです。 SMDDP ライブラリは、AllReduce などの主要な集合通信操作の通信オーバーヘッドを削減します。 AllReduce の実装は AWS インフラストラクチャ向けに設計されており、AllReduce 操作をバックワード パスとオーバーラップさせることでトレーニングを高速化できます。このアプローチは、CPU と GPU 間のカーネル操作を最適化することで、ほぼ線形のスケーリング効率とより高速なトレーニング速度を実現します。
次の計算に注意してください。
- グローバル バッチのサイズは、(クラスター内のノード数) * (ノードあたりの GPU の数) * (バッチ シャードあたり) です。
- バッチ シャード (小さなバッチ) は、反復ごとに各 GPU (ワーカー) に割り当てられるデータセットのサブセットです。
BigBasket は、SMDDP ライブラリを使用して全体のトレーニング時間を短縮しました。 FSx for Lustre を使用すると、モデルのトレーニングとデータ拡張中のデータの読み取り/書き込みスループットが削減されました。データ並列処理により、BigBasket は他の代替手段と比較してほぼ 50% 高速かつ 20% 安価なトレーニングを達成することができ、AWS で最高のパフォーマンスを実現しました。 SageMaker は、完了後にトレーニング パイプラインを自動的にシャットダウンします。 AWS ではトレーニング時間が 50% 短縮され、プロジェクトは正常に完了しました (AWS では 4.5 日、従来のプラットフォームでは 9 日)。
この記事の執筆時点で、BigBasket は完全なソリューションを実稼働環境で 6 か月以上実行し、新しい都市に対応してシステムを拡張しており、毎月新しい店舗を追加しています。
「SMDDP サービスを使用した分散トレーニングへの移行に関する AWS とのパートナーシップは大きな成功を収めました。トレーニング時間が 50% 削減されただけでなく、20% 安くなりました。私たちのパートナーシップ全体において、AWS は顧客のこだわりと結果の提供に基準を設け、約束されたメリットを実現するために私たちと協力してきました。」
– BigBasket エンジニアリング責任者 Keshav Kumar 氏。
まとめ
この投稿では、BigBasket が SageMaker を使用して日用消費財製品識別用のコンピューター ビジョン モデルをトレーニングした方法について説明しました。 AI を活用した自動セルフ チェックアウト システムの導入により、イノベーションを通じて小売顧客のエクスペリエンスが向上し、同時にチェックアウト プロセスにおける人的ミスが排除されます。 SageMaker 分散トレーニングを使用して新製品のオンボーディングを加速すると、SKU のオンボーディングの時間とコストが削減されます。 FSx for Lustre を統合すると、高速な並列データ アクセスが可能になり、毎月数百もの新しい SKU を使用して効率的にモデルを再トレーニングできます。全体として、この AI ベースのセルフ チェックアウト ソリューションは、フロントエンド チェックアウト エラーのない強化されたショッピング エクスペリエンスを提供します。自動化とイノベーションにより、小売店のチェックアウトとオンボーディング業務が変革されました。
SageMaker は、コードの作成、データ取得、データタグ付け、モデルトレーニング、モデルチューニング、デプロイメント、モニタリングなどのための SageMaker Studio ノートブック環境など、エンドツーエンドの ML 開発、デプロイメント、モニタリング機能を提供します。あなたのビジネスがこの投稿で説明したいずれかの課題に直面しており、市場投入までの時間を節約してコストを改善したい場合は、お住まいの地域の AWS アカウント チームに連絡して、SageMaker の使用を開始してください。
著者について
サントシュ・ワディ BigBasket の主任エンジニアであり、AI の課題解決に 10 年以上の専門知識をもたらしています。コンピューター ビジョン、データ サイエンス、ディープ ラーニングの強力な背景を持ち、IIT ボンベイで大学院の学位を取得しています。 Santosh は、著名な IEEE 出版物を執筆しており、ベテランの技術ブログ著者として、Samsung 在職中にコンピュータ ビジョン ソリューションの開発にも多大な貢献をしてきました。
ナンダ・キショア・タティコンダ BigBasket でデータ エンジニアリングと分析を率いるエンジニアリング マネージャーです。 Nanda は異常検出用の複数のアプリケーションを構築しており、同様の分野で特許を申請しています。彼は、エンタープライズ グレードのアプリケーションの構築、複数の組織でのデータ プラットフォームの構築、およびデータに裏付けられた意思決定を合理化するためのレポート プラットフォームに取り組んできました。 Nanda は、Java/J18EE、Spring テクノロジ、および Hadoop と Apache Spark を使用したビッグ データ フレームワークで 2 年以上の経験があります。
スダンシュ・ヘイト は AWS のプリンシパル AI & ML スペシャリストであり、クライアントと連携して MLOps と生成 AI の取り組みについてアドバイスを行っています。前職では、オープン ソース ベースの AI およびゲーミフィケーション プラットフォームを基礎から構築するためにチームを概念化し、作成し、主導し、100 を超えるクライアントで商用化に成功しました。 Sudhanshu はいくつかの特許を取得しています。 2 冊の本、いくつかの論文、ブログを執筆しています。そしてさまざまなフォーラムで彼の見解を発表しました。彼は思想的リーダーであり講演者でもあり、この業界に 25 年近く携わっています。彼は世界中のフォーチュン 1000 のクライアントと仕事をしてきましたが、最近ではインドのデジタル ネイティブのクライアントと仕事をしています。
アユシュ・クマール AWS のソリューションアーキテクトです。彼はさまざまな AWS 顧客と協力し、顧客が最新の最新アプリケーションを導入し、クラウドネイティブ テクノロジーでより迅速に革新できるよう支援しています。彼が暇なときにキッチンで実験しているのがわかります。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/how-bigbasket-improved-ai-enabled-checkout-at-their-physical-stores-using-amazon-sagemaker/
- :持っている
- :は
- :not
- 10万ドル
- $UP
- 000
- 1
- 10
- 100
- 12
- 120
- 13
- 152
- 23
- 24
- 25
- 300
- 40
- 50
- 500
- 600
- 66
- 7
- 8
- 80
- 9
- 98
- a
- できる
- 加速された
- 加速している
- アクセス
- 精度
- 達成する
- 達成する
- 取得
- 買収
- 越えて
- 適応する
- 加えます
- 追加されました
- 追加
- NEW
- 住所
- 追加
- 採用
- アドバイス
- 後
- 再び
- AI
- AI電源
- アルゴリズム
- ことができます
- ほとんど
- また
- 選択肢
- Amazon
- Amazon EC2
- アマゾンRDS
- アマゾンセージメーカー
- Amazon Webサービス
- an
- 分析論
- および
- 異常検出
- どれか
- アパッチ
- アプローチ
- 約
- 建築
- です
- 周りに
- AS
- 割り当てられた
- 品揃え
- At
- 増強された
- 著者
- 執筆者
- 自動化
- 自動的に
- オートメーション
- 賃貸条件の詳細・契約費用のお見積り等について
- AWS
- バック
- 支持された
- 背景
- バー
- BE
- なぜなら
- き
- 始まります
- さ
- 恩恵
- 利点
- BEST
- の間に
- ビッグ
- ビッグデータ
- ブログ
- ブログ
- 本
- ブランド
- もたらす
- より広い
- ビルド
- 建物
- 内蔵
- ビジネス
- 購入
- by
- 計算
- 呼ばれます
- カメラ
- 缶
- 機能
- カタログ
- 応じます
- ケータリング
- 一定
- 課題
- 変化する
- 変更
- チャンネル
- 安い
- 注文
- 都市
- 分類
- クライアント
- クラスタ
- CNN
- コード
- 収集する
- 集団
- 貿易
- コミュニケーション
- 比べ
- 互換性のあります
- コンプリート
- 記入済みの
- 計算
- コンピュータ
- Computer Vision
- 条件
- 交流
- からなる
- からなる
- consumer
- 消費する
- コンテナ
- 継続的に
- 連続的な
- 連続的に
- 貢献
- 利便性
- 収束
- 費用
- 高額で
- コスト
- カウンター
- カウンター
- カップル
- 作成した
- 作成します。
- クレジット
- 電流プローブ
- カスタム
- 顧客
- 顧客満足体験
- Customers
- カット
- サイクル
- daily
- データ
- データアクセス
- データサイエンス
- データベース
- 日
- 十年
- 決定
- 深いです
- 深い学習
- 定義済みの
- 度
- 配信する
- 提供します
- 配達
- 依存関係
- 展開
- 記載された
- 設計
- 検出
- 開発
- ダイアグラム
- DID
- 異なります
- デジタル
- 話し合います
- 議論する
- 見分けます
- 配布
- 分散トレーニング
- 分割された
- デッカー
- ダウン
- 原因
- 間に
- 各
- 簡単に
- eコマース
- 効率
- 効率的な
- 排除
- 使用可能
- 可能
- 含む
- end
- 端から端まで
- エンジニア
- エンジニアリング
- 強化された
- エンタープライズグレード
- 全体
- 環境
- 環境の
- エラー
- 推定
- 評価する
- あらゆる
- すべてのもの
- 既存の
- 体験
- 実験中
- 専門知識
- 向い
- スピーディー
- 動きの速い
- 速いです
- 特徴
- より少ない
- フィギュア
- 提出
- ファイナル
- 最後に
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- fmcg
- 続いて
- フォロー中
- フード
- フォーチュン
- フォーラム
- フォワード
- フレームワーク
- フレームワーク
- 周波数
- 頻繁に
- 摩擦
- から
- フロントエンド
- 本格的
- 完全に
- さらに
- ゲーミフィケーション
- 生々しい
- 生成AI
- 取得する
- グローバル
- 世界
- Go
- 商品
- GPU
- GPU
- 勾配
- 素晴らしい
- 成長性
- ハンドル
- 持ってる
- he
- 助けました
- 助け
- ハイ
- ハイレベル
- ハイパフォーマンス
- 彼に
- 彼の
- 保持している
- 認定条件
- HTML
- HTTP
- HTTPS
- 人間
- 何百
- 識別
- IEEE
- if
- 説明する
- 画像
- 画像分類
- 画像
- 影響を受けた
- 実装
- 改善します
- 改善されました
- 向上させる
- in
- ストア内
- 含ま
- 含めて
- 組み込む
- 増加
- の増加
- 発生した
- インド
- 産業を変えます
- 情報
- インフラ
- 革新します
- 革新的手法
- 統合された
- 統合
- に
- 導入
- 概要
- 問題
- IT
- リーディングシート
- 繰り返し
- ITS
- 旅
- JPG
- キープ
- 保管
- キー
- クマー
- 大
- 最大の
- 最新の
- 層
- リーダー
- 主要な
- 学習
- ツェッペリン
- Legacy
- ライブラリ
- 図書館
- ような
- 長い
- 長い時間
- 失う
- 機械
- 機械学習
- マシン
- 製
- make
- マネージャー
- 管理する
- マニュアル
- 手動で
- 市場
- メモリ
- メトリック
- 移行
- 百万
- ML
- MLOps
- モデル
- モダン
- モニタリング
- 月
- monthly
- ヶ月
- 他には?
- 最も
- 移動する
- ずっと
- の試合に
- ネイティブ
- ほぼ
- 必要
- 必要とされる
- ニーズ
- ネットワーク
- ニューラル
- ニューラルネットワーク
- 新作
- 新製品
- 新製品
- 次の
- ノード
- 注目すべき
- ノート
- 数
- オブジェクト
- 客観
- of
- 提供
- 提供すること
- 頻繁に
- on
- 新人研修
- ONE
- オンライン
- の
- 開いた
- オープンソース
- 操作する
- オペレーティング
- 操作
- オペレーショナル
- 業務執行統括
- 最適化
- 最適化
- or
- 組織
- その他
- 私たちの
- でる
- が
- 全体
- オーバーヘッド
- 概要
- 平和
- 論文
- 並列シミュレーションの設定
- パラメータ
- パートナーシップ
- パス
- 特許
- 特許
- 以下のために
- パフォーマンス
- 物理的な
- ピース
- ピース
- パイロット
- パイプライン
- プラットフォーム
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- 視点
- ポスト
- 大学院生
- 電力
- 準備
- PLM platform.
- 前
- 校長
- 進む
- プロセス
- 生産された
- プロダクト
- 製品情報
- 生産
- 製品
- プロジェクト
- 約束された
- 提供します
- 提供
- は、大阪で
- 出版物
- 購入
- パイトーチ
- クイック
- 範囲
- ランク
- レート
- リーチ
- 実現する
- 最近
- 認識
- 推奨される
- 減らします
- 電話代などの費用を削減
- 軽減
- 削減
- 地域
- 繰り返される
- 返信
- 各種レポート作成
- 必要
- 結果として
- 小売
- 職種
- ラン
- ランニング
- セージメーカー
- 同じ
- サムスン
- Save
- 規模
- スケーリング
- 科学
- スクリプト
- シームレス
- 味付け
- 見て
- 仕える
- サービス
- セッションに
- セット
- いくつかの
- ショッピング
- シャット
- 重要
- 同様の
- 簡単な拡張で
- かなりの
- サイズ
- 小さい
- 溶液
- ソリューション
- 解決
- ソース
- スペース
- スパーク
- スピーカー
- 専門家
- 特に
- スピード
- 春
- 開始
- 起動
- ステップ
- ステッカー
- 株式
- ストレージ利用料
- 店舗
- 保存され
- 店舗
- 流線
- 強い
- 研究
- サブスクリプション
- 首尾よく
- そのような
- 撮影
- チーム
- チーム
- テク
- テクニック
- テクノロジー
- test
- より
- それ
- アプリ環境に合わせて
- それら
- その後
- そこ。
- ボーマン
- 彼ら
- サードパーティ
- この
- 考え
- 介して
- スループット
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- 取った
- トータル
- 町
- 伝統的な
- トレーニング
- トレーニング
- 転送
- 変換
- 試み
- 曲
- チューニング
- 2
- 独特に
- ユニット
- us
- つかいます
- 中古
- 使用されます
- 多様
- さまざまな
- 非常に
- 詳しく見る
- ビジョン
- vs
- wanted
- 望んでいる
- ました
- 仕方..
- we
- ウェブ
- Webサービス
- 計量の
- 重量
- した
- which
- while
- 全体
- ワイド
- win
- 以内
- 働いていました
- ワーカー
- 労働者
- ワーキング
- 作品
- 書き込み
- 書かれた
- 年
- You
- あなたの
- ゼファーネット
- ゾーン