Comment Getir a réduit la durée de formation des modèles de 90 % avec Amazon SageMaker et AWS Batch | Services Web Amazon

Comment Getir a réduit la durée de formation des modèles de 90 % avec Amazon SageMaker et AWS Batch | Services Web Amazon

Il s'agit d'un article invité co-écrit par Nafi Ahmet Turgut, Hasan Burak Yel et Damla Şentürk de Getir.

Établi en 2015, apporté se positionne comme le pionnier dans le domaine de la livraison ultrarapide de courses. Cette entreprise technologique innovante a révolutionné le segment de la livraison du dernier kilomètre avec son offre convaincante de « courses en quelques minutes ». Avec une présence en Turquie, au Royaume-Uni, aux Pays-Bas, en Allemagne et aux États-Unis, Getir est devenue une force multinationale avec laquelle il faut compter. Aujourd'hui, la marque Getir représente un conglomérat diversifié englobant neuf secteurs verticaux différents, tous travaillant en synergie sous un même toit.

Dans cet article, nous expliquons comment nous avons construit un pipeline de prédiction de catégories de produits de bout en bout pour aider les équipes commerciales en utilisant Amazon Sage Maker et les Lot AWS, réduisant la durée de formation du modèle de 90 %.

Comprendre notre assortiment de produits existant de manière détaillée est un défi crucial auquel nous, ainsi que de nombreuses entreprises, sommes confrontés sur le marché concurrentiel et en évolution rapide d'aujourd'hui. Une solution efficace à ce problème est la prédiction des catégories de produits. Un modèle qui génère une arborescence de catégories complète permet à nos équipes commerciales de comparer notre portefeuille de produits existant à celui de nos concurrents, offrant ainsi un avantage stratégique. Par conséquent, notre principal défi est la création et la mise en œuvre d’un modèle de prédiction précis des catégories de produits.

Nous avons capitalisé sur les outils puissants fournis par AWS pour relever ce défi et naviguer efficacement dans le domaine complexe de l'apprentissage automatique (ML) et de l'analyse prédictive. Nos efforts ont conduit à la création réussie d'un pipeline de prédiction de catégories de produits de bout en bout, qui combine les atouts de SageMaker et d'AWS Batch.

Cette capacité d’analyse prédictive, en particulier la prévision précise des catégories de produits, s’est avérée inestimable. Il a fourni à nos équipes des informations critiques basées sur des données qui ont optimisé la gestion des stocks, amélioré les interactions avec les clients et renforcé notre présence sur le marché.

La méthodologie que nous expliquons dans cet article s'étend de la phase initiale de collecte de l'ensemble de fonctionnalités à la mise en œuvre finale du pipeline de prédiction. Un aspect important de notre stratégie a été l'utilisation de SageMaker et AWS Batch pour affiner les modèles BERT pré-entraînés pour sept langues différentes. De plus, notre intégration transparente avec le service de stockage d'objets d'AWS Service de stockage simple Amazon (Amazon S3) a été essentiel pour stocker et accéder efficacement à ces modèles raffinés.

SageMaker est un service ML entièrement géré. Avec SageMaker, les data scientists et les développeurs peuvent créer et former rapidement et sans effort des modèles ML, puis les déployer directement dans un environnement hébergé prêt pour la production.

En tant que service entièrement géré, AWS Batch vous aide à exécuter des charges de travail de calcul par lots de toute échelle. AWS Batch provisionne automatiquement les ressources de calcul et optimise la répartition de la charge de travail en fonction de la quantité et de l'échelle des charges de travail. Avec AWS Batch, il n'est pas nécessaire d'installer ou de gérer un logiciel de calcul par lots, vous pouvez donc consacrer votre temps à l'analyse des résultats et à la résolution des problèmes. Nous avons utilisé des tâches GPU qui nous aident à exécuter des tâches utilisant les GPU d'une instance.

Présentation de la solution

Cinq personnes de l'équipe de science des données et de l'équipe d'infrastructure de Getir ont travaillé ensemble sur ce projet. Le projet a été achevé en un mois et déployé en production après une semaine de tests.

Le schéma suivant montre l'architecture de la solution.

Comment Getir a réduit la durée de formation des modèles de 90 % avec Amazon SageMaker et AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Le pipeline modèle est exécuté séparément pour chaque pays. L'architecture comprend deux tâches cron GPU AWS Batch pour chaque pays, exécutées selon des calendriers définis.

Nous avons surmonté certains défis en déployant stratégiquement les ressources GPU SageMaker et AWS Batch. Le processus utilisé pour résoudre chaque difficulté est détaillé dans les sections suivantes.

Affiner les modèles BERT multilingues avec les tâches GPU AWS Batch

Nous recherchions une solution permettant de prendre en charge plusieurs langues pour notre base d'utilisateurs diversifiée. Les modèles BERT étaient un choix évident en raison de leur capacité établie à gérer efficacement des tâches complexes en langage naturel. Afin d'adapter ces modèles à nos besoins, nous avons exploité la puissance d'AWS en utilisant des tâches d'instance GPU à nœud unique. Cela nous a permis d'affiner les modèles BERT pré-entraînés pour chacune des sept langues pour lesquelles nous avions besoin d'une prise en charge. Grâce à cette méthode, nous avons garanti une grande précision dans la prévision des catégories de produits, en surmontant les éventuelles barrières linguistiques.

Stockage de modèles efficace à l'aide d'Amazon S3

Notre prochaine étape consistait à aborder le stockage et la gestion des modèles. Pour cela, nous avons sélectionné Amazon S3, connu pour son évolutivité et sa sécurité. Le stockage de nos modèles BERT affinés sur Amazon S3 nous a permis de fournir un accès facile aux différentes équipes au sein de notre organisation, rationalisant ainsi considérablement notre processus de déploiement. Il s’agissait d’un aspect crucial pour parvenir à l’agilité de nos opérations et à une intégration transparente de nos efforts de ML.

Créer un pipeline de prédiction de bout en bout

Un pipeline efficace était nécessaire pour tirer le meilleur parti de nos modèles pré-entraînés. Nous avons d'abord déployé ces modèles sur SageMaker, une action qui a permis d'effectuer des prédictions en temps réel avec une faible latence, améliorant ainsi notre expérience utilisateur. Pour les prédictions par lots à plus grande échelle, qui étaient tout aussi vitales pour nos opérations, nous avons utilisé les tâches GPU AWS Batch. Cela a garanti une utilisation optimale de nos ressources, nous offrant un équilibre parfait entre performance et efficacité.

Explorer les possibilités futures avec les MME SageMaker

Alors que nous continuons d'évoluer et de rechercher des gains d'efficacité dans notre pipeline ML, une voie que nous souhaitons explorer consiste à utiliser les points de terminaison multimodèles (MME) SageMaker pour déployer nos modèles affinés. Avec les MME, nous pouvons potentiellement rationaliser le déploiement de divers modèles affinés, garantissant une gestion efficace des modèles tout en bénéficiant des capacités natives de SageMaker telles que les variantes fantômes, la mise à l'échelle automatique et Amazon Cloud Watch l'intégration. Cette exploration s'inscrit dans notre quête continue d'amélioration de nos capacités d'analyse prédictive et de fourniture d'expériences supérieures à nos clients.

Conclusion

Notre intégration réussie de SageMaker et AWS Batch a non seulement répondu à nos défis spécifiques, mais a également considérablement amélioré notre efficacité opérationnelle. Grâce à la mise en œuvre d'un pipeline sophistiqué de prédiction de catégories de produits, nous sommes en mesure de doter nos équipes commerciales d'informations basées sur les données, facilitant ainsi une prise de décision plus efficace.

Nos résultats en disent long sur l’efficacité de notre approche. Nous avons atteint une précision de prévision de 80 % sur les quatre niveaux de granularité des catégories, ce qui joue un rôle important dans l'élaboration des assortiments de produits pour chaque pays que nous servons. Ce niveau de précision étend notre portée au-delà des barrières linguistiques et garantit que nous répondons à notre base d'utilisateurs diversifiée avec la plus grande précision.

De plus, en utilisant stratégiquement les tâches GPU AWS Batch planifiées, nous avons pu réduire la durée de formation de nos modèles de 90 %. Cette efficacité a encore rationalisé nos processus et renforcé notre agilité opérationnelle. Le stockage efficace des modèles à l'aide d'Amazon S3 a joué un rôle essentiel dans cette réussite, en équilibrant les prédictions en temps réel et par lots.

Pour plus d'informations sur la façon de commencer à créer vos propres pipelines ML avec SageMaker, consultez Ressources Amazon SageMaker. AWS Batch est une excellente option si vous recherchez une solution peu coûteuse et évolutive pour exécuter des tâches par lots avec une faible surcharge opérationnelle. Pour commencer, voir Premiers pas avec AWS Batch.


À propos des auteurs

Comment Getir a réduit la durée de formation des modèles de 90 % avec Amazon SageMaker et AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Nafi Ahmet Turgut a terminé sa maîtrise en génie électrique et électronique et a travaillé comme chercheur scientifique diplômé. Son objectif était de créer des algorithmes d’apprentissage automatique pour simuler les anomalies du réseau nerveux. Il a rejoint Getir en 2019 et travaille actuellement en tant que responsable senior de la science des données et de l'analyse. Son équipe est responsable de la conception, de la mise en œuvre et de la maintenance d'algorithmes d'apprentissage automatique de bout en bout et de solutions basées sur les données pour Getir.

Comment Getir a réduit la durée de formation des modèles de 90 % avec Amazon SageMaker et AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Hassan Burak Yel a obtenu son baccalauréat en génie électrique et électronique à l'Université de Boğaziçi. Il a travaillé chez Turkcell, principalement axé sur la prévision de séries chronologiques, la visualisation de données et l'automatisation des réseaux. Il a rejoint Getir en 2021 et travaille actuellement en tant que responsable de la science des données et de l'analyse avec la responsabilité des domaines de recherche, de recommandation et de croissance.

Comment Getir a réduit la durée de formation des modèles de 90 % avec Amazon SageMaker et AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Damla Sentürk a obtenu son baccalauréat en génie informatique à l'Université de Galatasaray. Elle poursuit sa maîtrise en génie informatique à l'Université de Boğaziçi. Elle a rejoint Getir en 2022 et travaille en tant que Data Scientist. Elle a travaillé sur des projets commerciaux, de chaîne d'approvisionnement et liés à la découverte.

Comment Getir a réduit la durée de formation des modèles de 90 % avec Amazon SageMaker et AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Esra Kayabali est un architecte de solutions senior chez AWS, spécialisé dans le domaine de l'analyse, y compris l'entreposage de données, les lacs de données, l'analyse du Big Data, le streaming de données par lots et en temps réel et l'intégration de données. Elle possède 12 ans d’expérience en développement de logiciels et en architecture. Elle est passionnée par l'apprentissage et l'enseignement des technologies cloud.

Horodatage:

Plus de Apprentissage automatique AWS