Hoe Getir de duur van modeltraining met 90% verkortte met Amazon SageMaker en AWS Batch | Amazon-webservices

Hoe Getir de duur van modeltraining met 90% verkortte met Amazon SageMaker en AWS Batch | Amazon-webservices

Dit is een gastpost mede geschreven door Nafi Ahmet Turgut, Hasan Burak Yel en Damla Şentürk van Getir.

Opgericht in 2015, bracht heeft zichzelf gepositioneerd als pionier op het gebied van ultrasnelle bezorging van boodschappen. Dit innovatieve technologiebedrijf heeft een revolutie teweeggebracht in het segment van de last-mile-bezorging met zijn aantrekkelijke aanbod van ‘boodschappen in enkele minuten’. Met een aanwezigheid in Turkije, Groot-Brittannië, Nederland, Duitsland en de Verenigde Staten is Getir een multinationale kracht geworden waarmee rekening moet worden gehouden. Tegenwoordig vertegenwoordigt het merk Getir een gediversifieerd conglomeraat dat negen verschillende branches omvat, die allemaal synergetisch samenwerken onder één enkele paraplu.

In dit bericht leggen we uit hoe we een end-to-end voorspellingspijplijn voor productcategorieën hebben gebouwd om commerciële teams te helpen bij het gebruik ervan Amazon Sage Maker en AWS-batch, waardoor de duur van de modeltraining met 90% wordt verkort.

Het gedetailleerd begrijpen van ons bestaande productassortiment is een cruciale uitdaging waarmee wij, samen met veel bedrijven, worden geconfronteerd in de snelle en concurrerende markt van vandaag. Een effectieve oplossing voor dit probleem is het voorspellen van productcategorieën. Een model dat een uitgebreide categorieboom genereert, stelt onze commerciële teams in staat onze bestaande productportfolio te vergelijken met die van onze concurrenten, wat een strategisch voordeel biedt. Daarom is onze centrale uitdaging het creëren en implementeren van een accuraat voorspellingsmodel voor productcategorieën.

We hebben geprofiteerd van de krachtige tools van AWS om deze uitdaging aan te pakken en effectief door het complexe veld van machine learning (ML) en voorspellende analyses te navigeren. Onze inspanningen hebben geleid tot de succesvolle creatie van een end-to-end voorspellingspijplijn voor productcategorieën, die de sterke punten van SageMaker en AWS Batch combineert.

Deze mogelijkheid van voorspellende analyses, met name de nauwkeurige voorspelling van productcategorieën, is van onschatbare waarde gebleken. Het voorzag onze teams van cruciale datagestuurde inzichten die het voorraadbeheer optimaliseerden, de klantinteracties verbeterden en onze aanwezigheid op de markt versterkten.

De methodologie die we in dit bericht uitleggen, varieert van de beginfase van het verzamelen van functiesets tot de uiteindelijke implementatie van de voorspellingspijplijn. Een belangrijk aspect van onze strategie was het gebruik van SageMaker en AWS Batch om vooraf getrainde BERT-modellen voor zeven verschillende talen te verfijnen. Daarnaast onze naadloze integratie met de objectopslagdienst van AWS Amazon eenvoudige opslagservice (Amazon S3) is van cruciaal belang geweest voor het efficiënt opslaan en toegankelijk maken van deze verfijnde modellen.

SageMaker is een volledig beheerde ML-service. Met SageMaker kunnen datawetenschappers en ontwikkelaars snel en moeiteloos ML-modellen bouwen en trainen, en deze vervolgens direct implementeren in een productieklare gehoste omgeving.

Als volledig beheerde service helpt AWS Batch u bij het uitvoeren van batchcomputerworkloads van elke schaal. AWS Batch voorziet automatisch in computerbronnen en optimaliseert de verdeling van de werklast op basis van de hoeveelheid en schaal van de werklast. Met AWS Batch hoeft u geen batchcomputersoftware te installeren of te beheren, zodat u uw tijd kunt richten op het analyseren van resultaten en het oplossen van problemen. We hebben GPU-taken gebruikt waarmee we taken kunnen uitvoeren die gebruikmaken van de GPU's van een instantie.

Overzicht van de oplossing

Vijf mensen uit het datawetenschapsteam en het infrastructuurteam van Getir werkten samen aan dit project. Het project werd binnen een maand voltooid en na een week testen in productie genomen.

Het volgende diagram toont de architectuur van de oplossing.

Hoe Getir de duur van modeltraining met 90% verkortte met Amazon SageMaker en AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

De modelpijplijn wordt voor elk land afzonderlijk uitgevoerd. De architectuur omvat twee AWS Batch GPU-cronjobs voor elk land, die volgens gedefinieerde schema's worden uitgevoerd.

We hebben een aantal uitdagingen overwonnen door het strategisch inzetten van SageMaker- en AWS Batch GPU-bronnen. Het proces dat wordt gebruikt om elk probleem aan te pakken, wordt in de volgende secties gedetailleerd beschreven.

Meertalige BERT-modellen verfijnen met AWS Batch GPU-taken

We zochten naar een oplossing om meerdere talen te ondersteunen voor ons diverse gebruikersbestand. BERT-modellen waren een voor de hand liggende keuze vanwege hun gevestigde vermogen om complexe natuurlijke taaltaken effectief af te handelen. Om deze modellen op onze behoeften af ​​te stemmen, hebben we de kracht van AWS benut door GPU-instantietaken met één knooppunt te gebruiken. Hierdoor konden we vooraf getrainde BERT-modellen verfijnen voor elk van de zeven talen waarvoor we ondersteuning nodig hadden. Via deze methode hebben we gezorgd voor een hoge nauwkeurigheid bij het voorspellen van productcategorieën, waardoor eventuele taalbarrières zijn overwonnen.

Efficiënte modelopslag met Amazon S3

Onze volgende stap was het aanpakken van modelopslag en -beheer. Hiervoor hebben we Amazon S3 geselecteerd, bekend om zijn schaalbaarheid en veiligheid. Door onze verfijnde BERT-modellen op Amazon S3 op te slaan, konden we gemakkelijk toegang bieden aan verschillende teams binnen onze organisatie, waardoor ons implementatieproces aanzienlijk werd gestroomlijnd. Dit was een cruciaal aspect bij het bereiken van flexibiliteit in onze activiteiten en een naadloze integratie van onze ML-inspanningen.

Een end-to-end voorspellingspijplijn maken

Er was een efficiënte pijplijn nodig om onze vooraf getrainde modellen optimaal te kunnen gebruiken. We hebben deze modellen eerst geïmplementeerd op SageMaker, een actie die realtime voorspellingen met lage latentie mogelijk maakte, waardoor onze gebruikerservaring werd verbeterd. Voor batchvoorspellingen op grotere schaal, die net zo belangrijk waren voor onze activiteiten, hebben we AWS Batch GPU-taken gebruikt. Dit zorgde voor een optimaal gebruik van onze middelen, waardoor we een perfecte balans kregen tussen prestaties en efficiëntie.

Toekomstige mogelijkheden verkennen met SageMaker MME's

Terwijl we blijven evolueren en zoeken naar efficiëntie in onze ML-pijplijn, willen we graag SageMaker multi-model endpoints (MME's) gebruiken voor het inzetten van onze verfijnde modellen. Met MME's kunnen we mogelijk de implementatie van verschillende nauwkeurig afgestemde modellen stroomlijnen, waardoor efficiënt modelbeheer wordt gegarandeerd en tegelijkertijd worden geprofiteerd van de native mogelijkheden van SageMaker, zoals schaduwvarianten, automatisch schalen en Amazon Cloud Watch integratie. Deze verkenning sluit aan bij ons voortdurende streven naar het verbeteren van onze voorspellende analysemogelijkheden en het bieden van superieure ervaringen aan onze klanten.

Conclusie

Onze succesvolle integratie van SageMaker en AWS Batch heeft niet alleen onze specifieke uitdagingen aangepakt, maar ook onze operationele efficiëntie aanzienlijk vergroot. Door de implementatie van een geavanceerde voorspellingspijplijn voor productcategorieën kunnen we onze commerciële teams voorzien van datagestuurde inzichten, waardoor effectievere besluitvorming mogelijk wordt gemaakt.

Onze resultaten spreken boekdelen over de effectiviteit van onze aanpak. We hebben een voorspellingsnauwkeurigheid van 80% bereikt op alle vier niveaus van categoriegranulariteit, wat een belangrijke rol speelt bij het vormgeven van het productassortiment voor elk land dat we bedienen. Dit niveau van precisie vergroot ons bereik voorbij de taalbarrières en zorgt ervoor dat we onze diverse gebruikersbasis met de grootst mogelijke nauwkeurigheid kunnen bedienen.

Bovendien hebben we, door strategisch gebruik te maken van geplande AWS Batch GPU-taken, de duur van onze modeltraining met 90% kunnen verkorten. Deze efficiëntie heeft onze processen verder gestroomlijnd en onze operationele flexibiliteit vergroot. Efficiënte modelopslag met behulp van Amazon S3 heeft een cruciale rol gespeeld in deze prestatie, waarbij zowel realtime als batchvoorspellingen in evenwicht zijn gebracht.

Zie voor meer informatie over hoe u aan de slag kunt gaan met het bouwen van uw eigen ML-pijplijnen met SageMaker Amazon SageMaker-bronnen. AWS Batch is een uitstekende optie als u op zoek bent naar een goedkope, schaalbare oplossing voor het uitvoeren van batchtaken met lage operationele overhead. Om te beginnen, zie Aan de slag met AWS Batch.


Over de auteurs

Hoe Getir de duur van modeltraining met 90% verkortte met Amazon SageMaker en AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Nafi Ahmet Turgut behaalde zijn masterdiploma in Electrical & Electronics Engineering en werkte als afgestudeerd wetenschappelijk onderzoeker. Zijn focus lag op het bouwen van machine learning-algoritmen om afwijkingen in het zenuwstelsel te simuleren. Hij kwam in 2019 bij Getir en werkt momenteel als Senior Data Science & Analytics Manager. Zijn team is verantwoordelijk voor het ontwerpen, implementeren en onderhouden van end-to-end machine learning-algoritmen en datagestuurde oplossingen voor Getir.

Hoe Getir de duur van modeltraining met 90% verkortte met Amazon SageMaker en AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Hassan Burak Yel behaalde zijn bachelordiploma in Electrical & Electronics Engineering aan de Boğaziçi Universiteit. Hij werkte bij Turkcell, voornamelijk gericht op tijdreeksvoorspellingen, datavisualisatie en netwerkautomatisering. Hij kwam in 2021 bij Getir en werkt momenteel als Data Science & Analytics Manager met de verantwoordelijkheid voor de domeinen Zoeken, Aanbeveling en Groei.

Hoe Getir de duur van modeltraining met 90% verkortte met Amazon SageMaker en AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Damla Şentürk behaalde haar bachelordiploma Computer Engineering aan de Galatasaray Universiteit. Ze vervolgt haar master Computer Engineering aan de Boğaziçi Universiteit. Ze kwam in 2022 bij Getir en werkte als Data Scientist. Ze heeft gewerkt aan commerciële, supply chain- en ontdekkingsgerelateerde projecten.

Hoe Getir de duur van modeltraining met 90% verkortte met Amazon SageMaker en AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Esra Kayabalı is een Senior Solutions Architect bij AWS, gespecialiseerd in het analysedomein, inclusief datawarehousing, datalakes, big data-analyse, batch- en realtime datastreaming en data-integratie. Ze heeft 12 jaar ervaring in softwareontwikkeling en architectuur. Ze heeft een passie voor het leren en onderwijzen van cloudtechnologieën.

Tijdstempel:

Meer van AWS-machine learning