Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services

Pe măsură ce organizațiile implementează modele în producție, ele caută în mod constant modalități de a optimiza performanța modelelor lor de bază (FM) care rulează pe cele mai recente acceleratoare, cum ar fi Inferentia AWS și GPU, astfel încât să își poată reduce costurile și să reducă latența de răspuns pentru a oferi cea mai bună experiență utilizatorilor finali. Cu toate acestea, unele FM nu utilizează pe deplin acceleratoarele disponibile cu instanțele în care sunt implementate, ceea ce duce la o utilizare ineficientă a resurselor hardware. Unele organizații implementează mai multe FM în aceeași instanță pentru a utiliza mai bine toate acceleratoarele disponibile, dar acest lucru necesită o orchestrare complexă a infrastructurii, care necesită timp și dificil de gestionat. Atunci când mai multe FM-uri partajează aceeași instanță, fiecare FM are propriile nevoi de scalare și modele de utilizare, ceea ce face dificil de prezis când trebuie să adăugați sau să eliminați instanțe. De exemplu, un model poate fi utilizat pentru a alimenta o aplicație de utilizator în care utilizarea poate crește în anumite ore, în timp ce un alt model poate avea un model de utilizare mai consistent. Pe lângă optimizarea costurilor, clienții doresc să ofere cea mai bună experiență utilizatorului final prin reducerea latenței. Pentru a face acest lucru, deseori implementează mai multe copii ale unui FM la solicitările de câmp de la utilizatori în paralel. Deoarece ieșirile FM pot varia de la o singură propoziție la mai multe paragrafe, timpul necesar pentru finalizarea cererii de inferență variază semnificativ, ceea ce duce la vârfuri imprevizibile ale latenței dacă cererile sunt direcționate aleatoriu între instanțe. Amazon SageMaker acum acceptă noi capabilități de inferență care vă ajută să reduceți costurile de implementare și latența.

Acum puteți crea puncte finale bazate pe componente de inferență și puteți implementa modele de învățare automată (ML) într-un punct final SageMaker. O componentă de inferență (IC) extrage modelul dvs. ML și vă permite să atribui procesoare, GPU sau AWS Neuron acceleratoare și politici de scalare pe model. Componentele de inferență oferă următoarele beneficii:

  • SageMaker va plasa și va împacheta în mod optim modelele în instanțe ML pentru a maximiza utilizarea, ceea ce duce la economii de costuri.
  • SageMaker va scala fiecare model în sus și în jos în funcție de configurația dvs. pentru a îndeplini cerințele aplicației dvs. de ML.
  • SageMaker se va scala pentru a adăuga și elimina instanțe în mod dinamic pentru a se asigura că capacitatea este disponibilă, menținând în același timp calculul inactiv la minimum.
  • Puteți reduce la zero copii ale unui model pentru a elibera resurse pentru alte modele. De asemenea, puteți specifica să păstrați modelele importante mereu încărcate și gata să deservească traficul.

Cu aceste capabilități, puteți reduce costurile de implementare a modelului cu 50% în medie. Economiile de costuri vor varia în funcție de volumul de muncă și de tiparele de trafic. Să luăm un exemplu simplu pentru a ilustra modul în care împachetarea mai multor modele pe un singur punct final poate maximiza utilizarea și poate economisi costuri. Să presupunem că aveți o aplicație de chat care îi ajută pe turiști să înțeleagă obiceiurile locale și cele mai bune practici construite folosind două variante de Llama 2: una ajustată pentru vizitatorii europeni și cealaltă ajustată pentru vizitatorii americani. Ne așteptăm la trafic pentru modelul european între 00:01–11:59 UTC și pentru modelul american între 12:00–23:59 UTC. În loc să implementați aceste modele pe propriile instanțe dedicate în care vor sta inactiv jumătate din timp, acum le puteți implementa pe un singur punct final pentru a economisi costuri. Puteți reduce modelul american la zero atunci când nu este necesar pentru a elibera capacitatea pentru modelul european și invers. Acest lucru vă permite să utilizați hardware-ul în mod eficient și să evitați risipa. Acesta este un exemplu simplu folosind două modele, dar puteți extinde cu ușurință această idee pentru a împacheta sute de modele într-un singur punct final care se extinde automat în funcție de volumul de lucru.

În această postare, vă arătăm noile capabilități ale punctelor finale SageMaker bazate pe IC. De asemenea, vă ghidăm prin implementarea mai multor modele folosind componente de inferență și API-uri. În cele din urmă, detaliem câteva dintre noile capabilități de observabilitate și cum să configurați politicile de scalare automată pentru modelele dvs. și să gestionați scalarea instanțelor pentru punctele finale. De asemenea, puteți implementa modele prin noua noastră experiență de utilizator simplificată și interactivă. De asemenea, susținem capabilități avansate de rutare pentru a optimiza latența și performanța sarcinilor de lucru de inferență.

Blocuri de construcție

Să aruncăm o privire mai profundă și să înțelegem cum funcționează aceste noi capabilități. Mai jos este o terminologie nouă pentru găzduirea SageMaker:

  • Componenta de inferență – Un obiect de găzduire SageMaker pe care îl puteți utiliza pentru a implementa un model la un punct final. Puteți crea o componentă de inferență furnizând următoarele:
    • Modelul SageMaker sau specificația unei imagini și artefacte model compatibile cu SageMaker.
    • Cerințele de resurse de calcul, care specifică nevoile fiecărei copii a modelului dvs., inclusiv nucleele CPU, memoria gazdă și numărul de acceleratoare.
  • Copie model – O copie de rulare a unei componente de inferență care este capabilă să servească cereri.
  • Scalare automată a instanțelor gestionate – O capacitate de găzduire SageMaker pentru a crește sau reduce numărul de instanțe de calcul utilizate pentru un punct final. Scalarea instanțelor reacționează la scalarea componentelor de inferență.

Pentru a crea o nouă componentă de inferență, puteți specifica o imagine de container și un artefact de model sau puteți utiliza modele SageMaker pe care este posibil să le fi creat deja. De asemenea, trebuie să specificați cerințele de resurse de calcul, cum ar fi numărul de nuclee ale procesorului gazdă, memoria gazdă sau numărul de acceleratoare pe care modelul dvs. trebuie să ruleze.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Când implementați o componentă de inferență, puteți specifica MinCopies pentru a vă asigura că modelul este deja încărcat în cantitatea de care aveți nevoie, gata de a servi cererile.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Aveți, de asemenea, opțiunea de a vă seta politicile astfel încât copiile componentelor de inferență să se scaleze la zero. De exemplu, dacă nu aveți încărcare care rulează pe un IC, copia modelului va fi descărcată. Acest lucru poate elibera resurse care pot fi înlocuite cu sarcini de lucru active pentru a optimiza utilizarea și eficiența punctului final.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Pe măsură ce cererile de inferență cresc sau scad, numărul de copii ale IC-urilor dvs. poate, de asemenea, să crească sau să scadă în funcție de politicile dvs. de scalare automată. SageMaker se va ocupa de plasare pentru a optimiza ambalarea modelelor dvs. pentru disponibilitate și cost.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

În plus, dacă activați scalarea automată a instanțelor gestionate, SageMaker va scala instanțele de calcul în funcție de numărul de componente de inferență care trebuie încărcate la un moment dat pentru a servi traficul. SageMaker va extinde instanțele și va împacheta instanțele și componentele de inferență pentru a optimiza costurile, păstrând în același timp performanța modelului. Deși vă recomandăm utilizarea scalarii instanțelor gestionate, aveți și opțiunea de a gestiona singur scalarea, dacă alegeți, prin scalarea automată a aplicației.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

SageMaker va reechilibra componentele de inferență și va reduce instanțele dacă nu mai sunt necesare componentelor de inferență și va economisi costurile.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Prezentarea API-urilor

SageMaker a introdus o nouă entitate numită InferenceComponent. Acest lucru decuplează detaliile găzduirii modelului ML de punctul final în sine. The InferenceComponent vă permite să specificați proprietățile cheie pentru găzduirea modelului, cum ar fi modelul SageMaker pe care doriți să îl utilizați sau detaliile containerului și artefactele modelului. De asemenea, specificați numărul de copii ale componentelor în sine de implementat și numărul de acceleratoare (acceleratoare GPU, Inf sau Trn) sau CPU (vCPU) necesare. Acest lucru oferă mai multă flexibilitate pentru a utiliza un singur punct final pentru orice număr de modele pe care intenționați să le implementați în viitor.

Să ne uităm la apelurile API Boto3 pentru a crea un punct final cu o componentă de inferență. Rețineți că există câțiva parametri pe care îi vom aborda mai târziu în această postare.

Următorul este exemplu de cod pentru CreateEndpointConfig:

sagemaker_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ExecutionRoleArn=role, ProductionVariants=[{ "VariantName": variant_name, "InstanceType": instance_type, "InitialInstanceCount": initial_instance_count, "ModelDataDownloadTimeoutInSeconds": model_data_download_timeout_in_seconds, "ContainerStartupHealthCheckTimeoutInSeconds": container_startup_health_check_timeout_in_seconds, {"ManagedInstanceScaling": { "Status": "ENABLED", "MinInstanceCount": initial_instance_count, "MaxInstanceCount": max_instance_count, } }, }],
)

Următorul este exemplu de cod pentru CreateEndpoint:

sagemaker_client.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name,
)

Următorul este exemplu de cod pentru CreateInferenceComponent:

sm_client.create_inference_component( InferenceComponentName=inference_component_name, EndpointName=endpoint_name, VariantName=variant_name, Specification={ "Container": { "Image": inference_image_uri, "ArtifactUrl": s3_code_artifact, }, "StartupParameters": { "ModelDataDownloadTimeoutInSeconds": 300, "ContainerStartupHealthCheckTimeoutInSeconds": 600, }, "ComputeResourceRequirements": {"NumberOfAcceleratorDevicesRequired": 1, "MinMemoryRequiredInMb": 1024} }, RuntimeConfig={"CopyCount": 1},
)

Această decuplare a InferenceComponent la un punct final oferă flexibilitate. Puteți găzdui mai multe modele pe aceeași infrastructură, adăugându-le sau eliminându-le pe măsură ce cerințele dumneavoastră se modifică. Fiecare model poate fi actualizat independent după cum este necesar. În plus, puteți scala modele în funcție de nevoile dvs. de afaceri. InferenceComponent de asemenea, vă permite să controlați capacitatea pe model. Cu alte cuvinte, puteți determina câte copii ale fiecărui model să găzduiți. Această scalare previzibilă vă ajută să îndepliniți cerințele specifice de latență pentru fiecare model. Per total, InferenceComponent vă oferă mult mai mult control asupra modelelor dvs. găzduite.

În tabelul următor, arătăm o comparație alăturată a abordării la nivel înalt pentru crearea și invocarea unui punct final fără InferenceComponent si cu InferenceComponent. Rețineți că CreateModel() este acum opțional pentru punctele finale bazate pe IC.

Pas Puncte finale bazate pe model Inferența punctelor finale bazate pe componente
1 Creați un model(…) CreateEndpointConfig(…)
2 CreateEndpointConfig(…) Creați un punct final(…)
3 Creați un punct final(…) CreateInferenceComponent(…)
4 InvokeEndpoint(…) InvokeEndpoint(InferneceComponentName=’valoare’…)

Introducerea InferenceComponent vă permite să scalați la nivel de model. Vedea Aprofundați în scalarea automată a instanțelor și IC pentru mai multe detalii despre cum InferenceComponent funcționează cu scalare automată.

Când invocați punctul final SageMaker, acum puteți specifica noul parametru InferenceComponentName pentru a lovi doritul InferenceComponentName. SageMaker se va ocupa de rutarea cererii către instanța care găzduiește solicitarea InferenceComponentName. Consultați următorul cod:

smr_client = boto3.client("sagemaker-runtime") response_model = smr_client.invoke_endpoint( InferenceComponentName=inference_component_name, EndpointName=endpoint_name, Body=payload, ContentType="application/json", )

În mod implicit, SageMaker utilizează direcționarea aleatorie a cererilor către instanțele care susțin punctul final. Dacă doriți să activați rutarea cererilor cele mai puțin restante, puteți seta strategia de rutare în configurația punctului final. RoutingConfig:

sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ExecutionRoleArn=role, ProductionVariants=[{ "VariantName": variant_name, "InstanceType": instance_type, "InitialInstanceCount": initial_instance_count, ... 'RoutingConfig': { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS' } }],
)

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Solicitările cele mai puțin restante direcționează rute către instanțe specifice care au mai multă capacitate de procesare a cererilor. Acest lucru va asigura o echilibrare a sarcinii și o utilizare mai uniformă a resurselor.

În plus față de CreateInferenceComponent, următoarele API-uri sunt acum disponibile:

  • DescribeInferenceComponent
  • DeleteInferenceComponent
  • UpdateInferenceComponent
  • ListInferenceComponents

Jurnalele și valorile InferenceComponent

InferenceComponent bustenii sunt situati in /aws/sagemaker/InferenceComponents/<InferenceComponentName>. Toate jurnalele trimise către stderr și stdout din container sunt trimise la aceste loguri Amazon CloudWatch.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Odată cu introducerea punctelor finale bazate pe IC, acum aveți posibilitatea de a vizualiza valori suplimentare ale instanțelor, valori ale componentelor de inferență și valori ale invocarii.

Pentru instanțe SageMaker, acum puteți urmări GPUReservation și CPUReservation pentru a vedea resursele rezervate pentru un punct final pe baza componentelor de inferență pe care le-ați implementat. Aceste valori vă pot ajuta să dimensionați punctele finale și politicile de scalare automată. De asemenea, puteți vizualiza valorile agregate asociate cu toate modelele implementate la un punct final.

SageMaker expune, de asemenea, metrici la nivel de componentă de inferență, care poate afișa o vedere mai granulară a utilizării resurselor pentru componentele de inferență pe care le-ați implementat. Acest lucru vă permite să obțineți o vedere a cât de multă utilizare a resurselor agregate, cum ar fi GPUUtilizationNormalized și GPUMemoryUtilizationNormalized pentru fiecare componentă de inferență pe care ați implementat-o ​​și care poate avea zero sau mai multe copii.

În cele din urmă, SageMaker oferă valori de invocare, care acum urmăresc invocările pentru componentele de inferență în mod agregat (Invocations) sau per copie instanțiată (InvocationsPerCopy)

Pentru o listă cuprinzătoare de valori, consultați SageMaker Endpoint Invocation Metrics.

Scalare automată la nivel de model

Pentru a implementa comportamentul de scalare automată pe care l-am descris, atunci când creați configurația punctului final SageMaker și componenta de inferență, definiți numărul inițial de instanțe și, respectiv, numărul inițial de copiere a modelului. După ce creați punctul final și IC-urile corespunzătoare, pentru a aplica scalarea automată la nivel de IC, trebuie să înregistrați mai întâi ținta de scalare și apoi să asociați politica de scalare la IC.

Când implementăm politica de scalare, folosim SageMakerInferenceComponentInvocationsPerCopy, care este o nouă măsurătoare introdusă de SageMaker. Captează numărul mediu de invocări per copie de model pe minut.

aas_client.put_scaling_policy( PolicyName=endpoint_name, PolicyType='TargetTrackingScaling', ServiceNamespace=service_namespace, ResourceId=resource_id, ScalableDimension=scalable_dimension, TargetTrackingScalingPolicyConfiguration={ "PredefinedMetricSpecification": { "PredefinedMetricType": "SageMakerInferenceComponentInvocationsPerCopy", }, "TargetValue": autoscaling_target_value, "ScaleInCooldown": 300, # default "ScaleOutCooldown": 300, # default },
)

După ce setați politica de scalare, SageMaker creează două alarme CloudWatch pentru fiecare țintă de autoscaling: una pentru a declanșa scale-out dacă este în alarmă timp de 3 minute (trei puncte de date de 1 minut) și una pentru a declanșa scale-in dacă este în alarmă timp de 15 minute (15 puncte de date de 1 minut), așa cum se arată în următoarea captură de ecran. Timpul de declanșare a acțiunii de scalare este de obicei cu 1-2 minute mai lung decât acele minute, deoarece punctul final necesită timp pentru a publica valorile în CloudWatch și, de asemenea, este nevoie de timp pentru AutoScaling a reactiona. Perioada de răcire este perioada de timp, în secunde, după finalizarea unei activități de scalare sau extindere înainte ca o altă activitate de extindere poate începe. Dacă timpul de răcire a scalei-out este mai scurt decât timpul de actualizare a punctului final, atunci nu are efect, deoarece nu este posibil să actualizați un punct final SageMaker atunci când este în Actualizarea stare.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Rețineți că, atunci când configurați scalarea automată la nivel de IC, trebuie să vă asigurați că MaxInstanceCount parametrul este egal sau mai mic decât numărul maxim de circuite integrate pe care acest punct final le poate gestiona. De exemplu, dacă punctul final este configurat doar pentru a avea o singură instanță în configurația punctului final și această instanță poate găzdui doar maximum patru copii ale modelului, atunci MaxInstanceCount ar trebui să fie egal cu sau mai mic decât 4. Cu toate acestea, puteți utiliza și capacitatea de scalare automată gestionată oferită de SageMaker pentru a scala automat numărul de instanțe pe baza numărului de copiere a modelului necesar pentru a satisface nevoia de mai multe resurse de calcul. Următorul fragment de cod demonstrează cum să configurați scalarea instanței gestionate în timpul creării configurației punctului final. În acest fel, atunci când scalarea automată la nivel de IC necesită un număr mai mare de instanțe pentru a găzdui copiile modelului, SageMaker va scala automat numărul de instanță pentru a permite scalarea la nivel de IC să aibă succes.

sagemaker_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ExecutionRoleArn=role, ProductionVariants=[{ "VariantName": variant_name, "InstanceType": instance_type, "InitialInstanceCount": initial_instance_count, "ModelDataDownloadTimeoutInSeconds": model_data_download_timeout_in_seconds, "ContainerStartupHealthCheckTimeoutInSeconds": container_startup_health_check_timeout_in_seconds, {"ManagedInstanceScaling": { "Status": "ENABLED", "MinInstanceCount": initial_instance_count, "MaxInstanceCount": max_instance_count, } }, }],
)

Puteți aplica mai multe politici de scalare automată față de același punct final, ceea ce înseamnă că veți putea aplica politica tradițională de scalare automată la punctele finale create cu CI și să scalați în sus și în jos pe baza celorlalte valori ale punctelor finale. Pentru mai multe informații, consultați Optimizați-vă implementările de învățare automată cu scalarea automată pe Amazon SageMaker. Cu toate acestea, deși acest lucru este posibil, vă recomandăm totuși să utilizați scalarea instanțelor gestionate în loc de gestionarea personală a scalării.

Concluzie

În această postare, am introdus o nouă caracteristică în inferența SageMaker care vă va ajuta să maximizați utilizarea instanțelor de calcul, să scalați la sute de modele și să optimizați costurile, oferind în același timp performanțe previzibile. În plus, am oferit o prezentare a API-urilor și v-am arătat cum să configurați și să implementați componente de inferență pentru sarcinile dvs. de lucru.

Sustinem si noi capabilități avansate de rutare pentru a optimiza latența și performanța sarcinilor de lucru de inferență. SageMaker vă poate ajuta să vă optimizați sarcinile de lucru de inferență pentru costuri și performanță și vă poate oferi granularitate la nivel de model pentru management. Am creat un set de caiete care vă va arăta cum să implementați trei modele diferite, folosind containere diferite și aplicând politici de scalare automată în GitHub. Vă încurajăm să începeți cu notebook-ul 1 și să puneți mâna mai departe cu noile capabilități de găzduire SageMaker astăzi!


Despre autori

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.James Park este arhitect de soluții la Amazon Web Services. El lucrează cu Amazon.com pentru a proiecta, construi și implementa soluții tehnologice pe AWS și are un interes deosebit pentru AI și învățarea automată. În timpul liber, îi place să caute noi culturi, experiențe noi și să fie la curent cu cele mai recente tendințe tehnologice. Îl poți găsi pe LinkedIn.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Melanie Li, PhD, este TAM Senior AI/ML Specialist la AWS cu sediul în Sydney, Australia. Ea ajută clienții întreprinderilor să construiască soluții folosind instrumente AI/ML de ultimă generație pe AWS și oferă îndrumări privind arhitectura și implementarea soluțiilor ML cu cele mai bune practici. În timpul liber, îi place să exploreze natura și să petreacă timp cu familia și prietenii.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Marc Karp este arhitect ML cu echipa Amazon SageMaker Service. El se concentrează pe a ajuta clienții să proiecteze, să implementeze și să gestioneze sarcinile de lucru ML la scară. În timpul liber, îi place să călătorească și să exploreze locuri noi.

Alan TanAlan Tan este Senior Product Manager la SageMaker, conducând eforturile pentru inferența modelelor mari. Este pasionat de aplicarea învățării automate în domeniul analizei. În afara serviciului, se bucură de aer liber.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Raghu Ramesha este arhitect senior de soluții ML cu echipa Amazon SageMaker Service. El se concentrează pe a ajuta clienții să construiască, să implementeze și să migreze sarcinile de lucru de producție ML către SageMaker la scară. El este specializat în domeniile învățarea automată, AI și viziunea pe computer și deține o diplomă de master în Informatică de la UT Dallas. În timpul liber, îi place să călătorească și să fotografieze.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Rupinder Grewal este un arhitect specializat în soluții Sr Ai/ML cu AWS. În prezent, se concentrează pe servirea modelelor și a MLOps-ului pe SageMaker. Înainte de acest rol, a lucrat ca inginer de învățare automată, construind și găzduind modele. În afara serviciului, îi place să joace tenis și să meargă cu bicicleta pe traseele montane.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Dhawal Patel este arhitect principal de învățare automată la AWS. El a lucrat cu organizații, de la întreprinderi mari până la startup-uri mijlocii, pe probleme legate de calculul distribuit și inteligența artificială. El se concentrează pe învățarea profundă, inclusiv pe domeniile NLP și Computer Vision. El îi ajută pe clienți să obțină inferențe de model de înaltă performanță pe SageMaker.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Saurabh Trikande este Senior Product Manager pentru Amazon SageMaker Inference. Este pasionat de lucrul cu clienții și este motivat de obiectivul democratizării învățării automate. El se concentrează pe provocările de bază legate de implementarea de aplicații ML complexe, modele ML multi-locatari, optimizări ale costurilor și de a face implementarea modelelor de învățare profundă mai accesibilă. În timpul liber, lui Saurabh îi place să facă drumeții, să învețe despre tehnologii inovatoare, să urmeze TechCrunch și să petreacă timpul cu familia sa.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Lakshmi Ramakrishnan este inginer principal la echipa platformei Amazon SageMaker Machine Learning (ML) din AWS, oferind conducere tehnică pentru produs. El a lucrat în mai multe roluri de inginerie în Amazon de peste 9 ani. Are o diplomă de licență în Inginerie în Tehnologia Informației de la Institutul Național de Tehnologie, Karnataka, India și o diplomă de Master în Științe Informatice de la Universitatea din Minnesota Twin Cities.

Reduceți costurile de implementare a modelului cu 50% în medie, folosind cele mai recente funcții ale Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.David Nigenda este inginer senior de dezvoltare software în echipa Amazon SageMaker, care lucrează în prezent la îmbunătățirea fluxurilor de lucru de învățare automată de producție, precum și la lansarea de noi funcții de inferență. În timpul liber, încearcă să țină pasul cu copiii săi.

Timestamp-ul:

Mai mult de la Învățare automată AWS