Suorita useita Deep Learning -malleja GPU:lla Amazon SageMaker -monimallipäätepisteillä

Julkaissut Platon

seuraajia: 0

Tekoälyn käyttöönoton kiihtyessä alalla, asiakkaat rakentavat kehittyneitä malleja, jotka hyödyntävät syväoppimisen uusia tieteellisiä läpimurtoja. Näiden seuraavan sukupolven mallien avulla voit saavuttaa huippuluokan, ihmisen kaltaisen suorituskyvyn luonnollisen kielen käsittelyn (NLP), tietokonenäön, puheentunnistuksen, lääketieteellisen tutkimuksen, kyberturvallisuuden, proteiinirakenteen ennustamisen ja monien muiden aloilla. . Esimerkiksi suuret kielimallit, kuten GPT-3, OPT ja BLOOM, voivat kääntää, tiivistää ja kirjoittaa tekstiä ihmisen kaltaisilla vivahteilla. Tietokonenäköavaruudessa tekstistä kuvaksi diffuusiomallit, kuten DALL-E ja Imagen, voivat luoda fotorealistisia kuvia luonnollisesta kielestä, jolla on korkeampi visuaalinen ja kielen ymmärtäminen ympäröivästä maailmasta. Nämä multimodaaliset mallit tarjoavat monipuolisempia ominaisuuksia erilaisiin loppupään tehtäviin ja mahdollisuuden hienosäätää niitä tietyille aloille, ja ne tuovat asiakkaillemme tehokkaita liiketoimintamahdollisuuksia.

Näiden syväoppimismallien koko kasvaa jatkuvasti, ja ne sisältävät tyypillisesti miljardeja malliparametreja mallin suorituskyvyn skaalaamiseksi monenlaisiin tehtäviin, kuten kuvien luomiseen, tekstin yhteenvetoon, kielen kääntämiseen ja muihin tehtäviin. Näitä malleja on myös mukautettava, jotta yksilöille voidaan tarjota hyperpersonoitu kokemus. Tämän seurauksena entistä enemmän malleja kehitetään hienosäätämällä näitä malleja erilaisiin loppupään tehtäviin. Tekoälysovellusten latenssi- ja suoritustehotavoitteiden saavuttamiseksi GPU-instanssit ovat etusijalla CPU-instanssien sijaan (koska GPU:iden tarjoama laskentateho). GPU-instanssit ovat kuitenkin kalliita ja kustannukset voivat kasvaa, jos otat käyttöön yli 10 mallia. Vaikka nämä mallit voivat tuoda mukanaan vaikuttavia tekoälysovelluksia, voi olla haastavaa skaalata näitä syväoppimismalleja kustannustehokkaalla tavalla niiden koon ja mallien lukumäärän vuoksi.

Amazon Sage Maker multi-model endpoints (MME) tarjoaa skaalautuvan ja kustannustehokkaan tavan ottaa käyttöön suuri määrä syväoppimismalleja. MME:t ovat suosittu isännöintivaihtoehto satojen suoritinpohjaisten mallien isännöintiin asiakkaiden, kuten Zendeskin, Veevan ja AT&T:n, keskuudessa. Aiemmin sinulla oli rajalliset mahdollisuudet ottaa käyttöön satoja syväoppimismalleja, jotka vaativat nopeutettua laskentaa GPU:illa. Tänään julkistamme MME-tuen GPU:lle. Nyt voit ottaa käyttöön tuhansia syväoppimismalleja yhden SageMaker-päätepisteen takana. MME:t voivat nyt käyttää useita malleja GPU-ytimessä, jakaa GPU-esiintymiä päätepisteen takana useiden mallien välillä ja ladata ja purkaa malleja dynaamisesti saapuvan liikenteen perusteella. Tämän avulla voit säästää merkittävästi kustannuksia ja saavuttaa parhaan hintasuorituksen.

Tässä viestissä näytämme kuinka ajaa useita syväoppimismalleja GPU:ssa SageMaker MME:iden kanssa.

SageMaker MME:t

SageMaker MME:iden avulla voit ottaa käyttöön useita malleja yhden päätepisteen taakse, joka voi sisältää yhden tai useamman esiintymän. MME:iden avulla jokainen esiintymä onnistuu lataamaan ja palvelemaan useita malleja. MME:iden avulla voit katkaista useiden mallien isännöinnin lineaarisesti kasvavat kustannukset ja käyttää uudelleen infrastruktuuria kaikissa malleissa.

Seuraava kaavio havainnollistaa SageMaker MME:n arkkitehtuuria.

SageMaker MME lataa malleja dynaamisesti osoitteesta Amazonin yksinkertainen tallennuspalvelu (Amazon S3), kun sitä kutsutaan, sen sijaan, että ladattaisiin kaikki mallit, kun päätepiste luodaan ensimmäisen kerran. Tämän seurauksena mallin alkuperäinen kutsu saattaa nähdä suuremman päättelyviiveen kuin myöhemmät päätelmät, jotka suoritetaan pienellä viiveellä. Jos malli on jo ladattu säilöön kutsuttaessa, lataus- ja latausvaihe ohitetaan ja malli palauttaa päätelmät pienellä viiveellä. Oletetaan esimerkiksi, että sinulla on malli, jota käytetään vain muutaman kerran päivässä. Se ladataan automaattisesti tarpeen mukaan, kun taas usein käytetyt mallit säilyvät muistissa ja niitä kutsutaan jatkuvasti alhaisella viiveellä.

SageMaker MME:t GPU-tuella

GPU:lla varustetut SageMaker MME:t toimivat käyttäen NVIDIA Triton Inference Server. NVIDIA Triton Inference Server on avoimen lähdekoodin päätelmien palveleva ohjelmisto, joka yksinkertaistaa päätelmien toimitusprosessia ja tarjoaa korkean johtopäätöksen suorituskyvyn. Triton tukee kaikkia tärkeimpiä koulutus- ja päättelykehyksiä, kuten TensorFlow, NVIDIA® TensorRT™, PyTorch, MXNet, Python, ONNX, XGBoost, Scikit-learn, RandomForest, OpenVINO, mukautettu C++ ja paljon muuta. Se tarjoaa dynaamista eräajoa, samanaikaisia ajoja, harjoituksen jälkeistä kvantisointia ja optimaalista mallikonfiguraatiota korkean suorituskyvyn päättelyn saavuttamiseksi. Lisäksi NVIDIA Triton Inference Serveriä on laajennettu toteuttamaan MME API sopimus, integroidaksesi MME:n kanssa.

Seuraava kaavio havainnollistaa MME-työnkulkua.

Työnkulun vaiheet ovat seuraavat:

SageMaker MME vastaanottaa HTTP-kutsupyynnön tietylle mallille käyttämällä TargetModel pyynnössä hyötykuorman mukana.
SageMaker reitittää liikenteen oikeaan esiintymään päätepisteen takana, jossa kohdemalli ladataan. SageMaker ymmärtää liikennekuvion kaikissa MME:n takana olevissa malleissa ja reitittää pyynnöt älykkäästi.
SageMaker huolehtii mallinhallinnasta päätepisteen takana, lataa mallin dynaamisesti säilön muistiin ja purkaa mallin jaetun GPU-instanssien pohjalta parhaan hintasuorituskyvyn saavuttamiseksi.
SageMaker lataa dynaamisesti mallit Amazon S3:sta ilmentymän tallennustilaan. Jos kutsuttu malli ei ole saatavilla ilmentymän tallennustaltiolla, malli ladataan ilmentymän tallennustaltiolle. Jos ilmentymän tallennustilavuus saavuttaa kapasiteetin, SageMaker poistaa kaikki käyttämättömät mallit tallennustilalta.
SageMaker lataa mallin NVIDIA Triton -säiliön muistiin GPU-kiihdytetyssä ilmentymässä ja palvelee päättelypyyntöä. Grafiikkasuorittimen ydin jaetaan kaikkien esiintymän mallien kesken. Jos malli on jo ladattu säilömuistiin, seuraavat pyynnöt toimitetaan nopeammin, koska SageMakerin ei tarvitse ladata ja ladata sitä uudelleen.
SageMaker huolehtii liikenteen muokkaamisesta MME-päätepisteeseen ja ylläpitää optimaalisia mallikopioita GPU-esiintymissä parhaan hintasuorituksen saavuttamiseksi. Se jatkaa liikenteen reitittämistä esiintymään, jossa malli ladataan. Jos ilmentymän resurssit saavuttavat kapasiteetin korkean käyttöasteen vuoksi, SageMaker purkaa vähiten käytetyt mallit säiliöstä vapauttaakseen resursseja useammin käytettyjen mallien lataamiseen.

SageMaker MME:t voivat skaalata vaakasuunnassa käyttämällä automaattista skaalauskäytäntöä ja tarjota lisää GPU-laskentaesiintymiä, jotka perustuvat mittareihin, kuten instanssikohtaisiin kutsuihin ja GPU-käyttöön, palvelemaan liikennepiikkiä MME-päätepisteisiin.

Ratkaisun yleiskatsaus

Tässä viestissä näytämme sinulle, kuinka voit käyttää SageMaker MME:iden uusia ominaisuuksia grafiikkasuorittimen kanssa tietokonenäön käyttötapauksessa. Esittelytarkoituksiin käytämme ResNet-50-konvoluutiohermoverkkomallia, joka voi luokitella kuvat 1,000 luokkaan. Keskustelemme kuinka tehdä seuraavat:

Käytä NVIDIA Tritonin päättelysäilöä SageMaker MME:issä käyttämällä erilaisia Triton-mallikehystaustaohjelmia, kuten PyTorch ja TensorRT
Muunna ResNet-50-mallit optimoituun TensorRT-moottorimuotoon ja ota se käyttöön SageMaker MME:n kanssa
Määritä automaattiset skaalauskäytännöt MME:lle
Hanki näkemyksiä ilmentymien ja kutsujen mittareista käyttämällä amazonin pilvikello

Luo malliesineet

Tässä osiossa käydään läpi vaiheet ResNet-50:n esikoulutetun mallin valmistelemiseksi käytettäväksi SageMaker MME:ssä Triton Inference Server -mallikokoonpanojen avulla. Voit toistaa kaikki vaiheet käyttämällä vaiheittaista muistikirjaa GitHub.

Tässä viestissä esittelemme käyttöönoton kahdella mallilla. Voit kuitenkin valmistella ja ottaa käyttöön satoja malleja. Mallit voivat jakaa saman kehyksen tai eivät.

Valmistele PyTorch-malli

Ensin lataamme valmiiksi koulutetun ResNet50-mallin käyttämällä torchvision mallit -pakettia. Tallennamme mallin model.pt-tiedostona TorchScript-optimoidussa ja sarjoitetussa muodossa. TorchScript kokoaa ResNet50-mallin eteenpäinlähetyksen innokastilassa esimerkkisyötteiden avulla, joten välitämme yhden RGB-kuvan esiintymän, jossa on kolme värikanavaa, joiden mitat ovat 224 x 224.

Sitten meidän on valmisteltava mallit Triton Inference Serverille. Seuraava koodi näyttää mallivaraston PyTorch-kehystaustalle. Triton käyttää mallin arkistoon sijoitettua model.pt-tiedostoa ennusteiden palvelemiseen.

resnet
├── 1
│   └── model.pt
└── config.pbtxt

Mallin määritystiedosto config.pbtxt täytyy määrittää mallin nimi (resnet), alustan ja taustaohjelman ominaisuudet (pytorch_libtorch), max_batch_size (128) ja tulo- ja lähtötensorit sekä tietotyyppi (TYPE_FP32) tiedot. Lisäksi voit määrittää instance_group ja dynamic_batching ominaisuuksia korkean suorituskyvyn päättelyn saavuttamiseksi. Katso seuraava koodi:

name: "resnet"
platform: "pytorch_libtorch"
max_batch_size: 128
input {
  name: "INPUT__0"
  data_type: TYPE_FP32
  dims: 3
  dims: 224
  dims: 224
}
output {
  name: "OUTPUT__0"
  data_type: TYPE_FP32
  dims: 1000
}

Valmistele TensorRT-malli

NVIDIA TensorRT on SDK korkean suorituskyvyn syväoppimisen päättelyyn, ja se sisältää syvän oppimisen päättelyn optimoijan ja suoritusajan, joka tarjoaa alhaisen viiveen ja suuren suorituskyvyn päättelysovelluksille. Käytämme komentorivityökalua trtexec luodaksesi TensorRT-sarjan moottorin ONNX mallin muoto. Suorita seuraavat vaiheet muuntaaksesi esikoulutetun ResNet-50-mallin NVIDIA TensorRT:ksi:

Vie valmiiksi koulutettu ResNet-50-malli ONNX-muotoon käyttämällä torch.onnx.Tämä vaihe suorittaa mallin kerran jäljittääkseen sen ajon mallisyötteen avulla ja vie jäljitetyn mallin määritettyyn tiedostoon model.onnx.
Käytä trtexecia luodaksesi TensorRT-moottorisuunnitelman model.onnx tiedosto. Voit halutessasi vähentää liukulukulaskujen tarkkuutta joko yksinkertaisesti ajamalla ne 16-bittisessä liukulukussa tai kvantisoimalla liukulukuarvot, jotta laskelmat voidaan suorittaa 8-bittisten kokonaislukujen avulla.

Seuraava koodi näyttää mallivaraston rakenteen TensorRT-mallille:

resnet
├── 1
│   └── model.plan
└── config.pbtxt

TensorRT-mallille määritämme tensorrt_plan alustana ja syötä 224 x 224 -mittaisen kuvan tensor-määritykset, jossa on värikanavat. Lähtötensori 1,000 XNUMX dimensiolla on tyyppiä TYPE_FP32, jotka vastaavat eri objektiluokkia. Katso seuraava koodi:

name: "resnet"
platform: "tensorrt_plan"
max_batch_size: 128
input {
  name: "input"
  data_type: TYPE_FP32
  dims: 3
  dims: 224
  dims: 224
}
output {
  name: "output"
  data_type: TYPE_FP32
  dims: 1000
}
model_warmup {
    name: "bs128 Warmup"
    batch_size: 128
    inputs: {
        key: "input"
        value: {
            data_type: TYPE_FP32
            dims: 3
            dims: 224
            dims: 224
            zero_data: false
        }
    }
}

Säilytä malliesineet Amazon S3:ssa

SageMaker odottaa mallin artefakteja .tar.gz muoto. Niiden tulee myös täyttää Triton-säiliön vaatimukset, kuten mallin nimi, versio, config.pbtxt tiedostot ja paljon muuta. tar kansio, joka sisältää mallitiedoston nimellä .tar.gz ja lataa se Amazon S3:een:

!mkdir -p triton-serve-pt/resnet/1/
!mv -f workspace/model.pt triton-serve-pt/resnet/1/
!tar -C triton-serve-pt/ -czf resnet_pt_v0.tar.gz resnet
model_uri_pt = sagemaker_session.upload_data(path="resnet_pt_v0.tar.gz", key_prefix="resnet-mme-gpu")
!mkdir -p triton-serve-trt/resnet/1/
!mv -f workspace/model.plan triton-serve-trt/resnet/1/
!tar -C triton-serve-trt/ -czf resnet_trt_v0.tar.gz resnet
model_uri_trt = sagemaker_session.upload_data(path="resnet_trt_v0.tar.gz", key_prefix="resnet-mme-gpu")

Nyt kun olemme ladanneet malliesineet Amazon S3:een, voimme luoda SageMaker MME:n.

Ota mallit käyttöön MME:n kanssa

Otamme nyt käyttöön ResNet-50-mallin kahdella eri kehystaustalla (PyTorch ja TensorRT) SageMaker MME:ssä.

Huomaa, että voit ottaa käyttöön satoja malleja, ja mallit voivat käyttää samaa kehystä. He voivat myös käyttää erilaisia kehyksiä, kuten tässä viestissä näkyy.

Käytämme AWS SDK Pythonille (Boto3) API luo_malli, create_endpoint_configja luo_päätepiste luodaksesi MME:n.

Määrittele tarjoiluastia

Määritä säilön määritelmässä model_data_url määrittää S3-hakemiston, joka sisältää kaikki mallit, joita SageMaker MME käyttää ennusteiden lataamiseen ja tarjoamiseen. Aseta Mode että MultiModel ilmaisemaan, että SageMaker luo päätepisteen MME-säilömäärittelyillä. Asetamme säilöön kuvan, joka tukee MME:iden käyttöönottoa GPU:lla. Katso seuraava koodi:

container = {
"Image": ,
"ModelDataUrl": ,
"Mode": "MultiModel"
}

Luo monimalliobjekti

Käytä SageMaker Boto3 -asiakasohjelmaa mallin luomiseen käyttämällä create_model API. Välitämme säilön määritelmän mallin luontisovellusliittymälle yhdessä ModelName ja ExecutionRoleArn:

create_model_response = sm_client.create_model(
    ModelName=, ExecutionRoleArn=role, PrimaryContainer=container
)

Määritä MME-kokoonpanot

Luo MME-kokoonpanot käyttämällä create_endpoint_config Boto3 API. Määritä kiihdytetty GPU-laskentaesiintymä InstanceType (käytämme ilmentymätyyppiä g4dn.4xlarge). Suosittelemme päätepisteiden määrittämistä vähintään kahdella esiintymällä. Tämä antaa SageMakerille mahdollisuuden tarjota erittäin saatavilla olevia ennusteita useiden mallien saatavuusvyöhykkeillä.

Havaintoidemme perusteella voit saada paremman hintasuorituksen ML-optimoiduissa tapauksissa yhdellä GPU-ytimellä. Tästä syystä GPU-ominaisuuden MME-tuki on käytössä vain yhden GPU-ytimen ilmentymissä. Täydellinen luettelo tuetuista ilmentymistä on kohdassa Tuetut GPU-instanssityypit.

create_endpoint_config_response = sm_client.create_endpoint_config(
    EndpointConfigName=,
    ProductionVariants=[
        {
            "InstanceType": "ml.g4dn.4xlarge",
            "InitialVariantWeight": 1,
            "InitialInstanceCount": 2,
            "ModelName": ,
            "VariantName": "AllTraffic",
        }
    ],
)

Luo MME

Edellisellä päätepistemäärityksellä luomme SageMaker MME:n käyttämällä luo_päätepiste API. SageMaker luo MME:n, käynnistää ML-laskentaesiintymän g4dn.4xlarge ja ottaa käyttöön PyTorch- ja TensorRT ResNet-50 -mallit niihin. Katso seuraava koodi:

create_endpoint_response = sm_client.create_endpoint(
    EndpointName=, EndpointConfigName=
)

Kutsu kohdemalli MME:ssä

Kun olemme luoneet päätepisteen, voimme lähettää päättelypyynnön MME:lle käyttämällä invoke_enpoint API. Määrittelemme TargetModel kutsukutsussa ja välitä kunkin mallityypin hyötykuorma. Seuraava koodi on esimerkkikutsu PyTorch- ja TensorRT-mallille:

runtime_sm_client.invoke_endpoint(
    EndpointName=,
    ContentType="application/octet-stream",
    Body=json.dumps(pt_payload),
    TargetModel='resnet_pt_v0.tar.gz', #PyTorch Model
)
runtime_sm_client.invoke_endpoint(
    EndpointName=, 
    ContentType="application/octet-stream", 
    Body=json.dumps(trt_payload),
    TargetModel='resnet_trt_v0.tar.gz' #TensorRT Model
)

Määritä automaattisen skaalauskäytännöt GPU MME:lle

SageMaker MME:t tukevat isännöityjen malliesi automaattista skaalausta. Automaattinen skaalaus säätää dynaamisesti mallille varattujen ilmentymien määrää vasteena työmääräsi muutoksiin. Kun työmäärä kasvaa, automaattinen skaalaus tuo lisää esiintymiä verkkoon. Kun työkuormitus pienenee, automaattinen skaalaus poistaa tarpeettomat esiintymät, jotta et maksa varautuneista esiintymistä, joita et käytä.

Seuraavassa skaalauskäytännössä käytämme mukautettua mittaria GPUUtilization vuonna TargetTrackingScalingPolicyConfiguration konfigurointi ja a TargetValue of 60.0 kyseisen mittarin tavoitearvolle. Tämä automaattisen skaalauksen käytäntö mahdollistaa lisäesiintymiä jopa MaxCapacity kun grafiikkasuorittimen käyttöaste on yli 60 %.

auto_scaling_client = boto3.client('application-autoscaling')

resource_id='endpoint/' +  + '/variant/' + 'AllTraffic' 
response = auto_scaling_client.register_scalable_target(
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount',
    MinCapacity=1,
    MaxCapacity=5
)

response = auto_scaling_client.put_scaling_policy(
    PolicyName='GPUUtil-ScalingPolicy',
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount', 
    PolicyType='TargetTrackingScaling',
    TargetTrackingScalingPolicyConfiguration={
        'TargetValue': 60.0, 
        'CustomizedMetricSpecification':
        {
            'MetricName': 'GPUUtilization',
            'Namespace': '/aws/sagemaker/Endpoints',
            'Dimensions': [
                {'Name': 'EndpointName', 'Value':  },
                {'Name': 'VariantName','Value': 'AllTraffic'}
            ],
            'Statistic': 'Average',
            'Unit': 'Percent'
        },
        'ScaleInCooldown': 600,
        'ScaleOutCooldown': 200 
    }
)

Suosittelemme käyttämään GPUUtilization or InvocationsPerInstance määrittääksesi automaattisen skaalauskäytännöt MME:lle. Katso lisätietoja Aseta automaattiskaalauskäytännöt usean mallin päätepisteiden käyttöönotoksille

CloudWatch-mittarit GPU MME:ille

SageMaker MME:t tarjoavat seuraavat ilmentymätason mittarit valvontaa varten:

LoadedModelCount – Konteihin ladattujen mallien lukumäärä
GPUUtilization – Säilöjen käyttämien GPU-yksiköiden prosenttiosuus
GPU-muistin käyttö – Säilöjen käyttämän GPU-muistin prosenttiosuus
DiskUtilization – Säilöjen käyttämän levytilan prosenttiosuus

Näiden mittareiden avulla voit suunnitella GPU-ilmentymien resurssien tehokasta käyttöä. Seuraavassa kaaviossa näemme GPUMemoryUtilization oli 38.3 %, kun konttiin ladattiin yli 16 ResNet-50-mallia. Jokaisen yksittäisen CPU-ytimen käyttöasteen summa (CPUUtilization) oli 60.9 % ja säilöjen käyttämän muistin prosenttiosuus (MemoryUtilization) oli 9.36 %.

SageMaker MME:t tarjoavat myös mallin latausmittareita mallin kutsutason oivallusten saamiseksi:

ModelLoadingWaitTime – Aikaväli mallin lataamiseen tai lataamiseen
ModelUnloadingTime – Aikaväli mallin purkamiseen säiliöstä
Mallin latausaika – Aika ladata malli Amazon S3:sta
ModelCacheHit – Säiliöön jo ladattujen mallin kutsujen määrä

Seuraavassa kaaviossa voimme havaita, että mallilta kesti 8.22 sekuntia vastata päättelypyyntöön (ModelLatency), ja päästä päähän -viiveeseen lisättiin 24.1 millisekuntia SageMakerin yleiskulujen vuoksi (OverheadLatency). Voimme myös nähdä kaikki virhemittaukset kutsuista kutsua päätepisteen API-kutsu, kuten Invocation4XXErrors ja Invocation5XXErrors.

Lisätietoja MME CloudWatch -mittareista on kohdassa CloudWatch-mittarit usean mallin päätepisteiden käyttöönotuksiin.

Yhteenveto

Tässä viestissä opit uudesta SageMaker-monimallituesta GPU:lle, jonka avulla voit isännöidä kustannustehokkaasti satoja syväoppimismalleja kiihdytetyssä laskentalaitteistossa. Opit käyttämään NVIDIA Triton Inference Serveriä, joka luo mallivaraston kokoonpanon eri kehystaustaohjelmille, ja kuinka ottaa käyttöön MME automaattisella skaalauksella. Tämän ominaisuuden avulla voit skaalata satoja hyperpersonoituja malleja, jotka on hienosäädetty palvelemaan ainutlaatuisia loppukäyttäjien kokemuksia tekoälysovelluksissa. Voit myös hyödyntää tätä ominaisuutta saavuttaaksesi tarvittavan hintasuorituskyvyn päättelysovelluksellesi käyttämällä murto-osia GPU:ia.

Jos haluat aloittaa MME-tuen GPU:lle, katso Usean mallin päätepisteen tuki GPU:lle.

Tietoja kirjoittajista

Dhawal Patel on AWS:n koneoppimisarkkitehti. Hän on työskennellyt organisaatioiden kanssa suurista yrityksistä keskikokoisiin startup-yrityksiin hajautettuun tietojenkäsittelyyn ja tekoälyyn liittyvissä ongelmissa. Hän keskittyy syväoppimiseen, mukaan lukien NLP- ja tietokonenäköalueet. Hän auttaa asiakkaita tekemään korkean suorituskyvyn mallipäätelmiä Amazon SageMakerissa.

Vikram Elango on vanhempi AI/ML Specialist Solutions -arkkitehti Amazon Web Servicesissä Virginiassa Yhdysvalloissa. Vikram auttaa globaaleja rahoitus- ja vakuutusalan asiakkaita suunnittelussa, toteutuksessa ja ajatusjohtajuudessa rakentamaan ja ottamaan käyttöön koneoppimissovelluksia mittakaavassa. Hän keskittyy tällä hetkellä luonnollisen kielen käsittelyyn, vastuulliseen tekoälyyn, päätelmien optimointiin ja ML:n skaalaukseen koko yrityksessä. Vapaa-ajallaan hän nauttii matkustamisesta, vaeltamisesta, ruoanlaitosta ja telttailusta perheensä kanssa.

Saurabh Trikande on Amazon SageMaker Inferencen -tuotepäällikkö. Hän on intohimoinen asiakkaiden kanssa työskentelyyn, ja häntä motivoi tavoite demokratisoida koneoppimista. Hän keskittyy ydinhaasteisiin, jotka liittyvät monimutkaisten ML-sovellusten käyttöönottoon, usean vuokralaisen ML-malleihin, kustannusten optimointiin ja syvän oppimismallien käyttöönoton helpottamiseen. Vapaa-ajallaan Saurabh nauttii vaelluksesta, innovatiivisten teknologioiden oppimisesta, TechCrunchia seuraamisesta ja perheen kanssa viettämisestä.

Deepti Ragha on ohjelmistokehitysinsinööri Amazon SageMaker -tiimissä. Hänen nykyinen työnsä keskittyy ominaisuuksien rakentamiseen koneoppimismallien tehokkaaseen isännöintiin. Vapaa-ajallaan hän nauttii matkustamisesta, retkeilystä ja kasvien kasvattamisesta.

Nikhil Kulkarni on AWS-koneoppimisen ohjelmistokehittäjä, joka keskittyy koneoppimistyökuormien tehostamiseen pilvessä ja on AWS Deep Learning Containers -säilöjen luoja koulutusta ja päätelmiä varten. Hän on intohimoinen hajautettuihin Deep Learning Systems -järjestelmiin. Työn ulkopuolella hän lukee kirjoja, soittaa kitaraa ja tekee pizzaa.

Jiahong Liu on ratkaisuarkkitehti NVIDIA:n Cloud Service Provider -tiimissä. Hän auttaa asiakkaita ottamaan käyttöön koneoppimis- ja tekoälyratkaisuja, jotka hyödyntävät NVIDIA:n nopeutettua tietojenkäsittelyä vastaamaan heidän koulutus- ja päättelyhaasteisiinsa. Vapaa-ajallaan hän nauttii origamista, tee-se-itse-projekteista ja koripallon pelaamisesta.

Eliuth Triana on NVIDIA-AWS-tiimin kehittäjäsuhdepäällikkö. Hän yhdistää Amazon- ja AWS-tuotejohtajat, kehittäjät ja tutkijat NVIDIA-teknologioihin ja tuotejohtajiin nopeuttaakseen Amazonin ML/DL-työkuormia, EC2-tuotteita ja AWS AI -palveluita. Lisäksi Eliuth on intohimoinen maastopyöräilijä, hiihtäjä ja pokerinpelaaja.

Maximiliano Maccanti on AWS:n pääinsinööri tällä hetkellä DynamoDB:n palveluksessa. Olin SageMakerin julkaisutiimissä re:Invent 2017:ssä ja vietin seuraavat 5 vuotta isännöintialustassa lisäten kaikenlaisia asiakkaita kohtaavia ominaisuuksia. Vapaa-ajallani kerään, korjaan ja pelaan vanhoilla videopelikonsolilla.

Aikaleima: Lokakuu 25, 2022Lokakuu 28, 2022

Aikaleima: Heinäkuu 14, 2022

Suorita useita syväoppimismalleja GPU:ssa Amazon SageMaker -monimallipäätepisteiden avulla

Julkaissut Platon

SageMaker MME:t

SageMaker MME:t GPU-tuella

Ratkaisun yleiskatsaus

Luo malliesineet

Valmistele PyTorch-malli

Valmistele TensorRT-malli

Säilytä malliesineet Amazon S3:ssa

Ota mallit käyttöön MME:n kanssa

Määrittele tarjoiluastia

Luo monimalliobjekti

Määritä MME-kokoonpanot

Luo MME

Kutsu kohdemalli MME:ssä

Määritä automaattisen skaalauskäytännöt GPU MME:lle

CloudWatch-mittarit GPU MME:ille

Yhteenveto

Tietoja kirjoittajista

Lisää aiheesta AWS-koneoppiminen

Julkistamme uusia työkaluja ja ominaisuuksia vastuullisen tekoälyinnovoinnin mahdollistamiseksi | Amazon Web Services

Automatisoi IT-palvelupyyntöjen luokittelu mukautetulla Amazon Comprehend -luokittimella

Nopeuta Amazon SageMakerin päättelyä C6i Intel-pohjaisilla Amazon EC2 -esiintymillä

Tehosuositukset ja haku IMDb-tietokaavion avulla – Osa 3

Luo Amazon SageMaker -malleja käyttämällä PyTorch Model Zooa

Automatisoi kiinnitysasiakirjapetosten havaitseminen käyttämällä ML-mallia ja yrityksen määrittelemiä sääntöjä Amazon Fraud Detectorilla: Osa 3 | Amazon Web Services

Rakenna päästä päähän asiakirjankäsittelyputkia Amazon Textract IDP CDK Constructs -rakenteiden avulla

Käytä koneoppimista havaitaksesi poikkeavuuksia ja ennustaaksesi seisokkeja Amazon Timestreamin ja Amazon Lookout for Equipmentin avulla

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Libraryn, AWS-palveluiden ja Amazon SageMakerin avulla

Seuraa ML-kokeilujasi päästä päähän Data Version Controlin ja Amazon SageMaker Experimentsin avulla

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili