Găzduiește modele ML pe Amazon SageMaker folosind Triton: Modele TensorRT

Republicat de Platon

Urmaritori: 0

Uneori poate fi foarte benefic să folosiți instrumente precum compilatoare care vă pot modifica și compila modelele pentru performanțe optime de inferență. În această postare, explorăm TensorRT și cum să-l folosim Amazon SageMaker deducere folosind NVIDIA Triton Inference Server. Explorăm cum funcționează TensorRT și cum să găzduim și să optimizăm aceste modele pentru performanță și eficiență a costurilor pe SageMaker. SageMaker oferă puncte finale de model unic (IMM-uri), care vă permit să implementați un singur model ML, sau puncte finale multi-model (MME), care vă permit să specificați mai multe modele pentru a găzdui în spatele unui punct final logic pentru o utilizare mai mare a resurselor.

Pentru a servi modele, Triton acceptă diverse backend-uri ca motoare pentru a susține rularea și difuzarea diferitelor modele ML pentru inferență. Pentru orice implementare Triton, este esențial să știți cum vă afectează comportamentul backend-ului sarcinile de lucru și la ce să vă așteptați pentru a avea succes. În această postare, vă ajutăm să înțelegeți Backend-ul TensorRT care este susținut de Triton pe SageMaker, astfel încât să puteți lua o decizie informată pentru sarcinile dvs. de lucru și să obțineți rezultate excelente.

Aprofundare în backend-ul TensorRT

TensorRT vă permite să optimizați inferența folosind tehnici precum cuantizarea, fuziunea stratului și tensorului, reglarea nucleului și altele pe GPU-urile NVIDIA. Prin adoptarea și compilarea modelelor pentru a utiliza TensorRT, puteți optimiza performanța și utilizarea pentru sarcinile de lucru de inferență. În unele cazuri, există compromisuri, ceea ce este tipic pentru tehnici precum cuantizarea, dar rezultatele pot fi dramatice în avantajul performanței, abordând latența și numărul de tranzacții care pot fi procesate.

Backend-ul TensorRT este utilizat pentru a rula modele TensorRT. TensorRT este un SDK dezvoltat de NVIDIA care oferă o bibliotecă de inferențe de învățare profundă de înaltă performanță. Este optimizat pentru GPU-urile NVIDIA și oferă o modalitate de a accelera deducerea învățării profunde în mediile de producție. TensorRT acceptă cadre majore de învățare profundă și include un optimizator de inferență de învățare profundă de înaltă performanță și un timp de execuție care oferă o latență scăzută, inferență de mare debit pentru aplicațiile AI.

TensorRT este capabil să accelereze performanța modelului folosind o tehnică numită optimizarea graficului pentru a optimiza graficul de calcul generat de un model de învățare profundă. Optimizează graficul pentru a minimiza amprenta memoriei prin eliberarea memoriei inutile și reutilizarea eficientă a acesteia. Compilarea TensorRT fuzionează operațiunile rare din graficul modelului pentru a forma un nucleu mai mare pentru a evita suprasolicitarea mai multor lansări mici de nucleu. Cu reglarea automată a nucleului, motorul selectează cel mai bun algoritm pentru GPU-ul țintă, maximizând utilizarea hardware-ului. În plus, TensorRT folosește fluxuri CUDA pentru a permite procesarea paralelă a modelelor, îmbunătățind în continuare utilizarea și performanța GPU. În cele din urmă, prin cuantizare, TensorRT poate utiliza accelerarea cu precizie mixtă a nucleelor Tensor, permițând modelului să ruleze cu precizie FP32, TF32, FP16 și INT8 pentru cea mai bună performanță de inferență. Cu toate acestea, deși precizia redusă poate îmbunătăți în general performanța latenței, aceasta ar putea veni cu o posibilă instabilitate și degradare a preciziei modelului. În general, combinația de tehnici a lui TensorRT are ca rezultat o inferență mai rapidă și o latență mai mică în comparație cu alte motoare de inferență.

Backend-ul TensorRT pentru Triton Inference Server este proiectat pentru a profita de capabilitățile puternice de inferență ale GPU-urilor NVIDIA. Pentru a utiliza TensorRT ca backend pentru Triton Inference Server, trebuie să creați un motor TensorRT din modelul dvs. antrenat folosind API-ul TensorRT. Acest motor este apoi încărcat în Triton Inference Server și utilizat pentru a efectua inferențe cu privire la cererile primite. Următorii sunt pașii de bază pentru a utiliza TensorRT ca backend pentru Triton Inference Server:

Transformă-ți modelul antrenat în ONNX format. Triton Inference Server acceptă ONNX ca format de model. ONNX este un standard pentru reprezentarea modelelor de învățare profundă, permițându-le să fie transferate între cadre. Dacă modelul dvs. nu este deja în formatul ONNX, trebuie să îl convertiți folosind instrumentul adecvat specific cadrului. De exemplu, în PyTorch, acest lucru se poate face folosind torch.onnx.export metodă.
Importați modelul ONNX în TensorRT și generați motorul TensorRT. Pentru TensorRT, există mai multe moduri de a construi un TensorRT din modelul tău ONNX. Pentru această postare, folosim trtexec instrument CLI. trtexec este un instrument pentru a utiliza rapid TensorRT fără a fi nevoie să vă dezvoltați propria aplicație. The trtexec instrumentul are trei scopuri principale:
1. Evaluarea comparativă a rețelelor pe date de intrare aleatorii sau furnizate de utilizator.
2. Generarea de motoare serializate din modele.
3. Generarea unui cache de sincronizare serializat de la constructor.
Încărcați motorul TensorRT în Triton Inference Server. După ce motorul TensorRT este generat, acesta poate fi încărcat în Triton Inference Server prin crearea unui configurația modelului fişier. Configurația modelului (config.pbtxt) ar trebui să includă calea către fișierul motor TensorRT și formele de intrare și de ieșire ale modelului.

Fiecare model dintr-o depozit de modele trebuie să includă o configurație de model care oferă informații obligatorii și opționale despre model. De obicei, această configurație este furnizată în a config.pbtxt fișier specificat ca ModelConfig protobuf. Există câteva puncte cheie de remarcat în acest fișier de configurare:

nume – Acest câmp definește numele modelului și trebuie să fie unic în depozitul de modele.
platformă – Acest câmp definește tipul modelului: motor TensorRT, PyTorch sau altceva.
max_batch_size – Aceasta specifică dimensiunea maximă a lotului care poate fi transmisă acestui model. Dacă dimensiunea lotului modelului este prima dimensiune și toate intrările și ieșirile din model au această dimensiune lot, atunci Triton poate folosi dozator dinamic or dozator de secvențe pentru a utiliza automat lotizarea cu modelul. În acest caz, max_batch_size ar trebui să fie setată la o valoare mai mare sau egală cu 1, ceea ce indică dimensiunea maximă a lotului pe care Triton ar trebui să o folosească cu modelul. Pentru modelele care nu acceptă loturi sau nu acceptă loturi în modurile specifice pe care le-am descris, max_batch_size trebuie setat la 0.
Intrare și de ieșire – Aceste câmpuri sunt obligatorii deoarece NVIDIA Triton are nevoie de metadate despre model. În esență, necesită numele straturilor de intrare și ieșire ale rețelei dvs. și forma intrărilor și ieșirilor menționate.
grup_instanță – Aceasta determină câte instanțe ale acestui model vor fi create și dacă vor folosi GPU sau CPU.
dynamic_batching - Loturi dinamice este o caracteristică a lui Triton care permite cererilor de inferență să fie combinate de către server, astfel încât un lot să fie creat dinamic. The preferred_batch_size proprietatea indică dimensiunile loturilor pe care grupul dinamic ar trebui să încerce să le creeze. Pentru majoritatea modelelor, preferred_batch_size nu trebuie specificat, așa cum este descris în Procesul de configurare recomandat. O excepție o reprezintă modelele TensorRT care specifică mai multe profiluri de optimizare pentru diferite dimensiuni de lot. În acest caz, deoarece unele profiluri de optimizare pot oferi o îmbunătățire semnificativă a performanței în comparație cu altele, ar putea avea sens să fie utilizate preferred_batch_size pentru dimensiunile loturilor acceptate de acele profiluri de optimizare cu performanțe mai mari. Puteți, de asemenea, să faceți referire la dimensiunea lotului care a fost utilizat anterior la rulare trtexec. De asemenea, puteți configura timpul de întârziere pentru a permite cererilor să fie întârziate pentru o perioadă limitată de timp în planificator pentru a permite altor solicitări să se alăture lotului dinamic.

Backend-ul TensorRT este îmbunătățit pentru a avea performanțe semnificativ mai bune. Îmbunătățirile includ reducerea conflictului de fire, utilizarea memoriei fixate pentru transferuri mai rapide între CPU și GPU și creșterea suprapunerii de calcul și copiere a memoriei pe GPU. De asemenea, reduce utilizarea memoriei modelelor TensorRT în multe cazuri prin partajarea greutăților în mai multe instanțe de model. În general, backend-ul TensorRT pentru Triton Inference Server oferă o modalitate puternică și flexibilă de a servi modele de învățare profundă cu inferență TensorRT optimizată. Prin ajustarea opțiunilor de configurare, puteți optimiza performanța și comportamentul de control pentru a se potrivi cazului dumneavoastră de utilizare specific.

SageMaker oferă Triton prin intermediul IMM-urilor și IMM-urilor

SageMaker vă permite să implementați atât singur și multi-model puncte finale cu Triton Inference Server. Triton acceptă un cluster eterogen atât cu GPU-uri, cât și cu procesoare, ceea ce ajută la standardizarea inferenței pe platforme și se extinde dinamic la orice CPU sau GPU pentru a face față sarcinilor de vârf. Următoarea diagramă ilustrează arhitectura Triton Inference Server. Solicitările de inferență ajung la server prin oricare HTTP/REST sau de către C APIși apoi sunt direcționate către planificatorul corespunzător pentru fiecare model. unelte Triton mai mulți algoritmi de programare și loturi care pot fi configurate model cu model. Planificatorul fiecărui model efectuează opțional lotizarea cererilor de inferență și apoi transmite cererile către backend corespunzător tipului de model. Backend-ul cadru efectuează inferențe folosind intrările furnizate în cererile grupate pentru a produce ieșirile solicitate. Ieșirile sunt apoi formatate și returnate în răspuns. The depozit de modele este un depozit bazat pe sistemul de fișiere al modelelor pe care Triton le va pune la dispoziție pentru deducere.

Arhitectura Triton

SageMaker se ocupă de modelarea traficului către punctul final MME și menține copii optime ale modelului pe instanțele GPU pentru performanță la cel mai bun preț. Acesta continuă să direcționeze traficul către instanța în care este încărcat modelul. Dacă resursele instanței ating capacitatea din cauza utilizării mari, SageMaker descarcă modelele cel mai puțin utilizate din container pentru a elibera resurse pentru a încărca modelele utilizate mai frecvent. SageMaker MME oferă capabilități pentru rularea mai multor modele de deep learning sau ML pe GPU, în același timp, cu Triton Inference Server, care a fost extins pentru a implementa Contract MME API. MME-urile permit partajarea instanțelor GPU în spatele unui punct final pe mai multe modele și încarcă și descarcă dinamic modele pe baza traficului de intrare. Cu aceasta, puteți obține cu ușurință o performanță optimă a prețului.

Când un MME SageMaker primește o solicitare de invocare HTTP pentru un anumit model de utilizare TargetModel în cerere, împreună cu sarcina utilă, direcționează traficul către instanța potrivită din spatele punctului final unde este încărcat modelul țintă. SageMaker se ocupă de gestionarea modelului din spatele punctului final. Descarcă dinamic modele de pe Serviciul Amazon de stocare simplă (Amazon S3) la volumul de stocare al instanței dacă modelul invocat nu este disponibil pe volumul de stocare al instanței. Apoi SageMaker încarcă modelul în memoria containerului NVIDIA Triton pe o instanță accelerată de GPU și servește cererea de inferență. Nucleul GPU este partajat de toate modelele dintr-o instanță. Pentru mai multe informații despre SageMaker MME pe GPU, consultați Rulați mai multe modele de deep learning pe GPU cu punctele finale cu mai multe modele Amazon SageMaker.

MME-urile SageMaker se pot scala orizontal folosind o politică de scalare automată și pot furniza instanțe de calcul GPU suplimentare pe baza unor valori specificate. Când vă configurați grupurile de scalare automată pentru punctele finale SageMaker, vă recomandăm să luați în considerare SageMakerVariantInvocationsPerInstance ca criterii primare pentru a determina caracteristicile de scalare ale grupurilor dvs. de scalare automată. În plus, în funcție de faptul dacă modelele dumneavoastră rulează pe GPU sau CPU, puteți lua în considerare și utilizarea CPUUtilization or GPUUtilization ca criterii suplimentare. Pentru punctele finale cu un singur model, deoarece modelele implementate sunt toate aceleași, este destul de simplu să setați politici adecvate pentru a vă îndeplini SLA-urile. Pentru punctele finale cu mai multe modele, vă recomandăm să implementați modele similare în spatele unui anumit punct final pentru a avea performanțe mai stabile și previzibile. În cazurile de utilizare în care sunt utilizate modele de dimensiuni și cerințe diferite, este posibil să doriți să separați acele sarcini de lucru în mai multe puncte finale cu mai multe modele sau să petreceți ceva timp pentru a ajusta politica de grup de scalare automată pentru a obține cel mai bun echilibru între costuri și performanță.

Prezentare generală a soluțiilor

Cu NVIDIA Triton imagine container pe SageMaker, acum puteți utiliza backend-ul TensorRT al Triton, care vă permite să implementați modele TensorRT. The TensorRT_backend repo conține documentația și sursa pentru backend. În secțiunile următoare, vă prezentăm exemplu caiet care demonstrează cum se utilizează NVIDIA Triton Inference Server pe SageMaker MME cu caracteristica GPU pentru a implementa un model de procesare a limbajului natural (NLP) BERT.

Configurați mediul înconjurător

Începem prin a configura mediul necesar. Instalăm dependențele necesare pentru a împacheta conducta noastră de model și pentru a rula inferențe folosind Triton Inference Server. De asemenea, definim Gestionarea identității și accesului AWS (IAM) care oferă SageMaker acces la artefactele modelului și la NVIDIA Triton Registrul Amazon de containere elastice (Amazon ECR) imagine. Puteți folosi următorul exemplu de cod pentru a prelua imaginea Triton ECR prefabricată:

import transformers
import boto3, json, sagemaker, time
from sagemaker import get_execution_role
sess = boto3.Session()
sm = sess.client("sagemaker")
sagemaker_session = sagemaker.Session(boto_session=sess)
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
bucket = sagemaker_session.default_bucket()
print(bucket) account_id_map = { "us-east-1": "785573368785", "us-east-2": "007439368137", "us-west-1": "710691900526", "us-west-2": "301217895009", "eu-west-1": "802834080501", "eu-west-2": "205493899709", "eu-west-3": "254080097072", "eu-north-1": "601324751636", "eu-south-1": "966458181534", "eu-central-1": "746233611703", "ap-east-1": "110948597952", "ap-south-1": "763008648453", "ap-northeast-1": "941853720454", "ap-northeast-2": "151534178276", "ap-southeast-1": "324986816169", "ap-southeast-2": "355873309152", "cn-northwest-1": "474822919863", "cn-north-1": "472730292857", "sa-east-1": "756306329178", "ca-central-1": "464438896020", "me-south-1": "836785723513", "af-south-1": "774647643957",
} region = boto3.Session().region_name
if region not in account_id_map.keys(): raise ("UNSUPPORTED REGION") base = "amazonaws.com.cn" if region.startswith("cn-") else "amazonaws.com"
triton_image_uri = "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
)

Adăugați metode utilitare pentru pregătirea sarcinii utile de solicitare

Creăm funcțiile pentru a transforma textul eșantion pe care îl folosim pentru inferență în sarcina utilă care poate fi trimisă pentru inferență la Triton Inference Server. The tritonclient pachet, care a fost instalat la început, oferă metode utilitare pentru a genera sarcina utilă fără a fi nevoie să cunoașteți detaliile specificației. Folosim metodele create pentru a converti cererea noastră de inferență într-un format binar, care oferă latențe mai mici pentru inferență. Aceste funcții sunt utilizate în timpul pasului de inferență.

Pregătiți modelul TensorRT

În acest pas, încărcăm model BERT pre-antrenat și convertiți la reprezentarea ONNX folosind exportatorul ONNX torță și onnx_exporter.py scenariu. După ce modelul ONNX este creat, folosim TensorRT trtexec comandă pentru a crea planul model care va fi găzduit cu Triton. Acesta este rulat ca parte a generate_model.sh script din celula următoare. Rețineți că celula durează aproximativ 30 de minute pentru a se finaliza.

!docker run --gpus=all --rm -it -v `pwd`/workspace:/workspace nvcr.io/nvidia/pytorch:23.02-py3 /bin/bash generate_models.sh

În timp ce așteptați ca comanda să se termine, puteți verifica scripturile utilizate în acest pas. În onnx_exporter.py scriptul, folosim torch.onnx.export funcție pentru crearea modelului ONNX:

 torch.onnx.export( model, dummy_inputs, args.save, export_params=True, opset_version=10, input_names=["token_ids", "attn_mask"], output_names=["output","pooled_output"], dynamic_axes={"token_ids": [0, 1], "attn_mask": [0, 1], "output": [0]}, )

Linia de comandă din fișierul generate_model.sh creează planul modelului TensorRT. Pentru mai multe informații, consultați instrument de linie de comandă trtexec.

trtexec —onnx=model.onnx —saveEngine=model_bs16.plan —minShapes=token_ids:1x128,attn_mask:1x128 —optShapes=token_ids:16x128,attn_mask:16x128 —maxShapes=token_ids:128x128,attn_mask:128x128 —fp16 —verbose —workspace=14000 | tee conversion_bs16_dy.txt

Construiți un depozit de modele TensorRT NLP BERT

Utilizarea Triton pe SageMaker necesită mai întâi să configuram a depozit de modele folder care conține modelele pe care dorim să le servim. Pentru fiecare model, trebuie să creăm un director de model constând din artefactul model și să definim config.pbtxt pentru a specifica configurația modelului pe care Triton o folosește pentru a încărca și a servi modelul. Pentru a afla mai multe despre setările de configurare, consultați Configurația modelului. Structura depozitului de modele pentru modelul BERT este următoarea:

Structura folderului pentru model

Rețineți că Triton are cerințe specifice pentru aspectul depozitului de modele. În directorul de depozit de modele de nivel superior, fiecare model are propriul său subdirector care conține informațiile pentru modelul corespunzător. Fiecare director de model din Triton trebuie să aibă cel puțin un subdirector numeric reprezentând o versiune a modelului. Aici, folderul 1 reprezintă versiunea 1 a modelului BERT. Fiecare model este rulat de un backend specific, astfel încât în cadrul fiecărui subdirector de versiune trebuie să existe artefactele de model cerute de acel backend. Aici, folosim backend-ul TensorRT, care necesită fișierul plan TensorRT care este utilizat pentru difuzare (pentru acest exemplu, model.plan). Dacă am folosi un backend PyTorch, a model.pt ar fi necesar un dosar. Pentru mai multe detalii despre convențiile de denumire pentru fișierele model, consultați Fișiere model.

Fiecare model TensorRT trebuie să ofere un config.pbtxt fișier care descrie configurația modelului. Pentru a utiliza acest backend, trebuie să setați backend domeniul modelului dvs config.pbtxt fișier de tensorrt_plan. Următoarea secțiune de cod arată un exemplu de definire a fișierului de configurare pentru modelul BERT care este servit prin backend-ul TensorRT al Triton:

name: "bert"
platform: "tensorrt_plan"
max_batch_size: 128
input [ { name: "token_ids" data_type: TYPE_INT32 dims: [128] }, { name: "attn_mask" data_type: TYPE_INT32 dims: [128] }
]
output [ { name: "output" data_type: TYPE_FP32 dims: [128, 768] }, { name: "pooled_output" data_type: TYPE_FP32 dims: [768] }
]
instance_group { count: 1 kind: KIND_GPU
}
dynamic_batching { preferred_batch_size: 16
}

SageMaker se așteaptă ca un fișier .tar.gz care să conțină fiecare depozit de modele Triton să fie găzduit pe punctul final cu mai multe modele. Pentru a simula mai multe modele similare care sunt găzduite, s-ar putea să credeți că tot ce este nevoie este să tarați depozitul de modele pe care l-am construit deja și apoi să îl copiați cu nume de fișiere diferite. Cu toate acestea, Triton necesită nume unice de model. Prin urmare, copiem mai întâi repo-ul modelului de N ori, schimbând numele directorului modelului și corespunzătoare acestora config.pbtxt fișiere. Puteți modifica numărul de N pentru a avea mai multe copii ale modelului care pot fi încărcate dinamic la punctul final de găzduire pentru a simula acțiunea de încărcare/descărcare a modelului gestionată de SageMaker. Vezi următorul cod:

import os
import shutil N = 5
prefix = 'bert-mme'
model_repo_base = 'model_repo' # Get model names from model_repo_0
model_names = [name for name in os.listdir(f'{model_repo_base}_0') if os.path.isdir(f'{model_repo_base}_0/{name}')] for i in range(N): # Make copy of previous model repo, increment # id shutil.copytree(f'{model_repo_base}_0', f'{model_repo_base}_{i+1}') time.sleep(5) for name in model_names: model_dirs_path = f'{model_repo_base}_{i+1}/{name}' # Open each model's config file to increment model # id there fin = open(f'{model_dirs_path}/config.pbtxt', "rt") data = fin.read() data = data.replace(name, name[:-1] + str(i+1)) fin.close() fin = open(f'{model_dirs_path}/config.pbtxt', "wt") fin.write(data) fin.close() # Change model directory name to match new config os.rename(model_dirs_path,model_dirs_path[:-1]+str(i+1)) time.sleep(2) if i == 0: tar_file_name = f'bert-{i}.tar.gz' model_repo_target = f'{model_repo_base}_{i}/' !tar -C $model_repo_target -czf $tar_file_name . sagemaker_session.upload_data(path=tar_file_name, key_prefix=prefix) tar_file_name = f'bert-{i+1}.tar.gz' model_repo_target = f'{model_repo_base}_{i+1}/' !tar -C $model_repo_target -czf $tar_file_name . sagemaker_session.upload_data(path=tar_file_name, key_prefix=prefix) !sudo rm -r "$tar_file_name" "$model_repo_target"

Creați un punct final SageMaker

Acum că am încărcat artefactele modelului pe Amazon S3, putem crea obiectul model SageMaker, configurația punctului final și punctul final.

În primul rând, trebuie să definim recipientul de servire. În definiția containerului, definiți ModelDataUrl pentru a specifica directorul S3 care conține toate modelele pe care punctul final cu mai multe modele SageMaker le va folosi pentru a încărca și a servi predicții. A stabilit Mode la MultiModel pentru a indica SageMaker va crea punctul final cu specificațiile containerului MME. Vezi următorul cod:

container = { "Image": triton_image_uri, "ModelDataUrl": model_data_uri, "Mode": "MultiModel",
}

Apoi creăm obiectul model SageMaker folosind create_model boto3 API prin specificarea ModelName și definiția containerului:

create_model_response = sm.create_model(
ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Folosim acest model pentru a crea un configurația punctului final unde putem specifica tipul și numărul de instanțe pe care le dorim în punctul final. Aici implementăm pe o instanță GPU NVIDIA g5.xlarge:

create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g5.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

Cu această configurație a punctului final, creăm un nou punct final SageMaker și așteptăm finalizarea implementării. Starea se va schimba în InService când implementarea are succes.

endpoint_name = "triton-nlp-bert-trt-mme-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint(
EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

Invocați modelul dvs. găzduit pe punctul final SageMaker

Când punctul final rulează, putem folosi câteva mostre de date brute pentru a efectua inferențe folosind fie JSON, fie binar+JSON ca format de încărcare utilă. Pentru formatul cererii de inferență, Triton utilizează standardul comunității KFServing protocoale de inferență. Putem trimite cererea de inferență către punctul final cu mai multe modele folosind invoke_enpoint API. Precizăm TargetModel în apelul de invocare și transmiteți sarcina utilă pentru fiecare tip de model. Aici invocăm punctul final într-o buclă for pentru a solicita punctul final încărcarea sau descărcarea dinamică a modelelor pe baza cererilor:

text_triton = "Triton Inference Server provides a cloud and edge inferencing solution optimized for both CPUs and GPUs."
input_ids, attention_mask = tokenize_text(text_triton) payload = { "inputs": [ {"name": "token_ids", "shape": [1, 128], "datatype": "INT32", "data": input_ids}, {"name": "attn_mask", "shape": [1, 128], "datatype": "INT32", "data": attention_mask}, ]
} for i in range(N): response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload), TargetModel=f"bert-{i}.tar.gz", ) print(json.loads(response["Body"].read().decode("utf8")))

Puteți monitoriza starea de încărcare și descărcare a modelului folosind Amazon CloudWatch metrici și jurnalele. Punctele finale cu mai multe modele SageMaker oferă valori la nivel de instanță de monitorizat; pentru mai multe detalii, consultați Monitorizați Amazon SageMaker cu Amazon CloudWatch. LoadedModelCount metrica arată numărul de modele încărcate în containere. The ModelCacheHit valoarea arată numărul de invocări la model care sunt deja încărcate în container pentru a vă ajuta să obțineți informații la nivel de invitație de model. Pentru a verifica dacă modelele sunt descărcate din memorie, puteți căuta intrările de jurnal descărcate cu succes în jurnalele CloudWatch ale punctului final.

Caietul poate fi găsit în GitHub depozit.

Cele mai bune practici

Înainte de a începe orice efort de optimizare cu TensorRT, este esențial să determinați ce ar trebui să fie măsurat. Fără măsurători, este imposibil să faci progrese fiabile sau să măsori dacă succesul a fost atins. Iată câteva dintre cele mai bune practici de luat în considerare atunci când utilizați backend-ul TensorRT pentru Triton Inference Server:

Optimizați-vă modelul TensorRT – Înainte de a implementa un model pe Triton cu backend-ul TensorRT, asigurați-vă că optimizați modelul urmând TensorRT Cele mai bune practici ghid. Acest lucru vă va ajuta să obțineți performanțe mai bune prin reducerea timpului de inferență și a consumului de memorie.
Folosiți TensorRT în loc de alte backend-uri Triton atunci când este posibil – TensorRT este conceput pentru a optimiza modelele de învățare profundă pentru implementarea pe GPU-uri NVIDIA, astfel încât utilizarea acestuia poate îmbunătăți semnificativ performanța de inferență în comparație cu utilizarea altor backend-uri Triton acceptate.
Utilizați precizia potrivită – TensorRT acceptă mai multe precizii (FP32, FP16, INT8), iar selectarea preciziei potrivite pentru modelul dvs. poate avea un impact semnificativ asupra performanței. Luați în considerare utilizarea unei precizii mai mici atunci când este posibil.
Utilizați dimensiuni de lot care se potrivesc cu hardware-ul dvs – Asigurați-vă că alegeți dimensiuni de lot care se potrivesc cu memoria și capacitățile de calcul ale GPU-ului dvs. Utilizarea dimensiunilor loturilor prea mari sau prea mici poate avea un impact negativ asupra performanței.

Concluzie

În această postare, ne-am adâncit în backend-ul TensorRT pe care Triton Inference Server îl acceptă pe SageMaker. Acest backend oferă atât accelerarea procesorului, cât și a GPU-ului modelelor dvs. TensorRT. Există multe opțiuni de luat în considerare pentru a obține cea mai bună performanță pentru inferență, cum ar fi dimensiunile loturilor, formatele de introducere a datelor și alți factori care pot fi ajustați pentru a satisface nevoile dvs. SageMaker vă permite să profitați de această capacitate folosind puncte finale unice pentru performanță garantată și puncte finale cu mai multe modele pentru a obține un echilibru mai bun între performanță și economii de costuri. Pentru a începe cu suportul MME pentru GPU, consultați Algoritmi, cadre și instanțe acceptate.

Vă invităm să încercați containerele Triton Inference Server în SageMaker și să vă împărtășiți feedbackul și întrebările în comentarii.

Despre Autori

Melanie Li este specialist senior AI/ML TAM la AWS cu sediul în Sydney, Australia. Ea ajută clienții întreprinderilor să construiască soluții utilizând instrumentele de IA/ML de ultimă generație pe AWS și oferă îndrumări privind arhitectura și implementarea soluțiilor de învățare automată cu cele mai bune practici. În timpul liber, îi place să exploreze natura în aer liber și să petreacă timp cu familia și prietenii.

James Park este arhitect de soluții la Amazon Web Services. Lucrează cu Amazon pentru a proiecta, construi și implementa soluții tehnologice pe AWS și are un interes deosebit pentru inteligența artificială și învățarea automată. În timpul liber, îi place să caute noi culturi, noi experiențe și să fie la curent cu cele mai recente tendințe tehnologice.

Jiahong Liu este arhitect de soluții în echipa de furnizori de servicii cloud de la NVIDIA. El ajută clienții să adopte soluții de învățare automată și inteligență artificială care folosesc calcularea accelerată NVIDIA pentru a-și aborda provocările de formare și inferență. În timpul liber, îi place origami, proiecte de bricolaj și joacă baschet.

Kshitiz Gupta este arhitect de soluții la NVIDIA. Îi face plăcere să educe clienții din cloud despre tehnologiile GPU AI pe care le oferă NVIDIA și să-i ajute să-și accelereze învățarea automată și aplicațiile de deep learning. În afara serviciului, îi place să alerge, să facă drumeții și să urmărească fauna sălbatică.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoAiStream. Web3 Data Intelligence. Cunoștințe amplificate. Accesați Aici.
Mintând viitorul cu Adryenn Ashley. Accesați Aici.
Cumpărați și vindeți acțiuni în companii PRE-IPO cu PREIPO®. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/host-ml-models-on-amazon-sagemaker-using-triton-tensorrt-models/

Timestamp-ul: 8 Mai, 2023

Timestamp-ul: Iunie 29, 2022

Republicat de Platon

AWS și Hugging Face colaborează pentru a face AI generativă mai accesibilă și mai eficientă din punct de vedere al costurilor

Integrați Amazon SageMaker Data Wrangler cu fluxurile de lucru MLOps

Îmbunătățiți experiența apelantului cu sugestii în Amazon Lex

Activați un antrenament mai rapid cu biblioteca paralelă de date Amazon SageMaker | Amazon Web Services

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont