Tutvustame Amazon SageMakeri serverita järelduste võrdlusuuringu tööriistakomplekti

Taasavaldanud Platon

järgijaid: 0

Amazon SageMakeri serverita järeldus on sihipäraselt loodud järeldusvõimalus, mis muudab masinõppe (ML) mudelite juurutamise ja skaleerimise lihtsaks. See pakub tasulise kasutamise mudelit, mis sobib ideaalselt teenuste jaoks, kus lõpp-punktide väljakutsed on harvad ja ettearvamatud. Erinevalt reaalajas hostimise lõpp-punktist, mida toetab kaua töötav eksemplar, on serverita lõpp-punktide jaoks ette nähtud arvutusressursid nõudmisel, mis välistab vajaduse valida eksemplaritüüpe või hallata skaleerimispoliitikaid.

Järgmine kõrgetasemeline arhitektuur illustreerib serverita lõpp-punkti toimimist. Klient kutsub esile lõpp-punkti, mida toetab AWS-i hallatav infrastruktuur.

Kuid serverita lõpp-punktid on altid külmkäivitamisele sekundite suurusjärgus ja sobivad seetõttu paremini vahelduva või ettearvamatu töökoormuse jaoks.

Et aidata kindlaks teha, kas serverita lõpp-punkt on kulude ja jõudluse seisukohast õige juurutusvalik, oleme välja töötanud SageMaker Serverless Inference Benchmarking Toolkit, mis testib erinevaid lõpp-punkti konfiguratsioone ja võrdleb optimaalseimat võrreldava reaalajas hostimise eksemplariga.

Selles postituses tutvustame tööriistakomplekti ning anname ülevaate selle konfiguratsioonist ja väljunditest.

Lahenduse ülevaade

Tööriistakomplekti saate alla laadida ja installida saidilt GitHub repo. Alustamine on lihtne: lihtsalt installige raamatukogu, looge a SageMakeri mudelja sisestage oma mudeli nimi koos JSON-ridade vormindatud failiga, mis sisaldab prooviparameetrite komplekti, sealhulgas kasuliku koormuse keha ja sisutüüpi. Pakutakse mugavusfunktsiooni kutsumisargumentide näidisloendi teisendamiseks JSON-i ridade failiks või hapufailiks binaarsete kasulike koormuste (nt pildid, video või heli) jaoks.

Installige tööriistakomplekt

Esmalt installige võrdlusuuringute teek oma Pythoni keskkonda, kasutades pip:

pip install sm-serverless-benchmarking

Saate käivitada järgmise koodi rakendusest Amazon SageMaker Studio näide, SageMakeri märkmiku eksemplarvõi mis tahes juhtum programmiline juurdepääs AWS-ile ja sobivale AWS-i identiteedi- ja juurdepääsuhaldus (IAM) load. Nõutavad IAM-õigused on dokumenteeritud dokumendis GitHub repo. Täiendavate juhiste ja IAM-i poliitika näidete saamiseks vaadake Kuidas Amazon SageMaker IAM-iga töötab. See kood käivitab parameetrite vaikekomplektiga võrdlusaluse mudelil, mis ootab CSV-sisendit koos kahe näidiskirjega. Hea tava on esitada esinduslik näidete kogum, et analüüsida, kuidas lõpp-punkt erinevate sisendkoormustega toimib.

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

Lisaks saate võrdlusuuringut käitada SageMakeri töötlemistööna, mis võib olla usaldusväärsem valik pikemaajaliste ja suure hulga kutsumiste korral. Vaadake järgmist koodi:

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

Pange tähele, et sellega kaasnevad lisakulud ml.m5.large SageMaker Processingi eksemplari käitamisega kogu võrdlusaluse kestuse jooksul.

Mõlemad meetodid aktsepteerivad konfigureerimiseks mitmeid parameetreid, näiteks võrdluseks kasutatavate mälukonfiguratsioonide loendit ja iga konfiguratsiooni käivitamise kordade arvu. Enamikul juhtudel peaksid vaikevalikutest piisama lähtepunktiks, kuid viidake GitHub repo iga parameetri täieliku loendi ja kirjelduste jaoks.

Võrdlusuuringu konfiguratsioon

Enne kui hakkate uurima, mida etalon teeb ja milliseid väljundeid see toodab, on oluline mõista mõnda põhimõistet serverita lõpp-punktide konfigureerimisel.

Seal on kaks peamist konfiguratsioonivalikut: MemorySizeInMB ja MaxConcurrency. MemorySizeInMB konfigureerib eksemplarile eraldatava mälumahu ja see võib olla 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB või 6144 MB. Ka vCPU-de arv skaleerub proportsionaalselt eraldatud mälumahuga. The MaxConcurrency parameeter reguleerib, mitut samaaegset päringut lõpp-punkt suudab teenindada. Koos MaxConcurrency 1-st saab serverita lõpp-punkt töödelda ainult ühte päringut korraga.

Kokkuvõtteks võib öelda, et MemorySizeInMB parameeter pakub vertikaalse skaleeritavuse mehhanismi, mis võimaldab teil kohandada mälu ja arvutada ressursse suuremate mudelite teenindamiseks. MaxConcurrency pakub horisontaalse skaleeritavuse mehhanismi, võimaldades teie lõpp-punktil töödelda rohkem samaaegseid taotlusi.

Lõpp-punkti käitamise kulud määrab suuresti mälumaht ja maksimaalse samaaegsuse suurendamisega ei kaasne mingeid kulusid. Siiski on kõigi lõpp-punktide maksimaalseks samaaegsuseks piirkonnapõhine konto piirang. Viitama SageMakeri lõpp-punktid ja kvoodid viimaste limiitide jaoks.

Võrdlusuuringu väljundid

Seda arvestades on serverita lõpp-punkti võrdlusuuringu eesmärk määrata kindlaks kõige kuluefektiivsem ja usaldusväärsem mälumahu säte ning minimaalne maksimaalne samaaegsus, mis suudab teie eeldatavaid liiklusmustreid käsitleda.

Vaikimisi töötab tööriist kahte võrdlusalust. Esimene on stabiilsuse etalon, mis juurutab lõpp-punkti iga määratud mälukonfiguratsiooni jaoks ja kutsub iga lõpp-punkti koos esitatud näidiskoormustega. Selle võrdlusaluse eesmärk on määrata kõige tõhusam ja stabiilsem MemorySizeInMB säte. Võrdlusnäitaja fikseerib väljakutse latentsusajad ja arvutab iga lõpp-punkti jaoks eeldatava ühe kutsumiskulu. Seejärel võrdleb see kulusid sarnase reaalajas hostimise eksemplariga.

Kui võrdlusuuringud on lõpule viidud, genereerib tööriist mitu määratud väljundit result_save_path kataloog järgmise kataloogistruktuuriga:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

. benchmarking_report kataloog sisaldab konsolideeritud aruannet kõigi kokkuvõtlike väljunditega, mida selles postituses kirjeldame. Täiendavad kataloogid sisaldavad töötlemata ja vaheväljundeid, mida saate kasutada täiendavate analüüside jaoks. Vaadake GitHub repo iga väljundartefakti üksikasjalikuma kirjelduse jaoks.

Uurime mõnda tegelikku võrdlusuuringu väljundit arvutivisiooni MobileNetV2 TensorFlow mudelit teenindava lõpp-punkti jaoks. Kui soovite seda näidet reprodutseerida, vaadake näiteks märkmikud kataloogi GitHubi repos.

Konsolideeritud aruande esimene väljund on kokkuvõtlik tabel, mis sisaldab iga jaoks minimaalse, keskmise, keskmise ja maksimaalse latentsusaja mõõdikuid. MemorySizeInMB edukas mälumahu seadistamine. Nagu on näidatud järgmises tabelis, on kutsumise keskmine latentsus (invocation_latency_mean) jätkas paranemist, kuna mälu konfiguratsiooni suurendati 3072 MB-ni, kuid paranes pärast seda.