Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del

Odvisno od kakovosti in kompleksnosti podatkov podatkovni znanstveniki porabijo med 45–80 % svojega časa za naloge priprave podatkov. To pomeni, da priprava in čiščenje podatkov vzameta dragoceni čas od pravega podatkovnega znanstvenega dela. Potem ko je model strojnega učenja (ML) usposobljen s pripravljenimi podatki in pripravljen za uporabo, morajo podatkovni znanstveniki pogosto prepisati transformacije podatkov, ki se uporabljajo za pripravo podatkov za sklepanje ML. To lahko podaljša čas, potreben za uvedbo uporabnega modela, ki lahko sklepa in ocenjuje podatke iz svoje neobdelane oblike in oblike.

V 1. delu te serije smo pokazali, kako Data Wrangler omogoča a enotna priprava podatkov in usposabljanje modelov izkušenj Amazonski SageMaker avtopilot v samo nekaj klikih. V tem drugem in zadnjem delu te serije se osredotočamo na funkcijo, ki vključuje in ponovno uporablja Amazon SageMaker Data Wrangler transformacije, kot so imputerji manjkajočih vrednosti, ordinalni ali enkratni kodirniki in več, skupaj z modeli avtopilota za sklepanje ML. Ta funkcija omogoča samodejno predhodno obdelavo neobdelanih podatkov s ponovno uporabo transformacij funkcije Data Wrangler v času sklepanja, kar dodatno skrajša čas, potreben za uvedbo usposobljenega modela v produkcijo.

Pregled rešitev

Data Wrangler skrajša čas za združevanje in pripravo podatkov za ML s tednov na minute, Autopilot pa samodejno zgradi, uri in prilagodi najboljše modele ML na podlagi vaših podatkov. Z avtopilotom še vedno ohranjate popoln nadzor in vidljivost svojih podatkov in modela. Obe storitvi sta namensko zasnovani, da naredita strokovnjake za strojno upravljanje bolj produktivni in pospešita čas do vrednosti.

Naslednji diagram ponazarja našo arhitekturo rešitev.

Predpogoji

Ker je ta objava druga v dvodelni seriji, se prepričajte, da ste jo uspešno prebrali in implementirali Del 1 preden nadaljujete.

Izvozi in usposobi model

V 1. delu smo po pripravi podatkov za ML razpravljali o tem, kako lahko uporabite integrirano izkušnjo v Data Wranglerju za analizo naborov podatkov in preprosto gradnjo visokokakovostnih modelov ML v Autopilotu.

Tokrat ponovno uporabljamo integracijo avtopilota za usposabljanje modela glede na isti nabor podatkov za usposabljanje, vendar namesto množičnega sklepanja izvajamo sklepanje v realnem času glede Amazon SageMaker končna točka sklepanja, ki se samodejno ustvari za nas.

Poleg udobja, ki ga zagotavlja samodejna uvedba končne točke, prikazujemo, kako lahko uvedete tudi z vsemi transformacijami funkcij Data Wrangler kot serijski inferenčni cevovod SageMaker. To omogoča samodejno predhodno obdelavo neobdelanih podatkov s ponovno uporabo pretvorb funkcij Data Wrangler v času sklepanja.

Upoštevajte, da je ta funkcija trenutno podprta samo za tokove Data Wrangler, ki ne uporabljajo pretvorb združevanja, združevanja po, združevanja in časovnih vrst.

Uporabimo lahko novo integracijo Data Wrangler z avtopilotom za neposredno usposabljanje modela iz uporabniškega vmesnika pretoka podatkov Data Wrangler.

  1. Izberite znak plus poleg Vrednosti lestvice vozlišče in izberite Model vlaka.
  2. za Lokacija Amazon S3, določite Preprosta storitev shranjevanja Amazon (Amazon S3) lokacija, kamor SageMaker izvozi vaše podatke.
    Če je privzeto predstavljena s korensko potjo vedra, Data Wrangler pod njo ustvari edinstven izvozni podimenik – te privzete korenske poti vam ni treba spreminjati, razen če želite. Avtopilot uporablja to lokacijo za samodejno usposabljanje modela in vam prihrani čas od tega, da je treba določiti izhodno lokacijo toka Data Wrangler in nato določiti vhodno lokacijo podatkov o usposabljanju avtopilota. To omogoča bolj brezhibno izkušnjo.
  3. Izberite Izvoz in vlak za izvoz preoblikovanih podatkov v Amazon S3.
    Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
    Ko je izvoz uspešen, ste preusmerjeni na Ustvarite poskus z avtopilotom stran, z Vhodni podatki Lokacija S3 je že izpolnjena za vas (izpolnjena je bila iz rezultatov prejšnje strani).
  4. za Ime preizkusa, vnesite ime (ali obdržite privzeto ime).
  5. za ciljna, izberite Rezultat kot stolpec, ki ga želite predvideti.
  6. Izberite Naprej: Metoda usposabljanja.
    Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Kot je podrobno opisano v objavi Avtopilot Amazon SageMaker je do osemkrat hitrejši z novim načinom vadbe v skupini, ki ga poganja AutoGluon, lahko dovolite, da avtopilot samodejno izbere način vadbe na podlagi velikosti nabora podatkov ali pa ročno izberete način vadbe za združevanje ali optimizacijo hiperparametrov (HPO).

Podrobnosti vsake možnosti so naslednje:

  • Auto – Avtopilot samodejno izbere način združevanja ali HPO glede na velikost vašega nabora podatkov. Če je vaš nabor podatkov večji od 100 MB, avtopilot izbere HPO; drugače pa izbere ansambel.
  • Sestavljanje – Avtopilot uporablja AutoGluon tehnika združevanja za usposabljanje več osnovnih modelov in združevanje njihovih napovedi z uporabo zlaganja modelov v optimalen napovedni model.
  • Optimizacija hiperparametra – Avtopilot najde najboljšo različico modela tako, da prilagodi hiperparametre z Bayesovo tehniko optimizacije in izvaja usposabljanja na vašem naboru podatkov. HPO izbere algoritme, ki so najbolj ustrezni za vaš nabor podatkov, in izbere najboljši obseg hiperparametrov za nastavitev modelov. Za naš primer pustimo privzeto izbiro Auto.
  1. Izberite Naprej: uvajanje in napredne nastavitve za nadaljevanje.
    Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  2. o Uvajanje in napredne nastavitve izberite možnost uvedbe.
    Pomembno je, da podrobneje razumete možnosti uvajanja; kar bomo izbrali, bo vplivalo na to, ali bodo transformacije, ki smo jih naredili prej v Data Wranglerju, vključene v cevovod sklepanja ali ne:
    • Samodejna uvedba najboljšega modela s transformacijami iz Data Wranglerja – S to možnostjo uvajanja, ko pripravljate podatke v Data Wranglerju in učite model s priklicem avtopilota, se usposobljeni model uvede poleg vseh transformacij funkcije Data Wrangler kot Serijski inferenčni cevovod SageMaker. To omogoča samodejno predhodno obdelavo neobdelanih podatkov s ponovno uporabo pretvorb funkcij Data Wrangler v času sklepanja. Upoštevajte, da končna točka sklepanja pričakuje, da bo oblika vaših podatkov v isti obliki kot pri uvozu v tok Data Wrangler.
    • Samodejna uvedba najboljšega modela brez transformacij iz Data Wranglerja – Ta možnost razmesti končno točko v realnem času, ki ne uporablja pretvorb Data Wrangler. V tem primeru morate transformacije, definirane v vašem toku Data Wrangler, uporabiti za svoje podatke pred sklepanjem.
    • Ne uvajaj najboljšega modela samodejno – To možnost uporabite, če sploh ne želite ustvariti končne točke sklepanja. Uporabno je, če želite ustvariti najboljši model za poznejšo uporabo, na primer lokalno zagnano množično sklepanje. (To je možnost uvedbe, ki smo jo izbrali v 1. delu serije.) Upoštevajte, da ko izberete to možnost, model, ustvarjen (od najboljšega kandidata za Autopilot prek SDK-ja SageMaker), vključuje transformacije funkcije Data Wrangler kot serijski inferenčni cevovod SageMaker.

    Za to objavo uporabljamo Samodejna uvedba najboljšega modela s transformacijami iz Data Wranglerja možnost.

  3. za Možnost uvajanjatako, da izberete Samodejna uvedba najboljšega modela s transformacijami iz Data Wranglerja.
  4. Ostale nastavitve pustite privzete.
  5. Izberite Naprej: Pregled in ustvarjanje za nadaljevanje.
    o Preglejte in ustvarite stran, vidimo povzetek nastavitev, izbranih za naš poskus avtopilota.
  6. Izberite Ustvari poskus za začetek postopka ustvarjanja modela.
    Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Preusmerjeni ste na stran z opisom delovnega mesta avtopilota. Modeli prikazujejo na Modeli ko so ustvarjeni. Če želite potrditi, da je postopek končan, pojdite na Profil zaposlitve in poiščite a Completed vrednost za Status področju.

Na to stran z opisom delovnega mesta avtopilota se lahko kadar koli vrnete iz Amazon SageMaker Studio:

  1. Izberite Eksperimenti in poskusi o Viri SageMaker spustni meni.
  2. Izberite ime opravila avtopilota, ki ste ga ustvarili.
  3. Izberite (z desnim klikom) poskus in izberite Opišite opravilo AutoML.

Oglejte si usposabljanje in uvajanje

Ko avtopilot zaključi poskus, si lahko ogledamo rezultate usposabljanja in raziščemo najboljši model na strani z opisom delovnega mesta avtopilota.

Izberite (z desnim klikom) označeni model Najboljši model, in izberite Odpri v podrobnostih modela.

Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

O Uspešnost zavihek prikazuje več preizkusov meritev modela, vključno z matriko zmede, območjem pod krivuljo natančnosti/priklica (AUCPR) in območjem pod krivuljo obratovalne karakteristike sprejemnika (ROC). Ti ponazarjajo splošno uspešnost validacije modela, vendar nam ne povedo, ali se bo model dobro posplošil. Še vedno moramo zagnati vrednotenja nevidnih testnih podatkov, da vidimo, kako natančno model daje napovedi (v tem primeru napovemo, ali bo posameznik imel sladkorno bolezen).

Izvedite sklepanje glede na končno točko v realnem času

Ustvarite nov zvezek SageMaker za izvajanje sklepanja v realnem času za oceno delovanja modela. Vnesite naslednjo kodo v beležnico, da zaženete sklepanje v realnem času za preverjanje:

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

Ko nastavite kodo za izvajanje v prenosnem računalniku, morate konfigurirati dve spremenljivki:

  • endpoint_name
  • payload_str

Konfigurirajte endpoint_name

endpoint_name predstavlja ime končne točke sklepanja v realnem času, ki jo je uvedba samodejno ustvarila za nas. Preden ga nastavimo, moramo najti njegovo ime.

  1. Izberite Končne točke o Viri SageMaker spustni meni.
  2. Poiščite ime končne točke, ki ima ime opravila avtopilota, ki ste ga ustvarili, z naključnim nizom.
  3. Izberite (z desnim klikom) poskus in izberite Opišite končno točko.
    Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
    O Podrobnosti o končni točki se prikaže stran.
  4. Označite celotno ime končne točke in pritisnite Ctrl + C da ga kopirate v odložišče.
    Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  5. Vnesite to vrednost (prepričajte se, da je kotirana) za endpoint_name v sklepnem zvezku.
    Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Konfigurirajte payload_str

Beležnica je opremljena s privzetim nizom tovora payload_str ki jih lahko uporabite za testiranje svoje končne točke, vendar lahko eksperimentirate z različnimi vrednostmi, kot so tiste iz vašega testnega nabora podatkov.

Če želite pridobiti vrednosti iz nabora testnih podatkov, sledite navodilom v Del 1 za izvoz testnega nabora podatkov v Amazon S3. Nato jo lahko prenesete na konzoli Amazon S3 in izberete vrstice za uporabo datoteke iz Amazon S3.

Vsaka vrstica v vašem testnem naboru podatkov ima devet stolpcev, pri čemer je zadnji stolpec outcome vrednost. Za to kodo zvezka se prepričajte, da uporabljate samo eno podatkovno vrstico (nikoli glave CSV) za payload_str. Poskrbite tudi, da pošljete samo a payload_str z osmimi stolpci, kjer ste odstranili vrednost rezultata.

Na primer, če so vaše testne datoteke nabora podatkov videti kot naslednja koda in želimo izvesti sklepanje prve vrstice v realnem času:

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

Postavili smo payload_str do 10,115,0,0,0,35.3,0.134,29. Upoštevajte, kako smo izpustili outcome vrednost 0 na koncu.

Če po naključju ciljna vrednost vašega nabora podatkov ni prva ali zadnja vrednost, preprosto odstranite vrednost z nedotaknjeno strukturo vejice. Na primer, predpostavimo, da predvidevamo stolpec in je naš nabor podatkov videti kot naslednja koda:

foo,bar,foobar
85,17,20

V tem primeru smo postavili payload_str do 85,,20.

Ko se prenosnik zažene s pravilno konfiguriranim payload_str in endpoint_name vrednosti, dobite odgovor CSV nazaj v obliki outcome (0 ali 1), confidence (0-1).

Čiščenje

Če želite zagotoviti, da vam po dokončanju te vadnice ne bodo nastali stroški, povezani z vadnico, zaustavite aplikacijo Data Wrangler (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html), pa tudi vse primerke prenosnih računalnikov, ki se uporabljajo za izvajanje nalog sklepanja. Končne točke sklepanja, ustvarjene z uvedbo Auto Pilot, je treba izbrisati, da preprečite tudi dodatne stroške.

zaključek

V tej objavi smo pokazali, kako integrirati vašo obdelavo podatkov, vključno z inženiringom in gradnjo modela z uporabo Data Wrangler in Autopilot. Na podlagi 1. dela serije smo poudarili, kako lahko preprosto usposobite, prilagodite in uvedete model na končno točko sklepanja v realnem času z avtopilotom neposredno iz uporabniškega vmesnika Data Wrangler. Poleg udobja, ki ga zagotavlja samodejna uvedba končne točke, smo pokazali, kako lahko uvedete tudi z vsemi transformacijami funkcije Data Wrangler kot cevovod serijskega sklepanja SageMaker, ki zagotavlja samodejno predhodno obdelavo neobdelanih podatkov, s ponovno uporabo transformacij funkcije Data Wrangler na čas sklepanja.

Rešitve z nizko kodo in rešitve AutoML, kot sta Data Wrangler in Autopilot, odpravljajo potrebo po poglobljenem znanju kodiranja za izdelavo robustnih modelov ML. Začnite uporabljati Data Wrangler danes izkusite, kako enostavno je izdelati modele ML z uporabo avtopilota.


O avtorjih

Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Geremy Cohen je arhitekt rešitev z AWS, kjer strankam pomaga pri izdelavi vrhunskih rešitev v oblaku. V prostem času uživa v kratkih sprehodih po plaži, z družino raziskuje območje zaliva, popravlja stvari po hiši, lomi okoli hiše in žari na žaru.

Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Pradeep Reddy je višji produktni vodja v skupini SageMaker Low/No Code ML, ki vključuje SageMaker Autopilot, SageMaker Automatic Model Tuner. Zunaj službe Pradeep uživa v branju, teku in uživanju v računalnikih v velikosti dlani, kot je raspberry pi, in drugi tehniki za avtomatizacijo doma.

Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Dr. John He je višji inženir za razvoj programske opreme pri Amazon AI, kjer se osredotoča na strojno učenje in porazdeljeno računalništvo. Ima doktorat iz CMU.

Časovni žig:

Več od Strojno učenje AWS