Mangroovimetsad on tervisliku ökosüsteemi oluline osa ja inimtegevus on üks peamisi põhjusi nende järkjärguliseks kadumiseks kogu maailma rannajoontelt. Masinõppemudeli (ML) kasutamine mangroovipiirkondade tuvastamiseks satelliidipildi põhjal annab teadlastele tõhusa võimaluse jälgida metsade suurust aja jooksul. sisse Osa 1 Selles seerias näitasime, kuidas satelliidiandmeid automatiseeritud viisil koguda ja neid sisse analüüsida Amazon SageMaker Studio interaktiivse visualiseerimisega. Selles postituses näitame, kuidas seda kasutada Amazon SageMakeri autopiloot kohandatud mangroovide klassifikaatori loomise protsessi automatiseerimiseks.
Treenige mudelit Autopiloodiga
Autopiloot pakub tasakaalustatud viisi mitme mudeli ehitamiseks ja parima valimiseks. Luues minimaalse pingutusega mitmeid kombinatsioone erinevatest andmete eeltöötlustehnikatest ja ML-mudelitest, annab Autopilot soovi korral andmeteadlasele täieliku kontrolli nende komponentide toimingute üle.
Saate kasutada Autopilooti, kasutades ühte AWS SDK-dest (üksikasjad on saadaval Autopiloodi API viitejuhend) või Stuudio kaudu. Kasutame oma Studio lahenduses Autopilooti, järgides selles jaotises kirjeldatud samme.
- Valige lehel Studio Launcher plussmärk Uus autopiloodi eksperiment.
- eest Ühendage oma andmedvalige Leidke S3 koppja sisestage ämbri nimi, kus hoidsite treening- ja testiandmekogumeid.
- eest Andmestiku faili nimi, sisestage oma loodud treeningandmete faili nimi Valmistage ette treeningandmed jaotis Osa 1.
- eest Väljundandmete asukoht (S3 ämber), sisestage sama salve nimi, mida kasutasite 2. sammus.
- eest Andmestiku kataloogi nimi, sisestage kausta nimi ämbri alla, kuhu soovite, et Autopilot artefakte salvestaks.
- eest Kas teie S3 sisend on manifesti fail?, vali maha.
- eest sihtmärk, vali etikett.
- eest Automaatne juurutamine, vali maha.
- Vastavalt LisaseadedJaoks Masinõppe probleemi tüüp, vali Binaarne klassifikatsioon.
- eest Objektiivne mõõdik, vali AUC.
- eest Valige, kuidas katset käitada, vali Ei, käivitage piloot, et luua märkmiku kandidaatide määratlustega.
- Vali Loo katse.
Katse loomise kohta lisateabe saamiseks vaadake Looge Amazon SageMakeri autopiloodi katse.Selle sammu käivitamiseks võib kuluda umbes 15 minutit. - Kui olete lõpetanud, valige Avage kandidaatide põlvkonna märkmik, mis avab uue märkmiku kirjutuskaitstud režiimis.
- Vali Impordi märkmik märkmiku redigeeritavaks muutmiseks.
- Pildi jaoks valige andmed Science.
- eest Kernel, vali Python 3.
- Vali valima.
Sellel automaatselt loodud sülearvutil on üksikasjalikud selgitused ja see annab täieliku kontrolli tegeliku mudeli loomise ülesande üle. Kohandatud versioon märkmik, kus klassifikaatorit koolitatakse Landsati satelliidiribade abil alates 2013. aastast, on saadaval koodihoidlas all. notebooks/mangrove-2013.ipynb
.
Mudeli loomise raamistik koosneb kahest osast: funktsioonide teisendamine osana andmetöötlusetapist ja hüperparameetrite optimeerimine (HPO) mudeli valikuetapi osana. Kõik nende ülesannete jaoks vajalikud artefaktid loodi Autopiloodi katse käigus ja salvestati Amazoni lihtne salvestusteenus (Amazon S3). Esimene sülearvuti lahter laadib need artefaktid Amazon S3-st alla kohalikku Amazon SageMaker failisüsteemi kontrollimiseks ja vajalike muudatuste tegemiseks. Seal on kaks kausta: generated_module
ja sagemaker_automl
, kus on salvestatud kõik sülearvuti käitamiseks vajalikud Pythoni moodulid ja skriptid. Erinevad funktsioonide teisendamise etapid, nagu imputeerimine, skaleerimine ja PCA, salvestatakse kui generated_modules/candidate_data_processors/dpp*.py.
Autopiloot loob kolm erinevat mudelit, mis põhinevad XGBoosti, lineaarse õppija ja mitmekihilise perceptroni (MLP) algoritmidel. Kandidaatkonveier koosneb ühest funktsioonide teisendussuvanditest, mida nimetatakse data_transformer
ja algoritm. Torujuhe on Pythoni sõnastik ja seda saab määratleda järgmiselt:
Selles näites teisendab konveier treeningandmed vastavalt skriptile generated_modules/candidate_data_processors/dpp5.py
ja ehitab XGBoosti mudeli. See on koht, kus Autopilot annab täieliku kontrolli andmeteadlasele, kes saab valida automaatselt genereeritud funktsioonide teisenduse ja mudelivaliku etapid või luua oma kombinatsiooni.
Nüüd saate lisada torujuhtme basseini, et Autopilot katse saaks käitada järgmiselt.
See on oluline samm, mille puhul saate kogu käitusaja vähendamiseks otsustada jätta alles ainult Autopiloti soovitatud kandidaatide alamhulk, mis põhineb teemateadmistel. Praegu jätke alles kõik Autopiloodi soovitused, mille saate loetleda järgmiselt.
Kandidaadi nimi | Algoritm | Funktsioon Transformer |
dpp0-xgboost | xgboost | dpp0.py |
dpp1-xgboost | xgboost | dpp1.py |
dpp2-linear-learner | lineaarne-õppija | dpp2.py |
dpp3-xgboost | xgboost | dpp3.py |
dpp4-xgboost | xgboost | dpp4.py |
dpp5-xgboost | xgboost | dpp5.py |
dpp6-mlp | mlp | dpp6.py |
Autopiloodi täielik eksperiment tehakse kahes osas. Esiteks peate käivitama andmete teisendustööd:
See samm peaks kõigi kandidaatide puhul lõppema umbes 30 minutiga, kui te ei muuda selles rohkem dpp*.py
faile.
Järgmine samm on luua parim mudelite komplekt, häälestades vastavate algoritmide jaoks hüperparameetrid. Hüperparameetrid jagunevad tavaliselt kaheks osaks: staatilised ja häälestatavad. Staatilised hüperparameetrid jäävad kogu katse vältel muutumatuks kõigi sama algoritmi kasutavate kandidaatide puhul. Need hüperparameetrid edastatakse katsele sõnaraamatuna. Kui otsustate valida parima XGBoosti mudeli, maksimeerides AUC viiekordse ristvalideerimise skeemi kolmest voorust, näeb sõnastik välja järgmine kood:
Häälestatavate hüperparameetrite jaoks peate läbima teise sõnastiku vahemike ja skaleerimistüübiga:
Hüperparameetrite täielik komplekt on saadaval aadressil mangrove-2013.ipynb
märkmik.
Katse loomiseks, kus kõiki seitset kandidaati saab paralleelselt testida, looge mitme algoritmiga HPO-tuuner:
Eesmärgimõõdikud määratakse iga algoritmi jaoks eraldi:
Kõigi võimalike hüperparameetrite väärtuste proovimine kõigi katsete jaoks on raiskav; HPO tuuneri loomiseks võite kasutada Bayesi strateegiat:
Vaikeseadetes valib Autopilot parima mudeli valimiseks tuuneris 250 tööd. Selle kasutusjuhu jaoks piisab seadistamisest max_jobs=50
säästa aega ja ressursse ilma märkimisväärse karistuseta parima hüperparameetrite komplekti valimisel. Lõpuks esitage HPO töö järgmiselt:
Protsess võtab ml.m80xsuurtel eksemplaridel umbes 5.4 minutit. Saate SageMakeri konsoolis edenemist jälgida, valides Hüperparameetrite häälestamise tööd all koolitus navigeerimispaanil.
Saate visualiseerida hulga kasulikku teavet, sealhulgas iga kandidaadi tulemuslikkust, valides poolelioleva töö nime.
Lõpuks võrrelge parimate kandidaatide mudeli toimivust järgmiselt.
kandidaat | AUC | käitusaeg (s) |
dpp6-mlp | 0.96008 | 2711.0 |
dpp4-xgboost | 0.95236 | 385.0 |
dpp3-xgboost | 0.95095 | 202.0 |
dpp4-xgboost | 0.95069 | 458.0 |
dpp3-xgboost | 0.95015 | 361.0 |
MLP-l põhineva tipptasemel mudeli, mis on küll veidi parem kui XGBoosti mudelid, millel on erinevad andmetöötlusetapid, treenimine võtab samuti palju kauem aega. MLP-mudeli koolituse, sealhulgas kasutatavate hüperparameetrite kombinatsiooni kohta leiate olulisi üksikasju järgmiselt.
Koolitustöö Nimi | mangrove-2-notebook–211021-2016-012-500271c8 |
Koolitustöö staatus | Lõpetatud |
FinalObjectiveValue | 0.96008 |
Koolituse algusaeg | 2021-10-21 20:22:55+00:00 |
Koolituse lõppaeg | 2021-10-21 21:08:06+00:00 |
TreeningElapsedTimeSeconds | 2711 |
KoolitusJobDefinitionName | dpp6-mlp |
väljalangemise_probleem | 0.415778 |
manustamise_suuruse_tegur | 0.849226 |
kihid | 256 |
õppimise_määr | 0.00013862 |
mini_partii_suurus | 317 |
võrgu_tüüp | edasisuunamine |
kaalu_langus | 1.29323e-12 |
Looge järelduste konveier
Uute andmete põhjal järelduste tegemiseks peate SageMakeris konstrueerima järelduste konveieri, et majutada parimat mudelit, mida saab hiljem järelduste tegemiseks kutsuda. SageMakeri konveierimudel vajab komponendina kolme konteinerit: andmete teisendust, algoritmi ja sildi pöördteisendust (kui numbrilised prognoosid tuleb vastendada mittenumbriliste siltidega). Lühiduse huvides on järgmises väljavõttes näidatud ainult osa nõutavast koodist; täielik kood on saadaval aadressil mangrove-2013.ipynb
märkmik:
Pärast mudelkonteinerite ehitamist saate torujuhtme ehitada ja kasutusele võtta järgmiselt.
Lõpp-punkti juurutamise lõpuleviimiseks kulub umbes 10 minutit.
Saate teha järeldusi testandmestiku kohta lõpp-punkti abil
Pärast lõpp-punkti juurutamist saate selle käivitada koos kasulike funktsioonide B1–B7 abil, et liigitada pildi iga piksli kas mangrooviks (1) või muuks (0):
Täielikud üksikasjad mudeli prognooside järeltöötluse kohta hindamiseks ja joonistamiseks on saadaval notebooks/model_performance.ipynb
.
Saate teha järeldusi testandmestiku kohta partii teisenduse abil
Nüüd, kui olete Autopilotiga loonud kõige paremini toimiva mudeli, saame mudelit järelduste tegemiseks kasutada. Suurte andmekogumite kohta järelduste tegemiseks on tõhusam kasutada pakettteisendust. Loome ennustusi kogu andmestiku (koolitus ja test) kohta ja lisame tulemused funktsioonidele, et saaksime teha täiendavaid analüüse, näiteks kontrollida ennustatud vs tegelikke väärtusi ja omaduste jaotust ennustatud klasside vahel.
Esiteks loome Amazon S3-s manifestifaili, mis osutab eelmiste andmetöötlusetappide koolitus- ja testiandmete asukohtadele:
Nüüd saame luua partii teisendustöö. Kuna meie sisendrongil ja katseandmestikul on label
viimase veeruna peame selle järelduse tegemisel maha jätma. Selleks me läbime InputFilter
aasta DataProcessing
argument. Kood "$[:-2]"
näitab viimase veeru loobumist. Seejärel liidetakse prognoositav väljund lähteandmetega edasiseks analüüsiks.
Järgmises koodis koostame pakkteisendustöö argumendid ja edastame seejärel failile create_transform_job
funktsioon:
Töö olekut saate jälgida SageMakeri konsoolil.
Visualiseerige mudeli jõudlust
Nüüd saate segadusmaatriksina visualiseerida India, Myanmari, Kuuba ja Vietnami piirkondadest koosneva testiandmestiku parima mudeli toimivust. Mudelil on kõrge mangroove esindavate pikslite tagasikutsumise väärtus, kuid ainult umbes 75% täpsus. Mitte-mangroovide või muude pikslite täpsus on 99% ja tagasikutsumine 85%. Saate häälestada mudeli prognooside tõenäosuse piiri, et kohandada vastavaid väärtusi sõltuvalt konkreetsest kasutusjuhtumist.
Väärib märkimist, et tulemused on sisseehitatud smileCart mudeliga võrreldes märkimisväärne edasiminek.
Visualiseerige mudeli ennustusi
Lõpuks on kasulik jälgida mudeli toimivust kaardil teatud piirkondades. Järgmisel pildil on mangrooviala India ja Bangladeshi piiril kujutatud punaselt. Testi andmekogusse kuuluvast Landsati pildipaigast võetud punktid asetatakse piirkonna peale, kus iga punkt on piksel, mille mudel määrab mangroove. Sinised punktid klassifitseeritakse mudeli järgi õigesti, mustad aga tähistavad mudeli vigu.
Järgmisel pildil on näidatud ainult need punktid, mida mudel ennustas, et need ei esinda mangroove ja millel on sama värviskeem nagu eelmises näites. Hall piirjoon on Landsati plaastri osa, mis ei sisalda mangroove. Nagu pildilt nähtub, ei tee mudel veepealsete punktide klassifitseerimisel viga, vaid seisab silmitsi väljakutsega eristada mangroove tähistavaid piksleid tavalist lehestikku esindavatest pikslitest.
Järgmine pilt näitab mudeli jõudlust Myanmari mangroovide piirkonnas.
Järgmisel pildil teeb mudel mangroovipikslite tuvastamisel paremat tööd.
Koristage
Kui SageMakeri järelduse lõpp-punkt tööle jäetakse, kulub see jätkuvalt kulusid. Kui olete lõpetanud, kustutage lõpp-punkt järgmiselt.
Järeldus
See postituste seeria andis andmeteadlastele täieliku raamistiku GIS-probleemide lahendamiseks. Osa 1 näitas ETL protsessi ja mugavat võimalust andmetega visuaalselt suhelda. 2. osas näidati, kuidas kasutada Autopiloti kohandatud mangroovide klassifikaatori ehitamise automatiseerimiseks.
Selle raamistiku abil saate uurida uusi satelliidiandmekogumeid, mis sisaldavad rikkalikumat ribade komplekti, mis on kasulikud mangroovide klassifitseerimiseks, ja uurida funktsioonide inseneritööd, kaasates domeeniteadmised.
Autoritest
Andrei Ivanovits on Toronto ülikooli arvutiteaduse magistriõppe üliõpilane ja Toronto Ülikooli tehnikateaduse programmi äsja lõpetanud masinaintellekti eriala robootika/mehhatroonika kõrvalerialaga. Teda huvitavad arvutinägemine, süvaõpe ja robootika. Ta tegi selles postituses kirjeldatud tööd oma suvepraktika ajal Amazonis.
David Dong on Amazon Web Servicesi andmeteadlane.
Arkajyoti Misra on Amazon LastMile Transportationi andmeteadlane. Ta on kirglik rakendama Computer Vision tehnikaid probleemide lahendamiseks, mis aitavad maad. Talle meeldib töötada mittetulundusühingutega ja ta on nende asutajaliige ekipi.org.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/part-2-identify-mangrove-forests-using-satellite-image-features-using-amazon-sagemaker-studio-and-amazon-sagemaker- autopiloot/
- "
- 10
- 100
- a
- MEIST
- Vastavalt
- tegevus
- algoritm
- algoritme
- Materjal: BPA ja flataatide vaba plastik
- Amazon
- Amazon Web Services
- hulgas
- analüüs
- analytics
- analüüsima
- Teine
- Rakendades
- PIIRKOND
- argumendid
- ümber
- automatiseerima
- Automatiseeritud
- automaatselt
- saadaval
- AWS
- sest
- BEST
- Must
- keha
- piir
- ehitama
- Ehitus
- Ehitab
- sisseehitatud
- kandidaat
- kandidaadid
- juhul
- väljakutse
- valikuid
- Vali
- klassid
- klassifikatsioon
- salastatud
- kood
- Veerg
- kombinatsioon
- kombinatsioonid
- täitma
- komponent
- komponendid
- arvuti
- Arvutiteadus
- segadus
- konsool
- Konteinerid
- pidev
- kontrollida
- Mugav
- looma
- loodud
- loob
- loomine
- Kuuba
- tava
- andmed
- andmetöötlus
- andmeteadlane
- sügav
- Olenevalt
- juurutada
- lähetatud
- kasutuselevõtu
- üksikasjalik
- detailid
- DID
- erinev
- Ekraan
- jaotus
- Ei tee
- domeen
- allalaadimine
- Drop
- ajal
- iga
- maa
- ökosüsteemi
- Tõhus
- tõhus
- jõupingutusi
- Lõpuks-lõpuni
- Lõpp-punkt
- Inseneriteadus
- sisene
- hindamine
- näide
- eksperiment
- teadmised
- uurima
- nägu
- mood
- tunnusjoon
- FUNKTSIOONID
- Lõpuks
- esimene
- järgima
- Järel
- järgneb
- asutamine
- Raamistik
- Alates
- täis
- funktsioon
- edasi
- tekitama
- loodud
- põlvkond
- koolilõpetaja
- hall
- suunata
- kõrgus
- aitab
- Suur
- Kuidas
- Kuidas
- HTTPS
- inim-
- identifitseerima
- identifitseerimiseks
- pilt
- oluline
- paranemine
- sisaldama
- Kaasa arvatud
- iseseisvalt
- India
- info
- sisend
- Näiteks
- Intelligentsus
- interaktiivne
- huvitatud
- IT
- töö
- Tööturg
- liitunud
- hoidma
- teadmised
- teatud
- silt
- Labels
- suur
- õppimine
- joon
- nimekiri
- kohalik
- liising
- kohad
- masin
- masinõpe
- peamine
- tegema
- kaart
- meistrid
- maatriks
- küsimus
- liige
- Meetrika
- vigu
- ML
- mudel
- mudelid
- Jälgida
- rohkem
- mitmekordne
- Myanmar
- NAVIGATSIOON
- vajalik
- järgmine
- mittetulunduslik
- märkmik
- Avaneb
- optimeerimine
- Valikud
- organisatsioonid
- Muu
- enda
- osa
- eriline
- kirglik
- Plaaster
- jõudlus
- etendused
- esitades
- piloot
- Punkt
- võrra
- ujula
- võimalik
- Postitusi
- Ennustused
- eelmine
- Probleem
- probleeme
- protsess
- töötlemine
- Programm
- tingimusel
- annab
- põhjustel
- hiljuti
- vähendama
- piirkond
- regulaarne
- jääma
- Hoidla
- esindama
- esindavad
- taotleda
- nõutav
- Vajab
- Teadlased
- Vahendid
- Tulemused
- robootika
- Roll
- voorud
- jooks
- jooksmine
- sama
- satelliit
- Säästa
- ketendamine
- kava
- teadus
- teadlane
- teadlased
- valik
- Seeria
- Teenused
- komplekt
- kehtestamine
- mitu
- Jaga
- näitama
- näidatud
- kirjutama
- märkimisväärne
- lihtne
- SUURUS
- So
- tahke
- lahendus
- LAHENDAGE
- konkreetse
- seisma
- olek
- ladustamine
- salvestada
- Strateegia
- õpilane
- stuudio
- teema
- suvi
- süsteem
- ülesanded
- tehnikat
- tingimused
- test
- .
- Allikas
- maailm
- kolm
- Läbi
- läbi kogu
- aeg
- ülemine
- top 5
- Toronto
- koolitus
- Muutma
- Transformation
- muundumised
- transportimine
- all
- Ülikool
- kasutama
- tavaliselt
- kinnitamine
- väärtus
- eri
- versioon
- nägemus
- visualiseerimine
- Vesi
- web
- veebiteenused
- kuigi
- WHO
- ilma
- Töö
- maailm
- väärt
- X
- Sinu