A mangroveerdők az egészséges ökoszisztéma fontos részét képezik, és az emberi tevékenységek az egyik fő oka annak, hogy fokozatosan eltűnnek a partvonalakról világszerte. A gépi tanulási (ML) modell segítségével a mangrove régiók műholdfelvételről történő azonosítása hatékony módszert kínál a kutatóknak az erdők méretének időbeli nyomon követésére. Ban ben rész 1 Ebben a sorozatban megmutattuk, hogyan lehet a műholdadatokat automatizáltan gyűjteni és elemezni Amazon SageMaker Studio interaktív vizualizációval. Ebben a bejegyzésben bemutatjuk, hogyan kell használni Amazon SageMaker Autopilot az egyéni mangrove osztályozó felépítésének folyamatának automatizálására.
Tanítson modellt az Autopilot segítségével
Az Autopilot kiegyensúlyozott módot kínál több modell összeállítására és a legjobb kiválasztására. Miközben a különböző adat-előfeldolgozási technikák és ML-modellek többféle kombinációját hozza létre minimális erőfeszítéssel, az Autopilot teljes ellenőrzést biztosít ezen összetevő lépései felett, ha szükséges.
Használhatja az Autopilotot az AWS SDK-k egyikével (a részletek a API referencia útmutató az Autopilothoz) vagy a Stúdión keresztül. A Studio-megoldásunkban az Autopilotot használjuk az ebben a részben ismertetett lépéseket követve:
- A Studio Launcher oldalon válassza ki a pluszjelet Új Autopilot kísérlet.
- A Csatlakoztassa adataitválassza Keresse meg az S3 vödröt, és adja meg a csoport nevét, ahol a képzési és tesztadatkészleteket tárolta.
- A Adatkészlet fájlneve, írja be a létrehozott edzési adatfájl nevét a Készítse elő az edzési adatokat szakaszban rész 1.
- A Kimeneti adatok helye (S3 vödör), adja meg a 2. lépésben használt csoportnevet.
- A Adatkészlet-könyvtár neve, írjon be egy mappanevet a vödör alá, ahol az Autopilot műtermékeket tárolni kíván.
- A Az S3 bemenet egy manifest fájl?, választ le.
- A cél, választ címke.
- A Automatikus telepítés, választ le.
- Alatt Speciális beállítások, A Gépi tanulási probléma típusa, választ Bináris osztályozás.
- A Objektív mérőszám, választ AUC.
- A Válassza ki a kísérlet futtatásának módját, választ Nem, futtasson egy kísérletet egy jegyzetfüzet létrehozásához a jelöltek definícióival.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Kísérlet létrehozása.
A kísérlet létrehozásával kapcsolatos további információkért lásd: Hozzon létre egy Amazon SageMaker Autopilot kísérletet.A lépés végrehajtása körülbelül 15 percig tarthat. - Ha kész, válasszon Nyissa meg a jelöltgeneráló jegyzetfüzetet, amely egy új jegyzetfüzetet nyit meg írásvédett módban.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Jegyzetfüzet importálása hogy a jegyzetfüzet szerkeszthető legyen.
- A Képnél válassza a lehetőséget Data Science.
- A mag, választ Python 3.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a választ.
Ez az automatikusan generált noteszgép részletes magyarázatokkal rendelkezik, és teljes irányítást biztosít a tényleges modellépítési feladat felett. Egyedi változata a jegyzetfüzetalatt található kódtárban, ahol 2013-tól Landsat műholdsávok használatával képeznek osztályozót. notebooks/mangrove-2013.ipynb
.
A modellépítési keretrendszer két részből áll: a jellemző transzformáció az adatfeldolgozási lépés részeként és a hiperparaméter-optimalizálás (HPO) a modellkiválasztási lépés részeként. Az ezekhez a feladatokhoz szükséges összes műterméket az Autopilot kísérlet során létrehoztuk és elmentettük Amazon egyszerű tárolási szolgáltatás (Amazon S3). Az első notebook cella letölti ezeket a műtermékeket az Amazon S3-ról a helyire Amazon SageMaker fájlrendszer az ellenőrzéshez és a szükséges módosításokhoz. Két mappa van: generated_module
és a sagemaker_automl
, ahol a notebook futtatásához szükséges összes Python-modul és szkript tárolódik. A különféle jellemző-átalakítási lépések, mint például az imputáció, a skálázás és a PCA, néven kerülnek mentésre generated_modules/candidate_data_processors/dpp*.py.
Az Autopilot három különböző modellt hoz létre az XGBoost, a lineáris tanuló és a többrétegű perceptron (MLP) algoritmusok alapján. A jelölt folyamat az egyik jellemző transzformációs opcióból áll, az úgynevezett data_transformer
, és egy algoritmus. A folyamat egy Python szótár, és a következőképpen határozható meg:
Ebben a példában a folyamat átalakítja a betanítási adatokat a szkriptnek megfelelően generated_modules/candidate_data_processors/dpp5.py
és XGBoost modellt épít. Itt az Autopilot teljes irányítást biztosít az adattudósnak, aki kiválaszthatja az automatikusan generált jellemzőátalakítási és modellkiválasztási lépéseket, vagy összeállíthatja saját kombinációját.
Most már hozzáadhatja a folyamatot egy készlethez az Autopilot számára a kísérlet futtatásához az alábbiak szerint:
Ez egy fontos lépés, ahol eldöntheti, hogy a teljes futási idő csökkentése érdekében az Autopilot által javasolt jelölteknek csak egy részhalmazát tartsa meg a téma szakértelme alapján. Egyelőre tartsa meg az Autopilot összes javaslatát, amelyeket az alábbiak szerint sorolhat fel:
Jelölt Neve | Algoritmus | Feature Transformer |
dpp0-xgboost | xgboost | dpp0.py |
dpp1-xgboost | xgboost | dpp1.py |
dpp2-linear-learner | lineáris-tanuló | dpp2.py |
dpp3-xgboost | xgboost | dpp3.py |
dpp4-xgboost | xgboost | dpp4.py |
dpp5-xgboost | xgboost | dpp5.py |
dpp6-mlp | MLP | dpp6.py |
A teljes Autopilot kísérlet két részből áll. Először is le kell futtatnia az adatátalakítási feladatokat:
Ennek a lépésnek körülbelül 30 perc alatt be kell fejeződnie az összes jelölt esetében, ha nem hajt végre további módosításokat a dpp*.py
fájlokat.
A következő lépés a legjobb modellkészlet felépítése a megfelelő algoritmusok hiperparamétereinek hangolásával. A hiperparamétereket általában két részre osztják: statikusra és hangolhatóra. A statikus hiperparaméterek változatlanok maradnak a kísérlet során minden olyan jelölt esetében, amely ugyanazt az algoritmust használja. Ezeket a hiperparamétereket szótárként adjuk át a kísérletnek. Ha úgy dönt, hogy a legjobb XGBoost modellt választja az AUC maximalizálásával egy ötszörös keresztellenőrzési séma három fordulójából, a szótár a következő kódhoz hasonlóan néz ki:
A hangolható hiperparaméterekhez egy másik szótárt kell átadnia tartományokkal és méretezési típussal:
A hiperparaméterek teljes készlete elérhető a mangrove-2013.ipynb
jegyzetfüzet.
Egy olyan kísérlet létrehozásához, amelyben mind a hét jelölt párhuzamosan tesztelhető, hozzon létre egy többalgoritmusos HPO tunert:
A cél metrikákat az egyes algoritmusokhoz függetlenül határozzák meg:
A hiperparaméterek összes lehetséges értékének kipróbálása az összes kísérlethez pazarló; bayesi stratégiát alkalmazhat egy HPO tuner létrehozásához:
Alapértelmezés szerint az Autopilot 250 feladatot választ ki a tunerben, hogy kiválaszthassa a legjobb modellt. Ebben az esetben elegendő beállítani max_jobs=50
időt és erőforrásokat takaríthat meg anélkül, hogy jelentős szankciókat kellene fizetnie a hiperparaméterek legjobb készletének kiválasztása tekintetében. Végül küldje el az MPO állást az alábbiak szerint:
A folyamat kb. 80 percet vesz igénybe ml.m5.4xnagy példányokon. A SageMaker konzolon a folyamatot nyomon követheti a választással Hiperparaméter hangolási munkák alatt Képzések a navigációs ablaktáblában.
A folyamatban lévő munka nevének kiválasztásával egy sor hasznos információt megjeleníthet, beleértve az egyes jelöltek teljesítményét.
Végül hasonlítsa össze a legjobb jelöltek modellteljesítményét az alábbiak szerint:
jelölt | AUC | futási idő (s) |
dpp6-mlp | 0.96008 | 2711.0 |
dpp4-xgboost | 0.95236 | 385.0 |
dpp3-xgboost | 0.95095 | 202.0 |
dpp4-xgboost | 0.95069 | 458.0 |
dpp3-xgboost | 0.95015 | 361.0 |
A legjobban teljesítő, MLP-n alapuló modell, bár némileg jobb, mint az XGBoost modellek különféle adatfeldolgozási lépésekkel, a betanítása is sokkal tovább tart. Az MLP-modell betanításáról, beleértve a használt hiperparaméterek kombinációját, az alábbiak szerint találhat fontos részleteket:
TrainingJobName | mangrove-2-notebook–211021-2016-012-500271c8 |
TrainingJobStatus | Befejezett |
FinalObjectiveValue | 0.96008 |
TrainingStart Time | 2021-10-21 20:22:55+00:00 |
TrainingEndTime | 2021-10-21 21:08:06+00:00 |
TrainingElapsedTimeSeconds | 2711 |
TrainingJobDefinitionName | dpp6-mlp |
kiesési_prob | 0.415778 |
beágyazási_mérettényező | 0.849226 |
tojók | 256 |
tanulási_ráta | 0.00013862 |
mini_batch_size | 317 |
Hálózattípus | előremutató |
súly_romlás | 1.29323e-12 |
Hozzon létre egy következtetési folyamatot
Ha új adatokra szeretne következtetést levonni, létre kell hoznia egy következtetési folyamatot a SageMakerben, amely a legjobb modellt tárolja, amelyet később le lehet hívni következtetések generálásához. A SageMaker folyamatmodell három tárolót igényel összetevőként: adattranszformáció, algoritmus és inverz címketranszformáció (ha a numerikus előrejelzéseket nem numerikus címkékre kell leképezni). A rövidség kedvéért a következő részletben a szükséges kódnak csak egy része látható; a teljes kód elérhető a mangrove-2013.ipynb
jegyzetfüzet:
A modellkonténerek felépítése után az alábbiak szerint építheti meg és telepítheti a folyamatot:
A végpont üzembe helyezése körülbelül 10 percet vesz igénybe.
Következtetések levonása a tesztadatkészletről egy végpont segítségével
A végpont üzembe helyezése után meghívhatja azt a B1–B7 jellemzők hasznos terhével, hogy a kép minden képpontját mangrove (1) vagy más (0) képpontként osztályozza:
A modell-előrejelzések kiértékeléshez és ábrázoláshoz szükséges utófeldolgozásának teljes részletei itt találhatók notebooks/model_performance.ipynb
.
Kötegelt átalakítás segítségével vonjon le következtetést a tesztadatkészletre
Most, hogy elkészítette a legjobban teljesítő modellt az Autopilot segítségével, felhasználhatjuk a modellt következtetésekre. Ha nagy adatkészletekre szeretne következtetést levonni, hatékonyabb a kötegelt átalakítás használata. Generáljunk előrejelzéseket a teljes adathalmazra (képzés és teszt), és csatoljuk az eredményeket a jellemzőkhöz, hogy további elemzéseket végezhessünk, például ellenőrizhessük az előre jelzett vs. tényleges értékeket és a jellemzők eloszlását az előre jelzett osztályok között.
Először létrehozunk egy manifest fájlt az Amazon S3-ban, amely az előző adatfeldolgozási lépésekből származó képzési és tesztadatok helyére mutat:
Most létrehozhatunk egy kötegelt átalakítási feladatot. Mivel a bemeneti vonatunk és a tesztadatkészletünk rendelkezik label
utolsó oszlopként el kell dobnunk a következtetés során. Ehhez elmegyünk InputFilter
a DataProcessing
érv. A kód "$[:-2]"
az utolsó oszlop eldobását jelzi. Az előrejelzett kimenetet ezután egyesítik a forrásadatokkal további elemzés céljából.
A következő kódban összeállítjuk a kötegelt átalakítási feladat argumentumait, majd átadjuk a create_transform_job
funkció:
A feladat állapotát a SageMaker konzolon követheti nyomon.
Vizualizálja a modell teljesítményét
Az indiai, mianmari, kubai és vietnámi régiókat tartalmazó tesztadatkészlet legjobb modelljének teljesítményét most zavaró mátrixként jelenítheti meg. A modell magas visszahívási értékkel rendelkezik a mangrovákat reprezentáló pixeleknél, de csak körülbelül 75%-os pontossággal. A nem mangrove vagy más pixelek pontossága 99%, 85%-os visszahívással. Hangolhatja a modell-előrejelzések valószínűségi határértékét a megfelelő értékek beállításához az adott használati esettől függően.
Érdemes megjegyezni, hogy az eredmények jelentős előrelépést jelentenek a beépített smileCart modellhez képest.
Vizualizálja a modell előrejelzéseit
Végül hasznos megfigyelni a modell teljesítményét a térkép bizonyos régióiban. A következő képen az indiai-bangladesi határon lévő mangrove terület piros színnel van ábrázolva. A tesztadatkészlethez tartozó Landsat képfoltból mintavételezett pontok a régióra kerülnek, ahol minden pont egy-egy pixel, amelyet a modell mangrovákat ábrázol. A kék pontokat a modell helyesen osztályozza, míg a fekete pontok a modell hibáit jelentik.
A következő képen csak azok a pontok láthatók, amelyekről a modell előrejelzése szerint nem mangrove-feket ábrázol, és ugyanazzal a színsémával, mint az előző példában. A szürke körvonal a Landsat folt azon része, amely nem tartalmaz mangrovákat. Amint a képen látható, a modell nem követ el hibát a víz pontjainak osztályozása során, de kihívással kell szembenéznie, amikor megkülönbözteti a mangrovákat ábrázoló pixeleket a szabályos lombozatot képviselőktől.
A következő kép a modell teljesítményét mutatja a mianmari mangrove régióban.
A következő képen a modell jobban azonosítja a mangrove pixeleket.
Tisztítsuk meg
A SageMaker következtetési végpont továbbra is költségekkel jár, ha futni hagyják. Ha végzett, törölje a végpontot az alábbiak szerint:
Következtetés
Ez a bejegyzéssorozat egy végponttól végpontig terjedő keretet nyújtott az adattudósok számára a térinformatikai problémák megoldásához. rész 1 bemutatta az ETL folyamatot és az adatokkal való vizuális interakció kényelmes módját. A 2. rész bemutatta, hogyan használható az Autopilot egy egyéni mangrove osztályozó felépítésének automatizálására.
Ezzel a keretrendszerrel felfedezhet új műholdas adatkészleteket, amelyek gazdagabb sávokat tartalmaznak, amelyek hasznosak a mangrove osztályozáshoz, és felfedezheti a jellemzők tervezését a tartományi ismeretek beépítésével.
A szerzőkről
Andrej Ivanovics a Torontói Egyetem informatika mesterszakos hallgatója, és nemrég végzett a Torontói Egyetem mérnöki tudomány szakán, gépi intelligencia szakon, robotika/mechatronika mellékszakon. Érdekli a számítógépes látás, a mélytanulás és a robotika. Az ebben a bejegyzésben bemutatott munkát az Amazonnál töltött nyári gyakorlata során végezte.
David Dong az Amazon Web Services adatkutatója.
Arkajyoti Misra az Amazon LastMile Transportation adatkutatója. Szenvedélyesen használja a Computer Vision technikákat a Földet segítő problémák megoldására. Szeret non-profit szervezetekkel dolgozni, alapító tagja ekipi.org.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/part-2-identify-mangrove-forests-using-satellite-image-features-using-amazon-sagemaker-studio-and-amazon-sagemaker- robotpilóta/
- "
- 10
- 100
- a
- Rólunk
- Szerint
- tevékenységek
- algoritmus
- algoritmusok
- Minden termék
- amazon
- Az Amazon Web Services
- között
- elemzés
- analitika
- elemez
- Másik
- Alkalmazása
- TERÜLET
- érvek
- körül
- automatizált
- Automatizált
- automatikusan
- elérhető
- AWS
- mert
- BEST
- Fekete
- test
- határ
- épít
- Épület
- épít
- beépített
- jelölt
- jelöltek
- eset
- kihívás
- választás
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- osztályok
- besorolás
- osztályozott
- kód
- Oszlop
- kombináció
- kombinációk
- teljes
- összetevő
- alkatrészek
- számítógép
- Computer Science
- zavar
- Konzol
- Konténerek
- tovább
- ellenőrzés
- Kényelmes
- teremt
- készítette
- teremt
- létrehozása
- Kuba
- szokás
- dátum
- adatfeldolgozás
- adattudós
- mély
- attól
- telepíteni
- telepített
- bevetés
- részletes
- részletek
- DID
- különböző
- kijelző
- terjesztés
- Nem
- domain
- letöltések
- Csepp
- alatt
- minden
- föld
- ökoszisztéma
- Hatékony
- hatékony
- erőfeszítés
- végtől végig
- Endpoint
- Mérnöki
- belép
- értékelés
- példa
- kísérlet
- szakvélemény
- feltárása
- arcok
- Divat
- Funkció
- Jellemzők
- Végül
- vezetéknév
- következik
- következő
- következik
- alapító
- Keretrendszer
- ból ből
- Tele
- funkció
- további
- generál
- generált
- generáció
- diplomás
- szürke
- útmutató
- magasság
- segít
- Magas
- Hogyan
- How To
- HTTPS
- emberi
- azonosítani
- azonosító
- kép
- fontos
- javulás
- tartalmaz
- Beleértve
- függetlenül
- India
- információ
- bemenet
- példa
- Intelligencia
- interaktív
- érdekelt
- IT
- Munka
- Állások
- csatlakozott
- Tart
- tudás
- ismert
- Címke
- Címkék
- nagy
- tanulás
- vonal
- Lista
- helyi
- elhelyezkedés
- helyszínek
- gép
- gépi tanulás
- fontos
- csinál
- térkép
- mester
- Mátrix
- Anyag
- tag
- Metrics
- hibákat
- ML
- modell
- modellek
- monitor
- több
- többszörös
- Mianmarban
- Navigáció
- elengedhetetlen
- következő
- non-profit
- jegyzetfüzet
- nyit
- optimalizálás
- Opciók
- szervezetek
- Más
- saját
- rész
- különös
- szenvedélyes
- Tapasz
- teljesítmény
- előadások
- előadó
- pilóta
- pont
- pont
- medence
- lehetséges
- Hozzászólások
- Tippek
- előző
- Probléma
- problémák
- folyamat
- feldolgozás
- Program
- feltéve,
- biztosít
- miatt
- új
- csökkenteni
- vidék
- szabályos
- marad
- raktár
- képvisel
- képviselő
- kérni
- kötelező
- megköveteli,
- kutatók
- Tudástár
- Eredmények
- robotika
- Szerep
- fordulóban
- futás
- futás
- azonos
- műhold
- Megtakarítás
- skálázás
- rendszer
- Tudomány
- Tudós
- tudósok
- kiválasztás
- Series of
- Szolgáltatások
- készlet
- beállítás
- számos
- Megosztás
- előadás
- mutatott
- <p></p>
- jelentős
- Egyszerű
- Méret
- So
- szilárd
- megoldások
- SOLVE
- különleges
- állvány
- Állapot
- tárolás
- tárolni
- Stratégia
- diák
- stúdió
- tárgy
- nyár
- rendszer
- feladatok
- technikák
- feltételek
- teszt
- A
- The Source
- a világ
- három
- Keresztül
- egész
- idő
- felső
- top 5
- toronto
- Képzések
- Átalakítás
- Átalakítás
- transzformációk
- szállítás
- alatt
- egyetemi
- használ
- rendszerint
- érvényesítés
- érték
- különféle
- változat
- látomás
- megjelenítés
- Víz
- háló
- webes szolgáltatások
- míg
- WHO
- nélkül
- Munka
- világ
- érdemes
- X
- A te