Identify Mangrove Forests Using Satellite Image Features Using Amazon SageMaker Studio And Amazon SageMaker Autopilot

Újra kiadta Platón

Követő: 0

A mangroveerdők az egészséges ökoszisztéma fontos részét képezik, és az emberi tevékenységek az egyik fő oka annak, hogy fokozatosan eltűnnek a partvonalakról világszerte. A gépi tanulási (ML) modell segítségével a mangrove régiók műholdfelvételről történő azonosítása hatékony módszert kínál a kutatóknak az erdők méretének időbeli nyomon követésére. Ban ben rész 1 Ebben a sorozatban megmutattuk, hogyan lehet a műholdadatokat automatizáltan gyűjteni és elemezni Amazon SageMaker Studio interaktív vizualizációval. Ebben a bejegyzésben bemutatjuk, hogyan kell használni Amazon SageMaker Autopilot az egyéni mangrove osztályozó felépítésének folyamatának automatizálására.

Tanítson modellt az Autopilot segítségével

Az Autopilot kiegyensúlyozott módot kínál több modell összeállítására és a legjobb kiválasztására. Miközben a különböző adat-előfeldolgozási technikák és ML-modellek többféle kombinációját hozza létre minimális erőfeszítéssel, az Autopilot teljes ellenőrzést biztosít ezen összetevő lépései felett, ha szükséges.

Használhatja az Autopilotot az AWS SDK-k egyikével (a részletek a API referencia útmutató az Autopilothoz) vagy a Stúdión keresztül. A Studio-megoldásunkban az Autopilotot használjuk az ebben a részben ismertetett lépéseket követve:

A Studio Launcher oldalon válassza ki a pluszjelet Új Autopilot kísérlet.
A Csatlakoztassa adataitválassza Keresse meg az S3 vödröt, és adja meg a csoport nevét, ahol a képzési és tesztadatkészleteket tárolta.
A Adatkészlet fájlneve, írja be a létrehozott edzési adatfájl nevét a Készítse elő az edzési adatokat szakaszban rész 1.
A Kimeneti adatok helye (S3 vödör), adja meg a 2. lépésben használt csoportnevet.
A Adatkészlet-könyvtár neve, írjon be egy mappanevet a vödör alá, ahol az Autopilot műtermékeket tárolni kíván.
A Az S3 bemenet egy manifest fájl?, választ le.
A cél, választ címke.
A Automatikus telepítés, választ le.
Alatt Speciális beállítások, A Gépi tanulási probléma típusa, választ Bináris osztályozás.
A Objektív mérőszám, választ AUC.
A Válassza ki a kísérlet futtatásának módját, választ Nem, futtasson egy kísérletet egy jegyzetfüzet létrehozásához a jelöltek definícióival.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Kísérlet létrehozása.

A kísérlet létrehozásával kapcsolatos további információkért lásd: Hozzon létre egy Amazon SageMaker Autopilot kísérletet.A lépés végrehajtása körülbelül 15 percig tarthat.
Ha kész, válasszon Nyissa meg a jelöltgeneráló jegyzetfüzetet, amely egy új jegyzetfüzetet nyit meg írásvédett módban.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Jegyzetfüzet importálása hogy a jegyzetfüzet szerkeszthető legyen.
A Képnél válassza a lehetőséget Data Science.
A mag, választ Python 3.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a választ.

Ez az automatikusan generált noteszgép részletes magyarázatokkal rendelkezik, és teljes irányítást biztosít a tényleges modellépítési feladat felett. Egyedi változata a jegyzetfüzetalatt található kódtárban, ahol 2013-tól Landsat műholdsávok használatával képeznek osztályozót. notebooks/mangrove-2013.ipynb.

A modellépítési keretrendszer két részből áll: a jellemző transzformáció az adatfeldolgozási lépés részeként és a hiperparaméter-optimalizálás (HPO) a modellkiválasztási lépés részeként. Az ezekhez a feladatokhoz szükséges összes műterméket az Autopilot kísérlet során létrehoztuk és elmentettük Amazon egyszerű tárolási szolgáltatás (Amazon S3). Az első notebook cella letölti ezeket a műtermékeket az Amazon S3-ról a helyire Amazon SageMaker fájlrendszer az ellenőrzéshez és a szükséges módosításokhoz. Két mappa van: generated_module és a sagemaker_automl, ahol a notebook futtatásához szükséges összes Python-modul és szkript tárolódik. A különféle jellemző-átalakítási lépések, mint például az imputáció, a skálázás és a PCA, néven kerülnek mentésre generated_modules/candidate_data_processors/dpp*.py.

Az Autopilot három különböző modellt hoz létre az XGBoost, a lineáris tanuló és a többrétegű perceptron (MLP) algoritmusok alapján. A jelölt folyamat az egyik jellemző transzformációs opcióból áll, az úgynevezett data_transformer, és egy algoritmus. A folyamat egy Python szótár, és a következőképpen határozható meg:

candidate1 = { "data_transformer": { "name": "dpp5", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, "volume_size_in_gb": 50 }, "transform_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, "transforms_label": True, "transformed_data_format": "application/x-recordio-protobuf", "sparse_encoding": True }, "algorithm": { "name": "xgboost", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, }
}

Ebben a példában a folyamat átalakítja a betanítási adatokat a szkriptnek megfelelően generated_modules/candidate_data_processors/dpp5.py és XGBoost modellt épít. Itt az Autopilot teljes irányítást biztosít az adattudósnak, aki kiválaszthatja az automatikusan generált jellemzőátalakítási és modellkiválasztási lépéseket, vagy összeállíthatja saját kombinációját.

Most már hozzáadhatja a folyamatot egy készlethez az Autopilot számára a kísérlet futtatásához az alábbiak szerint:

from sagemaker_automl import AutoMLInteractiveRunner, AutoMLLocalCandidate automl_interactive_runner = AutoMLInteractiveRunner(AUTOML_LOCAL_RUN_CONFIG)
automl_interactive_runner.select_candidate(candidate1)

Ez egy fontos lépés, ahol eldöntheti, hogy a teljes futási idő csökkentése érdekében az Autopilot által javasolt jelölteknek csak egy részhalmazát tartsa meg a téma szakértelme alapján. Egyelőre tartsa meg az Autopilot összes javaslatát, amelyeket az alábbiak szerint sorolhat fel:

automl_interactive_runner.display_candidates()

Jelölt Neve	Algoritmus	Feature Transformer
dpp0-xgboost	xgboost	dpp0.py
dpp1-xgboost	xgboost	dpp1.py
dpp2-linear-learner	lineáris-tanuló	dpp2.py
dpp3-xgboost	xgboost	dpp3.py
dpp4-xgboost	xgboost	dpp4.py
dpp5-xgboost	xgboost	dpp5.py
dpp6-mlp	MLP	dpp6.py

A teljes Autopilot kísérlet két részből áll. Először is le kell futtatnia az adatátalakítási feladatokat:

automl_interactive_runner.fit_data_transformers(parallel_jobs=7)

Ennek a lépésnek körülbelül 30 perc alatt be kell fejeződnie az összes jelölt esetében, ha nem hajt végre további módosításokat a dpp*.py fájlokat.

A következő lépés a legjobb modellkészlet felépítése a megfelelő algoritmusok hiperparamétereinek hangolásával. A hiperparamétereket általában két részre osztják: statikusra és hangolhatóra. A statikus hiperparaméterek változatlanok maradnak a kísérlet során minden olyan jelölt esetében, amely ugyanazt az algoritmust használja. Ezeket a hiperparamétereket szótárként adjuk át a kísérletnek. Ha úgy dönt, hogy a legjobb XGBoost modellt választja az AUC maximalizálásával egy ötszörös keresztellenőrzési séma három fordulójából, a szótár a következő kódhoz hasonlóan néz ki:

{ 'objective': 'binary:logistic', 'eval_metric': 'auc', '_kfold': 5, '_num_cv_round': 3,
}

A hangolható hiperparaméterekhez egy másik szótárt kell átadnia tartományokkal és méretezési típussal:

{ 'num_round': IntegerParameter(64, 1024, scaling_type='Logarithmic'), 'max_depth': IntegerParameter(2, 8, scaling_type='Logarithmic'), 'eta': ContinuousParameter(1e-3, 1.0, scaling_type='Logarithmic'),
... }

A hiperparaméterek teljes készlete elérhető a mangrove-2013.ipynb jegyzetfüzet.

Egy olyan kísérlet létrehozásához, amelyben mind a hét jelölt párhuzamosan tesztelhető, hozzon létre egy többalgoritmusos HPO tunert:

multi_algo_tuning_parameters = automl_interactive_runner.prepare_multi_algo_parameters( objective_metrics=ALGORITHM_OBJECTIVE_METRICS, static_hyperparameters=STATIC_HYPERPARAMETERS, hyperparameters_search_ranges=ALGORITHM_TUNABLE_HYPERPARAMETER_RANGES)

A cél metrikákat az egyes algoritmusokhoz függetlenül határozzák meg:

ALGORITHM_OBJECTIVE_METRICS = { 'xgboost': 'validation:auc', 'linear-learner': 'validation:roc_auc_score', 'mlp': 'validation:roc_auc',
}

A hiperparaméterek összes lehetséges értékének kipróbálása az összes kísérlethez pazarló; bayesi stratégiát alkalmazhat egy HPO tuner létrehozásához:

multi_algo_tuning_inputs = automl_interactive_runner.prepare_multi_algo_inputs()
ase_tuning_job_name = "{}-tuning".format(AUTOML_LOCAL_RUN_CONFIG.local_automl_job_name) tuner = HyperparameterTuner.create( base_tuning_job_name=base_tuning_job_name, strategy='Bayesian', objective_type='Maximize', max_parallel_jobs=10, max_jobs=50, **multi_algo_tuning_parameters,
)

Alapértelmezés szerint az Autopilot 250 feladatot választ ki a tunerben, hogy kiválaszthassa a legjobb modellt. Ebben az esetben elegendő beállítani max_jobs=50 időt és erőforrásokat takaríthat meg anélkül, hogy jelentős szankciókat kellene fizetnie a hiperparaméterek legjobb készletének kiválasztása tekintetében. Végül küldje el az MPO állást az alábbiak szerint:

tuner.fit(inputs=multi_algo_tuning_inputs, include_cls_metadata=None)

A folyamat kb. 80 percet vesz igénybe ml.m5.4xnagy példányokon. A SageMaker konzolon a folyamatot nyomon követheti a választással Hiperparaméter hangolási munkák alatt Képzések a navigációs ablaktáblában.

A folyamatban lévő munka nevének kiválasztásával egy sor hasznos információt megjeleníthet, beleértve az egyes jelöltek teljesítményét.

Végül hasonlítsa össze a legjobb jelöltek modellteljesítményét az alábbiak szerint:

from sagemaker.analytics import HyperparameterTuningJobAnalytics SAGEMAKER_SESSION = AUTOML_LOCAL_RUN_CONFIG.sagemaker_session
SAGEMAKER_ROLE = AUTOML_LOCAL_RUN_CONFIG.role tuner_analytics = HyperparameterTuningJobAnalytics( tuner.latest_tuning_job.name, sagemaker_session=SAGEMAKER_SESSION) df_tuning_job_analytics = tuner_analytics.dataframe() df_tuning_job_analytics.sort_values( by=['FinalObjectiveValue'], inplace=True, ascending=False if tuner.objective_type == "Maximize" else True) # select the columns to display and rename
select_columns = ["TrainingJobDefinitionName", "FinalObjectiveValue", "TrainingElapsedTimeSeconds"]
rename_columns = { "TrainingJobDefinitionName": "candidate", "FinalObjectiveValue": "AUC", "TrainingElapsedTimeSeconds": "run_time" } # Show top 5 model performances
df_tuning_job_analytics.rename(columns=rename_columns)[rename_columns.values()].set_index("candidate").head(5)

jelölt	AUC	futási idő (s)
dpp6-mlp	0.96008	2711.0
dpp4-xgboost	0.95236	385.0
dpp3-xgboost	0.95095	202.0
dpp4-xgboost	0.95069	458.0
dpp3-xgboost	0.95015	361.0

A legjobban teljesítő, MLP-n alapuló modell, bár némileg jobb, mint az XGBoost modellek különféle adatfeldolgozási lépésekkel, a betanítása is sokkal tovább tart. Az MLP-modell betanításáról, beleértve a használt hiperparaméterek kombinációját, az alábbiak szerint találhat fontos részleteket:

df_tuning_job_analytics.loc[df_tuning_job_analytics.TrainingJobName==best_training_job].T.dropna()

TrainingJobName	mangrove-2-notebook–211021-2016-012-500271c8
TrainingJobStatus	Befejezett
FinalObjectiveValue	0.96008
TrainingStart Time	2021-10-21 20:22:55+00:00
TrainingEndTime	2021-10-21 21:08:06+00:00
TrainingElapsedTimeSeconds	2711
TrainingJobDefinitionName	dpp6-mlp
kiesési_prob	0.415778
beágyazási_mérettényező	0.849226
tojók	256
tanulási_ráta	0.00013862
mini_batch_size	317
Hálózattípus	előremutató
súly_romlás	1.29323e-12

Hozzon létre egy következtetési folyamatot

Ha új adatokra szeretne következtetést levonni, létre kell hoznia egy következtetési folyamatot a SageMakerben, amely a legjobb modellt tárolja, amelyet később le lehet hívni következtetések generálásához. A SageMaker folyamatmodell három tárolót igényel összetevőként: adattranszformáció, algoritmus és inverz címketranszformáció (ha a numerikus előrejelzéseket nem numerikus címkékre kell leképezni). A rövidség kedvéért a következő részletben a szükséges kódnak csak egy része látható; a teljes kód elérhető a mangrove-2013.ipynb jegyzetfüzet:

from sagemaker.estimator import Estimator
from sagemaker import PipelineModel
from sagemaker_automl import select_inference_output …
# Final pipeline model model_containers = [best_data_transformer_model, best_algo_model]
if best_candidate.transforms_label: model_containers.append(best_candidate.get_data_transformer_model( transform_mode="inverse-label-transform", role=SAGEMAKER_ROLE, sagemaker_session=SAGEMAKER_SESSION)) # select the output type
model_containers = select_inference_output("BinaryClassification", model_containers, output_keys=['predicted_label'])

A modellkonténerek felépítése után az alábbiak szerint építheti meg és telepítheti a folyamatot:

from sagemaker import PipelineModel pipeline_model = PipelineModel( name=f"mangrove-automl-2013", role=SAGEMAKER_ROLE, models=model_containers, vpc_config=AUTOML_LOCAL_RUN_CONFIG.vpc_config) pipeline_model.deploy(initial_instance_count=1, instance_type='ml.m5.2xlarge', endpoint_name=pipeline_model.name, wait=True)

A végpont üzembe helyezése körülbelül 10 percet vesz igénybe.

Következtetések levonása a tesztadatkészletről egy végpont segítségével

A végpont üzembe helyezése után meghívhatja azt a B1–B7 jellemzők hasznos terhével, hogy a kép minden képpontját mangrove (1) vagy más (0) képpontként osztályozza:

import boto3
sm_runtime = boto3.client('runtime.sagemaker') pred_labels = []
with open(local_download, 'r') as f: for i, row in enumerate(f): payload = row.rstrip('n') x = sm_runtime.invoke_endpoint(EndpointName=inf_endpt, ContentType="text/csv", Body=payload) pred_labels.append(int(x['Body'].read().decode().strip()))

A modell-előrejelzések kiértékeléshez és ábrázoláshoz szükséges utófeldolgozásának teljes részletei itt találhatók notebooks/model_performance.ipynb.

Kötegelt átalakítás segítségével vonjon le következtetést a tesztadatkészletre

Most, hogy elkészítette a legjobban teljesítő modellt az Autopilot segítségével, felhasználhatjuk a modellt következtetésekre. Ha nagy adatkészletekre szeretne következtetést levonni, hatékonyabb a kötegelt átalakítás használata. Generáljunk előrejelzéseket a teljes adathalmazra (képzés és teszt), és csatoljuk az eredményeket a jellemzőkhöz, hogy további elemzéseket végezhessünk, például ellenőrizhessük az előre jelzett vs. tényleges értékeket és a jellemzők eloszlását az előre jelzett osztályok között.

Először létrehozunk egy manifest fájlt az Amazon S3-ban, amely az előző adatfeldolgozási lépésekből származó képzési és tesztadatok helyére mutat:

import boto3
data_bucket = <Name of the S3 bucket that has the training data>
prefix = "LANDSAT_LC08_C01_T1_SR/Year2013"
manifest = "[{{"prefix": "s3://{}/{}/"}},n"train.csv",n"test.csv"n]".format(data_bucket, prefix)
s3_client = boto3.client('s3')
s3_client.put_object(Body=manifest, Bucket=data_bucket, Key=f"{prefix}/data.manifest")

Most létrehozhatunk egy kötegelt átalakítási feladatot. Mivel a bemeneti vonatunk és a tesztadatkészletünk rendelkezik label utolsó oszlopként el kell dobnunk a következtetés során. Ehhez elmegyünk InputFilter a DataProcessing érv. A kód "$[:-2]" az utolsó oszlop eldobását jelzi. Az előrejelzett kimenetet ezután egyesítik a forrásadatokkal további elemzés céljából.

A következő kódban összeállítjuk a kötegelt átalakítási feladat argumentumait, majd átadjuk a create_transform_job funkció:

from time import gmtime, strftime batch_job_name = "Batch-Transform-" + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
output_location = "s3://{}/{}/batch_output/{}".format(data_bucket, prefix, batch_job_name)
input_location = "s3://{}/{}/data.manifest".format(data_bucket, prefix) request = { "TransformJobName": batch_job_name, "ModelName": pipeline_model.name, "TransformOutput": { "S3OutputPath": output_location, "Accept": "text/csv", "AssembleWith": "Line", }, "TransformInput": { "DataSource": {"S3DataSource": {"S3DataType": "ManifestFile", "S3Uri": input_location}}, "ContentType": "text/csv", "SplitType": "Line", "CompressionType": "None", }, "TransformResources": {"InstanceType": "ml.m4.xlarge", "InstanceCount": 1}, "DataProcessing": {"InputFilter": "$[:-2]", "JoinSource": "Input"}
} sagemaker = boto3.client("sagemaker")
sagemaker.create_transform_job(**request)
print("Created Transform job with name: ", batch_job_name)

A feladat állapotát a SageMaker konzolon követheti nyomon.

Vizualizálja a modell teljesítményét

Az indiai, mianmari, kubai és vietnámi régiókat tartalmazó tesztadatkészlet legjobb modelljének teljesítményét most zavaró mátrixként jelenítheti meg. A modell magas visszahívási értékkel rendelkezik a mangrovákat reprezentáló pixeleknél, de csak körülbelül 75%-os pontossággal. A nem mangrove vagy más pixelek pontossága 99%, 85%-os visszahívással. Hangolhatja a modell-előrejelzések valószínűségi határértékét a megfelelő értékek beállításához az adott használati esettől függően.

Érdemes megjegyezni, hogy az eredmények jelentős előrelépést jelentenek a beépített smileCart modellhez képest.

Vizualizálja a modell előrejelzéseit

Végül hasznos megfigyelni a modell teljesítményét a térkép bizonyos régióiban. A következő képen az indiai-bangladesi határon lévő mangrove terület piros színnel van ábrázolva. A tesztadatkészlethez tartozó Landsat képfoltból mintavételezett pontok a régióra kerülnek, ahol minden pont egy-egy pixel, amelyet a modell mangrovákat ábrázol. A kék pontokat a modell helyesen osztályozza, míg a fekete pontok a modell hibáit jelentik.

A következő képen csak azok a pontok láthatók, amelyekről a modell előrejelzése szerint nem mangrove-feket ábrázol, és ugyanazzal a színsémával, mint az előző példában. A szürke körvonal a Landsat folt azon része, amely nem tartalmaz mangrovákat. Amint a képen látható, a modell nem követ el hibát a víz pontjainak osztályozása során, de kihívással kell szembenéznie, amikor megkülönbözteti a mangrovákat ábrázoló pixeleket a szabályos lombozatot képviselőktől.

A következő kép a modell teljesítményét mutatja a mianmari mangrove régióban.

A következő képen a modell jobban azonosítja a mangrove pixeleket.

Tisztítsuk meg

A SageMaker következtetési végpont továbbra is költségekkel jár, ha futni hagyják. Ha végzett, törölje a végpontot az alábbiak szerint:

sagemaker.delete_endpoint(EndpointName=pipeline_model.name)

Következtetés

Ez a bejegyzéssorozat egy végponttól végpontig terjedő keretet nyújtott az adattudósok számára a térinformatikai problémák megoldásához. rész 1 bemutatta az ETL folyamatot és az adatokkal való vizuális interakció kényelmes módját. A 2. rész bemutatta, hogyan használható az Autopilot egy egyéni mangrove osztályozó felépítésének automatizálására.

Ezzel a keretrendszerrel felfedezhet új műholdas adatkészleteket, amelyek gazdagabb sávokat tartalmaznak, amelyek hasznosak a mangrove osztályozáshoz, és felfedezheti a jellemzők tervezését a tartományi ismeretek beépítésével.

A szerzőkről

Andrej Ivanovics a Torontói Egyetem informatika mesterszakos hallgatója, és nemrég végzett a Torontói Egyetem mérnöki tudomány szakán, gépi intelligencia szakon, robotika/mechatronika mellékszakon. Érdekli a számítógépes látás, a mélytanulás és a robotika. Az ebben a bejegyzésben bemutatott munkát az Amazonnál töltött nyári gyakorlata során végezte.

David Dong az Amazon Web Services adatkutatója.

Arkajyoti Misra az Amazon LastMile Transportation adatkutatója. Szenvedélyesen használja a Computer Vision technikákat a Földet segítő problémák megoldására. Szeret non-profit szervezetekkel dolgozni, alapító tagja ekipi.org.