Tuvastage mangroovimetsad satelliitpildi funktsioonide abil Amazon SageMaker Studio ja Amazon SageMakeri autopiloodi abil

Taasavaldanud Platon

järgijaid: 0

Mangroovimetsad on tervisliku ökosüsteemi oluline osa ja inimtegevus on üks peamisi põhjusi nende järkjärguliseks kadumiseks kogu maailma rannajoontelt. Masinõppemudeli (ML) kasutamine mangroovipiirkondade tuvastamiseks satelliidipildi põhjal annab teadlastele tõhusa võimaluse jälgida metsade suurust aja jooksul. sisse Osa 1 Selles seerias näitasime, kuidas satelliidiandmeid automatiseeritud viisil koguda ja neid sisse analüüsida Amazon SageMaker Studio interaktiivse visualiseerimisega. Selles postituses näitame, kuidas seda kasutada Amazon SageMakeri autopiloot kohandatud mangroovide klassifikaatori loomise protsessi automatiseerimiseks.

Treenige mudelit Autopiloodiga

Autopiloot pakub tasakaalustatud viisi mitme mudeli ehitamiseks ja parima valimiseks. Luues minimaalse pingutusega mitmeid kombinatsioone erinevatest andmete eeltöötlustehnikatest ja ML-mudelitest, annab Autopilot soovi korral andmeteadlasele täieliku kontrolli nende komponentide toimingute üle.

Saate kasutada Autopilooti, kasutades ühte AWS SDK-dest (üksikasjad on saadaval Autopiloodi API viitejuhend) või Stuudio kaudu. Kasutame oma Studio lahenduses Autopilooti, järgides selles jaotises kirjeldatud samme.

Valige lehel Studio Launcher plussmärk Uus autopiloodi eksperiment.
eest Ühendage oma andmedvalige Leidke S3 koppja sisestage ämbri nimi, kus hoidsite treening- ja testiandmekogumeid.
eest Andmestiku faili nimi, sisestage oma loodud treeningandmete faili nimi Valmistage ette treeningandmed jaotis Osa 1.
eest Väljundandmete asukoht (S3 ämber), sisestage sama salve nimi, mida kasutasite 2. sammus.
eest Andmestiku kataloogi nimi, sisestage kausta nimi ämbri alla, kuhu soovite, et Autopilot artefakte salvestaks.
eest Kas teie S3 sisend on manifesti fail?, vali maha.
eest sihtmärk, vali etikett.
eest Automaatne juurutamine, vali maha.
Vastavalt LisaseadedJaoks Masinõppe probleemi tüüp, vali Binaarne klassifikatsioon.
eest Objektiivne mõõdik, vali AUC.
eest Valige, kuidas katset käitada, vali Ei, käivitage piloot, et luua märkmiku kandidaatide määratlustega.
Vali Loo katse.

Katse loomise kohta lisateabe saamiseks vaadake Looge Amazon SageMakeri autopiloodi katse.Selle sammu käivitamiseks võib kuluda umbes 15 minutit.
Kui olete lõpetanud, valige Avage kandidaatide põlvkonna märkmik, mis avab uue märkmiku kirjutuskaitstud režiimis.
Vali Impordi märkmik märkmiku redigeeritavaks muutmiseks.
Pildi jaoks valige andmed Science.
eest Kernel, vali Python 3.
Vali valima.

Sellel automaatselt loodud sülearvutil on üksikasjalikud selgitused ja see annab täieliku kontrolli tegeliku mudeli loomise ülesande üle. Kohandatud versioon märkmik, kus klassifikaatorit koolitatakse Landsati satelliidiribade abil alates 2013. aastast, on saadaval koodihoidlas all. notebooks/mangrove-2013.ipynb.

Mudeli loomise raamistik koosneb kahest osast: funktsioonide teisendamine osana andmetöötlusetapist ja hüperparameetrite optimeerimine (HPO) mudeli valikuetapi osana. Kõik nende ülesannete jaoks vajalikud artefaktid loodi Autopiloodi katse käigus ja salvestati Amazoni lihtne salvestusteenus (Amazon S3). Esimene sülearvuti lahter laadib need artefaktid Amazon S3-st alla kohalikku Amazon SageMaker failisüsteemi kontrollimiseks ja vajalike muudatuste tegemiseks. Seal on kaks kausta: generated_module ja sagemaker_automl, kus on salvestatud kõik sülearvuti käitamiseks vajalikud Pythoni moodulid ja skriptid. Erinevad funktsioonide teisendamise etapid, nagu imputeerimine, skaleerimine ja PCA, salvestatakse kui generated_modules/candidate_data_processors/dpp*.py.

Autopiloot loob kolm erinevat mudelit, mis põhinevad XGBoosti, lineaarse õppija ja mitmekihilise perceptroni (MLP) algoritmidel. Kandidaatkonveier koosneb ühest funktsioonide teisendussuvanditest, mida nimetatakse data_transformerja algoritm. Torujuhe on Pythoni sõnastik ja seda saab määratleda järgmiselt:

candidate1 = { "data_transformer": { "name": "dpp5", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, "volume_size_in_gb": 50 }, "transform_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, "transforms_label": True, "transformed_data_format": "application/x-recordio-protobuf", "sparse_encoding": True }, "algorithm": { "name": "xgboost", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, }
}

Selles näites teisendab konveier treeningandmed vastavalt skriptile generated_modules/candidate_data_processors/dpp5.py ja ehitab XGBoosti mudeli. See on koht, kus Autopilot annab täieliku kontrolli andmeteadlasele, kes saab valida automaatselt genereeritud funktsioonide teisenduse ja mudelivaliku etapid või luua oma kombinatsiooni.

Nüüd saate lisada torujuhtme basseini, et Autopilot katse saaks käitada järgmiselt.

from sagemaker_automl import AutoMLInteractiveRunner, AutoMLLocalCandidate automl_interactive_runner = AutoMLInteractiveRunner(AUTOML_LOCAL_RUN_CONFIG)
automl_interactive_runner.select_candidate(candidate1)

See on oluline samm, mille puhul saate kogu käitusaja vähendamiseks otsustada jätta alles ainult Autopiloti soovitatud kandidaatide alamhulk, mis põhineb teemateadmistel. Praegu jätke alles kõik Autopiloodi soovitused, mille saate loetleda järgmiselt.

automl_interactive_runner.display_candidates()

Kandidaadi nimi	Algoritm	Funktsioon Transformer
dpp0-xgboost	xgboost	dpp0.py
dpp1-xgboost	xgboost	dpp1.py
dpp2-linear-learner	lineaarne-õppija	dpp2.py
dpp3-xgboost	xgboost	dpp3.py
dpp4-xgboost	xgboost	dpp4.py
dpp5-xgboost	xgboost	dpp5.py
dpp6-mlp	mlp	dpp6.py

Autopiloodi täielik eksperiment tehakse kahes osas. Esiteks peate käivitama andmete teisendustööd:

automl_interactive_runner.fit_data_transformers(parallel_jobs=7)

See samm peaks kõigi kandidaatide puhul lõppema umbes 30 minutiga, kui te ei muuda selles rohkem dpp*.py faile.

Järgmine samm on luua parim mudelite komplekt, häälestades vastavate algoritmide jaoks hüperparameetrid. Hüperparameetrid jagunevad tavaliselt kaheks osaks: staatilised ja häälestatavad. Staatilised hüperparameetrid jäävad kogu katse vältel muutumatuks kõigi sama algoritmi kasutavate kandidaatide puhul. Need hüperparameetrid edastatakse katsele sõnaraamatuna. Kui otsustate valida parima XGBoosti mudeli, maksimeerides AUC viiekordse ristvalideerimise skeemi kolmest voorust, näeb sõnastik välja järgmine kood:

{ 'objective': 'binary:logistic', 'eval_metric': 'auc', '_kfold': 5, '_num_cv_round': 3,
}

Häälestatavate hüperparameetrite jaoks peate läbima teise sõnastiku vahemike ja skaleerimistüübiga:

{ 'num_round': IntegerParameter(64, 1024, scaling_type='Logarithmic'), 'max_depth': IntegerParameter(2, 8, scaling_type='Logarithmic'), 'eta': ContinuousParameter(1e-3, 1.0, scaling_type='Logarithmic'),
... }

Hüperparameetrite täielik komplekt on saadaval aadressil mangrove-2013.ipynb märkmik.

Katse loomiseks, kus kõiki seitset kandidaati saab paralleelselt testida, looge mitme algoritmiga HPO-tuuner:

multi_algo_tuning_parameters = automl_interactive_runner.prepare_multi_algo_parameters( objective_metrics=ALGORITHM_OBJECTIVE_METRICS, static_hyperparameters=STATIC_HYPERPARAMETERS, hyperparameters_search_ranges=ALGORITHM_TUNABLE_HYPERPARAMETER_RANGES)

Eesmärgimõõdikud määratakse iga algoritmi jaoks eraldi:

ALGORITHM_OBJECTIVE_METRICS = { 'xgboost': 'validation:auc', 'linear-learner': 'validation:roc_auc_score', 'mlp': 'validation:roc_auc',
}

Kõigi võimalike hüperparameetrite väärtuste proovimine kõigi katsete jaoks on raiskav; HPO tuuneri loomiseks võite kasutada Bayesi strateegiat:

multi_algo_tuning_inputs = automl_interactive_runner.prepare_multi_algo_inputs()
ase_tuning_job_name = "{}-tuning".format(AUTOML_LOCAL_RUN_CONFIG.local_automl_job_name) tuner = HyperparameterTuner.create( base_tuning_job_name=base_tuning_job_name, strategy='Bayesian', objective_type='Maximize', max_parallel_jobs=10, max_jobs=50, **multi_algo_tuning_parameters,
)

Vaikeseadetes valib Autopilot parima mudeli valimiseks tuuneris 250 tööd. Selle kasutusjuhu jaoks piisab seadistamisest max_jobs=50 säästa aega ja ressursse ilma märkimisväärse karistuseta parima hüperparameetrite komplekti valimisel. Lõpuks esitage HPO töö järgmiselt:

tuner.fit(inputs=multi_algo_tuning_inputs, include_cls_metadata=None)

Protsess võtab ml.m80xsuurtel eksemplaridel umbes 5.4 minutit. Saate SageMakeri konsoolis edenemist jälgida, valides Hüperparameetrite häälestamise tööd all koolitus navigeerimispaanil.

Saate visualiseerida hulga kasulikku teavet, sealhulgas iga kandidaadi tulemuslikkust, valides poolelioleva töö nime.

Lõpuks võrrelge parimate kandidaatide mudeli toimivust järgmiselt.

from sagemaker.analytics import HyperparameterTuningJobAnalytics SAGEMAKER_SESSION = AUTOML_LOCAL_RUN_CONFIG.sagemaker_session
SAGEMAKER_ROLE = AUTOML_LOCAL_RUN_CONFIG.role tuner_analytics = HyperparameterTuningJobAnalytics( tuner.latest_tuning_job.name, sagemaker_session=SAGEMAKER_SESSION) df_tuning_job_analytics = tuner_analytics.dataframe() df_tuning_job_analytics.sort_values( by=['FinalObjectiveValue'], inplace=True, ascending=False if tuner.objective_type == "Maximize" else True) # select the columns to display and rename
select_columns = ["TrainingJobDefinitionName", "FinalObjectiveValue", "TrainingElapsedTimeSeconds"]
rename_columns = { "TrainingJobDefinitionName": "candidate", "FinalObjectiveValue": "AUC", "TrainingElapsedTimeSeconds": "run_time" } # Show top 5 model performances
df_tuning_job_analytics.rename(columns=rename_columns)[rename_columns.values()].set_index("candidate").head(5)

kandidaat	AUC	käitusaeg (s)
dpp6-mlp	0.96008	2711.0
dpp4-xgboost	0.95236	385.0
dpp3-xgboost	0.95095	202.0
dpp4-xgboost	0.95069	458.0
dpp3-xgboost	0.95015	361.0

MLP-l põhineva tipptasemel mudeli, mis on küll veidi parem kui XGBoosti mudelid, millel on erinevad andmetöötlusetapid, treenimine võtab samuti palju kauem aega. MLP-mudeli koolituse, sealhulgas kasutatavate hüperparameetrite kombinatsiooni kohta leiate olulisi üksikasju järgmiselt.

df_tuning_job_analytics.loc[df_tuning_job_analytics.TrainingJobName==best_training_job].T.dropna()

Koolitustöö Nimi	mangrove-2-notebook–211021-2016-012-500271c8
Koolitustöö staatus	Lõpetatud
FinalObjectiveValue	0.96008
Koolituse algusaeg	2021-10-21 20:22:55+00:00
Koolituse lõppaeg	2021-10-21 21:08:06+00:00
TreeningElapsedTimeSeconds	2711
KoolitusJobDefinitionName	dpp6-mlp
väljalangemise_probleem	0.415778
manustamise_suuruse_tegur	0.849226
kihid	256
õppimise_määr	0.00013862
mini_partii_suurus	317
võrgu_tüüp	edasisuunamine
kaalu_langus	1.29323e-12

Looge järelduste konveier

Uute andmete põhjal järelduste tegemiseks peate SageMakeris konstrueerima järelduste konveieri, et majutada parimat mudelit, mida saab hiljem järelduste tegemiseks kutsuda. SageMakeri konveierimudel vajab komponendina kolme konteinerit: andmete teisendust, algoritmi ja sildi pöördteisendust (kui numbrilised prognoosid tuleb vastendada mittenumbriliste siltidega). Lühiduse huvides on järgmises väljavõttes näidatud ainult osa nõutavast koodist; täielik kood on saadaval aadressil mangrove-2013.ipynb märkmik:

from sagemaker.estimator import Estimator
from sagemaker import PipelineModel
from sagemaker_automl import select_inference_output …
# Final pipeline model model_containers = [best_data_transformer_model, best_algo_model]
if best_candidate.transforms_label: model_containers.append(best_candidate.get_data_transformer_model( transform_mode="inverse-label-transform", role=SAGEMAKER_ROLE, sagemaker_session=SAGEMAKER_SESSION)) # select the output type
model_containers = select_inference_output("BinaryClassification", model_containers, output_keys=['predicted_label'])

Pärast mudelkonteinerite ehitamist saate torujuhtme ehitada ja kasutusele võtta järgmiselt.

from sagemaker import PipelineModel pipeline_model = PipelineModel( name=f"mangrove-automl-2013", role=SAGEMAKER_ROLE, models=model_containers, vpc_config=AUTOML_LOCAL_RUN_CONFIG.vpc_config) pipeline_model.deploy(initial_instance_count=1, instance_type='ml.m5.2xlarge', endpoint_name=pipeline_model.name, wait=True)

Lõpp-punkti juurutamise lõpuleviimiseks kulub umbes 10 minutit.

Saate teha järeldusi testandmestiku kohta lõpp-punkti abil

Pärast lõpp-punkti juurutamist saate selle käivitada koos kasulike funktsioonide B1–B7 abil, et liigitada pildi iga piksli kas mangrooviks (1) või muuks (0):

import boto3
sm_runtime = boto3.client('runtime.sagemaker') pred_labels = []
with open(local_download, 'r') as f: for i, row in enumerate(f): payload = row.rstrip('n') x = sm_runtime.invoke_endpoint(EndpointName=inf_endpt, ContentType="text/csv", Body=payload) pred_labels.append(int(x['Body'].read().decode().strip()))

Täielikud üksikasjad mudeli prognooside järeltöötluse kohta hindamiseks ja joonistamiseks on saadaval notebooks/model_performance.ipynb.

Saate teha järeldusi testandmestiku kohta partii teisenduse abil

Nüüd, kui olete Autopilotiga loonud kõige paremini toimiva mudeli, saame mudelit järelduste tegemiseks kasutada. Suurte andmekogumite kohta järelduste tegemiseks on tõhusam kasutada pakettteisendust. Loome ennustusi kogu andmestiku (koolitus ja test) kohta ja lisame tulemused funktsioonidele, et saaksime teha täiendavaid analüüse, näiteks kontrollida ennustatud vs tegelikke väärtusi ja omaduste jaotust ennustatud klasside vahel.

Esiteks loome Amazon S3-s manifestifaili, mis osutab eelmiste andmetöötlusetappide koolitus- ja testiandmete asukohtadele:

import boto3
data_bucket = <Name of the S3 bucket that has the training data>
prefix = "LANDSAT_LC08_C01_T1_SR/Year2013"
manifest = "[{{"prefix": "s3://{}/{}/"}},n"train.csv",n"test.csv"n]".format(data_bucket, prefix)
s3_client = boto3.client('s3')
s3_client.put_object(Body=manifest, Bucket=data_bucket, Key=f"{prefix}/data.manifest")

Nüüd saame luua partii teisendustöö. Kuna meie sisendrongil ja katseandmestikul on label viimase veeruna peame selle järelduse tegemisel maha jätma. Selleks me läbime InputFilter aasta DataProcessing argument. Kood "$[:-2]" näitab viimase veeru loobumist. Seejärel liidetakse prognoositav väljund lähteandmetega edasiseks analüüsiks.

Järgmises koodis koostame pakkteisendustöö argumendid ja edastame seejärel failile create_transform_job funktsioon:

from time import gmtime, strftime batch_job_name = "Batch-Transform-" + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
output_location = "s3://{}/{}/batch_output/{}".format(data_bucket, prefix, batch_job_name)
input_location = "s3://{}/{}/data.manifest".format(data_bucket, prefix) request = { "TransformJobName": batch_job_name, "ModelName": pipeline_model.name, "TransformOutput": { "S3OutputPath": output_location, "Accept": "text/csv", "AssembleWith": "Line", }, "TransformInput": { "DataSource": {"S3DataSource": {"S3DataType": "ManifestFile", "S3Uri": input_location}}, "ContentType": "text/csv", "SplitType": "Line", "CompressionType": "None", }, "TransformResources": {"InstanceType": "ml.m4.xlarge", "InstanceCount": 1}, "DataProcessing": {"InputFilter": "$[:-2]", "JoinSource": "Input"}
} sagemaker = boto3.client("sagemaker")
sagemaker.create_transform_job(**request)
print("Created Transform job with name: ", batch_job_name)

Töö olekut saate jälgida SageMakeri konsoolil.

Visualiseerige mudeli jõudlust

Nüüd saate segadusmaatriksina visualiseerida India, Myanmari, Kuuba ja Vietnami piirkondadest koosneva testiandmestiku parima mudeli toimivust. Mudelil on kõrge mangroove esindavate pikslite tagasikutsumise väärtus, kuid ainult umbes 75% täpsus. Mitte-mangroovide või muude pikslite täpsus on 99% ja tagasikutsumine 85%. Saate häälestada mudeli prognooside tõenäosuse piiri, et kohandada vastavaid väärtusi sõltuvalt konkreetsest kasutusjuhtumist.

Väärib märkimist, et tulemused on sisseehitatud smileCart mudeliga võrreldes märkimisväärne edasiminek.

Visualiseerige mudeli ennustusi

Lõpuks on kasulik jälgida mudeli toimivust kaardil teatud piirkondades. Järgmisel pildil on mangrooviala India ja Bangladeshi piiril kujutatud punaselt. Testi andmekogusse kuuluvast Landsati pildipaigast võetud punktid asetatakse piirkonna peale, kus iga punkt on piksel, mille mudel määrab mangroove. Sinised punktid klassifitseeritakse mudeli järgi õigesti, mustad aga tähistavad mudeli vigu.

Järgmisel pildil on näidatud ainult need punktid, mida mudel ennustas, et need ei esinda mangroove ja millel on sama värviskeem nagu eelmises näites. Hall piirjoon on Landsati plaastri osa, mis ei sisalda mangroove. Nagu pildilt nähtub, ei tee mudel veepealsete punktide klassifitseerimisel viga, vaid seisab silmitsi väljakutsega eristada mangroove tähistavaid piksleid tavalist lehestikku esindavatest pikslitest.

Järgmine pilt näitab mudeli jõudlust Myanmari mangroovide piirkonnas.

Järgmisel pildil teeb mudel mangroovipikslite tuvastamisel paremat tööd.

Koristage

Kui SageMakeri järelduse lõpp-punkt tööle jäetakse, kulub see jätkuvalt kulusid. Kui olete lõpetanud, kustutage lõpp-punkt järgmiselt.

sagemaker.delete_endpoint(EndpointName=pipeline_model.name)

Järeldus

See postituste seeria andis andmeteadlastele täieliku raamistiku GIS-probleemide lahendamiseks. Osa 1 näitas ETL protsessi ja mugavat võimalust andmetega visuaalselt suhelda. 2. osas näidati, kuidas kasutada Autopiloti kohandatud mangroovide klassifikaatori ehitamise automatiseerimiseks.

Selle raamistiku abil saate uurida uusi satelliidiandmekogumeid, mis sisaldavad rikkalikumat ribade komplekti, mis on kasulikud mangroovide klassifitseerimiseks, ja uurida funktsioonide inseneritööd, kaasates domeeniteadmised.

Autoritest

Andrei Ivanovits on Toronto ülikooli arvutiteaduse magistriõppe üliõpilane ja Toronto Ülikooli tehnikateaduse programmi äsja lõpetanud masinaintellekti eriala robootika/mehhatroonika kõrvalerialaga. Teda huvitavad arvutinägemine, süvaõpe ja robootika. Ta tegi selles postituses kirjeldatud tööd oma suvepraktika ajal Amazonis.

David Dong on Amazon Web Servicesi andmeteadlane.

Arkajyoti Misra on Amazon LastMile Transportationi andmeteadlane. Ta on kirglik rakendama Computer Vision tehnikaid probleemide lahendamiseks, mis aitavad maad. Talle meeldib töötada mittetulundusühingutega ja ta on nende asutajaliige ekipi.org.