Identify Mangrove Forests Using Satellite Image Features Using Amazon SageMaker Studio And Amazon SageMaker Autopilot

Ponovno objavil Platon

Spremljevalci: 0

Mangrovi gozdovi so uvoženi del zdravega ekosistema in človekove dejavnosti so eden glavnih razlogov za njihovo postopno izginjanje z obal po vsem svetu. Uporaba modela strojnega učenja (ML) za prepoznavanje območij mangrov iz satelitske slike daje raziskovalcem učinkovit način za spremljanje velikosti gozdov skozi čas. notri Del 1 v tej seriji smo pokazali, kako samodejno zbirati satelitske podatke in jih analizirati Amazon SageMaker Studio z interaktivno vizualizacijo. V tej objavi pokažemo, kako uporabljati Amazonski SageMaker avtopilot za avtomatizacijo postopka izdelave klasifikatorja mangrove po meri.

Usposobite model z avtopilotom

Avtopilot zagotavlja uravnotežen način sestavljanja več modelov in izbire najboljšega. Medtem ko ustvarja več kombinacij različnih tehnik predprocesiranja podatkov in modelov ML z minimalnim naporom, Autopilot podatkovnemu znanstveniku po želji zagotavlja popoln nadzor nad temi koraki komponent.

Avtopilota lahko uporabljate z enim od SDK-jev AWS (podrobnosti so na voljo v API referenčni vodnik za avtopilota) ali prek Studia. Avtopilot uporabljamo v naši rešitvi Studio po korakih, opisanih v tem razdelku:

Na strani zaganjalnika Studio izberite znak plus za Nov poskus z avtopilotom.
za Povežite svoje podatketako, da izberete Poiščite vedro S3in vnesite ime vedra, kjer ste hranili nabore podatkov o usposabljanju in preizkusu.
za Ime datoteke nabora podatkov, vnesite ime datoteke s podatki o vadbi, ki ste jo ustvarili v Pripravite podatke o usposabljanju oddelek v Del 1.
za Lokacija izhodnih podatkov (vedro S3), vnesite isto ime vedra, ki ste ga uporabili v 2. koraku.
za Ime imenika nabora podatkov, vnesite ime mape pod vedro, kamor želite, da Autopilot shrani artefakte.
za Ali je vaš vnos S3 datoteka manifesta?, izberite off.
za ciljna, izberite nalepka.
za Samodejno uvajanje, izberite off.
Pod Napredne nastavitveZa Vrsta problema strojnega učenja, izberite Binarna klasifikacija.
za Objektivna metrika, izberite AUC.
za Izberite način izvajanja preizkusa, izberite Ne, zaženite pilotni program, da ustvarite zvezek z definicijami kandidatov.
Izberite Ustvari eksperiment.

Za več informacij o ustvarjanju poskusa glejte Ustvarite poskus avtopilota Amazon SageMaker.Izvajanje tega koraka lahko traja približno 15 minut.
Ko končate, izberite Odprite zvezek generacije kandidatov, ki odpre nov zvezek v načinu samo za branje.
Izberite Uvozi zvezek da bo zvezek mogoče urejati.
Za sliko izberite Znanost podatki.
za Kernel, izberite Python 3.
Izberite Izberite.

Ta samodejno ustvarjena beležnica ima podrobne razlage in zagotavlja popoln nadzor nad dejansko nalogo gradnje modela, ki ji je treba slediti. Prilagojena različica prenosnik, kjer se klasifikator usposablja z uporabo satelitskih pasov Landsat iz leta 2013, je na voljo v repozitoriju kod pod notebooks/mangrove-2013.ipynb.

Ogrodje za gradnjo modela je sestavljeno iz dveh delov: transformacija funkcij kot del koraka obdelave podatkov in optimizacija hiperparametrov (HPO) kot del koraka izbire modela. Vsi potrebni artefakti za te naloge so bili ustvarjeni med poskusom avtopilota in shranjeni Preprosta storitev shranjevanja Amazon (Amazon S3). Prva celica prenosnega računalnika prenese te artefakte iz Amazona S3 v lokal Amazon SageMaker datotečni sistem za pregled in vse potrebne spremembe. Obstajata dve mapi: generated_module in sagemaker_automl, kjer so shranjeni vsi moduli in skripti Python, ki so potrebni za zagon prenosnika. Različni koraki transformacije funkcij, kot so imputacija, skaliranje in PCA, so shranjeni kot generated_modules/candidate_data_processors/dpp*.py.

Avtopilot ustvari tri različne modele na osnovi algoritmov XGBoost, linearnega učenca in večplastnega perceptrona (MLP). Kandidatni cevovod je sestavljen iz ene od možnosti transformacije funkcij, znane kot data_transformer, in algoritem. Cevovod je slovar Python in ga je mogoče definirati na naslednji način:

candidate1 = { "data_transformer": { "name": "dpp5", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, "volume_size_in_gb": 50 }, "transform_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, "transforms_label": True, "transformed_data_format": "application/x-recordio-protobuf", "sparse_encoding": True }, "algorithm": { "name": "xgboost", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, }
}

V tem primeru cevovod preoblikuje podatke o usposabljanju v skladu s skriptom v generated_modules/candidate_data_processors/dpp5.py in zgradi model XGBoost. Tukaj avtopilot zagotavlja popoln nadzor podatkovnemu znanstveniku, ki lahko izbere samodejno ustvarjeno transformacijo funkcij in korake izbire modela ali sestavi svojo kombinacijo.

Zdaj lahko dodate cevovod v skupino za avtopilot, da izvede poskus, kot sledi:

from sagemaker_automl import AutoMLInteractiveRunner, AutoMLLocalCandidate automl_interactive_runner = AutoMLInteractiveRunner(AUTOML_LOCAL_RUN_CONFIG)
automl_interactive_runner.select_candidate(candidate1)

To je pomemben korak, pri katerem se lahko odločite, da obdržite samo podskupino kandidatov, ki jih predlaga Autopilot na podlagi strokovnega znanja o predmetu, da skrajšate skupni čas izvajanja. Za zdaj obdržite vse predloge za avtopilot, ki jih lahko navedete na naslednji način:

automl_interactive_runner.display_candidates()

Ime kandidata	Algoritem	Funkcionalni transformator
dpp0-xgboost	xgboost	dpp0.py
dpp1-xgboost	xgboost	dpp1.py
dpp2-linearni-učenec	linearni učenec	dpp2.py
dpp3-xgboost	xgboost	dpp3.py
dpp4-xgboost	xgboost	dpp4.py
dpp5-xgboost	xgboost	dpp5.py
dpp6-mlp	MLP	dpp6.py

Celoten poskus z avtopilotom poteka v dveh delih. Najprej morate zagnati opravila za pretvorbo podatkov:

automl_interactive_runner.fit_data_transformers(parallel_jobs=7)

Ta korak bi se moral zaključiti v približno 30 minutah za vse kandidate, če ne naredite nobenih nadaljnjih sprememb dpp*.py datotek.

Naslednji korak je izdelava najboljšega niza modelov s prilagoditvijo hiperparametrov za ustrezne algoritme. Hiperparametri so običajno razdeljeni na dva dela: statični in nastavljivi. Statični hiperparametri ostanejo nespremenjeni skozi poskus za vse kandidate, ki imajo isti algoritem. Ti hiperparametri se posredujejo poskusu kot slovar. Če se odločite izbrati najboljši model XGBoost z maksimiranjem AUC iz treh krogov sheme petkratne navzkrižne validacije, je slovar videti kot naslednja koda:

{ 'objective': 'binary:logistic', 'eval_metric': 'auc', '_kfold': 5, '_num_cv_round': 3,
}

Za nastavljive hiperparametre morate posredovati drug slovar z obsegi in vrsto skaliranja:

{ 'num_round': IntegerParameter(64, 1024, scaling_type='Logarithmic'), 'max_depth': IntegerParameter(2, 8, scaling_type='Logarithmic'), 'eta': ContinuousParameter(1e-3, 1.0, scaling_type='Logarithmic'),
... }

Celoten nabor hiperparametrov je na voljo v mangrove-2013.ipynb prenosnik.

Če želite ustvariti poskus, v katerem je mogoče vzporedno testirati vseh sedem kandidatov, ustvarite uglaševalec HPO z več algoritmi:

multi_algo_tuning_parameters = automl_interactive_runner.prepare_multi_algo_parameters( objective_metrics=ALGORITHM_OBJECTIVE_METRICS, static_hyperparameters=STATIC_HYPERPARAMETERS, hyperparameters_search_ranges=ALGORITHM_TUNABLE_HYPERPARAMETER_RANGES)

Objektivne metrike so opredeljene neodvisno za vsak algoritem:

ALGORITHM_OBJECTIVE_METRICS = { 'xgboost': 'validation:auc', 'linear-learner': 'validation:roc_auc_score', 'mlp': 'validation:roc_auc',
}

Preizkušanje vseh možnih vrednosti hiperparametrov za vse poskuse je potratno; lahko sprejmete Bayesovo strategijo za ustvarjanje sprejemnika HPO:

multi_algo_tuning_inputs = automl_interactive_runner.prepare_multi_algo_inputs()
ase_tuning_job_name = "{}-tuning".format(AUTOML_LOCAL_RUN_CONFIG.local_automl_job_name) tuner = HyperparameterTuner.create( base_tuning_job_name=base_tuning_job_name, strategy='Bayesian', objective_type='Maximize', max_parallel_jobs=10, max_jobs=50, **multi_algo_tuning_parameters,
)

V privzeti nastavitvi Autopilot izbere 250 opravil v tunerju, da izbere najboljši model. Za ta primer uporabe zadostuje nastavitev max_jobs=50 da prihranite čas in vire, brez kakršnih koli večjih kazni v smislu izbire najboljšega niza hiperparametrov. Na koncu oddajte nalogo HPO na naslednji način:

tuner.fit(inputs=multi_algo_tuning_inputs, include_cls_metadata=None)

Postopek traja približno 80 minut na primerkih ml.m5.4xlarge. Napredek lahko spremljate na konzoli SageMaker z izbiro Hiperparametrska nastavitev pod usposabljanje v podoknu za krmarjenje.

Z izbiro imena delovnega mesta v teku si lahko vizualizirate množico uporabnih informacij, vključno z uspešnostjo vsakega kandidata.

Na koncu primerjajte uspešnost modela najboljših kandidatov, kot sledi:

from sagemaker.analytics import HyperparameterTuningJobAnalytics SAGEMAKER_SESSION = AUTOML_LOCAL_RUN_CONFIG.sagemaker_session
SAGEMAKER_ROLE = AUTOML_LOCAL_RUN_CONFIG.role tuner_analytics = HyperparameterTuningJobAnalytics( tuner.latest_tuning_job.name, sagemaker_session=SAGEMAKER_SESSION) df_tuning_job_analytics = tuner_analytics.dataframe() df_tuning_job_analytics.sort_values( by=['FinalObjectiveValue'], inplace=True, ascending=False if tuner.objective_type == "Maximize" else True) # select the columns to display and rename
select_columns = ["TrainingJobDefinitionName", "FinalObjectiveValue", "TrainingElapsedTimeSeconds"]
rename_columns = { "TrainingJobDefinitionName": "candidate", "FinalObjectiveValue": "AUC", "TrainingElapsedTimeSeconds": "run_time" } # Show top 5 model performances
df_tuning_job_analytics.rename(columns=rename_columns)[rename_columns.values()].set_index("candidate").head(5)

Kandidat	AUC	run_time (s)
dpp6-mlp	0.96008	2711.0
dpp4-xgboost	0.95236	385.0
dpp3-xgboost	0.95095	202.0
dpp4-xgboost	0.95069	458.0
dpp3-xgboost	0.95015	361.0

Najbolj zmogljiv model, ki temelji na MLP, čeprav je malo boljši od modelov XGBoost z različnimi izbirami korakov obdelave podatkov, prav tako potrebuje veliko dlje za usposabljanje. Najdete lahko pomembne podrobnosti o usposabljanju modela MLP, vključno s kombinacijo uporabljenih hiperparametrov, kot sledi:

df_tuning_job_analytics.loc[df_tuning_job_analytics.TrainingJobName==best_training_job].T.dropna()

TrainingJobName	mangrove-2-notebook–211021-2016-012-500271c8
TrainingJobStatus	Končana
FinalObjectiveValue	0.96008
TrainingStartTime	2021-10-21 20:22:55+00:00
TrainingEndTime	2021-10-21 21:08:06+00:00
TrainingElapsedTimeSeconds	2711
TrainingJobDefinitionName	dpp6-mlp
osip_prob	0.415778
faktor_velikosti_vdelave	0.849226
plasti	256
stopnja učenja	0.00013862
mini_batch_size	317
vrsta_omrežja	naprej
razpad teže	1.29323e-12

Ustvarite cevovod sklepanja

Če želite ustvariti sklepanje o novih podatkih, morate v SageMakerju zgraditi cevovod sklepanja, ki bo gostil najboljši model, ki ga je mogoče pozneje priklicati za ustvarjanje sklepanja. Model cevovoda SageMaker kot komponente zahteva tri vsebnike: transformacijo podatkov, algoritem in inverzno transformacijo oznak (če je treba numerične napovedi preslikati na neštevilčne oznake). Zaradi jedrnatosti je v naslednjem delčku prikazan le del zahtevane kode; celotna koda je na voljo v mangrove-2013.ipynb prenosnik:

from sagemaker.estimator import Estimator
from sagemaker import PipelineModel
from sagemaker_automl import select_inference_output …
# Final pipeline model model_containers = [best_data_transformer_model, best_algo_model]
if best_candidate.transforms_label: model_containers.append(best_candidate.get_data_transformer_model( transform_mode="inverse-label-transform", role=SAGEMAKER_ROLE, sagemaker_session=SAGEMAKER_SESSION)) # select the output type
model_containers = select_inference_output("BinaryClassification", model_containers, output_keys=['predicted_label'])

Ko so vsebniki modela izdelani, lahko sestavite in razmestite cevovod na naslednji način:

from sagemaker import PipelineModel pipeline_model = PipelineModel( name=f"mangrove-automl-2013", role=SAGEMAKER_ROLE, models=model_containers, vpc_config=AUTOML_LOCAL_RUN_CONFIG.vpc_config) pipeline_model.deploy(initial_instance_count=1, instance_type='ml.m5.2xlarge', endpoint_name=pipeline_model.name, wait=True)

Uvedba končne točke traja približno 10 minut.

Pridobite sklep o testnem naboru podatkov z uporabo končne točke

Ko je končna točka uvedena, jo lahko prikličete s koristnim obsegom funkcij B1–B7, da vsako slikovno piko na sliki razvrstite kot mangrovo (1) ali drugo (0):

import boto3
sm_runtime = boto3.client('runtime.sagemaker') pred_labels = []
with open(local_download, 'r') as f: for i, row in enumerate(f): payload = row.rstrip('n') x = sm_runtime.invoke_endpoint(EndpointName=inf_endpt, ContentType="text/csv", Body=payload) pred_labels.append(int(x['Body'].read().decode().strip()))

Popolne podrobnosti o naknadni obdelavi napovedi modela za vrednotenje in risanje so na voljo v notebooks/model_performance.ipynb.

Pridobite sklep o testnem naboru podatkov z uporabo paketne transformacije

Zdaj, ko ste ustvarili najuspešnejši model z avtopilotom, lahko uporabimo model za sklepanje. Če želite sklepati o velikih naborih podatkov, je učinkoviteje uporabiti paketno pretvorbo. Ustvarimo napovedi za celoten nabor podatkov (usposabljanje in preizkus) in pripnimo rezultate funkcijam, tako da lahko izvedemo nadaljnjo analizo, da na primer preverimo predvideno v primerjavi z dejanskimi in porazdelitev funkcij med predvidenimi razredi.

Najprej ustvarimo datoteko manifesta v Amazonu S3, ki kaže na lokacije podatkov o usposabljanju in preizkusu iz prejšnjih korakov obdelave podatkov:

import boto3
data_bucket = <Name of the S3 bucket that has the training data>
prefix = "LANDSAT_LC08_C01_T1_SR/Year2013"
manifest = "[{{"prefix": "s3://{}/{}/"}},n"train.csv",n"test.csv"n]".format(data_bucket, prefix)
s3_client = boto3.client('s3')
s3_client.put_object(Body=manifest, Bucket=data_bucket, Key=f"{prefix}/data.manifest")

Zdaj lahko ustvarimo opravilo paketnega preoblikovanja. Ker imata naš vhodni vlak in testni nabor podatkov label kot zadnji stolpec, ga moramo med sklepanjem izpustiti. Da bi to naredili, preidemo InputFilter v DataProcessing prepir. Koda "$[:-2]" označuje izpustitev zadnjega stolpca. Predvideni rezultat se nato združi z izvornimi podatki za nadaljnjo analizo.

V naslednji kodi sestavimo argumente za opravilo paketnega preoblikovanja in nato preidemo na create_transform_job funkcija:

from time import gmtime, strftime batch_job_name = "Batch-Transform-" + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
output_location = "s3://{}/{}/batch_output/{}".format(data_bucket, prefix, batch_job_name)
input_location = "s3://{}/{}/data.manifest".format(data_bucket, prefix) request = { "TransformJobName": batch_job_name, "ModelName": pipeline_model.name, "TransformOutput": { "S3OutputPath": output_location, "Accept": "text/csv", "AssembleWith": "Line", }, "TransformInput": { "DataSource": {"S3DataSource": {"S3DataType": "ManifestFile", "S3Uri": input_location}}, "ContentType": "text/csv", "SplitType": "Line", "CompressionType": "None", }, "TransformResources": {"InstanceType": "ml.m4.xlarge", "InstanceCount": 1}, "DataProcessing": {"InputFilter": "$[:-2]", "JoinSource": "Input"}
} sagemaker = boto3.client("sagemaker")
sagemaker.create_transform_job(**request)
print("Created Transform job with name: ", batch_job_name)

Stanje opravila lahko spremljate na konzoli SageMaker.

Vizualizirajte delovanje modela

Zdaj lahko vizualizirate delovanje najboljšega modela na testnem naboru podatkov, ki ga sestavljajo regije iz Indije, Mjanmara, Kube in Vietnama, kot matriko zmede. Model ima visoko priklicno vrednost za slikovne pike, ki predstavljajo mangrove, vendar le približno 75-odstotno natančnost. Natančnost ne-mangrovih ali drugih slikovnih pik je 99-odstotna s 85-odstotnim priklicem. Nastavite lahko mejo verjetnosti napovedi modela, da prilagodite ustrezne vrednosti glede na posamezen primer uporabe.

Treba je omeniti, da so rezultati znatno boljši od vgrajenega modela smileCart.

Vizualizirajte napovedi modela

Nazadnje je koristno opazovati delovanje modela na določenih regijah na zemljevidu. Na naslednji sliki je območje mangrov na meji med Indijo in Bangladešem prikazano rdeče. Točke, vzorčene iz zaplate slike Landsat, ki pripada testnemu naboru podatkov, so prekrite z regijo, kjer je vsaka točka piksel, za katerega model določi, da predstavlja mangrove. Modre točke so pravilno razvrščene glede na model, medtem ko črne točke predstavljajo napake modela.

Naslednja slika prikazuje samo točke, za katere je model predvidel, da ne predstavljajo mangrov, z isto barvno shemo kot v prejšnjem primeru. Sivi obris je del zaplate Landsat, ki ne vključuje mangrov. Kot je razvidno iz slike, model ne naredi nobene napake pri razvrščanju točk na vodi, vendar se sooča z izzivom pri razlikovanju slikovnih pik, ki predstavljajo mangrove, od tistih, ki predstavljajo običajno listje.

Naslednja slika prikazuje delovanje modela na območju mangrov v Mjanmaru.

Na naslednji sliki model bolje prepozna slikovne pike mangrove.

Čiščenje

Končna točka sklepanja SageMaker še naprej povzroča stroške, če se pusti izvajati. Ko končate, izbrišite končno točko na naslednji način:

sagemaker.delete_endpoint(EndpointName=pipeline_model.name)

zaključek

Ta serija objav je zagotovila celovit okvir za podatkovne znanstvenike za reševanje problemov GIS. Del 1 je pokazal postopek ETL in priročen način za vizualno interakcijo s podatki. 2. del je pokazal, kako uporabiti avtopilot za avtomatizacijo gradnje klasifikatorja mangrov po meri.

To ogrodje lahko uporabite za raziskovanje novih satelitskih naborov podatkov, ki vsebujejo bogatejši nabor pasov, uporabnih za klasifikacijo mangrov, in raziskovanje inženiringa funkcij z vključitvijo znanja o domeni.

O avtorjih

Andrej Ivanovič je prihajajoči študent magistrskega študija računalništva na Univerzi v Torontu in je nedavno diplomiral na programu inženirskih znanosti na Univerzi v Torontu, smer strojna inteligenca z manjšo stopnjo robotike/mehatronike. Zanimajo ga računalniški vid, globoko učenje in robotika. Delo, predstavljeno v tej objavi, je opravil med svojim poletnim stažiranjem pri Amazonu.

David Dong je podatkovni znanstvenik pri Amazon Web Services.

Arkajyoti Misra je podatkovni znanstvenik pri Amazon LastMile Transportation. Navdušen je nad uporabo tehnik računalniškega vida za reševanje problemov, ki pomagajo Zemlji. Rad sodeluje z neprofitnimi organizacijami in je ustanovni član ekipi.org.