Identifikasi Hutan Mangrove Menggunakan Fitur Citra Satelit Menggunakan Amazon SageMaker Studio Dan Amazon SageMaker Autopilot

Diterbitkan Ulang Oleh Plato

Followers: 0

Hutan bakau adalah bagian penting dari ekosistem yang sehat, dan aktivitas manusia adalah salah satu alasan utama hilangnya mereka secara bertahap dari garis pantai di seluruh dunia. Menggunakan model pembelajaran mesin (ML) untuk mengidentifikasi kawasan bakau dari citra satelit memberi peneliti cara yang efektif untuk memantau ukuran hutan dari waktu ke waktu. Di bagian 1 dari seri ini, kami menunjukkan cara mengumpulkan data satelit secara otomatis dan menganalisisnya dalam Studio Amazon SageMaker dengan visualisasi interaktif. Dalam posting ini, kami menunjukkan cara menggunakan Autopilot Amazon SageMaker untuk mengotomatisasi proses pembuatan pengklasifikasi bakau khusus.

Latih model dengan Autopilot

Autopilot menyediakan cara yang seimbang untuk membangun beberapa model dan memilih yang terbaik. Saat membuat beberapa kombinasi dari berbagai teknik prapemrosesan data dan model ML dengan sedikit usaha, Autopilot memberikan kontrol penuh atas langkah-langkah komponen ini kepada ilmuwan data, jika diinginkan.

Anda dapat menggunakan Autopilot menggunakan salah satu AWS SDK (detail tersedia di Panduan referensi API untuk Autopilot) atau melalui Studio. Kami menggunakan Autopilot dalam solusi Studio kami mengikuti langkah-langkah yang diuraikan di bagian ini:

Di halaman Studio Launcher, pilih tanda plus untuk Eksperimen Autopilot baru.
Untuk Hubungkan data Anda, pilih Temukan ember S3, dan masukkan nama bucket tempat Anda menyimpan set data pelatihan dan pengujian.
Untuk Nama file kumpulan data, masukkan nama file data pelatihan yang Anda buat di Siapkan data pelatihan bagian dalam bagian 1.
Untuk Lokasi data keluaran (ember S3), masukkan nama bucket yang sama dengan yang Anda gunakan di langkah 2.
Untuk Nama direktori kumpulan data, masukkan nama folder di bawah keranjang tempat Anda ingin Autopilot menyimpan artefak.
Untuk Apakah input S3 Anda adalah file manifes?, pilih Off.
Untuk target, pilih label.
Untuk Penyebaran otomatis, pilih Off.
Di bawah pengaturan lanjutan, Untuk Jenis masalah pembelajaran mesin, pilih Klasifikasi Biner.
Untuk Metrik objektif, pilih AUC.
Untuk Pilih cara menjalankan eksperimen Anda, pilih Tidak, jalankan uji coba untuk membuat buku catatan dengan definisi kandidat.
Pilih Buat Eksperimen.

Untuk informasi lebih lanjut tentang membuat eksperimen, lihat Buat eksperimen Autopilot Amazon SageMaker.Mungkin diperlukan waktu sekitar 15 menit untuk menjalankan langkah ini.
Setelah selesai, pilih Buka notebook generasi kandidat, yang membuka buku catatan baru dalam mode baca-saja.
Pilih Impor buku catatan untuk membuat buku catatan dapat diedit.
Untuk Gambar, pilih Ilmu Data.
Untuk Inti, pilih Python 3.
Pilih Pilih.

Notebook yang dibuat secara otomatis ini memiliki penjelasan terperinci dan memberikan kontrol penuh atas tugas pembuatan model yang sebenarnya untuk diikuti. Versi yang disesuaikan dari buku catatan, di mana pengklasifikasi dilatih menggunakan pita satelit Landsat dari 2013, tersedia di repositori kode di bawah notebooks/mangrove-2013.ipynb.

Kerangka pembangunan model terdiri dari dua bagian: transformasi fitur sebagai bagian dari langkah pemrosesan data, dan optimasi hiperparameter (HPO) sebagai bagian dari langkah pemilihan model. Semua artefak yang diperlukan untuk tugas ini dibuat selama eksperimen Autopilot dan disimpan di Layanan Penyimpanan Sederhana Amazon (Amazon S3). Sel notebook pertama mengunduh artefak tersebut dari Amazon S3 ke lokal Amazon SageMaker sistem file untuk pemeriksaan dan modifikasi yang diperlukan. Ada dua folder: generated_module dan sagemaker_automl, tempat semua modul dan skrip Python yang diperlukan untuk menjalankan notebook disimpan. Berbagai langkah transformasi fitur seperti imputasi, penskalaan, dan PCA disimpan sebagai generated_modules/candidate_data_processors/dpp*.py.

Autopilot membuat tiga model berbeda berdasarkan algoritma XGBoost, linear learner, dan multi-layer perceptron (MLP). Kandidat pipeline terdiri dari salah satu opsi transformasi fitur, yang dikenal sebagai data_transformer, dan sebuah algoritma. Pipeline adalah kamus Python dan dapat didefinisikan sebagai berikut:

candidate1 = { "data_transformer": { "name": "dpp5", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, "volume_size_in_gb": 50 }, "transform_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, "transforms_label": True, "transformed_data_format": "application/x-recordio-protobuf", "sparse_encoding": True }, "algorithm": { "name": "xgboost", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, }
}

Dalam contoh ini, pipeline mengubah data pelatihan sesuai dengan skrip di generated_modules/candidate_data_processors/dpp5.py dan membangun model XGBoost. Di sinilah Autopilot memberikan kontrol penuh kepada ilmuwan data, yang dapat memilih transformasi fitur yang dihasilkan secara otomatis dan langkah pemilihan model atau membangun kombinasi mereka sendiri.

Sekarang Anda dapat menambahkan pipeline ke kumpulan untuk Autopilot untuk menjalankan eksperimen sebagai berikut:

from sagemaker_automl import AutoMLInteractiveRunner, AutoMLLocalCandidate automl_interactive_runner = AutoMLInteractiveRunner(AUTOML_LOCAL_RUN_CONFIG)
automl_interactive_runner.select_candidate(candidate1)

Ini adalah langkah penting di mana Anda dapat memutuskan untuk menyimpan hanya sebagian kandidat yang disarankan oleh Autopilot, berdasarkan keahlian materi pelajaran, untuk mengurangi total waktu proses. Untuk saat ini, simpan semua saran Autopilot, yang dapat Anda daftarkan sebagai berikut:

automl_interactive_runner.display_candidates()

nama kandidat	Algoritma	Fitur Transformer
dpp0-xgboost.dll	xgboost	dpp0.py
dpp1-xgboost.dll	xgboost	dpp1.py
dpp2-linear-pelajar	linear-pelajar	dpp2.py
dpp3-xgboost.dll	xgboost	dpp3.py
dpp4-xgboost.dll	xgboost	dpp4.py
dpp5-xgboost.dll	xgboost	dpp5.py
dpp6-mlp	mLP	dpp6.py

Eksperimen Autopilot penuh dilakukan dalam dua bagian. Pertama, Anda perlu menjalankan tugas transformasi data:

automl_interactive_runner.fit_data_transformers(parallel_jobs=7)

Langkah ini akan selesai dalam waktu sekitar 30 menit untuk semua kandidat, jika Anda tidak melakukan modifikasi lebih lanjut pada dpp*.py file.

Langkah selanjutnya adalah membangun set model terbaik dengan menyetel hyperparameter untuk masing-masing algoritma. Hyperparameter biasanya dibagi menjadi dua bagian: statis dan merdu. Hyperparameter statis tetap tidak berubah selama eksperimen untuk semua kandidat yang memiliki algoritme yang sama. Hyperparameter ini diteruskan ke eksperimen sebagai kamus. Jika Anda memilih untuk memilih model XGBoost terbaik dengan memaksimalkan AUC dari tiga putaran skema validasi silang lima kali lipat, kamus akan terlihat seperti kode berikut:

{ 'objective': 'binary:logistic', 'eval_metric': 'auc', '_kfold': 5, '_num_cv_round': 3,
}

Untuk hyperparameter yang dapat disetel, Anda harus melewati kamus lain dengan rentang dan jenis penskalaan:

{ 'num_round': IntegerParameter(64, 1024, scaling_type='Logarithmic'), 'max_depth': IntegerParameter(2, 8, scaling_type='Logarithmic'), 'eta': ContinuousParameter(1e-3, 1.0, scaling_type='Logarithmic'),
... }

Set lengkap hyperparameters tersedia di mangrove-2013.ipynb buku catatan.

Untuk membuat eksperimen di mana ketujuh kandidat dapat diuji secara paralel, buat tuner HPO multi-algoritma:

multi_algo_tuning_parameters = automl_interactive_runner.prepare_multi_algo_parameters( objective_metrics=ALGORITHM_OBJECTIVE_METRICS, static_hyperparameters=STATIC_HYPERPARAMETERS, hyperparameters_search_ranges=ALGORITHM_TUNABLE_HYPERPARAMETER_RANGES)

Metrik objektif didefinisikan secara independen untuk setiap algoritme:

ALGORITHM_OBJECTIVE_METRICS = { 'xgboost': 'validation:auc', 'linear-learner': 'validation:roc_auc_score', 'mlp': 'validation:roc_auc',
}

Mencoba semua kemungkinan nilai hyperparameters untuk semua eksperimen adalah pemborosan; Anda dapat mengadopsi strategi Bayesian untuk membuat tuner HPO:

multi_algo_tuning_inputs = automl_interactive_runner.prepare_multi_algo_inputs()
ase_tuning_job_name = "{}-tuning".format(AUTOML_LOCAL_RUN_CONFIG.local_automl_job_name) tuner = HyperparameterTuner.create( base_tuning_job_name=base_tuning_job_name, strategy='Bayesian', objective_type='Maximize', max_parallel_jobs=10, max_jobs=50, **multi_algo_tuning_parameters,
)

Dalam pengaturan default, Autopilot memilih 250 pekerjaan di tuner untuk memilih model terbaik. Untuk kasus penggunaan ini, cukup untuk mengatur max_jobs=50 untuk menghemat waktu dan sumber daya, tanpa penalti yang signifikan dalam hal memilih kumpulan hyperparameter terbaik. Terakhir, kirimkan pekerjaan HPO sebagai berikut:

tuner.fit(inputs=multi_algo_tuning_inputs, include_cls_metadata=None)

Proses ini memakan waktu sekitar 80 menit pada instans ml.m5.4xlarge. Anda dapat memantau kemajuan di konsol SageMaker dengan memilih Pekerjaan penyetelan hyperparameter bawah Pelatihan di panel navigasi.

Anda dapat memvisualisasikan sejumlah informasi berguna, termasuk kinerja setiap kandidat, dengan memilih nama pekerjaan yang sedang berlangsung.

Terakhir, bandingkan kinerja model kandidat terbaik sebagai berikut:

from sagemaker.analytics import HyperparameterTuningJobAnalytics SAGEMAKER_SESSION = AUTOML_LOCAL_RUN_CONFIG.sagemaker_session
SAGEMAKER_ROLE = AUTOML_LOCAL_RUN_CONFIG.role tuner_analytics = HyperparameterTuningJobAnalytics( tuner.latest_tuning_job.name, sagemaker_session=SAGEMAKER_SESSION) df_tuning_job_analytics = tuner_analytics.dataframe() df_tuning_job_analytics.sort_values( by=['FinalObjectiveValue'], inplace=True, ascending=False if tuner.objective_type == "Maximize" else True) # select the columns to display and rename
select_columns = ["TrainingJobDefinitionName", "FinalObjectiveValue", "TrainingElapsedTimeSeconds"]
rename_columns = { "TrainingJobDefinitionName": "candidate", "FinalObjectiveValue": "AUC", "TrainingElapsedTimeSeconds": "run_time" } # Show top 5 model performances
df_tuning_job_analytics.rename(columns=rename_columns)[rename_columns.values()].set_index("candidate").head(5)

calon	AUC	run_time (s)
dpp6-mlp	0.96008	2711.0
dpp4-xgboost.dll	0.95236	385.0
dpp3-xgboost.dll	0.95095	202.0
dpp4-xgboost.dll	0.95069	458.0
dpp3-xgboost.dll	0.95015	361.0

Model berperforma terbaik berdasarkan MLP, meskipun sedikit lebih baik daripada model XGBoost dengan berbagai pilihan langkah pemrosesan data, juga membutuhkan waktu lebih lama untuk dilatih. Anda dapat menemukan detail penting tentang pelatihan model MLP, termasuk kombinasi hyperparameter yang digunakan, sebagai berikut:

df_tuning_job_analytics.loc[df_tuning_job_analytics.TrainingJobName==best_training_job].T.dropna()

PelatihanNamaPekerjaan	mangrove-2-notebook–211021-2016-012-500271c8
PelatihanJobStatus	Lengkap
Nilai Tujuan Akhir	0.96008
Waktu Mulai Pelatihan	2021-10-21 20:22:55+00:00
PelatihanEndTime	2021-10-21 21:08:06+00:00
PelatihanElapsedTimeSeconds	2711
PelatihanNamaDefinisiPekerjaan	dpp6-mlp
putus_prob	0.415778
embedding_size_factor	0.849226
lapisan	256
tingkat_belajar	0.00013862
mini_batch_size	317
tipe jaringan	umpan maju
berat_peluruhan	1.29323e-12

Buat saluran inferensi

Untuk menghasilkan inferensi pada data baru, Anda harus membuat saluran inferensi di SageMaker untuk meng-host model terbaik yang dapat dipanggil nanti untuk menghasilkan inferensi. Model pipeline SageMaker memerlukan tiga wadah sebagai komponennya: transformasi data, algoritme, dan transformasi label terbalik (jika prediksi numerik perlu dipetakan ke label non-numerik). Untuk singkatnya, hanya sebagian dari kode yang diperlukan yang ditampilkan dalam cuplikan berikut; kode lengkapnya ada di mangrove-2013.ipynb buku catatan:

from sagemaker.estimator import Estimator
from sagemaker import PipelineModel
from sagemaker_automl import select_inference_output …
# Final pipeline model model_containers = [best_data_transformer_model, best_algo_model]
if best_candidate.transforms_label: model_containers.append(best_candidate.get_data_transformer_model( transform_mode="inverse-label-transform", role=SAGEMAKER_ROLE, sagemaker_session=SAGEMAKER_SESSION)) # select the output type
model_containers = select_inference_output("BinaryClassification", model_containers, output_keys=['predicted_label'])

Setelah container model dibuat, Anda dapat membangun dan men-deploy pipeline sebagai berikut:

from sagemaker import PipelineModel pipeline_model = PipelineModel( name=f"mangrove-automl-2013", role=SAGEMAKER_ROLE, models=model_containers, vpc_config=AUTOML_LOCAL_RUN_CONFIG.vpc_config) pipeline_model.deploy(initial_instance_count=1, instance_type='ml.m5.2xlarge', endpoint_name=pipeline_model.name, wait=True)

Penyebaran titik akhir membutuhkan waktu sekitar 10 menit untuk diselesaikan.

Dapatkan inferensi pada dataset pengujian menggunakan titik akhir

Setelah endpoint di-deploy, Anda dapat memanggilnya dengan payload fitur B1–B7 untuk mengklasifikasikan setiap piksel dalam gambar sebagai mangrove (1) atau lainnya (0):

import boto3
sm_runtime = boto3.client('runtime.sagemaker') pred_labels = []
with open(local_download, 'r') as f: for i, row in enumerate(f): payload = row.rstrip('n') x = sm_runtime.invoke_endpoint(EndpointName=inf_endpt, ContentType="text/csv", Body=payload) pred_labels.append(int(x['Body'].read().decode().strip()))

Detail lengkap tentang pascapemrosesan prediksi model untuk evaluasi dan plot tersedia di notebooks/model_performance.ipynb.

Dapatkan inferensi pada dataset pengujian menggunakan transformasi batch

Sekarang setelah Anda membuat model berperforma terbaik dengan Autopilot, kita dapat menggunakan model tersebut untuk inferensi. Untuk mendapatkan inferensi pada kumpulan data besar, lebih efisien menggunakan transformasi batch. Mari buat prediksi pada seluruh kumpulan data (pelatihan dan pengujian) dan tambahkan hasilnya ke fitur, sehingga kita dapat melakukan analisis lebih lanjut untuk, misalnya, memeriksa prediksi vs. aktual dan distribusi fitur di antara kelas yang diprediksi.

Pertama, kami membuat file manifes di Amazon S3 yang menunjuk ke lokasi data pelatihan dan pengujian dari langkah pemrosesan data sebelumnya:

import boto3
data_bucket = <Name of the S3 bucket that has the training data>
prefix = "LANDSAT_LC08_C01_T1_SR/Year2013"
manifest = "[{{"prefix": "s3://{}/{}/"}},n"train.csv",n"test.csv"n]".format(data_bucket, prefix)
s3_client = boto3.client('s3')
s3_client.put_object(Body=manifest, Bucket=data_bucket, Key=f"{prefix}/data.manifest")

Sekarang kita dapat membuat pekerjaan transformasi batch. Karena dataset kereta input dan pengujian kami memiliki label sebagai kolom terakhir, kita perlu menjatuhkannya selama inferensi. Untuk melakukan itu, kita lulus InputFilter dalam DataProcessing argumen. Kode "$[:-2]" menunjukkan untuk menjatuhkan kolom terakhir. Output yang diprediksi kemudian digabungkan dengan data sumber untuk analisis lebih lanjut.

Dalam kode berikut, kami membangun argumen untuk pekerjaan transformasi batch dan kemudian meneruskan ke: create_transform_job fungsi:

from time import gmtime, strftime batch_job_name = "Batch-Transform-" + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
output_location = "s3://{}/{}/batch_output/{}".format(data_bucket, prefix, batch_job_name)
input_location = "s3://{}/{}/data.manifest".format(data_bucket, prefix) request = { "TransformJobName": batch_job_name, "ModelName": pipeline_model.name, "TransformOutput": { "S3OutputPath": output_location, "Accept": "text/csv", "AssembleWith": "Line", }, "TransformInput": { "DataSource": {"S3DataSource": {"S3DataType": "ManifestFile", "S3Uri": input_location}}, "ContentType": "text/csv", "SplitType": "Line", "CompressionType": "None", }, "TransformResources": {"InstanceType": "ml.m4.xlarge", "InstanceCount": 1}, "DataProcessing": {"InputFilter": "$[:-2]", "JoinSource": "Input"}
} sagemaker = boto3.client("sagemaker")
sagemaker.create_transform_job(**request)
print("Created Transform job with name: ", batch_job_name)

Anda dapat memantau status pekerjaan di konsol SageMaker.

Visualisasikan performa model

Anda sekarang dapat memvisualisasikan performa model terbaik pada kumpulan data pengujian, yang terdiri dari wilayah dari India, Myanmar, Kuba, dan Vietnam, sebagai matriks konfusi. Model ini memiliki nilai recall yang tinggi untuk piksel yang mewakili hutan bakau, tetapi hanya sekitar 75% presisi. Ketepatan non-mangrove atau piksel lainnya mencapai 99% dengan penarikan 85%. Anda dapat menyetel batas probabilitas dari prediksi model untuk menyesuaikan nilai masing-masing tergantung pada kasus penggunaan tertentu.

Perlu dicatat bahwa hasilnya adalah peningkatan yang signifikan dibandingkan model smileCart bawaan.

Visualisasikan prediksi model

Terakhir, sangat berguna untuk mengamati kinerja model pada wilayah tertentu di peta. Pada gambar berikut, kawasan mangrove di perbatasan India-Bangladesh digambarkan dengan warna merah. Titik sampel dari patch citra Landsat milik dataset uji ditumpangkan pada wilayah, di mana setiap titik adalah piksel yang ditentukan model untuk mewakili hutan bakau. Titik biru diklasifikasikan dengan benar oleh model, sedangkan titik hitam mewakili kesalahan model.

Gambar berikut hanya menunjukkan titik-titik yang diprediksi model tidak mewakili hutan bakau, dengan skema warna yang sama seperti contoh sebelumnya. Garis abu-abu adalah bagian dari petak Landsat yang tidak termasuk hutan bakau. Seperti yang terlihat dari gambar, model tidak membuat kesalahan dalam mengklasifikasikan titik di air, tetapi menghadapi tantangan saat membedakan piksel yang mewakili hutan bakau dari yang mewakili dedaunan biasa.

Gambar berikut menunjukkan kinerja model pada kawasan mangrove Myanmar.

Pada gambar berikut, model melakukan pekerjaan yang lebih baik dalam mengidentifikasi piksel mangrove.

Membersihkan

Titik akhir inferensi SageMaker terus dikenakan biaya jika dibiarkan berjalan. Hapus titik akhir sebagai berikut setelah selesai:

sagemaker.delete_endpoint(EndpointName=pipeline_model.name)

Kesimpulan

Serangkaian posting ini memberikan kerangka kerja ujung ke ujung bagi para ilmuwan data untuk memecahkan masalah GIS. bagian 1 menunjukkan proses ETL dan cara mudah untuk berinteraksi secara visual dengan data. Bagian 2 menunjukkan cara menggunakan Autopilot untuk mengotomatiskan pembuatan pengklasifikasi bakau khusus.

Anda dapat menggunakan kerangka kerja ini untuk menjelajahi kumpulan data satelit baru yang berisi kumpulan pita yang lebih kaya yang berguna untuk klasifikasi mangrove dan menjelajahi rekayasa fitur dengan memasukkan pengetahuan domain.

Tentang Penulis

Andrei Ivanović adalah mahasiswa Magister Ilmu Komputer yang masuk di Universitas Toronto dan lulusan baru dari program Ilmu Teknik di Universitas Toronto, jurusan Kecerdasan Mesin dengan minor Robotika/Mekatronik. Dia tertarik pada visi komputer, pembelajaran mendalam, dan robotika. Dia melakukan pekerjaan yang disajikan dalam posting ini selama magang musim panasnya di Amazon.

David Dong adalah Ilmuwan Data di Amazon Web Services.

Arkajyoti Misra adalah Ilmuwan Data di Amazon LastMile Transportation. Dia bersemangat menerapkan teknik Computer Vision untuk memecahkan masalah yang membantu bumi. Dia suka bekerja dengan organisasi nirlaba dan merupakan anggota pendiri ekipi.org.