Amazon SageMaker Studio ve Amazon SageMaker Autopilot Kullanarak Uydu Görüntüsü Özelliklerini Kullanarak Mangrov Ormanlarını Tanımlayın

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Mangrov ormanları, sağlıklı bir ekosistemin önemli bir parçasıdır ve insan faaliyetleri, dünyanın dört bir yanındaki kıyı şeritlerinden kademeli olarak kaybolmalarının ana nedenlerinden biridir. Bir uydu görüntüsünden mangrov bölgelerini belirlemek için bir makine öğrenimi (ML) modeli kullanmak, araştırmacılara ormanların zaman içindeki boyutunu izlemek için etkili bir yol sağlar. İçinde Bölüm 1 Bu seride, uydu verilerinin otomatik bir şekilde nasıl toplanacağını ve nasıl analiz edileceğini gösterdik. Amazon SageMaker Stüdyosu etkileşimli görselleştirme ile. Bu yazıda, nasıl kullanılacağını gösteriyoruz Amazon SageMaker Otomatik Pilot özel bir mangrov sınıflandırıcısı oluşturma sürecini otomatikleştirmek için.

Otopilot ile bir model eğitin

Otomatik pilot, birkaç model oluşturmak ve en iyisini seçmek için dengeli bir yol sağlar. Autopilot, minimum çabayla farklı veri ön işleme teknikleri ve ML modellerinin çoklu kombinasyonlarını oluştururken, istenirse veri bilimcisine bu bileşen adımları üzerinde tam kontrol sağlar.

AWS SDK'larından birini kullanarak Autopilot'u kullanabilirsiniz (ayrıntılar şurada mevcuttur: Otopilot için API başvuru kılavuzu) veya Studio aracılığıyla. Bu bölümde özetlenen adımları izleyerek Studio çözümümüzde Autopilot kullanıyoruz:

Studio Başlatıcı sayfasında, artı işaretini seçin. Yeni Otopilot deneyi.
İçin Verilerinizi bağlayınseçin S3 paketini buluntıklayın ve eğitim ve test veri kümelerini sakladığınız paket adını girin.
İçin Veri kümesi dosya adı, oluşturduğunuz eğitim veri dosyasının adını girin. Eğitim verilerini hazırlayın bölümündeki bölüm Bölüm 1.
İçin Çıkış verisi konumu (S3 kovası), 2. adımda kullandığınız paket adını girin.
İçin Veri kümesi dizini adı, Autopilot'un yapıtları depolamasını istediğiniz klasörün altına bir klasör adı girin.
İçin S3 girişiniz bir bildirim dosyası mı?, seçmek kapalı.
İçin Hedef, seçmek etiket.
İçin Otomatik dağıtma, seçmek kapalı.
Altında Gelişmiş ayarlar, Için Makine öğrenimi sorun türü, seçmek İkili Sınıflandırma.
İçin Objektif metrik, seçmek AUC.
İçin Denemenizi nasıl çalıştıracağınızı seçin, seçmek Hayır, aday tanımlarıyla bir not defteri oluşturmak için bir pilot uygulama çalıştırın.
Klinik Deneme Oluşturun.

Deneme oluşturma hakkında daha fazla bilgi için bkz. Bir Amazon SageMaker Otomatik Pilot denemesi oluşturun.Bu adımı çalıştırmak yaklaşık 15 dakika sürebilir.
Tamamlandığında, seçin Açık aday nesil not defteri, salt okunur modda yeni bir not defteri açar.
Klinik Not defterini içe aktar Not defterini düzenlenebilir hale getirmek için.
Resim için seçin Veri Bilim.
İçin çekirdek, seçmek Python 3.
Klinik seç.

Bu otomatik oluşturulan not defteri ayrıntılı açıklamalara sahiptir ve izlenecek asıl model oluşturma görevi üzerinde tam kontrol sağlar. Özelleştirilmiş bir sürümü defter2013'ten itibaren Landsat uydu bantları kullanılarak bir sınıflandırıcının eğitildiği , aşağıdaki kod deposunda mevcuttur: notebooks/mangrove-2013.ipynb.

Model oluşturma çerçevesi iki bölümden oluşur: veri işleme adımının bir parçası olarak özellik dönüşümü ve model seçim adımının bir parçası olarak hiperparametre optimizasyonu (HPO). Bu görevler için gerekli tüm eserler, Otopilot deneyi sırasında oluşturuldu ve şuraya kaydedildi: Amazon Basit Depolama Hizmeti (Amazon S3). İlk dizüstü bilgisayar hücresi, bu yapıları Amazon S3'ten yerele indirir. Amazon Adaçayı Yapıcı inceleme ve gerekli herhangi bir değişiklik için dosya sistemi. İki klasör vardır: generated_module ve sagemaker_automl, not defterini çalıştırmak için gerekli tüm Python modüllerinin ve komut dosyalarının depolandığı yer. Atama, ölçekleme ve PCA gibi çeşitli özellik dönüştürme adımları şu şekilde kaydedilir: generated_modules/candidate_data_processors/dpp*.py.

Autopilot, XGBoost, doğrusal öğrenen ve çok katmanlı algılayıcı (MLP) algoritmalarına dayalı üç farklı model oluşturur. Aday işlem hattı, olarak bilinen özellik dönüştürme seçeneklerinden birinden oluşur. data_transformer, ve bir algoritma. Bir ardışık düzen bir Python sözlüğüdür ve aşağıdaki gibi tanımlanabilir:

candidate1 = { "data_transformer": { "name": "dpp5", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, "volume_size_in_gb": 50 }, "transform_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, "transforms_label": True, "transformed_data_format": "application/x-recordio-protobuf", "sparse_encoding": True }, "algorithm": { "name": "xgboost", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, }
}

Bu örnekte, ardışık düzen, eğitim verilerini komut dosyasına göre dönüştürür. generated_modules/candidate_data_processors/dpp5.py ve bir XGBoost modeli oluşturur. Bu, Otomatik Pilotun, otomatik olarak oluşturulan özellik dönüştürme ve model seçim adımlarını seçebilen veya kendi kombinasyonlarını oluşturabilen veri bilimcisine tam kontrol sağladığı yerdir.

Artık, Autopilot'un denemeyi aşağıdaki gibi çalıştırması için işlem hattını bir havuza ekleyebilirsiniz:

from sagemaker_automl import AutoMLInteractiveRunner, AutoMLLocalCandidate automl_interactive_runner = AutoMLInteractiveRunner(AUTOML_LOCAL_RUN_CONFIG)
automl_interactive_runner.select_candidate(candidate1)

Bu, toplam çalışma süresini azaltmak için konu uzmanlığına dayalı olarak Otopilot tarafından önerilen adayların yalnızca bir alt kümesini tutmaya karar verebileceğiniz önemli bir adımdır. Şimdilik, aşağıdaki gibi sıralayabileceğiniz tüm Otopilot önerilerini saklayın:

automl_interactive_runner.display_candidates()

Aday İsmi	Algoritma	Özellik Transformatörü
dpp0-xgboost	xgboost	dpp0.py
dpp1-xgboost	xgboost	dpp1.py
dpp2-doğrusal-öğrenen	lineer öğrenen	dpp2.py
dpp3-xgboost	xgboost	dpp3.py
dpp4-xgboost	xgboost	dpp4.py
dpp5-xgboost	xgboost	dpp5.py
dpp6-mlp	MLP	dpp6.py

Tam Otomatik Pilot deneyi iki bölümde yapılır. İlk olarak, veri dönüştürme işlerini çalıştırmanız gerekir:

automl_interactive_runner.fit_data_transformers(parallel_jobs=7)

Daha fazla değişiklik yapmazsanız, bu adım tüm adaylar için yaklaşık 30 dakika içinde tamamlanmalıdır. dpp*.py dosyaları.

Sonraki adım, ilgili algoritmalar için hiperparametreleri ayarlayarak en iyi model setini oluşturmaktır. Hiperparametreler genellikle iki kısma ayrılır: statik ve ayarlanabilir. Statik hiperparametreler, aynı algoritmayı paylaşan tüm adaylar için deney boyunca değişmeden kalır. Bu hiperparametreler deneye sözlük olarak geçirilir. Beş katlı çapraz doğrulama şemasının üç turundan AUC'yi en üst düzeye çıkararak en iyi XGBoost modelini seçmeyi seçerseniz, sözlük aşağıdaki koda benzer:

{ 'objective': 'binary:logistic', 'eval_metric': 'auc', '_kfold': 5, '_num_cv_round': 3,
}

Ayarlanabilir hiperparametreler için, aralıkları ve ölçekleme türünü içeren başka bir sözlük iletmeniz gerekir:

{ 'num_round': IntegerParameter(64, 1024, scaling_type='Logarithmic'), 'max_depth': IntegerParameter(2, 8, scaling_type='Logarithmic'), 'eta': ContinuousParameter(1e-3, 1.0, scaling_type='Logarithmic'),
... }

Eksiksiz hiperparametre seti şurada mevcuttur: mangrove-2013.ipynb defter.

Yedi adayın hepsinin paralel olarak test edilebileceği bir deney oluşturmak için çok algoritmalı bir HPO ayarlayıcı oluşturun:

multi_algo_tuning_parameters = automl_interactive_runner.prepare_multi_algo_parameters( objective_metrics=ALGORITHM_OBJECTIVE_METRICS, static_hyperparameters=STATIC_HYPERPARAMETERS, hyperparameters_search_ranges=ALGORITHM_TUNABLE_HYPERPARAMETER_RANGES)

Hedef metrikleri, her algoritma için bağımsız olarak tanımlanır:

ALGORITHM_OBJECTIVE_METRICS = { 'xgboost': 'validation:auc', 'linear-learner': 'validation:roc_auc_score', 'mlp': 'validation:roc_auc',
}

Tüm deneyler için tüm olası hiperparametre değerlerini denemek israftır; bir HPO tuner oluşturmak için Bayes stratejisini benimseyebilirsiniz:

multi_algo_tuning_inputs = automl_interactive_runner.prepare_multi_algo_inputs()
ase_tuning_job_name = "{}-tuning".format(AUTOML_LOCAL_RUN_CONFIG.local_automl_job_name) tuner = HyperparameterTuner.create( base_tuning_job_name=base_tuning_job_name, strategy='Bayesian', objective_type='Maximize', max_parallel_jobs=10, max_jobs=50, **multi_algo_tuning_parameters,
)

Varsayılan ayarda, Otomatik Pilot en iyi modeli seçmek için ayarlayıcıda 250 iş seçer. Bu kullanım durumu için ayarlamak yeterlidir max_jobs=50 en iyi hiperparametre setini seçme açısından önemli bir ceza olmadan zamandan ve kaynaklardan tasarruf etmek. Son olarak, HPO işini aşağıdaki gibi gönderin:

tuner.fit(inputs=multi_algo_tuning_inputs, include_cls_metadata=None)

İşlem, ml.m80xlarge örneklerinde yaklaşık 5.4 dakika sürer. Seçerek SageMaker konsolundaki ilerlemeyi izleyebilirsiniz. Hiperparametre ayarlama işleri altında Eğitim Gezinti bölmesinde.

Devam eden işin adını seçerek, her adayın performansı da dahil olmak üzere bir dizi faydalı bilgiyi görselleştirebilirsiniz.

Son olarak, en iyi adayların model performansını aşağıdaki gibi karşılaştırın:

from sagemaker.analytics import HyperparameterTuningJobAnalytics SAGEMAKER_SESSION = AUTOML_LOCAL_RUN_CONFIG.sagemaker_session
SAGEMAKER_ROLE = AUTOML_LOCAL_RUN_CONFIG.role tuner_analytics = HyperparameterTuningJobAnalytics( tuner.latest_tuning_job.name, sagemaker_session=SAGEMAKER_SESSION) df_tuning_job_analytics = tuner_analytics.dataframe() df_tuning_job_analytics.sort_values( by=['FinalObjectiveValue'], inplace=True, ascending=False if tuner.objective_type == "Maximize" else True) # select the columns to display and rename
select_columns = ["TrainingJobDefinitionName", "FinalObjectiveValue", "TrainingElapsedTimeSeconds"]
rename_columns = { "TrainingJobDefinitionName": "candidate", "FinalObjectiveValue": "AUC", "TrainingElapsedTimeSeconds": "run_time" } # Show top 5 model performances
df_tuning_job_analytics.rename(columns=rename_columns)[rename_columns.values()].set_index("candidate").head(5)

aday	AUC	run_time(lar)
dpp6-mlp	0.96008	2711.0
dpp4-xgboost	0.95236	385.0
dpp3-xgboost	0.95095	202.0
dpp4-xgboost	0.95069	458.0
dpp3-xgboost	0.95015	361.0

MLP'ye dayalı en iyi performans gösteren model, çeşitli veri işleme adımları seçenekleriyle XGBoost modellerinden marjinal olarak daha iyi olsa da, eğitilmesi çok daha uzun sürer. Kullanılan hiperparametrelerin kombinasyonu da dahil olmak üzere MLP modeli eğitimi ile ilgili önemli detayları aşağıdaki gibi bulabilirsiniz:

df_tuning_job_analytics.loc[df_tuning_job_analytics.TrainingJobName==best_training_job].T.dropna()

EğitimİşAdı	mangrove-2-notebook–211021-2016-012-500271c8
Eğitimİş Durumu	Tamamlandı
Nihai Hedef Değeri	0.96008
EğitimBaşlangıç Zamanı	2021-10-21 20:22:55+00:00
EğitimBitiş Zamanı	2021-10-21 21:08:06+00:00
EğitimGeçenZamanSaniye	2711
Eğitimİş TanımıAdı	dpp6-mlp
bırakma_prob	0.415778
katıştırma_boyut_faktörü	0.849226
katmanları	256
öğrenme oranı	0.00013862
mini_batch_size	317
ağ tipi	ileri beslemeli
ağırlık_decay	1.29323e-12

Bir çıkarım işlem hattı oluşturun

Yeni veriler üzerinde çıkarım oluşturmak için, daha sonra çıkarım oluşturmak üzere çağrılabilecek en iyi modeli barındırmak üzere SageMaker üzerinde bir çıkarım hattı oluşturmanız gerekir. SageMaker boru hattı modeli, bileşenleri olarak üç kapsayıcı gerektirir: veri dönüştürme, algoritma ve ters etiket dönüştürme (sayısal tahminlerin sayısal olmayan etiketlerle eşlenmesi gerekiyorsa). Kısa olması için, aşağıdaki kod parçasında gerekli kodun yalnızca bir kısmı gösterilmektedir; tam kod şurada mevcuttur mangrove-2013.ipynb defter:

from sagemaker.estimator import Estimator
from sagemaker import PipelineModel
from sagemaker_automl import select_inference_output …
# Final pipeline model model_containers = [best_data_transformer_model, best_algo_model]
if best_candidate.transforms_label: model_containers.append(best_candidate.get_data_transformer_model( transform_mode="inverse-label-transform", role=SAGEMAKER_ROLE, sagemaker_session=SAGEMAKER_SESSION)) # select the output type
model_containers = select_inference_output("BinaryClassification", model_containers, output_keys=['predicted_label'])

Model kapsayıcıları oluşturulduktan sonra işlem hattını aşağıdaki gibi oluşturabilir ve dağıtabilirsiniz:

from sagemaker import PipelineModel pipeline_model = PipelineModel( name=f"mangrove-automl-2013", role=SAGEMAKER_ROLE, models=model_containers, vpc_config=AUTOML_LOCAL_RUN_CONFIG.vpc_config) pipeline_model.deploy(initial_instance_count=1, instance_type='ml.m5.2xlarge', endpoint_name=pipeline_model.name, wait=True)

Uç nokta dağıtımının tamamlanması yaklaşık 10 dakika sürer.

Bir uç nokta kullanarak test veri kümesi üzerinde çıkarım elde edin

Uç nokta dağıtıldıktan sonra, bir görüntüdeki her pikseli mangrov (1) veya diğer (7) olarak sınıflandırmak için B1-B0 özelliklerin bir yüküyle onu çağırabilirsiniz:

import boto3
sm_runtime = boto3.client('runtime.sagemaker') pred_labels = []
with open(local_download, 'r') as f: for i, row in enumerate(f): payload = row.rstrip('n') x = sm_runtime.invoke_endpoint(EndpointName=inf_endpt, ContentType="text/csv", Body=payload) pred_labels.append(int(x['Body'].read().decode().strip()))

Değerlendirme ve çizim için model tahminlerini son işleme ile ilgili tüm ayrıntılar şurada mevcuttur: notebooks/model_performance.ipynb.

Toplu dönüştürme kullanarak test veri kümesinden çıkarım elde edin

Artık Autopilot ile en iyi performans gösteren modeli yarattığınıza göre, modeli çıkarım için kullanabiliriz. Büyük veri kümelerinde çıkarım elde etmek için toplu dönüştürme kullanmak daha verimlidir. Tüm veri kümesinde (eğitim ve test) tahminler üretelim ve sonuçları özelliklere ekleyelim, böylece örneğin tahmin edilene karşı gerçekleşenleri ve özelliklerin tahmin edilen sınıflar arasındaki dağılımını kontrol etmek için daha fazla analiz yapabiliriz.

İlk olarak, Amazon S3'te, önceki veri işleme adımlarındaki eğitim ve test verilerinin konumlarına işaret eden bir bildirim dosyası oluşturuyoruz:

import boto3
data_bucket = <Name of the S3 bucket that has the training data>
prefix = "LANDSAT_LC08_C01_T1_SR/Year2013"
manifest = "[{{"prefix": "s3://{}/{}/"}},n"train.csv",n"test.csv"n]".format(data_bucket, prefix)
s3_client = boto3.client('s3')
s3_client.put_object(Body=manifest, Bucket=data_bucket, Key=f"{prefix}/data.manifest")

Artık bir toplu dönüştürme işi oluşturabiliriz. Çünkü girdi trenimiz ve test veri setimiz label son sütun olarak, çıkarım sırasında bırakmamız gerekiyor. Bunu yapmak için geçiyoruz InputFilter içinde DataProcessing argüman. kod "$[:-2]" son sütunun atılacağını gösterir. Tahmini çıktı daha sonra daha fazla analiz için kaynak verilerle birleştirilir.

Aşağıdaki kodda, toplu dönüştürme işi için argümanları oluşturuyoruz ve ardından create_transform_job işlevi:

from time import gmtime, strftime batch_job_name = "Batch-Transform-" + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
output_location = "s3://{}/{}/batch_output/{}".format(data_bucket, prefix, batch_job_name)
input_location = "s3://{}/{}/data.manifest".format(data_bucket, prefix) request = { "TransformJobName": batch_job_name, "ModelName": pipeline_model.name, "TransformOutput": { "S3OutputPath": output_location, "Accept": "text/csv", "AssembleWith": "Line", }, "TransformInput": { "DataSource": {"S3DataSource": {"S3DataType": "ManifestFile", "S3Uri": input_location}}, "ContentType": "text/csv", "SplitType": "Line", "CompressionType": "None", }, "TransformResources": {"InstanceType": "ml.m4.xlarge", "InstanceCount": 1}, "DataProcessing": {"InputFilter": "$[:-2]", "JoinSource": "Input"}
} sagemaker = boto3.client("sagemaker")
sagemaker.create_transform_job(**request)
print("Created Transform job with name: ", batch_job_name)

İşin durumunu SageMaker konsolunda izleyebilirsiniz.

Model performansını görselleştirin

Artık en iyi modelin performansını Hindistan, Myanmar, Küba ve Vietnam'dan oluşan test veri setinde bir karışıklık matrisi olarak görselleştirebilirsiniz. Model, mangrovları temsil eden pikseller için yüksek bir geri çağırma değerine sahiptir, ancak yalnızca yaklaşık %75 hassasiyete sahiptir. Mangrov olmayan veya diğer piksellerin hassasiyeti %99 hatırlama ile %85'dur. Belirli kullanım durumuna bağlı olarak ilgili değerleri ayarlamak için model tahminlerinin olasılık kesmesini ayarlayabilirsiniz.

Sonuçların, yerleşik smileCart modeline göre önemli bir gelişme olduğunu belirtmekte fayda var.

Model tahminlerini görselleştirin

Son olarak, haritadaki belirli bölgelerdeki model performansını gözlemlemek faydalıdır. Aşağıdaki resimde Hindistan-Bangladeş sınırındaki mangrov alanı kırmızı ile gösterilmiştir. Test veri setine ait Landsat görüntü yamasından örneklenen noktalar, her noktanın modelin mangrovları temsil ettiğini belirlediği bir piksel olduğu bölge üzerine bindirilir. Mavi noktalar model tarafından doğru olarak sınıflandırılırken, siyah noktalar model tarafından hataları temsil eder.

Aşağıdaki görüntü, önceki örnekle aynı renk şemasıyla, yalnızca modelin mangrovları temsil etmediğini tahmin ettiği noktaları göstermektedir. Gri anahat, Landsat yamasının herhangi bir mangrov içermeyen kısmıdır. Resimden de anlaşılacağı gibi, model su üzerindeki noktaları sınıflandırmada herhangi bir hata yapmıyor, ancak mangrovları temsil eden pikselleri normal yaprakları temsil edenlerden ayırt ederken bir zorlukla karşı karşıya.

Aşağıdaki görüntü, Myanmar mangrov bölgesindeki model performansını göstermektedir.

Aşağıdaki görüntüde, model mangrov piksellerini tanımlamada daha iyi bir iş çıkarmaktadır.

Temizlemek

SageMaker çıkarım uç noktası, çalışır durumda bırakılırsa maliyet oluşturmaya devam eder. İşiniz bittiğinde uç noktayı aşağıdaki gibi silin:

sagemaker.delete_endpoint(EndpointName=pipeline_model.name)

Sonuç

Bu gönderi dizisi, veri bilimcilerinin CBS sorunlarını çözmeleri için uçtan uca bir çerçeve sağladı. Bölüm 1 ETL sürecini ve verilerle görsel olarak etkileşim kurmanın uygun bir yolunu gösterdi. Bölüm 2, özel bir mangrov sınıflandırıcısı oluşturmayı otomatikleştirmek için Otomatik Pilotun nasıl kullanılacağını gösterdi.

Bu çerçeveyi, mangrov sınıflandırması için yararlı olan daha zengin bir bant kümesi içeren yeni uydu veri kümelerini keşfetmek ve alan bilgisini birleştirerek özellik mühendisliğini keşfetmek için kullanabilirsiniz.

Yazarlar Hakkında

Andrey İvanoviç Toronto Üniversitesi'nde Bilgisayar Bilimleri Yüksek Lisans öğrencisi ve Toronto Üniversitesi'nde Makine Zekası bölümünde Robotik/Mekatronik yandalıyla Mühendislik Bilimi programından yeni mezun olmuştur. Bilgisayarla görü, derin öğrenme ve robotik ile ilgileniyor. Bu yazıda sunulan işi Amazon'daki yaz stajı sırasında yaptı.

david dong Amazon Web Services'te Veri Bilimcisidir.

Arkajyoti Misra Amazon LastMile Transportation'da Veri Bilimcisi. Dünyaya yardımcı olan sorunları çözmek için Bilgisayarla Görme tekniklerini uygulama konusunda tutkulu. Kar amacı gütmeyen kuruluşlarla çalışmayı sever ve kurucu üyesidir. ekip.org.

Zaman Damgası: Haziran 21, 2022

Zaman Damgası: Ekim 18, 2022

Plato tarafından yeniden yayınlandı

"Kimlik + Selfie" – AWS kullanarak dijital kimlik doğrulamasını iyileştirme

Deney Tasarımı ve makine öğrenimi yoluyla F1 aerodinamik geometrilerini optimize edin

AWS Glue etkileşimli oturumları ve Amazon SageMaker Studio'yu kullanarak hassas veri korumasıyla büyük ölçekli özellik mühendisliği

Amazon Rekognition ile ses olaylarını tespit edin

Amazon Bedrock'ta Amazon Titan Metin Gömmelerini Kullanmaya Başlarken | Amazon Web Hizmetleri

Amazon SageMaker Canvas Quick build ile bir zaman serisi tahmin modelini daha hızlı eğitin

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap