Amazon SageMaker Studio 및 Amazon SageMaker Autopilot을 사용하여 위성 이미지 기능을 사용하여 맹그로브 숲 식별

플라톤에 의해 재발행

팔로워 : 0

맹그로브 숲은 건강한 생태계의 중요한 부분이며 인간 활동은 전 세계 해안선에서 점차적으로 사라지는 주요 원인 중 하나입니다. 머신 러닝(ML) 모델을 사용하여 위성 이미지에서 맹그로브 지역을 식별하면 연구자들이 시간이 지남에 따라 숲의 크기를 모니터링하는 효과적인 방법을 얻을 수 있습니다. ~ 안에 파트 1 이 시리즈에서 우리는 자동화된 방식으로 위성 데이터를 수집하고 이를 분석하는 방법을 보여주었습니다. 아마존 세이지 메이커 스튜디오 대화형 시각화로 이번 포스팅에서는 사용법을 알려드리겠습니다 Amazon SageMaker 자동 조종 장치 사용자 지정 맹그로브 분류기를 구축하는 프로세스를 자동화합니다.

Autopilot으로 모델 훈련

Autopilot은 여러 모델을 구축하고 최상의 모델을 선택하는 균형 잡힌 방법을 제공합니다. 최소한의 노력으로 다양한 데이터 사전 처리 기술과 ML 모델의 여러 조합을 생성하는 동안 Autopilot은 원하는 경우 이러한 구성 요소 단계에 대한 완전한 제어를 데이터 과학자에게 제공합니다.

AWS SDK 중 하나를 사용하여 Autopilot을 사용할 수 있습니다(자세한 내용은 Autopilot용 API 참조 가이드) 또는 Studio를 통해. 이 섹션에 설명된 단계에 따라 Studio 솔루션에서 Autopilot을 사용합니다.

Studio Launcher 페이지에서 더하기 기호를 선택합니다. 새로운 Autopilot 실험.
럭셔리 데이터 연결, 고르다 S3 버킷 찾기, 훈련 및 테스트 데이터 세트를 보관한 버킷 이름을 입력합니다.
럭셔리 데이터세트 파일 이름, 생성한 훈련 데이터 파일의 이름을 훈련 데이터 준비 ~의 섹션 파트 1.
럭셔리 출력 데이터 위치(S3 버킷), 2단계에서 사용한 것과 동일한 버킷 이름을 입력합니다.
럭셔리 데이터세트 디렉토리 이름, Autopilot에서 아티팩트를 저장할 버킷 아래에 폴더 이름을 입력합니다.
럭셔리 S3 입력이 매니페스트 파일입니까?선택한다. 떨어져서.
럭셔리 목표선택한다. 상표.
럭셔리 자동 배포선택한다. 떨어져서.
아래의 "계정 정보"에서에 대한 머신러닝 문제 유형선택한다. 이진 분류.
럭셔리 목표 메트릭선택한다. AUC.
럭셔리 실험 실행 방법 선택선택한다. 아니요, 파일럿을 실행하여 후보 정의가 포함된 노트북을 만듭니다..
왼쪽 메뉴에서 실험 만들기.

실험 생성에 대한 자세한 내용은 다음을 참조하십시오. Amazon SageMaker Autopilot 실험 생성.이 단계를 실행하는 데 약 15분이 소요될 수 있습니다.
완료되면 선택 후보 생성 노트북 열기, 읽기 전용 모드에서 새 전자 필기장을 엽니다.
왼쪽 메뉴에서 노트북 가져오기 노트북을 편집할 수 있도록 합니다.
이미지에서 다음을 선택합니다. 데이터 과학.
럭셔리 핵심선택한다. 파이썬 3.
왼쪽 메뉴에서 선택.

이 자동 생성 노트북에는 자세한 설명이 있으며 따라야 할 실제 모델 구축 작업을 완벽하게 제어할 수 있습니다. 맞춤형 버전의 수첩분류기가 2013년 Landsat 위성 대역을 사용하여 훈련된 곳은 아래의 코드 저장소에서 사용할 수 있습니다. notebooks/mangrove-2013.ipynb.

모델 구축 프레임워크는 데이터 처리 단계의 일부인 기능 변환과 모델 선택 단계의 일부인 HPO(초매개변수 최적화)의 두 부분으로 구성됩니다. 이 작업에 필요한 모든 아티팩트는 Autopilot 실험 중에 생성되어 저장되었습니다. 아마존 단순 스토리지 서비스 (아마존 S3). 첫 번째 노트북 셀은 Amazon S3에서 로컬로 해당 아티팩트를 다운로드합니다. 아마존 세이지 메이커 검사 및 필요한 수정을 위한 파일 시스템. 두 개의 폴더가 있습니다. generated_module 와 sagemaker_automl, 노트북을 실행하는 데 필요한 모든 Python 모듈과 스크립트가 저장됩니다. 대치, 스케일링 및 PCA와 같은 다양한 기능 변환 단계는 다음과 같이 저장됩니다. generated_modules/candidate_data_processors/dpp*.py.

Autopilot은 XGBoost, 선형 학습기 및 MLP(다층 퍼셉트론) 알고리즘을 기반으로 세 가지 모델을 생성합니다. 후보 파이프라인은 다음으로 알려진 기능 변환 옵션 중 하나로 구성됩니다. data_transformer및 알고리즘. 파이프라인은 Python 사전이며 다음과 같이 정의할 수 있습니다.

candidate1 = { "data_transformer": { "name": "dpp5", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, "volume_size_in_gb": 50 }, "transform_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, "transforms_label": True, "transformed_data_format": "application/x-recordio-protobuf", "sparse_encoding": True }, "algorithm": { "name": "xgboost", "training_resource_config": { "instance_type": "ml.m5.4xlarge", "instance_count": 1, }, }
}

이 예에서 파이프라인은 다음 스크립트에 따라 훈련 데이터를 변환합니다. generated_modules/candidate_data_processors/dpp5.py XGBoost 모델을 구축합니다. 여기서 Autopilot은 자동으로 생성된 기능 변환 및 모델 선택 단계를 선택하거나 고유한 조합을 구축할 수 있는 데이터 과학자에게 완벽한 제어를 제공합니다.

이제 Autopilot이 다음과 같이 실험을 실행할 수 있도록 풀에 파이프라인을 추가할 수 있습니다.

from sagemaker_automl import AutoMLInteractiveRunner, AutoMLLocalCandidate automl_interactive_runner = AutoMLInteractiveRunner(AUTOML_LOCAL_RUN_CONFIG)
automl_interactive_runner.select_candidate(candidate1)

이는 주제 전문 지식을 기반으로 Autopilot에서 제안한 후보의 하위 집합만 유지하여 총 실행 시간을 줄이기로 결정할 수 있는 중요한 단계입니다. 지금은 다음과 같이 나열할 수 있는 모든 Autopilot 제안을 유지합니다.

automl_interactive_runner.display_candidates()

입후보자 이름	암호알고리즘	기능 변압기
dpp0-xgboost	xg부스트	dpp0.py
dpp1-xgboost	xg부스트	dpp1.py
dpp2-선형 학습기	선형 학습자	dpp2.py
dpp3-xgboost	xg부스트	dpp3.py
dpp4-xgboost	xg부스트	dpp4.py
dpp5-xgboost	xg부스트	dpp5.py
dpp6-mlp	mlp	dpp6.py

전체 Autopilot 실험은 두 부분으로 수행됩니다. 먼저 데이터 변환 작업을 실행해야 합니다.

automl_interactive_runner.fit_data_transformers(parallel_jobs=7)

이 단계는 추가 수정 사항이 없는 경우 모든 후보자에 대해 약 30분 이내에 완료됩니다. dpp*.py 파일.

다음 단계는 각 알고리즘에 대한 하이퍼파라미터를 조정하여 최상의 모델 세트를 구축하는 것입니다. 하이퍼파라미터는 일반적으로 정적 및 조정 가능한 두 부분으로 나뉩니다. 정적 하이퍼파라미터는 동일한 알고리즘을 공유하는 모든 후보에 대해 실험 내내 변경되지 않은 상태로 유지됩니다. 이러한 하이퍼파라미터는 사전으로 실험에 전달됩니다. XNUMX중 교차 검증 체계의 세 라운드에서 AUC를 최대화하여 최고의 XGBoost 모델을 선택하면 사전은 다음 코드와 같습니다.

{ 'objective': 'binary:logistic', 'eval_metric': 'auc', '_kfold': 5, '_num_cv_round': 3,
}

조정 가능한 하이퍼파라미터의 경우 범위 및 스케일링 유형이 있는 다른 사전을 전달해야 합니다.

{ 'num_round': IntegerParameter(64, 1024, scaling_type='Logarithmic'), 'max_depth': IntegerParameter(2, 8, scaling_type='Logarithmic'), 'eta': ContinuousParameter(1e-3, 1.0, scaling_type='Logarithmic'),
... }

하이퍼파라미터의 전체 세트는 다음에서 사용할 수 있습니다. mangrove-2013.ipynb 수첩.

XNUMX개의 후보를 모두 병렬로 테스트할 수 있는 실험을 만들려면 다중 알고리즘 HPO 튜너를 만듭니다.

multi_algo_tuning_parameters = automl_interactive_runner.prepare_multi_algo_parameters( objective_metrics=ALGORITHM_OBJECTIVE_METRICS, static_hyperparameters=STATIC_HYPERPARAMETERS, hyperparameters_search_ranges=ALGORITHM_TUNABLE_HYPERPARAMETER_RANGES)

객관적인 메트릭은 각 알고리즘에 대해 독립적으로 정의됩니다.

ALGORITHM_OBJECTIVE_METRICS = { 'xgboost': 'validation:auc', 'linear-learner': 'validation:roc_auc_score', 'mlp': 'validation:roc_auc',
}

모든 실험에 대해 가능한 모든 하이퍼파라미터 값을 시도하는 것은 낭비입니다. 베이지안 전략을 채택하여 HPO 튜너를 생성할 수 있습니다.

multi_algo_tuning_inputs = automl_interactive_runner.prepare_multi_algo_inputs()
ase_tuning_job_name = "{}-tuning".format(AUTOML_LOCAL_RUN_CONFIG.local_automl_job_name) tuner = HyperparameterTuner.create( base_tuning_job_name=base_tuning_job_name, strategy='Bayesian', objective_type='Maximize', max_parallel_jobs=10, max_jobs=50, **multi_algo_tuning_parameters,
)

기본 설정에서 Autopilot은 튜너에서 250개의 작업을 선택하여 최상의 모델을 선택합니다. 이 사용 사례의 경우 다음을 설정하는 것으로 충분합니다. max_jobs=50 최고의 하이퍼파라미터 집합을 선택하는 데 있어 큰 불이익 없이 시간과 리소스를 절약할 수 있습니다. 마지막으로 다음과 같이 HPO 작업을 제출합니다.

tuner.fit(inputs=multi_algo_tuning_inputs, include_cls_metadata=None)

이 프로세스는 ml.m80xlarge 인스턴스에서 약 5.4분이 소요됩니다. 다음을 선택하여 SageMaker 콘솔에서 진행 상황을 모니터링할 수 있습니다. 초매개변수 조정 작업 아래에 트레이닝 탐색 창에서

진행 중인 작업의 이름을 선택하여 각 후보자의 성과를 포함하여 유용한 정보 호스트를 시각화할 수 있습니다.

마지막으로 다음과 같이 최상의 후보자의 모델 성능을 비교합니다.

from sagemaker.analytics import HyperparameterTuningJobAnalytics SAGEMAKER_SESSION = AUTOML_LOCAL_RUN_CONFIG.sagemaker_session
SAGEMAKER_ROLE = AUTOML_LOCAL_RUN_CONFIG.role tuner_analytics = HyperparameterTuningJobAnalytics( tuner.latest_tuning_job.name, sagemaker_session=SAGEMAKER_SESSION) df_tuning_job_analytics = tuner_analytics.dataframe() df_tuning_job_analytics.sort_values( by=['FinalObjectiveValue'], inplace=True, ascending=False if tuner.objective_type == "Maximize" else True) # select the columns to display and rename
select_columns = ["TrainingJobDefinitionName", "FinalObjectiveValue", "TrainingElapsedTimeSeconds"]
rename_columns = { "TrainingJobDefinitionName": "candidate", "FinalObjectiveValue": "AUC", "TrainingElapsedTimeSeconds": "run_time" } # Show top 5 model performances
df_tuning_job_analytics.rename(columns=rename_columns)[rename_columns.values()].set_index("candidate").head(5)

후보자	AUC	실행 시간(초)
dpp6-mlp	0.96008	2711.0
dpp4-xgboost	0.95236	385.0
dpp3-xgboost	0.95095	202.0
dpp4-xgboost	0.95069	458.0
dpp3-xgboost	0.95015	361.0

MLP를 기반으로 한 최고 성능 모델은 다양한 데이터 처리 단계를 선택할 수 있는 XGBoost 모델보다 약간 낫지만 훈련하는 데 훨씬 더 오래 걸립니다. 다음과 같이 사용된 하이퍼파라미터 조합을 포함하여 MLP 모델 교육에 대한 중요한 세부 정보를 찾을 수 있습니다.

df_tuning_job_analytics.loc[df_tuning_job_analytics.TrainingJobName==best_training_job].T.dropna()

교육 작업 이름	mangrove-2-notebook–211021-2016-012-500271c8
교육 작업 상태	진행완료
최종 목표값	0.96008
교육 시작 시간	2021-10-21 20:22:55+00:00
교육종료시간	2021-10-21 21:08:06+00:00
훈련경과시간초	2711
교육 작업 정의 이름	dpp6-mlp
dropout_prob	0.415778
Embedding_size_factor	0.849226
레이어	256
학습_속도	0.00013862
미니 배치 크기	317
네트워크 유형	피드 포워드
체중_감소	1.29323-12

추론 파이프라인 생성

새 데이터에 대한 추론을 생성하려면 나중에 추론을 생성하기 위해 호출할 수 있는 최상의 모델을 호스팅하도록 SageMaker에서 추론 파이프라인을 구성해야 합니다. SageMaker 파이프라인 모델에는 데이터 변환, 알고리즘 및 역 레이블 변환(숫자 예측을 숫자가 아닌 레이블에 매핑해야 하는 경우)의 세 가지 컨테이너가 구성 요소로 필요합니다. 간결함을 위해 다음 스니펫에는 필수 코드의 일부만 표시되어 있습니다. 전체 코드는 mangrove-2013.ipynb 수첩:

from sagemaker.estimator import Estimator
from sagemaker import PipelineModel
from sagemaker_automl import select_inference_output …
# Final pipeline model model_containers = [best_data_transformer_model, best_algo_model]
if best_candidate.transforms_label: model_containers.append(best_candidate.get_data_transformer_model( transform_mode="inverse-label-transform", role=SAGEMAKER_ROLE, sagemaker_session=SAGEMAKER_SESSION)) # select the output type
model_containers = select_inference_output("BinaryClassification", model_containers, output_keys=['predicted_label'])

모델 컨테이너가 빌드된 후 다음과 같이 파이프라인을 구성하고 배포할 수 있습니다.

from sagemaker import PipelineModel pipeline_model = PipelineModel( name=f"mangrove-automl-2013", role=SAGEMAKER_ROLE, models=model_containers, vpc_config=AUTOML_LOCAL_RUN_CONFIG.vpc_config) pipeline_model.deploy(initial_instance_count=1, instance_type='ml.m5.2xlarge', endpoint_name=pipeline_model.name, wait=True)

엔드포인트 배포를 완료하는 데 약 10분이 걸립니다.

끝점을 사용하여 테스트 데이터 세트에 대한 추론 가져오기

엔드포인트가 배포된 후 기능 B1–B7의 페이로드로 엔드포인트를 호출하여 이미지의 각 픽셀을 맹그로브(1) 또는 기타(0)로 분류할 수 있습니다.

import boto3
sm_runtime = boto3.client('runtime.sagemaker') pred_labels = []
with open(local_download, 'r') as f: for i, row in enumerate(f): payload = row.rstrip('n') x = sm_runtime.invoke_endpoint(EndpointName=inf_endpt, ContentType="text/csv", Body=payload) pred_labels.append(int(x['Body'].read().decode().strip()))

평가 및 플로팅을 위한 모델 예측 후처리에 대한 자세한 내용은 다음에서 확인할 수 있습니다. notebooks/model_performance.ipynb.

일괄 변환을 사용하여 테스트 데이터 세트에 대한 추론 가져오기

Autopilot으로 최고 성능의 모델을 만들었으므로 이제 모델을 추론에 사용할 수 있습니다. 대규모 데이터 세트에 대한 추론을 얻으려면 일괄 변환을 사용하는 것이 더 효율적입니다. 전체 데이터 세트(훈련 및 테스트)에 대한 예측을 생성하고 결과를 기능에 추가하여 예를 들어 예측된 대 실제 및 예측된 클래스 간의 기능 분포를 확인하기 위해 추가 분석을 수행할 수 있습니다.

먼저 Amazon S3에서 이전 데이터 처리 단계의 훈련 및 테스트 데이터 위치를 가리키는 매니페스트 파일을 생성합니다.

import boto3
data_bucket = <Name of the S3 bucket that has the training data>
prefix = "LANDSAT_LC08_C01_T1_SR/Year2013"
manifest = "[{{"prefix": "s3://{}/{}/"}},n"train.csv",n"test.csv"n]".format(data_bucket, prefix)
s3_client = boto3.client('s3')
s3_client.put_object(Body=manifest, Bucket=data_bucket, Key=f"{prefix}/data.manifest")

이제 일괄 변환 작업을 생성할 수 있습니다. 입력 트레인과 테스트 데이터셋이 있기 때문에 label 마지막 열로 추론하는 동안 삭제해야 합니다. 그렇게하기 위해 우리는 통과합니다. InputFilter FBI 증오 범죄 보고서 DataProcessing 논쟁. 코드 "$[:-2]" 마지막 열을 삭제함을 나타냅니다. 그런 다음 예측된 출력은 추가 분석을 위해 소스 데이터와 결합됩니다.

다음 코드에서는 일괄 변환 작업에 대한 인수를 구성한 다음 create_transform_job 기능:

from time import gmtime, strftime batch_job_name = "Batch-Transform-" + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
output_location = "s3://{}/{}/batch_output/{}".format(data_bucket, prefix, batch_job_name)
input_location = "s3://{}/{}/data.manifest".format(data_bucket, prefix) request = { "TransformJobName": batch_job_name, "ModelName": pipeline_model.name, "TransformOutput": { "S3OutputPath": output_location, "Accept": "text/csv", "AssembleWith": "Line", }, "TransformInput": { "DataSource": {"S3DataSource": {"S3DataType": "ManifestFile", "S3Uri": input_location}}, "ContentType": "text/csv", "SplitType": "Line", "CompressionType": "None", }, "TransformResources": {"InstanceType": "ml.m4.xlarge", "InstanceCount": 1}, "DataProcessing": {"InputFilter": "$[:-2]", "JoinSource": "Input"}
} sagemaker = boto3.client("sagemaker")
sagemaker.create_transform_job(**request)
print("Created Transform job with name: ", batch_job_name)

SageMaker 콘솔에서 작업 상태를 모니터링할 수 있습니다.

모델 성능 시각화

이제 인도, 미얀마, 쿠바 및 베트남의 지역으로 구성된 테스트 데이터 세트에서 최고의 모델의 성능을 혼동 행렬로 시각화할 수 있습니다. 이 모델은 맹그로브 숲을 나타내는 픽셀에 대해 높은 재현율 값을 갖지만 정확도는 약 75%에 불과합니다. 맹그로브 이외의 픽셀 또는 기타 픽셀의 정밀도는 99%이고 재현율은 85%입니다. 특정 사용 사례에 따라 각 값을 조정하기 위해 모델 예측의 확률 컷오프를 조정할 수 있습니다.

결과가 기본 제공 smileCart 모델보다 크게 개선되었다는 점은 주목할 가치가 있습니다.

모델 예측 시각화

마지막으로 지도의 특정 지역에서 모델 성능을 관찰하는 것이 유용합니다. 다음 이미지에서 인도-방글라데시 국경의 맹그로브 지역은 빨간색으로 표시됩니다. 테스트 데이터 세트에 속한 Landsat 이미지 패치에서 샘플링된 포인트는 영역에 중첩되며, 여기서 각 포인트는 모델이 맹그로브를 나타내는 것으로 결정하는 픽셀입니다. 파란색 점은 모델에 따라 올바르게 분류되는 반면 검은색 점은 모델의 실수를 나타냅니다.

다음 이미지는 이전 예와 동일한 색 구성표를 사용하여 모델이 맹그로브 숲을 나타내지 않을 것으로 예측한 지점만 보여줍니다. 회색 윤곽선은 맹그로브 숲을 포함하지 않는 Landsat 패치의 일부입니다. 이미지에서 알 수 있듯이 모델은 물 위의 점을 분류하는 데 실수를 하지 않지만 맹그로브를 나타내는 픽셀을 일반 단풍을 나타내는 픽셀과 구별할 때 문제에 직면합니다.

다음 이미지는 미얀마 맹그로브 지역의 모델 성능을 보여줍니다.

다음 이미지에서 모델은 맹그로브 픽셀을 더 잘 식별합니다.

정리

SageMaker 추론 엔드포인트는 계속 실행 중인 경우 비용이 발생합니다. 완료되면 다음과 같이 끝점을 삭제합니다.

sagemaker.delete_endpoint(EndpointName=pipeline_model.name)

결론

이 일련의 게시물은 GIS 문제를 해결하기 위한 데이터 과학자를 위한 종단 간 프레임워크를 제공했습니다. 파트 1 ETL 프로세스와 데이터와 시각적으로 상호 작용하는 편리한 방법을 보여주었습니다. 2부에서는 Autopilot을 사용하여 맞춤형 맹그로브 분류기 구축을 자동화하는 방법을 보여주었습니다.

이 프레임워크를 사용하여 맹그로브 분류에 유용한 더 풍부한 대역 세트를 포함하는 새로운 위성 데이터 세트를 탐색하고 도메인 지식을 통합하여 기능 엔지니어링을 탐색할 수 있습니다.

저자에 관하여

안드레이 이바노비치 토론토 대학교에서 컴퓨터 공학 석사 과정을 밟고 있는 학생이며 최근 토론토 대학교에서 기계 지능을 전공하고 로보틱스/메카트로닉스 부전공으로 공학 과학 프로그램을 졸업했습니다. 그는 컴퓨터 비전, 딥 러닝, 로봇 공학에 관심이 있습니다. 그는 Amazon에서 여름 인턴쉽을 하는 동안 이 게시물에 제시된 작업을 수행했습니다.

데이비드 동 Amazon Web Services의 데이터 과학자입니다.

아르카요티 미스라 Amazon LastMile Transportation의 데이터 과학자입니다. 그는 지구를 돕는 문제를 해결하기 위해 Computer Vision 기술을 적용하는 데 열정적입니다. 그는 비영리 단체와 일하는 것을 좋아하며 의 창립 멤버입니다. ekipi.org.