Mangrov ormanları, sağlıklı bir ekosistemin önemli bir parçasıdır ve insan faaliyetleri, dünyanın dört bir yanındaki kıyı şeritlerinden kademeli olarak kaybolmalarının ana nedenlerinden biridir. Bir uydu görüntüsünden mangrov bölgelerini belirlemek için bir makine öğrenimi (ML) modeli kullanmak, araştırmacılara ormanların zaman içindeki boyutunu izlemek için etkili bir yol sağlar. İçinde Bölüm 1 Bu seride, uydu verilerinin otomatik bir şekilde nasıl toplanacağını ve nasıl analiz edileceğini gösterdik. Amazon SageMaker Stüdyosu etkileşimli görselleştirme ile. Bu yazıda, nasıl kullanılacağını gösteriyoruz Amazon SageMaker Otomatik Pilot özel bir mangrov sınıflandırıcısı oluşturma sürecini otomatikleştirmek için.
Otopilot ile bir model eğitin
Otomatik pilot, birkaç model oluşturmak ve en iyisini seçmek için dengeli bir yol sağlar. Autopilot, minimum çabayla farklı veri ön işleme teknikleri ve ML modellerinin çoklu kombinasyonlarını oluştururken, istenirse veri bilimcisine bu bileşen adımları üzerinde tam kontrol sağlar.
AWS SDK'larından birini kullanarak Autopilot'u kullanabilirsiniz (ayrıntılar şurada mevcuttur: Otopilot için API başvuru kılavuzu) veya Studio aracılığıyla. Bu bölümde özetlenen adımları izleyerek Studio çözümümüzde Autopilot kullanıyoruz:
- Studio Başlatıcı sayfasında, artı işaretini seçin. Yeni Otopilot deneyi.
- İçin Verilerinizi bağlayınseçin S3 paketini buluntıklayın ve eğitim ve test veri kümelerini sakladığınız paket adını girin.
- İçin Veri kümesi dosya adı, oluşturduğunuz eğitim veri dosyasının adını girin. Eğitim verilerini hazırlayın bölümündeki bölüm Bölüm 1.
- İçin Çıkış verisi konumu (S3 kovası), 2. adımda kullandığınız paket adını girin.
- İçin Veri kümesi dizini adı, Autopilot'un yapıtları depolamasını istediğiniz klasörün altına bir klasör adı girin.
- İçin S3 girişiniz bir bildirim dosyası mı?, seçmek kapalı.
- İçin Hedef, seçmek etiket.
- İçin Otomatik dağıtma, seçmek kapalı.
- Altında Gelişmiş ayarlar, Için Makine öğrenimi sorun türü, seçmek İkili Sınıflandırma.
- İçin Objektif metrik, seçmek AUC.
- İçin Denemenizi nasıl çalıştıracağınızı seçin, seçmek Hayır, aday tanımlarıyla bir not defteri oluşturmak için bir pilot uygulama çalıştırın.
- Klinik Deneme Oluşturun.
Deneme oluşturma hakkında daha fazla bilgi için bkz. Bir Amazon SageMaker Otomatik Pilot denemesi oluşturun.Bu adımı çalıştırmak yaklaşık 15 dakika sürebilir. - Tamamlandığında, seçin Açık aday nesil not defteri, salt okunur modda yeni bir not defteri açar.
- Klinik Not defterini içe aktar Not defterini düzenlenebilir hale getirmek için.
- Resim için seçin Veri Bilim.
- İçin çekirdek, seçmek Python 3.
- Klinik seç.
Bu otomatik oluşturulan not defteri ayrıntılı açıklamalara sahiptir ve izlenecek asıl model oluşturma görevi üzerinde tam kontrol sağlar. Özelleştirilmiş bir sürümü defter2013'ten itibaren Landsat uydu bantları kullanılarak bir sınıflandırıcının eğitildiği , aşağıdaki kod deposunda mevcuttur: notebooks/mangrove-2013.ipynb
.
Model oluşturma çerçevesi iki bölümden oluşur: veri işleme adımının bir parçası olarak özellik dönüşümü ve model seçim adımının bir parçası olarak hiperparametre optimizasyonu (HPO). Bu görevler için gerekli tüm eserler, Otopilot deneyi sırasında oluşturuldu ve şuraya kaydedildi: Amazon Basit Depolama Hizmeti (Amazon S3). İlk dizüstü bilgisayar hücresi, bu yapıları Amazon S3'ten yerele indirir. Amazon Adaçayı Yapıcı inceleme ve gerekli herhangi bir değişiklik için dosya sistemi. İki klasör vardır: generated_module
ve sagemaker_automl
, not defterini çalıştırmak için gerekli tüm Python modüllerinin ve komut dosyalarının depolandığı yer. Atama, ölçekleme ve PCA gibi çeşitli özellik dönüştürme adımları şu şekilde kaydedilir: generated_modules/candidate_data_processors/dpp*.py.
Autopilot, XGBoost, doğrusal öğrenen ve çok katmanlı algılayıcı (MLP) algoritmalarına dayalı üç farklı model oluşturur. Aday işlem hattı, olarak bilinen özellik dönüştürme seçeneklerinden birinden oluşur. data_transformer
, ve bir algoritma. Bir ardışık düzen bir Python sözlüğüdür ve aşağıdaki gibi tanımlanabilir:
Bu örnekte, ardışık düzen, eğitim verilerini komut dosyasına göre dönüştürür. generated_modules/candidate_data_processors/dpp5.py
ve bir XGBoost modeli oluşturur. Bu, Otomatik Pilotun, otomatik olarak oluşturulan özellik dönüştürme ve model seçim adımlarını seçebilen veya kendi kombinasyonlarını oluşturabilen veri bilimcisine tam kontrol sağladığı yerdir.
Artık, Autopilot'un denemeyi aşağıdaki gibi çalıştırması için işlem hattını bir havuza ekleyebilirsiniz:
Bu, toplam çalışma süresini azaltmak için konu uzmanlığına dayalı olarak Otopilot tarafından önerilen adayların yalnızca bir alt kümesini tutmaya karar verebileceğiniz önemli bir adımdır. Şimdilik, aşağıdaki gibi sıralayabileceğiniz tüm Otopilot önerilerini saklayın:
Aday İsmi | Algoritma | Özellik Transformatörü |
dpp0-xgboost | xgboost | dpp0.py |
dpp1-xgboost | xgboost | dpp1.py |
dpp2-doğrusal-öğrenen | lineer öğrenen | dpp2.py |
dpp3-xgboost | xgboost | dpp3.py |
dpp4-xgboost | xgboost | dpp4.py |
dpp5-xgboost | xgboost | dpp5.py |
dpp6-mlp | MLP | dpp6.py |
Tam Otomatik Pilot deneyi iki bölümde yapılır. İlk olarak, veri dönüştürme işlerini çalıştırmanız gerekir:
Daha fazla değişiklik yapmazsanız, bu adım tüm adaylar için yaklaşık 30 dakika içinde tamamlanmalıdır. dpp*.py
dosyaları.
Sonraki adım, ilgili algoritmalar için hiperparametreleri ayarlayarak en iyi model setini oluşturmaktır. Hiperparametreler genellikle iki kısma ayrılır: statik ve ayarlanabilir. Statik hiperparametreler, aynı algoritmayı paylaşan tüm adaylar için deney boyunca değişmeden kalır. Bu hiperparametreler deneye sözlük olarak geçirilir. Beş katlı çapraz doğrulama şemasının üç turundan AUC'yi en üst düzeye çıkararak en iyi XGBoost modelini seçmeyi seçerseniz, sözlük aşağıdaki koda benzer:
Ayarlanabilir hiperparametreler için, aralıkları ve ölçekleme türünü içeren başka bir sözlük iletmeniz gerekir:
Eksiksiz hiperparametre seti şurada mevcuttur: mangrove-2013.ipynb
defter.
Yedi adayın hepsinin paralel olarak test edilebileceği bir deney oluşturmak için çok algoritmalı bir HPO ayarlayıcı oluşturun:
Hedef metrikleri, her algoritma için bağımsız olarak tanımlanır:
Tüm deneyler için tüm olası hiperparametre değerlerini denemek israftır; bir HPO tuner oluşturmak için Bayes stratejisini benimseyebilirsiniz:
Varsayılan ayarda, Otomatik Pilot en iyi modeli seçmek için ayarlayıcıda 250 iş seçer. Bu kullanım durumu için ayarlamak yeterlidir max_jobs=50
en iyi hiperparametre setini seçme açısından önemli bir ceza olmadan zamandan ve kaynaklardan tasarruf etmek. Son olarak, HPO işini aşağıdaki gibi gönderin:
İşlem, ml.m80xlarge örneklerinde yaklaşık 5.4 dakika sürer. Seçerek SageMaker konsolundaki ilerlemeyi izleyebilirsiniz. Hiperparametre ayarlama işleri altında Eğitim Gezinti bölmesinde.
Devam eden işin adını seçerek, her adayın performansı da dahil olmak üzere bir dizi faydalı bilgiyi görselleştirebilirsiniz.
Son olarak, en iyi adayların model performansını aşağıdaki gibi karşılaştırın:
aday | AUC | run_time(lar) |
dpp6-mlp | 0.96008 | 2711.0 |
dpp4-xgboost | 0.95236 | 385.0 |
dpp3-xgboost | 0.95095 | 202.0 |
dpp4-xgboost | 0.95069 | 458.0 |
dpp3-xgboost | 0.95015 | 361.0 |
MLP'ye dayalı en iyi performans gösteren model, çeşitli veri işleme adımları seçenekleriyle XGBoost modellerinden marjinal olarak daha iyi olsa da, eğitilmesi çok daha uzun sürer. Kullanılan hiperparametrelerin kombinasyonu da dahil olmak üzere MLP modeli eğitimi ile ilgili önemli detayları aşağıdaki gibi bulabilirsiniz:
EğitimİşAdı | mangrove-2-notebook–211021-2016-012-500271c8 |
Eğitimİş Durumu | Tamamlandı |
Nihai Hedef Değeri | 0.96008 |
EğitimBaşlangıç Zamanı | 2021-10-21 20:22:55+00:00 |
EğitimBitiş Zamanı | 2021-10-21 21:08:06+00:00 |
EğitimGeçenZamanSaniye | 2711 |
Eğitimİş TanımıAdı | dpp6-mlp |
bırakma_prob | 0.415778 |
katıştırma_boyut_faktörü | 0.849226 |
katmanları | 256 |
öğrenme oranı | 0.00013862 |
mini_batch_size | 317 |
ağ tipi | ileri beslemeli |
ağırlık_decay | 1.29323e-12 |
Bir çıkarım işlem hattı oluşturun
Yeni veriler üzerinde çıkarım oluşturmak için, daha sonra çıkarım oluşturmak üzere çağrılabilecek en iyi modeli barındırmak üzere SageMaker üzerinde bir çıkarım hattı oluşturmanız gerekir. SageMaker boru hattı modeli, bileşenleri olarak üç kapsayıcı gerektirir: veri dönüştürme, algoritma ve ters etiket dönüştürme (sayısal tahminlerin sayısal olmayan etiketlerle eşlenmesi gerekiyorsa). Kısa olması için, aşağıdaki kod parçasında gerekli kodun yalnızca bir kısmı gösterilmektedir; tam kod şurada mevcuttur mangrove-2013.ipynb
defter:
Model kapsayıcıları oluşturulduktan sonra işlem hattını aşağıdaki gibi oluşturabilir ve dağıtabilirsiniz:
Uç nokta dağıtımının tamamlanması yaklaşık 10 dakika sürer.
Bir uç nokta kullanarak test veri kümesi üzerinde çıkarım elde edin
Uç nokta dağıtıldıktan sonra, bir görüntüdeki her pikseli mangrov (1) veya diğer (7) olarak sınıflandırmak için B1-B0 özelliklerin bir yüküyle onu çağırabilirsiniz:
Değerlendirme ve çizim için model tahminlerini son işleme ile ilgili tüm ayrıntılar şurada mevcuttur: notebooks/model_performance.ipynb
.
Toplu dönüştürme kullanarak test veri kümesinden çıkarım elde edin
Artık Autopilot ile en iyi performans gösteren modeli yarattığınıza göre, modeli çıkarım için kullanabiliriz. Büyük veri kümelerinde çıkarım elde etmek için toplu dönüştürme kullanmak daha verimlidir. Tüm veri kümesinde (eğitim ve test) tahminler üretelim ve sonuçları özelliklere ekleyelim, böylece örneğin tahmin edilene karşı gerçekleşenleri ve özelliklerin tahmin edilen sınıflar arasındaki dağılımını kontrol etmek için daha fazla analiz yapabiliriz.
İlk olarak, Amazon S3'te, önceki veri işleme adımlarındaki eğitim ve test verilerinin konumlarına işaret eden bir bildirim dosyası oluşturuyoruz:
Artık bir toplu dönüştürme işi oluşturabiliriz. Çünkü girdi trenimiz ve test veri setimiz label
son sütun olarak, çıkarım sırasında bırakmamız gerekiyor. Bunu yapmak için geçiyoruz InputFilter
içinde DataProcessing
argüman. kod "$[:-2]"
son sütunun atılacağını gösterir. Tahmini çıktı daha sonra daha fazla analiz için kaynak verilerle birleştirilir.
Aşağıdaki kodda, toplu dönüştürme işi için argümanları oluşturuyoruz ve ardından create_transform_job
işlevi:
İşin durumunu SageMaker konsolunda izleyebilirsiniz.
Model performansını görselleştirin
Artık en iyi modelin performansını Hindistan, Myanmar, Küba ve Vietnam'dan oluşan test veri setinde bir karışıklık matrisi olarak görselleştirebilirsiniz. Model, mangrovları temsil eden pikseller için yüksek bir geri çağırma değerine sahiptir, ancak yalnızca yaklaşık %75 hassasiyete sahiptir. Mangrov olmayan veya diğer piksellerin hassasiyeti %99 hatırlama ile %85'dur. Belirli kullanım durumuna bağlı olarak ilgili değerleri ayarlamak için model tahminlerinin olasılık kesmesini ayarlayabilirsiniz.
Sonuçların, yerleşik smileCart modeline göre önemli bir gelişme olduğunu belirtmekte fayda var.
Model tahminlerini görselleştirin
Son olarak, haritadaki belirli bölgelerdeki model performansını gözlemlemek faydalıdır. Aşağıdaki resimde Hindistan-Bangladeş sınırındaki mangrov alanı kırmızı ile gösterilmiştir. Test veri setine ait Landsat görüntü yamasından örneklenen noktalar, her noktanın modelin mangrovları temsil ettiğini belirlediği bir piksel olduğu bölge üzerine bindirilir. Mavi noktalar model tarafından doğru olarak sınıflandırılırken, siyah noktalar model tarafından hataları temsil eder.
Aşağıdaki görüntü, önceki örnekle aynı renk şemasıyla, yalnızca modelin mangrovları temsil etmediğini tahmin ettiği noktaları göstermektedir. Gri anahat, Landsat yamasının herhangi bir mangrov içermeyen kısmıdır. Resimden de anlaşılacağı gibi, model su üzerindeki noktaları sınıflandırmada herhangi bir hata yapmıyor, ancak mangrovları temsil eden pikselleri normal yaprakları temsil edenlerden ayırt ederken bir zorlukla karşı karşıya.
Aşağıdaki görüntü, Myanmar mangrov bölgesindeki model performansını göstermektedir.
Aşağıdaki görüntüde, model mangrov piksellerini tanımlamada daha iyi bir iş çıkarmaktadır.
Temizlemek
SageMaker çıkarım uç noktası, çalışır durumda bırakılırsa maliyet oluşturmaya devam eder. İşiniz bittiğinde uç noktayı aşağıdaki gibi silin:
Sonuç
Bu gönderi dizisi, veri bilimcilerinin CBS sorunlarını çözmeleri için uçtan uca bir çerçeve sağladı. Bölüm 1 ETL sürecini ve verilerle görsel olarak etkileşim kurmanın uygun bir yolunu gösterdi. Bölüm 2, özel bir mangrov sınıflandırıcısı oluşturmayı otomatikleştirmek için Otomatik Pilotun nasıl kullanılacağını gösterdi.
Bu çerçeveyi, mangrov sınıflandırması için yararlı olan daha zengin bir bant kümesi içeren yeni uydu veri kümelerini keşfetmek ve alan bilgisini birleştirerek özellik mühendisliğini keşfetmek için kullanabilirsiniz.
Yazarlar Hakkında
Andrey İvanoviç Toronto Üniversitesi'nde Bilgisayar Bilimleri Yüksek Lisans öğrencisi ve Toronto Üniversitesi'nde Makine Zekası bölümünde Robotik/Mekatronik yandalıyla Mühendislik Bilimi programından yeni mezun olmuştur. Bilgisayarla görü, derin öğrenme ve robotik ile ilgileniyor. Bu yazıda sunulan işi Amazon'daki yaz stajı sırasında yaptı.
david dong Amazon Web Services'te Veri Bilimcisidir.
Arkajyoti Misra Amazon LastMile Transportation'da Veri Bilimcisi. Dünyaya yardımcı olan sorunları çözmek için Bilgisayarla Görme tekniklerini uygulama konusunda tutkulu. Kar amacı gütmeyen kuruluşlarla çalışmayı sever ve kurucu üyesidir. ekip.org.
- Akıllı para. Avrupa'nın En İyi Bitcoin ve Kripto Borsası.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. SERBEST ERİŞİM.
- KriptoHawk. Altcoin Radarı. Ücretsiz deneme.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/part-2-identify-mangrove-forests-using-satellite-image-features-using-amazon-sagemaker-studio-and-amazon-sagemaker- otomatik pilot/
- "
- 10
- 100
- a
- Hakkımızda
- Göre
- faaliyetler
- algoritma
- algoritmalar
- Türkiye
- Amazon
- Amazon Web Servisleri
- arasında
- analiz
- analytics
- çözümlemek
- Başka
- Uygulanması
- ALAN
- argümanlar
- etrafında
- otomatikleştirmek
- Otomatik
- otomatik olarak
- mevcut
- AWS
- Çünkü
- İYİ
- Siyah
- vücut
- sınır
- inşa etmek
- bina
- inşa
- yerleşik
- aday
- adaylar
- dava
- meydan okuma
- choices
- Klinik
- sınıflar
- sınıflandırma
- sınıflandırılmış
- kod
- Sütun
- kombinasyon
- kombinasyonları
- tamamlamak
- bileşen
- bileşenler
- bilgisayar
- Bilgisayar Bilimleri
- karışıklık
- konsolos
- Konteynerler
- devam ediyor
- kontrol
- Uygun
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- oluşturur
- Oluşturma
- Küba
- görenek
- veri
- veri işleme
- veri bilimcisi
- derin
- bağlı
- dağıtmak
- konuşlandırılmış
- açılma
- detaylı
- ayrıntılar
- DID
- farklı
- ekran
- dağıtım
- Değil
- domain
- indirme
- Damla
- sırasında
- her
- toprak
- ekosistem
- Etkili
- verimli
- çaba
- son uca
- Son nokta
- Mühendislik
- Keşfet
- değerlendirme
- örnek
- deneme
- Uzmanlık
- keşfetmek
- yüzler
- Moda
- Özellikler(Hazırlık aşamasında)
- Özellikler
- Nihayet
- Ad
- takip et
- takip etme
- şu
- kurucu
- iskelet
- itibaren
- tam
- işlev
- daha fazla
- oluşturmak
- oluşturulan
- nesil
- mezun
- gri
- rehberlik
- yükseklik
- yardımcı olur
- Yüksek
- Ne kadar
- Nasıl Yapılır
- HTTPS
- insan
- belirlemek
- belirlenmesi
- görüntü
- önemli
- iyileşme
- dahil
- Dahil olmak üzere
- bağımsız
- Hindistan
- bilgi
- giriş
- örnek
- İstihbarat
- interaktif
- ilgili
- IT
- İş
- Mesleki Öğretiler
- katıldı
- tutmak
- bilgi
- bilinen
- etiket
- Etiketler
- büyük
- öğrenme
- çizgi
- Liste
- yerel
- yer
- yerleri
- makine
- makine öğrenme
- büyük
- yapmak
- harita
- yüksek lisans
- Matris
- Mesele
- üye
- Metrikleri
- hataları
- ML
- model
- modelleri
- izlemek
- Daha
- çoklu
- Myanmar
- Navigasyon
- gerekli
- sonraki
- Kar amacı gütmeyen
- defter
- açılır
- optimizasyon
- Opsiyonlar
- organizasyonlar
- Diğer
- kendi
- Bölüm
- belirli
- tutkulu
- Patch
- performans
- performansları
- icra
- pilot
- Nokta
- noktaları
- havuz
- mümkün
- Mesajlar
- Tahminler
- önceki
- Sorun
- sorunlar
- süreç
- işleme
- Programı
- sağlanan
- sağlar
- nedenleri
- son
- azaltmak
- bölge
- düzenli
- kalmak
- Depo
- temsil etmek
- temsil
- talep
- gereklidir
- gerektirir
- Araştırmacılar
- Kaynaklar
- Sonuçlar
- robotik
- Rol
- mermi
- koşmak
- koşu
- aynı
- uydu
- İndirim
- ölçekleme
- plan
- Bilim
- bilim adamı
- bilim adamları
- seçim
- Dizi
- Hizmetler
- set
- ayar
- birkaç
- paylaş
- şov
- gösterilen
- işaret
- önemli
- Basit
- beden
- So
- katı
- çözüm
- ÇÖZMEK
- özel
- durmak
- Durum
- hafızası
- mağaza
- Stratejileri
- Öğrenci
- stüdyo
- konu
- yaz
- sistem
- görevleri
- teknikleri
- şartlar
- test
- The
- Kaynak
- Dünya
- üç
- İçinden
- boyunca
- zaman
- üst
- üst 5
- toronto
- Eğitim
- Dönüştürmek
- Dönüşüm
- dönüşümler
- taşımacılık
- altında
- üniversite
- kullanım
- genellikle
- onaylama
- değer
- çeşitli
- versiyon
- vizyonumuz
- görüntüleme
- Su
- ağ
- web hizmetleri
- süre
- DSÖ
- olmadan
- İş
- Dünya
- değer
- X