Amazon SageMaker Otomatik Pilot kuruluşların yalnızca birkaç satır kod veya hatta bir uçtan uca makine öğrenimi (ML) modeli ve çıkarım hattı oluşturmasını ve dağıtmasını mümkün kılar. herhangi bir kod olmadan ile hiç Amazon SageMaker Stüdyosu. Otopilot, özellik mühendisliği, model seçimi ve hiperparametre ayarlama dahil olmak üzere, yapılandırma altyapısının ağır yükünü ve tüm boru hattını oluşturmak için gereken süreyi ortadan kaldırır.
Bu gönderide, Autopilot ile ham verilerden sağlam ve tam olarak dağıtılmış bir çıkarım hattına nasıl geçileceğini gösteriyoruz.
Çözüme genel bakış
Biz kullanmak Lyft'in bisiklet paylaşımına ilişkin halka açık veri seti Bu simülasyon için bir kullanıcının katılıp katılmadığını tahmin etmek için Herkes İçin Bisiklet Paylaşımı programı. Bu basit bir ikili sınıflandırma problemidir.
Kullanıcıları Herkes için Bisiklet Paylaşımı programına katılımlarına göre sınıflandırmak için otomatik ve gerçek zamanlı bir çıkarım hattı oluşturmanın ne kadar kolay olduğunu göstermek istiyoruz. Bu amaçla, San Francisco Körfez Bölgesi'nde faaliyet gösteren hayali bir bisiklet paylaşım şirketi için uçtan uca bir veri alımı ve çıkarım hattını simüle ediyoruz.
Mimari iki bölüme ayrılmıştır: alım hattı ve çıkarım hattı.
Bu gönderinin ilk bölümünde öncelikle makine öğrenimi ardışık düzenine odaklanıyoruz ve ikinci bölümde veri alma ardışık düzenini gözden geçiriyoruz.
Önkoşullar
Bu örnekle birlikte takip etmek için aşağıdaki ön koşulları tamamlayın:
- Yeni bir SageMaker not defteri örneği oluşturun.
- Bir oluşturma Amazon Kinesis Veri İtfaiyesi ile teslimat akışı AWS Lambda dönüştürme işlevi. Talimatlar için bkz. AWS Lambda ile Amazon Kinesis Firehose Veri Dönüşümü. Bu adım isteğe bağlıdır ve yalnızca veri akışını simüle etmek için gereklidir.
Veri keşfi
Herkese açık bir yerde bulunan veri setini indirip görselleştirelim. Amazon Basit Depolama Hizmeti (Amazon S3) kovası ve statik web sitesi:
Aşağıdaki ekran görüntüsü, dönüştürmeden önce verilerin bir alt kümesini gösterir.
Verilerin son sütunu, Evet veya Hayır değerini alan ve kullanıcının Herkes için Bisiklet Paylaşımı programına katılıp katılmadığını gösteren ikili bir değişken olan tahmin etmek istediğimiz hedefi içerir.
Herhangi bir veri dengesizliği için hedef değişkenimizin dağılımına bir göz atalım.
Yukarıdaki grafikte gösterildiği gibi, programa daha az kişinin katılmasıyla veriler dengesizdir.
Aşırı temsil önyargısını önlemek için verileri dengelememiz gerekiyor. Bu adım isteğe bağlıdır, çünkü Autopilot ayrıca sınıf dengesizliğini otomatik olarak ele almak için dahili bir yaklaşım sunar; bu, varsayılan olarak bir F1 puanı doğrulama metriğidir. Ek olarak, verileri kendiniz dengelemeyi seçerseniz, sınıf dengesizliğini ele almak için aşağıdaki gibi daha gelişmiş teknikleri kullanabilirsiniz. cezalandırdı or GAN.
Bu gönderi için, bir veri dengeleme tekniği olarak çoğunluk sınıfının (Hayır) örneğini aşağıya alıyoruz:
Aşağıdaki kod, verileri zenginleştirir ve aşırı temsil edilen sınıfın altında örneklenir:
İkili hedef değerimiz de dahil olmak üzere kategorik özelliklerimizi kasıtlı olarak kodlanmamış bıraktık. Bunun nedeni, bir sonraki bölümde göreceğimiz gibi, Autopilot'un otomatik özellik mühendisliği ve ardışık düzen dağıtımının bir parçası olarak verileri bizim için kodlamayı ve kodunu çözmeyi üstlenmesidir.
Aşağıdaki ekran görüntüsü verilerimizin bir örneğini göstermektedir.
Aşağıdaki grafiklerdeki veriler, beklediğiniz gibi sabah saatleri ve öğleden sonra yoğun saatler için iki zirveyi temsil eden iki modlu bir dağılımla normal görünüyor. Ayrıca hafta sonları ve geceleri düşük aktivite gözlemliyoruz.
Bir sonraki bölümde, verileri bizim için bir deneme çalıştırabilmesi için Autopilot'a besliyoruz.
İkili bir sınıflandırma modeli oluşturun
Otomatik pilot, giriş ve çıkış hedef gruplarını belirtmemizi gerektirir. Verileri yüklemek için giriş kovasını ve özellik mühendisliği ve oluşturulan Jupyter not defterleri gibi yapıları kaydetmek için çıktı kovasını kullanır. Eğitim tamamlandıktan sonra modelin performansını değerlendirmek ve doğrulamak için veri kümesinin %5'ini saklarız ve veri kümesinin %95'ini S3 giriş grubuna yükleriz. Aşağıdaki koda bakın:
Verileri giriş hedefine yükledikten sonra, Otomatik Pilotu başlatma zamanı:
Denemeye başlamak için tek ihtiyacımız olan fit() yöntemini çağırmak. Otopilot, gerekli parametreler olarak giriş ve çıkış S3 konumuna ve hedef öznitelik sütununa ihtiyaç duyar. Özellik işlemeden sonra, Otopilot çağrıları SageMaker otomatik model ayarı veri kümenizde birçok eğitim işi çalıştırarak bir modelin en iyi sürümünü bulmak için. En iyi modeli bulmak için Autopilot'un farklı algoritma ve hiperparametre kombinasyonlarıyla başlattığı eğitim işi sayısı olan aday sayısını 30 ile sınırlamak için isteğe bağlı max_candidates parametresini ekledik. Bu parametreyi belirtmezseniz, varsayılan olarak 250 olur.
Autopilot'un ilerlemesini aşağıdaki kod ile gözlemleyebiliriz:
Eğitimin tamamlanması biraz zaman alır. Çalışırken, Autopilot iş akışına bakalım.
En iyi adayı bulmak için aşağıdaki kodu kullanın:
Aşağıdaki ekran görüntüsü çıktımızı göstermektedir.
Modelimiz %96'lık bir doğrulama doğruluğu elde etti, bu yüzden onu dağıtacağız. Modeli yalnızca doğruluk belirli bir seviyenin üzerindeyse kullanmamız için bir koşul ekleyebiliriz.
çıkarım ardışık düzeni
Modelimizi dağıtmadan önce, en iyi adayımızı ve boru hattımızda neler olduğunu inceleyelim. Aşağıdaki koda bakın:
Aşağıdaki şema çıktımızı göstermektedir.
Autopilot modeli oluşturdu ve her biri sırayla belirli bir görevi yürüten üç farklı kapsayıcıda paketledi: dönüştürme, tahmin etme ve tersine dönüştürme. Bu çok adımlı çıkarım, bir SageMaker çıkarım boru hattı.
Çok adımlı bir çıkarım, birden çok çıkarım modelini de zincirleyebilir. Örneğin, bir kapsayıcı gerçekleştirebilir ana bileşen analizi verileri XGBoost kapsayıcısına geçirmeden önce.
Çıkarım işlem hattını bir uç noktaya dağıtın
Dağıtım işlemi yalnızca birkaç kod satırı içerir:
Bir tahminci ile tahmin için uç noktamızı yapılandıralım:
Artık uç noktamız ve tahmincimiz hazır olduğuna göre, bir kenara ayırdığımız test verilerini kullanma ve modelimizin doğruluğunu test etme zamanı. Verileri çıkarım uç noktamıza her seferinde bir satır gönderen ve karşılığında bir tahmin alan bir yardımcı fonksiyon tanımlayarak başlıyoruz. Çünkü bizde bir XGBoost modelinde, CSV satırını uç noktaya göndermeden önce hedef değişkeni bırakıyoruz. Ek olarak, SageMaker'da XGBoost için başka bir gereklilik olan dosyada döngü oluşturmadan önce başlığı test CSV'sinden kaldırdık. Aşağıdaki koda bakın:
Aşağıdaki ekran görüntüsü çıktımızı göstermektedir.
Şimdi modelimizin doğruluğunu hesaplayalım.
Aşağıdaki koda bakın:
%92 doğruluk elde ediyoruz. Bu, doğrulama adımı sırasında elde edilen %96'dan biraz daha düşüktür, ancak yine de yeterince yüksektir. Test yeni bir veri seti ile yapıldığı için doğruluğun tam olarak aynı olmasını beklemiyoruz.
Veri alımı
Verileri doğrudan indirdik ve eğitim için yapılandırdık. Gerçek hayatta, verileri doğrudan uç cihazdan veri gölüne göndermeniz ve SageMaker'ın veri gölünden doğrudan not defterine yüklemesini sağlamanız gerekebilir.
Kinesis Data Firehose, akış verilerini veri göllerine, veri depolarına ve analiz araçlarına güvenilir bir şekilde yüklemenin iyi bir seçeneği ve en basit yoludur. Akış verilerini yakalayabilir, dönüştürebilir ve Amazon S3 ve diğer AWS veri depolarına yükleyebilir.
Kullanım durumumuz için, akıştan geçerken bazı hafif veri temizliği yapmak için Lambda dönüştürme işlevine sahip bir Kinesis Data Firehose teslim akışı oluşturuyoruz. Aşağıdaki koda bakın:
Bu Lambda işlevi, cihazlardan veri gölüne aktarılan verilerin hafif dönüşümünü gerçekleştirir. CSV formatlı bir veri dosyası bekler.
Alım adımı için, verileri indirir ve bir Lambda dönüştürme işleviyle Kinesis Data Firehose'a ve S3 veri gölümüze bir veri akışını simüle ederiz.
Birkaç satırın akışını simüle edelim:
Temizlemek
Maliyeti en aza indirmek için bu alıştırmada kullanılan tüm kaynakları silmek önemlidir. Aşağıdaki kod, oluşturduğumuz SageMaker çıkarım uç noktasını ve yüklediğimiz eğitim ve test verilerini siler:
Sonuç
ML mühendisleri, veri bilimcileri ve yazılım geliştiricileri, çok az veya hiç ML programlama deneyimi olmadan bir çıkarım hattı oluşturmak ve dağıtmak için Autopilot'u kullanabilir. Otomatik pilot, veri bilimi ve en iyi makine öğrenimi uygulamalarını kullanarak zamandan ve kaynaklardan tasarruf sağlar. Büyük kuruluşlar artık mühendislik kaynaklarını altyapı yapılandırmasından model geliştirmeye ve iş kullanım durumlarını çözmeye kaydırabilir. Başlangıçlar ve daha küçük kuruluşlar, makine öğrenimi konusunda çok az veya hiç ML uzmanlığı olmadan başlayabilir.
SageMaker Autopilot'u kullanmaya başlamak için bkz. Ürün sayfası veya SageMaker Studio içinden SageMaker Autopilot'a erişin.
Ayrıca SageMaker'ın sunduğu diğer önemli özellikler hakkında daha fazla bilgi edinmenizi öneririz. Amazon SageMaker Özellik Mağazasıile entegre olan Amazon SageMaker Ardışık Düzenleri oluşturmak, özellik arama ve keşif eklemek ve otomatik makine öğrenimi iş akışlarını yeniden kullanmak için. Veri kümenizde farklı özellik veya hedef değişkenlere sahip birden fazla Otopilot simülasyonu çalıştırabilirsiniz. Buna, modelinizin zamana (günün saati veya haftanın günü gibi) veya konuma veya her ikisinin birleşimine dayalı olarak araç talebini tahmin etmeye çalıştığı dinamik bir araç tahsis sorunu olarak da yaklaşabilirsiniz.
Yazarlar Hakkında
Doug Mbaya veri ve analitik odaklı bir Kıdemli Çözüm mimarıdır. Doug, AWS iş ortaklarıyla yakın bir şekilde çalışarak bulutta veri ve analitik çözümlerini entegre etmelerine yardımcı olur. Doug'ın önceki deneyimi, araç paylaşımı ve yemek dağıtımı segmentinde AWS müşterilerini desteklemeyi içerir.
Valerio Perrone Amazon SageMaker Otomatik Model Ayarlama ve Otomatik Pilot üzerinde çalışan bir Uygulamalı Bilim Yöneticisidir.
- Akıllı para. Avrupa'nın En İyi Bitcoin ve Kripto Borsası.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. SERBEST ERİŞİM.
- KriptoHawk. Altcoin Radarı. Ücretsiz deneme.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/automate-a-shared-bikes-and-scooters-classification-model-with-amazon-sagemaker-autopilot/
- '
- "
- &
- 100
- Hakkımızda
- erişim
- elde
- faaliyetler
- ileri
- algoritmalar
- Türkiye
- tahsis
- Amazon
- analytics
- Başka
- api
- yaklaşım
- mimari
- ALAN
- argümanlar
- Otomatik
- AWS
- Defne
- İYİ
- en iyi uygulamalar
- inşa etmek
- iş
- çağrı
- Alabilirsin
- hangi
- durumlarda
- değişiklik
- choices
- sınıflandırma
- Temizlik
- bulut
- kod
- Sütun
- kombinasyon
- kombinasyonları
- şirket
- bileşen
- koşul
- yapılandırma
- Konteyner
- Konteynerler
- içeren
- olabilir
- Müşteriler
- veri
- veri işleme
- veri bilimi
- gün
- teslim
- Talep
- dağıtmak
- açılma
- geliştiriciler
- cihaz
- Cihaz
- farklı
- keşif
- ekran
- dağıtım
- aşağı
- Damla
- dinamik
- kenar
- şifreleme
- Son nokta
- Mühendislik
- Mühendisler
- Etkinlikler
- örnek
- Dışında
- Egzersiz
- beklediğini
- deneyim
- deneme
- Uzmanlık
- Özellikler(Hazırlık aşamasında)
- Özellikler
- Ad
- odak
- takip et
- takip etme
- Gıda
- Francisco
- işlev
- alma
- gidiş
- Tercih Etmenizin
- kullanma
- okuyun
- Yüksek
- Ne kadar
- Nasıl Yapılır
- HTTPS
- önemli
- Dahil olmak üzere
- Altyapı
- entegre
- IT
- İş
- Mesleki Öğretiler
- büyük
- başlattı
- öğrenme
- seviye
- Kütüphane
- ışık
- hafif
- çizgi
- küçük
- yük
- lokal olarak
- yer
- makine
- makine öğrenme
- çoğunluk
- Yapımı
- müdür
- ML
- model
- modelleri
- çoğu
- defter
- teklif
- Teklifler
- işletme
- seçenek
- sipariş
- organizasyonlar
- Diğer
- aksi takdirde
- katılım
- ortaklar
- İnsanlar
- performans
- mümkün
- tahmin
- Sorun
- süreç
- Programı
- Programlama
- sağlamak
- halka açık
- hızla
- Çiğ
- gerçek zaman
- tavsiye etmek
- kayıt
- kayıtlar
- gereklidir
- Kaynaklar
- İade
- yorum
- kurallar
- koşmak
- koşu
- acele
- San
- San Francisco
- tasarruf
- Bilim
- bilim adamları
- Ara
- seçilmiş
- Dizi
- set
- paylaş
- Paylaşılan
- çalışma
- Basit
- simülasyon
- beden
- uyku
- So
- Yazılım
- bölmek
- başlama
- başladı
- Startups
- hafızası
- mağaza
- dere
- akış
- akış
- stüdyo
- Hedef
- teknikleri
- test
- Test yapmak
- İçinden
- zaman
- bugün
- araçlar
- Eğitim
- Dönüştürmek
- Dönüşüm
- us
- kullanım
- kullanıcılar
- yarar
- değer
- araç
- Web sitesi
- hafta
- olup olmadığını
- Vikipedi
- içinde
- çalışma
- çalışır