Amazon Adaçayı Yapıcı tamamen yönetilen bir makine öğrenimi (ML) hizmetidir. SageMaker ile veri bilimcileri ve geliştiriciler, makine öğrenimi modellerini hızlı ve kolay bir şekilde oluşturup eğitebilir ve ardından bunları üretime hazır barındırılan bir ortama doğrudan dağıtabilir. Sagemaker, keşif ve analiz için veri kaynaklarınıza kolay erişim için entegre bir Jupyter yazma not defteri örneği sağlar, böylece sunucuları yönetmek zorunda kalmazsınız. Ayrıca, dağıtılmış bir ortamda son derece büyük verilere karşı verimli bir şekilde çalışacak şekilde optimize edilmiş ortak makine öğrenimi algoritmaları sağlar.
SageMaker, bir makine öğrenimi modeli için eğitim verilerinin ya Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) veya Amazon FSx for Lustre (daha fazla bilgi için Access Training Data'ya bakın). Desteklenen üç depolama hizmetinin dışında depolanan verileri kullanarak bir model eğitmek için önce verilerin bu hizmetlerden birine (genellikle Amazon S3) alınması gerekir. Bu, bir veri boru hattı oluşturmayı gerektirir (örneğin, Amazon SageMaker Veri Düzenleyicisi) verileri Amazon S3'e taşımak için. Bununla birlikte, bu yaklaşım, tümü eğitim işi süresince eğitim verilerini hazırlamak amacıyla, bu veri depolama ortamının yaşam döngüsünü yönetme, erişim kontrolleri oluşturma, veri denetimi vb. açısından bir veri yönetimi zorluğu yaratabilir. Bu tür durumlarda, verilerin Amazon S3'te ara depolaması olmadan kısa ömürlü eğitim eşgörünümlerine eklenmiş kısa ömürlü depolama ortamındaki SageMaker tarafından erişilebilir olması istenebilir.
Bu gönderi, bunu kullanarak yapmanın bir yolunu gösterir. Kar taneciği veri kaynağı olarak ve verileri doğrudan Snowflake'ten bir SageMaker Training iş örneğine indirerek.
Çözüme genel bakış
Biz kullanın California Konut Veri Kümesi Bu gönderi için bir eğitim veri kümesi olarak kullanın ve her bölge için medyan ev değerini tahmin edecek bir makine öğrenimi modeli eğitin. Bu verileri Snowflake'e yeni bir tablo olarak ekliyoruz. Verileri önce bir S3 klasörüne indirmek yerine doğrudan Snowflake tablosundan eğitim kurulumuna indiren özel bir eğitim kapsayıcısı oluşturuyoruz. Veriler eğitim örneğine indirildikten sonra, özel eğitim betiği veri hazırlama görevlerini gerçekleştirir ve ardından makine öğrenimi modelini kullanarak eğitir. XGBoost Tahmincisi. Bu gönderi için tüm kod şu adreste mevcuttur: GitHub repo.
Aşağıdaki şekil, SageMaker ile ML modellerini eğitmek için bir veri kaynağı olarak Snowflake'i kullanmak için önerilen çözümün üst düzey mimarisini göstermektedir.
İş akışı adımları aşağıdaki gibidir:
- Bir SageMaker not defteri kurun ve AWS Kimlik ve Erişim Yönetimi SageMaker'ın erişmesine izin vermek için uygun izinlere sahip (IAM) rolü Amazon Elastik Konteyner Kayıt Defteri (Amazon ECR), Secrets Manager ve AWS hesabınızdaki diğer hizmetler.
- Snowflake hesabı kimlik bilgilerinizi AWS Secrets Manager'da saklayın.
- Snowflake hesabınızdaki bir tablodaki verileri alın.
- Makine öğrenimi modeli eğitimi için özel bir kapsayıcı görüntüsü oluşturun ve bunu Amazon ECR'ye aktarın.
- Makine öğrenimi modelini eğitmek için bir SageMaker Eğitim işi başlatın. Eğitim eşgörünümü, Snowflake kimlik bilgilerini Secrets Manager'dan alır ve ardından veri kümesini doğrudan Snowflake'ten indirmek için bu kimlik bilgilerini kullanır. Bu, verilerin önce bir S3 klasörüne indirilmesi ihtiyacını ortadan kaldıran adımdır.
- Eğitilmiş makine öğrenimi modeli, bir S3 klasöründe depolanır.
Önkoşullar
Bu gönderide sağlanan çözümü uygulamak için bir AWS hesabı, kar tanesi hesabı ve SageMaker'a aşinalık.
Bir SageMaker Not Defteri ve IAM rolü ayarlayın
adlı bir SageMaker not defteri oluşturmak için AWS CloudFormation kullanıyoruz. aws-aiml-blogpost-sagemaker-snowflake-example
ve adı verilen bir IAM rolü SageMakerSnowFlakeExample
. Seçin Yığını Başlat kaynakları dağıtmak istediğiniz Bölge için.
Snowflake kimlik bilgilerini Secrets Manager'da saklayın
Snowflake kimlik bilgilerinizi Secrets Manager'da bir sır olarak saklayın. Bir sırrın nasıl oluşturulacağına ilişkin talimatlar için, bkz. Create an AWS Secrets Manager secret
.
- Sırrı adlandır
snowflake_credentials
. Bu gereklidir, çünkü içindeki kodsnowflake-load-dataset.ipynb
sırrın buna çağrılmasını bekler. - Gizli anahtarı iki anahtarla bir anahtar/değer çifti olarak oluşturun:
- kullanıcı adı – Snowflake kullanıcı adınız.
- şifre – Snowflake kullanıcı adınızla ilişkili parola.
Snowflake hesabınızdaki bir tablodaki verileri alın
Verileri almak için aşağıdaki adımları tamamlayın:
- SageMaker konsolunda, Defterler Gezinti bölmesinde.
- Not defteri aws-aiml-blogpost-sagemaker-snowflake-example'ı seçin ve JupyterLab'ı aç.
- Klinik
snowflake-load-dataset.ipynb
JupyterLab'da açmak için. Bu not defteri California Konut Veri Kümesi bir Kar Tanesi tablosuna. - Not defterinde, yer tutucu değerleri kar tanesi hesabınızla eşleşen değerle değiştirmek için aşağıdaki hücrenin içeriğini düzenleyin:
- Çalıştır menüsünde, seçin Tüm Hücreleri Çalıştır bu not defterindeki kodu çalıştırmak için. Bu, veri kümesini yerel olarak not defterine indirir ve ardından onu Snowflake tablosuna alır.
Not defterindeki aşağıdaki kod parçacığı, veri kümesini Snowflake'e alır. Bkz. snowflake-load-dataset.ipynb
tam kod için not defteri.
- Tüm hücreler hatasız çalıştıktan sonra not defterini kapatın. Verileriniz artık Snowflake'te mevcut. Aşağıdaki ekran görüntüsü
california_housing
Snowflake'te oluşturulan tablo.
Çalıştır sagemaker-snowflake-example.ipynb
defter
Bu not defteri, bir Snowflake bağlantısına sahip özel bir eğitim kapsayıcısı oluşturur, Snowflake'ten verileri Amazon S3'te hazırlamadan eğitim bulut sunucusunun kısa ömürlü deposuna çıkarır ve veriler üzerinde Dağıtılmış Veri Paralel (DDP) XGBoost modeli eğitimi gerçekleştirir. Bu kadar küçük bir veri kümesinde model eğitimi için DDP eğitimi gerekli değildir; yakın zamanda piyasaya sürülen başka bir SageMaker özelliğinin gösterimi için buraya dahil edilmiştir.
Eğitim için özel bir kapsayıcı oluşturun
Şimdi makine öğrenimi modeli eğitim işi için özel bir kapsayıcı oluşturuyoruz. Bir Docker kapsayıcısı oluşturmak için kök erişiminin gerekli olduğunu unutmayın. Bu SageMaker not defteri, kök erişimi etkinleştirilmiş olarak dağıtıldı. Kurumsal kuruluş ilkeleriniz bulut kaynaklarına root erişimine izin vermiyorsa başka bir yerde (örneğin, dizüstü bilgisayarınız) bir Docker kapsayıcısı oluşturmak için aşağıdaki Docker dosyasını ve kabuk betiklerini kullanmak ve ardından bunu Amazon ECR'ye göndermek isteyebilirsiniz. SageMaker XGBoost kapsayıcı görüntüsünü temel alan kapsayıcıyı kullanıyoruz 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1
aşağıdaki eklemelerle:
- The Python için Kar Tanesi Konektörü Snowflake tablosundaki verileri eğitim örneğine indirmek için.
- Snowflake kimlik bilgilerini almak üzere Secrets Manager'a bağlanmak için bir Python betiği.
Snowflake bağlayıcısının ve Python betiğinin kullanılması, makine öğrenimi modeli eğitimi için bu kapsayıcı görüntüsünü kullanan kullanıcıların, eğitim betiklerinin bir parçası olarak bu kodu yazmak zorunda kalmamalarını ve zaten kendilerine sunulan bu işlevi kullanabilmelerini sağlar.
Eğitim kapsayıcısı için Docker dosyası aşağıdadır:
Kapsayıcı görüntüsü oluşturulur ve Amazon ECR'ye aktarılır. Bu görüntü, makine öğrenimi modelini eğitmek için kullanılır.
Bir SageMaker Training işi kullanarak makine öğrenimi modelini eğitin
Container görüntüsünü başarılı bir şekilde oluşturup Amazon ECR'ye aktardıktan sonra model eğitimi için kullanmaya başlayabiliriz.
- Snowflake'ten verileri indirmek için bir dizi Python betiği oluşturuyoruz. Python için Kar Tanesi Konektörü, verileri hazırlayın ve ardından
XGBoost Regressor
ML modelini eğitmek için. Eğitim verileri için ara depolama alanı olarak Amazon S3'ü kullanmak zorunda kalmayan, verileri doğrudan eğitim eşgörünümüne indirme adımıdır. - Dağıtılmış Veri Paralel eğitimini, her eğitim örneğinin Snowflake'ten eşit miktarda veri indireceği şekilde eğitim kodunun verilerin rastgele bir alt kümesini indirmesini sağlayarak kolaylaştırıyoruz. Örneğin, iki eğitim düğümü varsa, her düğüm Kar Tanesi tablosundaki satırların %50'sinden rastgele bir örnek indirir. Aşağıdaki koda bakın:
- Daha sonra eğitim komut dosyasını SageMaker SDK'ya sağlarız.
Estimator
kaynak dizinle birlikte, böylece oluşturduğumuz tüm betikler, eğitim işi çalıştırıldığında eğitim kapsayıcısına sağlanabilir.Estimator.fit
yöntem:Daha fazla bilgi için, bkz. Bir Scikit-Learn Eğitim Komut Dosyası Hazırlayın.
- Model eğitimi tamamlandıktan sonra, eğitilen model bir
model.tar.gz
Bölge için varsayılan SageMaker klasöründeki dosya:
Artık yeni veriler hakkında çıkarım yapmak için eğitilmiş modeli devreye alabilirsiniz! Talimatlar için bkz. Uç noktanızı oluşturun ve modelinizi devreye alın.
Temizlemek
Gelecekte masraflara maruz kalmamak için kaynakları silin. Bunu, IAM rolünü ve SageMaker not defterini oluşturmak için kullanılan CloudFormation şablonunu silerek yapabilirsiniz.
Snowflake kaynaklarını Snowflake konsolundan manuel olarak silmeniz gerekecek.
Sonuç
Bu gönderide, bir Snowflake tablosunda saklanan verilerin bir SageMaker Training iş örneğine nasıl indirileceğini ve özel bir eğitim konteyneri kullanarak bir XGBoost modelinin nasıl eğitileceğini gösterdik. Bu yaklaşım, verileri Amazon S3'te hazırlamadan, Snowflake'i bir veri kaynağı olarak bir SageMaker not defteriyle doğrudan entegre etmemize olanak tanır.
Keşfederek daha fazla bilgi edinmenizi öneririz. Amazon SageMaker Python SDK'sı ve bu gönderide sağlanan örnek uygulamayı ve işinizle ilgili bir veri kümesini kullanarak bir çözüm oluşturmak. Sorularınız veya önerileriniz varsa, yorum bırakın.
yazarlar hakkında
Amit Arora Amazon Web Services'ta yapay zeka ve makine öğrenimi uzmanı bir mimardır ve kurumsal müşterilerin yeniliklerini hızla ölçeklendirmek için bulut tabanlı makine öğrenimi hizmetlerini kullanmalarına yardımcı olur. Ayrıca Washington DC'deki Georgetown Üniversitesi'nde MS veri bilimi ve analitik programında yardımcı öğretim görevlisidir.
Divya Muralidharan Amazon Web Services'ta bir Çözüm Mimarıdır. Kurumsal müşterilerin iş sorunlarını teknolojiyle çözmelerine yardımcı olma konusunda tutkulu. Rochester Institute of Technology'den Bilgisayar Bilimleri alanında yüksek lisans derecesine sahiptir. Ofis dışında yemek pişirerek, şarkı söyleyerek ve bitki yetiştirerek vakit geçiriyor.
sergei ermolin AWS'de Baş AIML Çözümleri Mimarıdır. Daha önce, Intel'de derin öğrenme, analitik ve büyük veri teknolojileri için yazılım çözümleri mimarıydı. Makine öğrenimi ve yapay zeka tutkusu olan bir Silikon Vadisi emektarı olan Sergey, Hewlett-Packard'da kuvars kristallerinin ve sezyum atomik saatlerin yaşlanma davranışını tahmin etmek için kullandığı GPU öncesi günlerden beri sinir ağlarıyla ilgileniyor. Sergey, Stanford'dan bir MSEE ve bir CS sertifikasına ve California Eyalet Üniversitesi, Sacramento'dan fizik ve makine mühendisliği alanında lisans derecesine sahiptir. İş dışında, Sergey şarap yapmaktan, kayak yapmaktan, bisiklete binmekten, yelkencilikten ve tüplü dalıştan hoşlanır. Sergey aynı zamanda gönüllü bir pilottur. melek uçuşu.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/use-snowflake-as-a-data-source-to-train-ml-models-with-amazon-sagemaker/
- :dır-dir
- $UP
- 1
- 10
- 7
- 8
- a
- Hakkımızda
- erişim
- ulaşılabilir
- Hesap
- ilave
- Sonra
- karşı
- Yaşlanma
- AI
- AIML
- algoritmalar
- Türkiye
- veriyor
- zaten
- Amazon
- Amazon FSx
- Amazon Adaçayı Yapıcı
- Amazon Web Servisleri
- miktar
- analiz
- analytics
- ve
- Başka
- yaklaşım
- uygun
- mimari
- ARE
- yapay
- yapay zeka
- AS
- ilişkili
- At
- denetleme
- yazma
- mevcut
- AWS
- AWS CloudFormation
- baz
- merkezli
- BE
- Çünkü
- Büyük
- büyük Veri
- inşa etmek
- bina
- yapılı
- iş
- by
- Kaliforniya
- denilen
- CAN
- Hücreler
- sertifika
- meydan okuma
- yükler
- Klinik
- Temizlik
- Saatler
- bulut
- kod
- Sütun
- Sütunlar
- yorum Yap
- ortak
- tamamlamak
- bilgisayar
- Bilgisayar Bilimleri
- Sosyal medya
- bağ
- konsolos
- Konteyner
- içeren
- içindekiler
- kontroller
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- oluşturur
- Oluşturma
- Tanıtım
- görenek
- Müşteriler
- veri
- veri yönetimi
- Veri Hazırlama
- veri bilimi
- veri saklama
- datetime
- Günler
- DDP
- Karar verme
- derin
- derin öğrenme
- Varsayılan
- derece
- dağıtmak
- konuşlandırılmış
- geliştiriciler
- direkt olarak
- dağıtıldı
- ilçe
- liman işçisi
- Dont
- indir
- indirme
- her
- kolayca
- verimli biçimde
- ya
- ortadan kaldırır
- başka yerde
- etkin
- teşvik etmek
- Son nokta
- Mühendislik
- olmasını sağlar
- kuruluş
- çevre
- hata
- örnek
- yürütmek
- var
- beklediğini
- keşif
- Keşfetmek
- Hulasa
- son derece
- kolaylaştırmak
- adil
- Aşinalık
- Özellikler(Hazırlık aşamasında)
- şekil
- fileto
- son
- Ad
- uygun
- takip etme
- şu
- İçin
- itibaren
- tam
- tamamen
- işlevsellik
- gelecek
- almak
- alma
- GitHub
- gidiş
- Büyüyen
- Var
- sahip olan
- yardım
- okuyun
- üst düzey
- tutar
- ev sahipliği yaptı
- ana
- ev
- konut
- Ne kadar
- Nasıl Yapılır
- Ancak
- HTML
- HTTPS
- Kimlik
- görüntü
- uygulamak
- uygulama
- ithalat
- in
- dahil
- dahil
- indeks
- bilgi
- yenilikler
- kurmak
- örnek
- Enstitü
- talimatlar
- entegre
- entegre
- Intel
- İstihbarat
- ilgili
- IT
- İş
- anahtarlar
- dizüstü bilgisayar
- büyük
- Soyad
- ÖĞRENİN
- öğrenme
- Ayrılmak
- yaşam döngüsü
- ln
- lokal olarak
- makine
- makine öğrenme
- yönetmek
- yönetilen
- yönetim
- müdür
- yönetme
- el ile
- uygun
- mekanik
- medya
- orta
- Menü
- yöntem
- ML
- model
- modelleri
- Daha
- hareket
- MS
- isim
- Navigasyon
- gerek
- ihtiyaçlar
- ağlar
- nöral ağlar
- yeni
- sonraki
- düğüm
- düğümler
- defter
- numara
- nesne
- of
- Office
- on
- ONE
- açık
- optimize
- sipariş
- kuruluşlar
- Diğer
- dışında
- paket
- pandalar
- bölmesi
- Paralel
- Bölüm
- tutku
- tutkulu
- Şifre
- gerçekleştirir
- izinleri
- Fizik
- pilot
- boru hattı
- tutucu
- bitkiler
- Platon
- Plato Veri Zekası
- PlatoVeri
- politikaları
- nüfuslu
- Çivi
- tahmin
- Hazırlamak
- mevcut
- Önceden
- Anapara
- sorunlar
- Programı
- önerilen
- sağlamak
- sağlanan
- sağlar
- amaç
- Itmek
- itti
- Python
- Sorular
- hızla
- rasgele
- hızla
- daha doğrusu
- Okumak
- geçenlerde
- kayıtlar
- azaltır
- bölge
- serbest
- uygun
- değiştirmek
- temsil
- gereklidir
- gerektirir
- Kaynaklar
- dönüş
- Rol
- kök
- SIRA
- koşmak
- Sacramento
- sagemaker
- yelkencilik
- İndirim
- ölçek
- Bilim
- bilim adamları
- scikit-öğrenme
- scriptler
- sdk
- Gizli
- Sunucular
- hizmet
- Hizmetler
- set
- Shape
- Kabuk
- meli
- Gösteriler
- önemli
- Silikon
- Silikon Vadisi
- Basit
- beri
- durumlar
- küçük
- So
- Yazılım
- çözüm
- Çözümler
- ÇÖZMEK
- Kaynak
- kaynaklar
- uzay
- uzman
- sahneleme
- başlama
- Eyalet
- Açıklama
- adım
- Basamaklar
- hafızası
- saklı
- altağlar
- Başarılı olarak
- böyle
- destek
- destekli
- sistem
- tablo
- görevleri
- Teknolojileri
- Teknoloji
- şablon
- şartlar
- o
- The
- Kaynak
- ve bazı Asya
- Onları
- Bunlar
- üç
- İçinden
- zaman
- için
- araçlar
- Toplam
- Tren
- eğitilmiş
- Eğitim
- trenler
- tipik
- üniversite
- Güncelleme
- us
- kullanım
- kullanıcı
- kullanıcılar
- Vadi
- değer
- Değerler
- emektar
- gönüllü
- washington
- Yol..
- ağ
- web hizmetleri
- hangi
- DSÖ
- irade
- ile
- içinde
- olmadan
- İş
- yazmak
- XGBoost
- Sen
- zefirnet