Amazon SageMaker'da RStudio endüstrinin bulutta tamamen yönetilen ilk RStudio Workbench tümleşik geliştirme ortamıdır (IDE). Tanıdık RStudio IDE'yi hızlı bir şekilde başlatabilir ve çalışmanızı kesintiye uğratmadan temel bilgi işlem kaynaklarını yukarı ve aşağı çevirebilir, bu da R'de makine öğrenimi (ML) ve analitik çözümleri oluşturmayı kolaylaştırır.
Kullanıcılar, SageMaker'daki RStudio gibi araçlarla birlikte, veri bilimi ve makine öğrenimi iş akışının bir parçası olarak büyük miktarda veriyi analiz ediyor, dönüştürüyor ve hazırlıyor. Veri bilimcileri ve veri mühendisleri, üzerinde çalışan Apache Spark, Hive ve Presto'yu kullanıyor Amazon EMR'si büyük ölçekli veri işleme için. RStudio on SageMaker ve Amazon EMR'yi birlikte kullanarak, daha büyük veri işleme için Amazon EMR tarafından yönetilen kümeleri kullanırken analiz ve geliştirme için RStudio IDE'yi kullanmaya devam edebilirsiniz.
Bu gönderide, SageMaker etki alanındaki RStudio'nuzu bir EMR kümesiyle nasıl bağlayabileceğinizi gösteriyoruz.
Çözüme genel bakış
Biz kullanıyoruz Apaçi Livi göndermek için bağlantı kıvılcım SageMaker'daki RStudio'dan bir EMR kümesine iş. Bu, aşağıdaki diyagramda gösterilmiştir.
Gönderide gösterilen tüm kodlar bizim GitHub deposu. Aşağıdaki çözüm mimarisini uyguluyoruz.
Önkoşullar
Herhangi bir kaynağı dağıtmadan önce, SageMaker ve Amazon EMR'de RStudio'yu kurmak ve kullanmak için tüm gereksinimlere sahip olduğunuzdan emin olun:
Ayrıca SageMaker görüntüsü üzerinde özel bir RStudio oluşturacağız, bu nedenle Docker'ın çalıştığından ve gerekli tüm izinlere sahip olduğunuzdan emin olun. Daha fazla bilgi için bkz. Amazon SageMaker'da kendi geliştirme ortamınızı RStudio'ya getirmek için özel bir görüntü kullanın.
AWS CloudFormation ile kaynaklar oluşturun
Biz kullanıyoruz AWS CloudFormation gerekli altyapıyı oluşturmak için yığın.
Zaten bir RStudio etki alanınız ve mevcut bir EMR kümeniz varsa, bu adımı atlayabilir ve özel RStudio'nuzu SageMaker görüntüsünde oluşturmaya başlayabilirsiniz. EMR kümenizin ve RStudio alanınızın bilgilerini, bu bölümde oluşturulan EMR kümesinin ve RStudio etki alanının yerine koyun.
Bu yığının başlatılması aşağıdaki kaynakları oluşturur:
- İki özel alt ağ
- EMR Kıvılcım kümesi
- AWS Tutkal veritabanı ve tablolar
- RStudio ile SageMaker etki alanı
- SageMaker RStudio kullanıcı profili
- SageMaker RStudio alanı için IAM hizmet rolü
- SageMaker RStudio kullanıcı profili için IAM hizmeti rolü
Kaynaklarınızı oluşturmak için aşağıdaki adımları tamamlayın:
Klinik Yığını Başlat yığını oluşturmak için.
- Üzerinde Yığın oluştur sayfasını seçin Sonraki.
- Üzerinde Yığın ayrıntılarını belirtme sayfasında, yığınınız için bir ad verin ve kalan seçenekleri varsayılan olarak bırakın, ardından Sonraki.
- Üzerinde Yığın seçeneklerini yapılandırma sayfasında, seçenekleri varsayılan olarak bırakın ve seçin Sonraki.
- Üzerinde İnceleme sayfasıseçin
- AWS CloudFormation'ın özel adlarla IAM kaynakları oluşturabileceğini kabul ediyorum ve
- AWS CloudFormation'ın şu yeteneği gerektirebileceğini kabul ediyorum: CAPABILITY_AUTO_EXPAND.
- Klinik Yığın oluştur.
Şablon beş yığın oluşturur.
Oluşturulan EMR Spark kümesini görmek için Amazon EMR konsoluna gidin. adlı sizin için oluşturulmuş bir küme göreceksiniz. sagemaker
. Bu, SageMaker'da RStudio aracılığıyla bağlandığımız kümedir.
Özel RStudio'yu SageMaker görüntüsünde oluşturun
Sparklyr'ın tüm bağımlılıklarını kuracak ve oluşturduğumuz EMR kümesine bağlantı kuracak özel bir imaj oluşturduk.
Kendi EMR kümenizi ve RStudio etki alanınızı kullanıyorsanız komut dosyalarını buna göre değiştirin.
Docker'ın çalıştığından emin olun. Proje havuzumuza girerek başlayın:
Şimdi Docker görüntüsünü oluşturacağız ve SageMaker etki alanı üzerindeki RStudio'muza kaydedeceğiz.
- SageMaker konsolunda, Alanlar Gezinti bölmesinde.
- etki alanını seçin
select rstudio-domain
. - Üzerinde çevre sekmesini seçin Resim ekle
Şimdi daha önce oluşturduğumuz sparklyr resmini domaine ekliyoruz. - İçin resim kaynağı seçinseçin Mevcut görüntü.
- Oluşturduğumuz ışıltılı görüntüyü seçin.
- İçin Görüntü özellikleri, seçenekleri varsayılan olarak bırakın.
- İçin Resim türüseçin RStudio resmi.
- Klinik Gönder.
Görüntünün etki alanına eklendiğini doğrulayın. Resmin tam olarak eklenmesi birkaç dakika sürebilir. - Kullanılabilir olduğunda, SageMaker konsolunda RStudio'da oturum açın.
rstudio-user
oluşturulan profil. - Buradan, daha önce oluşturduğumuz ışıltı görüntüsüyle bir oturum oluşturun.
Öncelikle EMR kümemize bağlanmamız gerekiyor. - Bağlantılar bölmesinde, seçin Yeni bağlantı.
- EMR kümesi bağlantı kod parçacığını seçin ve Amazon EMR Kümesine Bağlan.
Bağlantı kodu çalıştırıldıktan sonra, Livy aracılığıyla bir Spark bağlantısı göreceksiniz, ancak tablo görmeyeceksiniz. - Veritabanını şu şekilde değiştir:
credit_card
:tbl_change_db(sc, “credit_card”)
- Klinik Bağlantı Verilerini Yenile.
Artık tabloları görebilirsiniz. - Şimdi şuraya gidin.
rstudio-sparklyr-code-walkthrough.md
dosyası.
Bu, kredi kartı veri kümemizi modellemeye hazırlamak için kullanabileceğimiz bir dizi Spark dönüşümüne sahiptir. Aşağıdaki kod bir alıntıdır:
Haydi count()
İşlemler tablosunda kaç işlem var. Ama önce önbelleğe almamız gerekiyor. tbl()
fonksiyonu.
Her tablo için satır sayısını sayalım.
Şimdi tablolarımızı Kıvılcım Veri Çerçeveleri olarak kaydedelim ve daha iyi performans için bunları küme çapında bellek önbelleğine çekelim. Ayrıca her tablo için ilk satıra yerleştirilen başlığı da filtreleyeceğiz.
Komutların tam listesini görmek için bkz. rstudio-sparklyr-code-walkthrough.md
dosyası.
Temizlemek
Yinelenen maliyetleri önlemek amacıyla kaynakları temizlemek için kök CloudFormation şablonunu silin. Ayrıca hepsini sil Amazon Elastik Dosya Hizmeti (Amazon EFS) bağlamaları oluşturuldu ve Amazon Basit Depolama Hizmeti (Amazon S3) klasörleri ve nesneleri oluşturuldu.
Sonuç
RStudio on SageMaker'ın Amazon EMR ile entegrasyonu, bulutta veri analizi ve modelleme görevleri için güçlü bir çözüm sağlar. RStudio'yu SageMaker'a bağlayarak ve EMR'de Spark'a bir Livy bağlantısı kurarak, büyük veri kümelerinin verimli bir şekilde işlenmesi için her iki platformun bilgi işlem kaynaklarından yararlanabilirsiniz. Veri analizi için en yaygın kullanılan IDE'lerden biri olan RStudio, SageMaker'ın tam olarak yönetilen altyapısından, erişim kontrolünden, ağ oluşturma ve güvenlik özelliklerinden faydalanmanızı sağlar. Bu arada Amazon EMR'de Spark ile Livy bağlantısı, veri işleme görevlerinin dağıtılmış olarak işlenmesi ve ölçeklendirilmesi için bir yol sağlar.
Bu araçları birlikte kullanma hakkında daha fazla bilgi edinmekle ilgileniyorsanız, bu gönderi bir başlangıç noktası görevi görür. Daha fazla bilgi için bkz. Amazon SageMaker'da RStudio. Herhangi bir öneriniz veya özellik iyileştirmeniz varsa, lütfen GitHub depomuzda bir çekme isteği oluşturun veya bu gönderiye yorum bırakın!
Yazarlar Hakkında
Ryan Garner AWS Profesyonel Hizmetlerine sahip bir Veri Bilimcisidir. AWS müşterilerinin Veri Bilimi ve Makine Öğrenimi sorunlarını çözmeleri için R'yi kullanmalarına yardımcı olma konusunda tutkulu.
Raj Pathak Finansal Hizmetler (Sigorta, Bankacılık, Sermaye Piyasaları) ve Makine Öğrenimi alanlarında uzmanlaşmış Kıdemli Çözüm Mimarı ve Teknoloji Uzmanıdır. Doğal Dil İşleme (NLP), Büyük Dil Modelleri (LLM) ve Makine Öğrenimi altyapı ve operasyon projelerinde (MLOps) uzmanlaşmıştır.
Saiteja Pudi AWS'de Dallas, Tx merkezli bir Çözüm Mimarıdır. 3 yılı aşkın bir süredir AWS'de çalışıyor ve müşterilerin güvenilir danışmanları olarak AWS'nin gerçek potansiyelini elde etmelerine yardımcı oluyor. Veri Bilimi ve Makine Öğrenimi ile ilgilenen bir uygulama geliştirme geçmişinden geliyor.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. Buradan Erişin.
- Adryenn Ashley ile Geleceği Basmak. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/connect-amazon-emr-and-rstudio-on-amazon-sagemaker/
- :vardır
- :dır-dir
- $UP
- 100
- 11
- 20
- 22
- 7
- a
- Hakkımızda
- erişim
- göre
- onaylamak
- katma
- avantaj
- danışman
- Türkiye
- veriyor
- zaten
- Ayrıca
- Amazon
- Amazon EMR'si
- Amazon Adaçayı Yapıcı
- miktar
- tutarları
- amp
- an
- analiz
- analytics
- analiz
- ve
- herhangi
- Apache
- mimari
- ARE
- AS
- At
- iliştirmek
- mevcut
- AWS
- AWS CloudFormation
- AWS Profesyonel Hizmetleri
- arka fon
- Bankacılık
- merkezli
- olmuştur
- olmak
- Daha iyi
- her ikisi de
- getirmek
- inşa etmek
- bina
- yapılı
- fakat
- by
- Önbellek
- denilen
- CAN
- yetenekleri
- Başkent
- Sermaye piyasaları
- kart
- Kartlar
- Klinik
- bulut
- Küme
- kod
- yorum Yap
- hesaplamak
- bilgisayar
- Sosyal medya
- bağlantı
- bağ
- Bağlantılar
- konsolos
- devam etmek
- kontrol
- maliyetler
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- oluşturur
- kredi
- kredi kartı
- görenek
- Müşteriler
- Dallas
- veri
- veri analizi
- veri işleme
- veri bilimi
- veri bilimcisi
- veritabanı
- veri kümeleri
- Varsayılan
- göstermek
- gösterdi
- dağıtma
- gelişme
- dağıtıldı
- liman işçisi
- domain
- aşağı
- her
- Daha erken
- verimli
- Mühendisler
- sağlamak
- çevre
- kurmak
- kurulması
- mevcut
- tanıdık
- Özellikler(Hazırlık aşamasında)
- az
- fileto
- filtre
- mali
- finansal hizmetler
- Ad
- takip etme
- İçin
- itibaren
- tam
- tamamen
- işlev
- Cinsiyet
- oluşturmak
- üretir
- alma
- GitHub
- Var
- he
- yardım
- okuyun
- kovan
- Ne kadar
- HTML
- http
- HTTPS
- görüntü
- uygulamak
- iyileştirmeler
- in
- endüstrinin
- bilgi
- Altyapı
- kurmak
- sigorta
- entegre
- bütünleşme
- ilgili
- içine
- IT
- İş
- jpg
- dil
- büyük
- büyük ölçekli
- büyük
- başlatmak
- öğrenme
- Ayrılmak
- sevmek
- Liste
- Yüksek Lisans
- makine
- makine öğrenme
- yapmak
- Yapımı
- yönetilen
- çok
- Piyasalar
- Mayıs..
- Bu arada
- Bellek
- olabilir
- dakika
- ML
- MLO'lar
- modelleri
- değiştirmek
- Daha
- çoğu
- isim
- isimleri
- Doğal (Madenden)
- Doğal Dil İşleme
- Gezin
- Navigasyon
- gerek
- ağ
- nlp
- şimdi
- numara
- nesneler
- of
- on
- ONE
- Operasyon
- Opsiyonlar
- or
- bizim
- kendi
- Kanal
- bölmesi
- Bölüm
- tutkulu
- Yapmak
- performans
- izinleri
- yer
- Platformlar
- Platon
- Plato Veri Zekası
- PlatoVeri
- Lütfen
- Nokta
- Çivi
- potansiyel
- güçlü
- Hazırlamak
- hazırlanması
- özel
- sorunlar
- işleme
- profesyonel
- Profil
- proje
- Projeler
- sağlamak
- sağlar
- hızla
- yinelenen
- kayıt olmak
- kalan
- Depo
- talep
- gerektirir
- gereklidir
- Yer Alan Kurallar
- Kaynaklar
- Rol
- kök
- SIRA
- koşmak
- koşu
- sagemaker
- SC
- ölçek
- ölçekleme
- Bilim
- bilim adamı
- bilim adamları
- kapsam
- scriptler
- Bölüm
- güvenlik
- kıdemli
- vermektedir
- hizmet
- Hizmetler
- Oturum
- set
- ayar
- Basit
- So
- çözüm
- Çözümler
- ÇÖZMEK
- Kıvılcım
- uzmanlaşmış
- uzmanlaşmış
- yığın
- Yığınları
- başlama
- XNUMX dakika içinde!
- adım
- Basamaklar
- hafızası
- sunmak
- tablo
- Bizi daha iyi tanımak için
- görevleri
- teknoloji uzmanı
- şablon
- göre
- o
- The
- Bilgi
- ve bazı Asya
- Onları
- Bunlar
- Re-Tweet
- İçinden
- için
- birlikte
- araçlar
- işlemler
- dönüşümler
- dönüşüm
- gerçek
- Güvenilir
- TX
- altında yatan
- kullanım
- Kullanılmış
- kullanıcı
- kullanıcılar
- kullanma
- oldu
- Yol..
- we
- süre
- geniş ölçüde
- irade
- ile
- olmadan
- İş
- tatlım
- yıl
- Sen
- zefirnet