Amazon EMR ve RStudio'yu Amazon SageMaker'a bağlayın

Amazon EMR ve RStudio'yu Amazon SageMaker'a bağlayın

Amazon SageMaker'da RStudio endüstrinin bulutta tamamen yönetilen ilk RStudio Workbench tümleşik geliştirme ortamıdır (IDE). Tanıdık RStudio IDE'yi hızlı bir şekilde başlatabilir ve çalışmanızı kesintiye uğratmadan temel bilgi işlem kaynaklarını yukarı ve aşağı çevirebilir, bu da R'de makine öğrenimi (ML) ve analitik çözümleri oluşturmayı kolaylaştırır.

Kullanıcılar, SageMaker'daki RStudio gibi araçlarla birlikte, veri bilimi ve makine öğrenimi iş akışının bir parçası olarak büyük miktarda veriyi analiz ediyor, dönüştürüyor ve hazırlıyor. Veri bilimcileri ve veri mühendisleri, üzerinde çalışan Apache Spark, Hive ve Presto'yu kullanıyor Amazon EMR'si büyük ölçekli veri işleme için. RStudio on SageMaker ve Amazon EMR'yi birlikte kullanarak, daha büyük veri işleme için Amazon EMR tarafından yönetilen kümeleri kullanırken analiz ve geliştirme için RStudio IDE'yi kullanmaya devam edebilirsiniz.

Bu gönderide, SageMaker etki alanındaki RStudio'nuzu bir EMR kümesiyle nasıl bağlayabileceğinizi gösteriyoruz.

Çözüme genel bakış

Biz kullanıyoruz Apaçi Livi göndermek için bağlantı kıvılcım SageMaker'daki RStudio'dan bir EMR kümesine iş. Bu, aşağıdaki diyagramda gösterilmiştir.

Çözüm Kapsamı
Gönderide gösterilen tüm kodlar bizim GitHub deposu. Aşağıdaki çözüm mimarisini uyguluyoruz.

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Önkoşullar

Herhangi bir kaynağı dağıtmadan önce, SageMaker ve Amazon EMR'de RStudio'yu kurmak ve kullanmak için tüm gereksinimlere sahip olduğunuzdan emin olun:

Ayrıca SageMaker görüntüsü üzerinde özel bir RStudio oluşturacağız, bu nedenle Docker'ın çalıştığından ve gerekli tüm izinlere sahip olduğunuzdan emin olun. Daha fazla bilgi için bkz. Amazon SageMaker'da kendi geliştirme ortamınızı RStudio'ya getirmek için özel bir görüntü kullanın.

AWS CloudFormation ile kaynaklar oluşturun

Biz kullanıyoruz AWS CloudFormation gerekli altyapıyı oluşturmak için yığın.

Zaten bir RStudio etki alanınız ve mevcut bir EMR kümeniz varsa, bu adımı atlayabilir ve özel RStudio'nuzu SageMaker görüntüsünde oluşturmaya başlayabilirsiniz. EMR kümenizin ve RStudio alanınızın bilgilerini, bu bölümde oluşturulan EMR kümesinin ve RStudio etki alanının yerine koyun.

Bu yığının başlatılması aşağıdaki kaynakları oluşturur:

  • İki özel alt ağ
  • EMR Kıvılcım kümesi
  • AWS Tutkal veritabanı ve tablolar
  • RStudio ile SageMaker etki alanı
  • SageMaker RStudio kullanıcı profili
  • SageMaker RStudio alanı için IAM hizmet rolü
  • SageMaker RStudio kullanıcı profili için IAM hizmeti rolü

Kaynaklarınızı oluşturmak için aşağıdaki adımları tamamlayın:

Klinik Yığını Başlat yığını oluşturmak için.

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Üzerinde Yığın oluştur sayfasını seçin Sonraki.
  2. Üzerinde Yığın ayrıntılarını belirtme sayfasında, yığınınız için bir ad verin ve kalan seçenekleri varsayılan olarak bırakın, ardından Sonraki.
  3. Üzerinde Yığın seçeneklerini yapılandırma sayfasında, seçenekleri varsayılan olarak bırakın ve seçin Sonraki.
  4. Üzerinde İnceleme sayfasıseçin
  5. AWS CloudFormation'ın özel adlarla IAM kaynakları oluşturabileceğini kabul ediyorum ve
  6. AWS CloudFormation'ın şu yeteneği gerektirebileceğini kabul ediyorum: CAPABILITY_AUTO_EXPAND.
  7. Klinik Yığın oluştur.

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Şablon beş yığın oluşturur.

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Oluşturulan EMR Spark kümesini görmek için Amazon EMR konsoluna gidin. adlı sizin için oluşturulmuş bir küme göreceksiniz. sagemaker. Bu, SageMaker'da RStudio aracılığıyla bağlandığımız kümedir.

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Özel RStudio'yu SageMaker görüntüsünde oluşturun

Sparklyr'ın tüm bağımlılıklarını kuracak ve oluşturduğumuz EMR kümesine bağlantı kuracak özel bir imaj oluşturduk.

Kendi EMR kümenizi ve RStudio etki alanınızı kullanıyorsanız komut dosyalarını buna göre değiştirin.

Docker'ın çalıştığından emin olun. Proje havuzumuza girerek başlayın:

cd sagemaker-rstudio-emr/sparklyr-image
./build-r-image.sh

Şimdi Docker görüntüsünü oluşturacağız ve SageMaker etki alanı üzerindeki RStudio'muza kaydedeceğiz.

  1. SageMaker konsolunda, Alanlar Gezinti bölmesinde.
  2. etki alanını seçin select rstudio-domain.
  3. Üzerinde çevre sekmesini seçin Resim ekle
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
    Şimdi daha önce oluşturduğumuz sparklyr resmini domaine ekliyoruz.
  4. İçin resim kaynağı seçinseçin Mevcut görüntü.
  5. Oluşturduğumuz ışıltılı görüntüyü seçin.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  6. İçin Görüntü özellikleri, seçenekleri varsayılan olarak bırakın.
  7. İçin Resim türüseçin RStudio resmi.
  8. Klinik Gönder.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
    Görüntünün etki alanına eklendiğini doğrulayın. Resmin tam olarak eklenmesi birkaç dakika sürebilir.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  9. Kullanılabilir olduğunda, SageMaker konsolunda RStudio'da oturum açın. rstudio-user oluşturulan profil.
  10. Buradan, daha önce oluşturduğumuz ışıltı görüntüsüyle bir oturum oluşturun.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
    Öncelikle EMR kümemize bağlanmamız gerekiyor.
  11. Bağlantılar bölmesinde, seçin Yeni bağlantı.
  12. EMR kümesi bağlantı kod parçacığını seçin ve Amazon EMR Kümesine Bağlan.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
    Bağlantı kodu çalıştırıldıktan sonra, Livy aracılığıyla bir Spark bağlantısı göreceksiniz, ancak tablo görmeyeceksiniz.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  13. Veritabanını şu şekilde değiştir: credit_card:
    tbl_change_db(sc, “credit_card”)
  14. Klinik Bağlantı Verilerini Yenile.
    Artık tabloları görebilirsiniz.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  15. Şimdi şuraya gidin. rstudio-sparklyr-code-walkthrough.md dosyası.

Bu, kredi kartı veri kümemizi modellemeye hazırlamak için kullanabileceğimiz bir dizi Spark dönüşümüne sahiptir. Aşağıdaki kod bir alıntıdır:

Haydi count() İşlemler tablosunda kaç işlem var. Ama önce önbelleğe almamız gerekiyor. tbl() fonksiyonu.

users_tbl <- tbl(sc, "users")
cards_tbl <- tbl(sc, "cards")
transactions_tbl <- tbl(sc, "transactions")

Her tablo için satır sayısını sayalım.

count(users_tbl)
count(cards_tbl)
count(transactions_tbl)

Şimdi tablolarımızı Kıvılcım Veri Çerçeveleri olarak kaydedelim ve daha iyi performans için bunları küme çapında bellek önbelleğine çekelim. Ayrıca her tablo için ilk satıra yerleştirilen başlığı da filtreleyeceğiz.

users_tbl <- tbl(sc, 'users') %>% filter(gender != 'Gender')
sdf_register(users_tbl, "users_spark")
tbl_cache(sc, 'users_spark')
users_sdf <- tbl(sc, 'users_spark') cards_tbl <- tbl(sc, 'cards') %>% filter(expire_date != 'Expires')
sdf_register(cards_tbl, "cards_spark")
tbl_cache(sc, 'cards_spark')
cards_sdf <- tbl(sc, 'cards_spark') transactions_tbl <- tbl(sc, 'transactions') %>% filter(amount != 'Amount')
sdf_register(transactions_tbl, "transactions_spark")
tbl_cache(sc, 'transactions_spark')
transactions_sdf <- tbl(sc, 'transactions_spark')

Komutların tam listesini görmek için bkz. rstudio-sparklyr-code-walkthrough.md dosyası.

Temizlemek

Yinelenen maliyetleri önlemek amacıyla kaynakları temizlemek için kök CloudFormation şablonunu silin. Ayrıca hepsini sil Amazon Elastik Dosya Hizmeti (Amazon EFS) bağlamaları oluşturuldu ve Amazon Basit Depolama Hizmeti (Amazon S3) klasörleri ve nesneleri oluşturuldu.

Sonuç

RStudio on SageMaker'ın Amazon EMR ile entegrasyonu, bulutta veri analizi ve modelleme görevleri için güçlü bir çözüm sağlar. RStudio'yu SageMaker'a bağlayarak ve EMR'de Spark'a bir Livy bağlantısı kurarak, büyük veri kümelerinin verimli bir şekilde işlenmesi için her iki platformun bilgi işlem kaynaklarından yararlanabilirsiniz. Veri analizi için en yaygın kullanılan IDE'lerden biri olan RStudio, SageMaker'ın tam olarak yönetilen altyapısından, erişim kontrolünden, ağ oluşturma ve güvenlik özelliklerinden faydalanmanızı sağlar. Bu arada Amazon EMR'de Spark ile Livy bağlantısı, veri işleme görevlerinin dağıtılmış olarak işlenmesi ve ölçeklendirilmesi için bir yol sağlar.

Bu araçları birlikte kullanma hakkında daha fazla bilgi edinmekle ilgileniyorsanız, bu gönderi bir başlangıç ​​noktası görevi görür. Daha fazla bilgi için bkz. Amazon SageMaker'da RStudio. Herhangi bir öneriniz veya özellik iyileştirmeniz varsa, lütfen GitHub depomuzda bir çekme isteği oluşturun veya bu gönderiye yorum bırakın!


Yazarlar Hakkında

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ryan Garner AWS Profesyonel Hizmetlerine sahip bir Veri Bilimcisidir. AWS müşterilerinin Veri Bilimi ve Makine Öğrenimi sorunlarını çözmeleri için R'yi kullanmalarına yardımcı olma konusunda tutkulu.


Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Raj Pathak
 Finansal Hizmetler (Sigorta, Bankacılık, Sermaye Piyasaları) ve Makine Öğrenimi alanlarında uzmanlaşmış Kıdemli Çözüm Mimarı ve Teknoloji Uzmanıdır. Doğal Dil İşleme (NLP), Büyük Dil Modelleri (LLM) ve Makine Öğrenimi altyapı ve operasyon projelerinde (MLOps) uzmanlaşmıştır.


Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.Saiteja Pudi
 AWS'de Dallas, Tx merkezli bir Çözüm Mimarıdır. 3 yılı aşkın bir süredir AWS'de çalışıyor ve müşterilerin güvenilir danışmanları olarak AWS'nin gerçek potansiyelini elde etmelerine yardımcı oluyor. Veri Bilimi ve Makine Öğrenimi ile ilgilenen bir uygulama geliştirme geçmişinden geliyor.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi