RStudio'yu AWS ortamınıza uygulayın ve AWS Lake Formation izinlerini kullanarak PlatoBlockchain Data Intelligence'ı kullanarak veri gölünüze erişin. Dikey Arama. Ai.

AWS ortamınıza RStudio uygulayın ve AWS Lake Formation izinlerini kullanarak veri gölünüze erişin

R, veri bilimcileri ve analistleri tarafından veri işleme yapmak, istatistiksel analizler yapmak, veri görselleştirmeleri oluşturmak ve makine öğrenimi (ML) modelleri oluşturmak için kullanılan popüler bir analitik programlama dilidir. R için entegre geliştirme ortamı olan RStudio, ekiplerin çalışmalarını geliştirmeleri ve organizasyonları arasında paylaşmaları için açık kaynaklı araçlar ve kurumsal kullanıma hazır profesyonel yazılımlar sağlar.

AWS'de RStudio ortamını uygulamak, şirket içinde dağıtım yaparken sahip olmadığınız esneklik ve ölçeklenebilirlik sağlayarak bu altyapıyı yönetme ihtiyacını ortadan kaldırır. İşlem gereksinimlerine göre istediğiniz işlem ve belleği seçebilir ve ayrıca önceden bir yatırım yapmadan analitik ve farklı boyutlardaki makine öğrenimi iş yükleriyle çalışmak için ölçeği büyütebilir veya küçültebilirsiniz. Bu, yeni veri kaynakları ve kodla hızlı bir şekilde denemeler yapmanıza ve yeni analitik süreçleri ile makine öğrenimi modellerini kuruluşun geri kalanına sunmanıza olanak tanır. Ayrıca, geliştiricilerin ve Veri Bilimcilerinin kullanımına sunmak için Data Lake kaynaklarınızı sorunsuz bir şekilde bütünleştirebilir ve aşağıdakilerden satır düzeyinde ve sütun düzeyinde erişim kontrollerini kullanarak verilerin güvenliğini sağlayabilirsiniz. AWS Göl Oluşumu.

Bu gönderi, data lake'de depolanan verilere erişmek için RStudio'yu AWS'de kolayca dağıtmanın ve çalıştırmanın iki yolunu sunar:

  • Tam olarak yönetilen Amazon Adaçayı Yapıcı
  • Kendi kendine barındırılan Amazon Elastik Bilgi İşlem Bulutu (Amazon EC2)
    • RStudio'nun açık kaynaklı sürümünü, yine bu gönderide açıklayacağımız bir EC2 barındırılan yaklaşımı kullanarak dağıtmayı seçebilirsiniz. Kendi kendine barındırılan seçenek, yöneticinin bir EC2 bulut sunucusu oluşturmasını ve RStudio'yu manuel olarak veya bir AWS CloudFormation Ayrıca, bu tür bir uygulamada tüm kullanıcılar aynı erişim düzeyine sahip olduğundan, bu seçenekte kullanıcı erişim kontrollerini uygulamak için daha az esneklik vardır.

Amazon SageMaker'da RStudio

SageMaker'dan basit bir tıklama ile RStudio Workbench'i başlatabilirsiniz. SageMaker ile müşterilerin RStudio'yu oluşturma, kurma, güvenlik altına alma, ölçeklendirme ve bakımını yapma gibi operasyonel yükleri üstlenmeleri gerekmez, sürekli çalışan RStudio Sunucusu için ödeme yapmak zorunda kalmazlar (t3.medium kullanıyorlarsa) ve yalnızca ödeme yaparlar RSession için kullandıklarında hesaplamak için. RStudio kullanıcıları, anında örnekleri değiştirerek hesaplamayı dinamik olarak ölçeklendirme esnekliğine sahip olacak. RStudio'yu SageMaker üzerinde çalıştırmak, bir yöneticinin bir SageMaker etki alanı ve ilişkili kullanıcı profilleri oluşturmasını gerektirir. Ayrıca uygun bir RStudio lisansına ihtiyacınız var

SageMaker içinde, farklı izinlerle RStudio yöneticisi ve RStudio kullanıcı düzeyinde erişim verebilirsiniz. Yalnızca bu iki rolden birine atanan kullanıcı profilleri SageMaker'da RStudio'ya erişebilir. SageMaker'da RStudio kurulumuna yönelik yönetici görevleri hakkında daha fazla bilgi için, bkz. Amazon SageMaker'da RStudio'yu kullanmaya başlayın. Bu gönderi ayrıca her oturum için EC2 bulut sunucularını seçme sürecini ve yöneticinin RStudio kullanıcıları için EC2 bulut sunucusu seçeneklerini nasıl kısıtlayabileceğini gösterir.

Şekil1: Çeşitli AWS Hizmetlerinin etkileşimini gösteren Mimari Şeması

Lake Formation satır düzeyinde ve sütun düzeyinde güvenlik erişimini kullanın

Ekibinizin SageMaker üzerinde RStudio oturumları başlatmasına izin vermenin yanı sıra, Lake Formation'dan satır düzeyinde ve sütun düzeyinde erişim denetimlerini kullanarak veri gölünün güvenliğini sağlayabilirsiniz. Daha fazla bilgi için bkz. AWS Lake Formation kullanan etkili veri gölleri, Bölüm 4: Hücre düzeyinde ve satır düzeyinde güvenlik uygulama.

Lake Formation güvenlik kontrolleri sayesinde, her kişinin data lake'deki verilere doğru erişime sahip olduğundan emin olabilirsiniz. SageMaker etki alanında her biri farklı yürütme rolüne sahip aşağıdaki iki kullanıcı profilini göz önünde bulundurun:

Kullanıcı profili Yürütme Rolü
rstudiouser-fullaccess AmazonSageMaker-ExecutionRole-FullAccess
rstudiouser-limitedaccess AmazonSageMaker-ExecutionRole-LimitedAccess

Aşağıdaki ekran görüntüsü rstudiouser-limitedaccess profil detayları.

Şekil 2: rstudiouser-limitedaccess rolünün profil ayrıntıları

Şekil 2: rstudiouser-limitedaccess rolünün profil ayrıntıları

Aşağıdaki ekran görüntüsü rstudiouser-fullaccess profil detayları.

Şekil 3: rstudiouser-fullaccess rolünün profil ayrıntıları

Şekil 3: rstudiouser-fullaccess rolünün profil ayrıntıları

Bu gönderi için kullanılan veri kümesi bir COVID-19 herkese açık veri kümesi. Aşağıdaki ekran görüntüsü verilerin bir örneğini göstermektedir:

Şekil4: COVID-19 Genel veri kümesi

Şekil4: COVID-19 Genel veri kümesi

Kullanıcı profilini oluşturup uygun role atadıktan sonra, verileri taramak için Lake Formation'a erişebilirsiniz. AWS Tutkal, meta verileri ve tabloyu oluşturun ve tablo verilerine erişim izni verin. İçin AmazonSageMaker-ExecutionRole-FullAccess rol, tablodaki tüm sütunlara erişim izni verirsiniz ve AmazonSageMaker-ExecutionRole-LimitedAccess, veri filtresini kullanarak erişim izni verirsiniz USA_Filter. Bu filtreyi satır düzeyinde ve hücre düzeyinde sütun izinleri sağlamak için kullanırız (bkz. Kaynak Aşağıdaki ekran görüntüsündeki sütun).

Şekil5: AmazonSageMaker-ExecutionRole -Tam/Sınırlı Erişim rolleri için AWS Lake Formation İzinleri

Şekil5: AmazonSageMaker-ExecutionRole -Tam/Sınırlı Erişim rolleri için AWS Lake Formation İzinleri

Aşağıdaki ekran görüntüsünde gösterildiği gibi, ikinci rolün erişimi sınırlıdır. Bu rolle ilişkili kullanıcılar yalnızca continent, date, total_cases, total_deaths, new_cases, new_deaths, ve iso_codecolumns.

Şekil6: AmazonSageMaker-ExecutionRole-Limited Access rolü için AWS Lake Formation Sütun düzeyinde izinler

Şekil6: AmazonSageMaker-ExecutionRole-Limited Access rolü için AWS Lake Formation Sütun düzeyinde izinler

Her kullanıcı profiline eklenen rol izinleriyle, Lake Formation'ın uygun satır düzeyinde ve sütun düzeyinde izinleri nasıl uyguladığını görebiliriz. RStudio Workbench'i şuradan açabilirsiniz: Uygulamayı başlat oluşturulan kullanıcı listesindeki açılır menüyü seçin ve RStudio.

Aşağıdaki ekran görüntüsünde, uygulamayı şu şekilde başlatıyoruz: rstudiouser-limitedaccess user.

Şekil7: Amazon SageMaker Konsolundan rstudiouser-limitedaccess kullanıcısı için RStudio oturumunu başlatma

Şekil7: Amazon SageMaker Konsolundan rstudiouser-limitedaccess kullanıcısı için RStudio oturumunu başlatma

RStudio Workbench ana sayfasını ve oturumların, projelerin ve yayınlanan içeriğin bir listesini görebilirsiniz.

Şekil8: rstudiouser-limitedaccess kullanıcısı için R Studio Workbench oturumu

Şekil8: rstudiouser-limitedaccess kullanıcısı için R Studio Workbench oturumu

SageMaker'da oturumu başlatmak için bir oturum adı seçin. Uygun AWS hizmetlerine erişebilmeniz için Paws yükleyin (bu yazının başlarındaki kılavuza bakın). Artık tüm alanları veri kümesinden çekmek için bir sorgu çalıştırabilirsiniz. Amazon Atina, komutu kullanarak “SELECT * FROM "databasename.tablename"ve sorgu çıktısını bir Amazon Basit Depolama Hizmeti (Amazon S3) kovası.

Şekil9: R Studio oturumunda Athena Sorgu yürütmesi

Şekil9: R Studio oturumunda Athena Sorgu yürütmesi

Aşağıdaki ekran görüntüsü, S3 kovasındaki çıktı dosyalarını gösterir.

Fig10: Amazon S3 Bucket'ta Athena Query yürütme sonuçları

Fig10: Amazon S3 Bucket'ta Athena Query yürütme sonuçları

Aşağıdaki ekran görüntüsü, bu çıktı dosyalarındaki verileri kullanarak gösterir. Amazon S3 Seçimi.

Şekil 11: Amazon S3 Select kullanarak çıktı verilerini gözden geçirme

Şekil 11: Amazon S3 Select kullanarak çıktı verilerini gözden geçirme

Yalnızca ABD verileri ve sütunları kıta, tarih, total_cases, total_deaths, new_cases, new_deaths, ve iso_code için sonuçta gösterilir rstudiouser-limitedaccess kullanıcı.

için aynı adımları tekrarlayalım. rstudiouser-fullaccess kullanıcı.

Şekil12: Amazon SageMaker Konsolundan rstudiouser-fullaccess kullanıcısı için RStudio oturumunu başlatma

Şekil12: Amazon SageMaker Konsolundan rstudiouser-fullaccess kullanıcısı için RStudio oturumunu başlatma

RStudio Workbench ana sayfasını ve oturumların, projelerin ve yayınlanan içeriğin bir listesini görebilirsiniz.

Şekil 13: rstudiouser-fullaccess kullanıcısı için R Studio Workbench oturumu

Şekil 13: rstudiouser-fullaccess kullanıcısı için R Studio Workbench oturumu

Aynı sorguyu çalıştıralım “SELECT * FROM "databasename.tablename" Athena'yı kullanarak.

Şekil14: R Studio oturumunda Athena Sorgu yürütmesi

Şekil14: R Studio oturumunda Athena Sorgu yürütmesi

Aşağıdaki ekran görüntüsü, S3 kovasındaki çıktı dosyalarını gösterir.

Fig15: Amazon S3 Bucket'ta Athena Query yürütme sonuçları

Fig15: Amazon S3 Bucket'ta Athena Query yürütme sonuçları

Aşağıdaki ekran görüntüsü, bu çıktı dosyalarındaki verileri kullanarak gösterir. Amazon S3 Seçimi.

Şekil 16: Amazon S3 Select kullanarak çıktı verilerini gözden geçirme

Şekil 16: Amazon S3 Select kullanarak çıktı verilerini gözden geçirme

Bu örnekte gösterildiği gibi, rstudiouser-fullaccess kullanıcının veri kümesindeki tüm sütunlara ve satırlara erişimi vardır.

Amazon EC2'de Kendi Kendine Barındırılan

AWS'de RStudio'nun açık kaynaklı sürümünü denemeye başlamak istiyorsanız, Rstudio'yu bir EC2 bulut sunucusuna yükleyebilirsiniz. Bu gönderide sağlanan bu CloudFormation şablonu, EC2 örneğini sağlar ve kullanıcı veri komut dosyasını kullanarak RStudio'yu kurar. Gerektiğinde birden çok RStudio örneği sağlamak için şablonu birden çok kez çalıştırabilir ve herhangi bir AWS Bölgesinde kullanabilirsiniz. CloudFormation şablonunu dağıttıktan sonra, bir web tarayıcısından RStudio'ya erişmeniz için size bir URL sağlar. Amazon EC2, veri boyutundaki değişiklikleri ve analizlerinizi çalıştırmak için gerekli işlem kapasitesini yönetmek için ölçeği büyütmenize veya küçültmenize olanak tanır.

Güvenli erişim için bir anahtar/değer çifti oluşturun

AWS, EC2 bulut sunucunuz için oturum açma bilgilerinin güvenliğini sağlamak için genel anahtar şifrelemesini kullanır. Anahtar çiftinin adını, KeyPair CloudFormation şablonunu başlattığınızda parametre. Ardından, gerekirse daha sonra sağlanan EC2 bulut sunucusunda oturum açmak için aynı anahtarı kullanabilirsiniz.

CloudFormation şablonunu çalıştırmadan önce, kullanmayı planladığınız AWS hesabında Amazon EC2 anahtar çiftine sahip olduğunuzdan emin olun. Değilse, bkz. Amazon EC2 kullanarak bir anahtar çifti oluşturun bir tane oluşturma talimatları için.

CloudFormation şablonunu başlatın. us-east-1 Bölge ve Yığını Başlat'ı seçin.

Yığın düğmesini başlat

CloudFormation şablonuna birkaç parametre girmelisiniz:

  • InitialUser ve InitialPassword – RStudio oturumunda oturum açmak için kullandığınız kullanıcı adı ve parola. Varsayılan değerler rstudio ve Rstudio@123, Sırasıyla.
  • Örnek Türü – RStudio sunucusunun dağıtılacağı EC2 bulut sunucusu türü. Şablon şu anda t2, m4, c4, r4, g2, p2 ve g3 bulut sunucusu ailelerindeki tüm örnekleri kabul eder ve diğer bulut sunucusu ailelerini kolayca dahil edebilir. Varsayılan değer t2.micro'dur.
  • Anahtar Çifti – EC2 bulut sunucusunda oturum açmak için kullandığınız anahtar çifti.
  • VpcId ve Alt Ağ Kimliği - Amazon Sanal Özel Bulut (Amazon VPC) ve örneğin başlatılacağı alt ağ.

Bu parametreleri girdikten sonra CloudFormation şablonunu dağıtın. Tamamlandığında, aşağıdaki kaynaklar kullanılabilir:

  • Üzerinde RStudio yüklü bir EC2 örneği.
  • Diğer AWS hizmetlerine bağlanmak için gerekli izinlere sahip bir IAM rolü.
  • RStudio Sunucusu için 8787 numaralı bağlantı noktasını açma kuralları olan bir güvenlik grubu.

RStudio'da oturum açın

Artık RStudio'yu kullanmaya hazırsınız! şuraya git Çıkışlar CloudFormation yığını için sekmeye gidin ve RStudio URL değerini kopyalayın (biçimde http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/). Bu URL'yi bir web tarayıcısına girin. Bu, CloudFormation şablonunu çalıştırırken sağladığınız kullanıcı adını ve parolayı kullanarak oturum açabileceğiniz RStudio oturumunuzu açar.

AWS hizmetlerine RStudio'dan erişin

RStudio oturumuna eriştikten sonra AWS için R Paketini (Paws) kurmalısınız. Bu, veri gölünüzdeki hizmetler ve kaynaklar da dahil olmak üzere birçok AWS hizmetine bağlanmanıza olanak tanır. Paws'ı yüklemek için aşağıdaki R kodunu girin ve çalıştırın:

install.packages("paws")

Bir AWS hizmetini kullanmak için bir istemci oluşturun ve hizmetin işlemlerine bu istemciden erişin. AWS API'lerine erişirken kimlik bilgilerinizi ve Bölgenizi sağlamanız gerekir. Paws, AWS kimlik doğrulama zincirini kullanarak kimlik bilgilerini ve Bölgeyi arar:

  • Açıkça sağlanan erişim anahtarı, gizli anahtar, oturum belirteci, profil veya Bölge
  • R ortam değişkenleri
  • İşletim sistemi ortam değişkenleri
  • AWS'de paylaşılan kimlik bilgileri ve yapılandırma dosyaları .aws/credentials ve .aws/config
  • Container IAM rolü
  • Örnek IAM rolü

Ekli bir IAM rolüne sahip bir EC2 bulut sunucusunda çalıştığınız için Paws, AWS API isteklerinin kimliğini doğrulamak için otomatik olarak IAM rolü kimlik bilgilerinizi kullanır.

# To interact with an Amazon S3 service, first create an S3 client then list the objects within your bucket by invoking: rstudio-XXXXXXXXXX
s3 <- paws::s3(config = list(region = 'us-east-1'))s3$list_objects(Bucket = "rstudio-XXXXXXXXXX")
# Let’s see how we can interactively query data from your data lake using Amazon Athena.
athena <- paws::athena(config = list(region = 'us-east-1'))
athena$start_query_execution(QueryString = "SELECT * FROM "databasename.tablename" limit 10;",QueryExecutionContext = list(Database = "databasename", Catalog = "catalogname"),ResultConfiguration = list(OutputLocation = "S3 Bucket",EncryptionConfiguration = list(EncryptionOption = "SSE_S3")), WorkGroup = "workgroup name")
$QueryExecutionId[1] 
"17ccec8a-d196-4b4c-b31c-314fab8939f3"

Üretim ortamı için, şu bölümde özetlenen ölçeklenebilir Rstudio çözümünü kullanmanızı öneririz. Bu blogu.

Sonuç

AWS'de RStudio ortamınızı nasıl dağıtacağınızı öğrendiniz. Amazon SageMaker'da RStudio kullanmanın avantajlarını ve nasıl başlayabileceğinizi gösterdik. Ayrıca, Amazon EC2'yi kullanarak şirket içinde barındırılan bir yüklemeyi kullanarak RStudio'nun açık kaynaklı sürümünü denemeye nasıl hızlı bir şekilde başlayacağınızı da öğrendiniz. Ayrıca, Lake Formation'ın satır düzeyinde ve hücre düzeyinde güvenlik özelliğini kullanarak RStudio'nun veri gölü mimarilerinize nasıl entegre edileceğini ve bir data lake tablosunda ince taneli erişim kontrolünün nasıl uygulanacağını gösterdik.

Bir sonraki yazımızda, R komut dosyalarının nasıl kapsayıcı hale getirileceğini ve bunları kullanarak nasıl çalıştırılacağını göstereceğiz. AWS Lambda.


yazarlar hakkında

RStudio'yu AWS ortamınıza uygulayın ve AWS Lake Formation izinlerini kullanarak PlatoBlockchain Data Intelligence'ı kullanarak veri gölünüze erişin. Dikey Arama. Ai.Venkata Kampana AWS Health and Human Services ekibinde Kıdemli Çözüm Mimarıdır ve merkezi Sacramento, CA'dadır. Bu görevde, kamu sektörü müşterilerinin AWS'de iyi tasarlanmış çözümlerle misyon hedeflerine ulaşmalarına yardımcı olur.

RStudio'yu AWS ortamınıza uygulayın ve AWS Lake Formation izinlerini kullanarak PlatoBlockchain Data Intelligence'ı kullanarak veri gölünüze erişin. Dikey Arama. Ai.Şafak Heisey-Grove Amazon Web Services'in eyalet ve yerel yönetim ekibinin halk sağlığı analitiği lideridir. Bu görevde, eyalet ve yerel halk sağlığı kurumlarının analitik zorluklarına ve uzun vadeli hedeflerine nasıl ulaşacakları konusunda yaratıcı düşünmelerine yardımcı olmaktan sorumludur. Kariyerini, halk sağlığı sürveyans ve araştırmalarını desteklemek için mevcut veya yeni verileri kullanmanın yeni yollarını bulmaya adadı.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi