R, veri bilimcileri ve analistleri tarafından veri işleme yapmak, istatistiksel analizler yapmak, veri görselleştirmeleri oluşturmak ve makine öğrenimi (ML) modelleri oluşturmak için kullanılan popüler bir analitik programlama dilidir. R için entegre geliştirme ortamı olan RStudio, ekiplerin çalışmalarını geliştirmeleri ve organizasyonları arasında paylaşmaları için açık kaynaklı araçlar ve kurumsal kullanıma hazır profesyonel yazılımlar sağlar.
AWS'de RStudio ortamını uygulamak, şirket içinde dağıtım yaparken sahip olmadığınız esneklik ve ölçeklenebilirlik sağlayarak bu altyapıyı yönetme ihtiyacını ortadan kaldırır. İşlem gereksinimlerine göre istediğiniz işlem ve belleği seçebilir ve ayrıca önceden bir yatırım yapmadan analitik ve farklı boyutlardaki makine öğrenimi iş yükleriyle çalışmak için ölçeği büyütebilir veya küçültebilirsiniz. Bu, yeni veri kaynakları ve kodla hızlı bir şekilde denemeler yapmanıza ve yeni analitik süreçleri ile makine öğrenimi modellerini kuruluşun geri kalanına sunmanıza olanak tanır. Ayrıca, geliştiricilerin ve Veri Bilimcilerinin kullanımına sunmak için Data Lake kaynaklarınızı sorunsuz bir şekilde bütünleştirebilir ve aşağıdakilerden satır düzeyinde ve sütun düzeyinde erişim kontrollerini kullanarak verilerin güvenliğini sağlayabilirsiniz. AWS Göl Oluşumu.
Bu gönderi, data lake'de depolanan verilere erişmek için RStudio'yu AWS'de kolayca dağıtmanın ve çalıştırmanın iki yolunu sunar:
- Tam olarak yönetilen Amazon Adaçayı Yapıcı
- Kendi kendine barındırılan Amazon Elastik Bilgi İşlem Bulutu (Amazon EC2)
- RStudio'nun açık kaynaklı sürümünü, yine bu gönderide açıklayacağımız bir EC2 barındırılan yaklaşımı kullanarak dağıtmayı seçebilirsiniz. Kendi kendine barındırılan seçenek, yöneticinin bir EC2 bulut sunucusu oluşturmasını ve RStudio'yu manuel olarak veya bir AWS CloudFormation Ayrıca, bu tür bir uygulamada tüm kullanıcılar aynı erişim düzeyine sahip olduğundan, bu seçenekte kullanıcı erişim kontrollerini uygulamak için daha az esneklik vardır.
Amazon SageMaker'da RStudio
SageMaker'dan basit bir tıklama ile RStudio Workbench'i başlatabilirsiniz. SageMaker ile müşterilerin RStudio'yu oluşturma, kurma, güvenlik altına alma, ölçeklendirme ve bakımını yapma gibi operasyonel yükleri üstlenmeleri gerekmez, sürekli çalışan RStudio Sunucusu için ödeme yapmak zorunda kalmazlar (t3.medium kullanıyorlarsa) ve yalnızca ödeme yaparlar RSession için kullandıklarında hesaplamak için. RStudio kullanıcıları, anında örnekleri değiştirerek hesaplamayı dinamik olarak ölçeklendirme esnekliğine sahip olacak. RStudio'yu SageMaker üzerinde çalıştırmak, bir yöneticinin bir SageMaker etki alanı ve ilişkili kullanıcı profilleri oluşturmasını gerektirir. Ayrıca uygun bir RStudio lisansına ihtiyacınız var
SageMaker içinde, farklı izinlerle RStudio yöneticisi ve RStudio kullanıcı düzeyinde erişim verebilirsiniz. Yalnızca bu iki rolden birine atanan kullanıcı profilleri SageMaker'da RStudio'ya erişebilir. SageMaker'da RStudio kurulumuna yönelik yönetici görevleri hakkında daha fazla bilgi için, bkz. Amazon SageMaker'da RStudio'yu kullanmaya başlayın. Bu gönderi ayrıca her oturum için EC2 bulut sunucularını seçme sürecini ve yöneticinin RStudio kullanıcıları için EC2 bulut sunucusu seçeneklerini nasıl kısıtlayabileceğini gösterir.
Lake Formation satır düzeyinde ve sütun düzeyinde güvenlik erişimini kullanın
Ekibinizin SageMaker üzerinde RStudio oturumları başlatmasına izin vermenin yanı sıra, Lake Formation'dan satır düzeyinde ve sütun düzeyinde erişim denetimlerini kullanarak veri gölünün güvenliğini sağlayabilirsiniz. Daha fazla bilgi için bkz. AWS Lake Formation kullanan etkili veri gölleri, Bölüm 4: Hücre düzeyinde ve satır düzeyinde güvenlik uygulama.
Lake Formation güvenlik kontrolleri sayesinde, her kişinin data lake'deki verilere doğru erişime sahip olduğundan emin olabilirsiniz. SageMaker etki alanında her biri farklı yürütme rolüne sahip aşağıdaki iki kullanıcı profilini göz önünde bulundurun:
Kullanıcı profili | Yürütme Rolü |
rstudiouser-fullaccess |
AmazonSageMaker-ExecutionRole-FullAccess |
rstudiouser-limitedaccess |
AmazonSageMaker-ExecutionRole-LimitedAccess |
Aşağıdaki ekran görüntüsü rstudiouser-limitedaccess
profil detayları.
Aşağıdaki ekran görüntüsü rstudiouser-fullaccess
profil detayları.
Bu gönderi için kullanılan veri kümesi bir COVID-19 herkese açık veri kümesi. Aşağıdaki ekran görüntüsü verilerin bir örneğini göstermektedir:
Kullanıcı profilini oluşturup uygun role atadıktan sonra, verileri taramak için Lake Formation'a erişebilirsiniz. AWS Tutkal, meta verileri ve tabloyu oluşturun ve tablo verilerine erişim izni verin. İçin AmazonSageMaker-ExecutionRole-FullAccess
rol, tablodaki tüm sütunlara erişim izni verirsiniz ve AmazonSageMaker-ExecutionRole-LimitedAccess
, veri filtresini kullanarak erişim izni verirsiniz USA_Filter
. Bu filtreyi satır düzeyinde ve hücre düzeyinde sütun izinleri sağlamak için kullanırız (bkz. Kaynak Aşağıdaki ekran görüntüsündeki sütun).
Aşağıdaki ekran görüntüsünde gösterildiği gibi, ikinci rolün erişimi sınırlıdır. Bu rolle ilişkili kullanıcılar yalnızca continent
, date
, total_cases
, total_deaths
, new_cases
, new_deaths
, ve iso_codecolumns
.
Her kullanıcı profiline eklenen rol izinleriyle, Lake Formation'ın uygun satır düzeyinde ve sütun düzeyinde izinleri nasıl uyguladığını görebiliriz. RStudio Workbench'i şuradan açabilirsiniz: Uygulamayı başlat oluşturulan kullanıcı listesindeki açılır menüyü seçin ve RStudio.
Aşağıdaki ekran görüntüsünde, uygulamayı şu şekilde başlatıyoruz: rstudiouser-limitedaccess user
.
RStudio Workbench ana sayfasını ve oturumların, projelerin ve yayınlanan içeriğin bir listesini görebilirsiniz.
SageMaker'da oturumu başlatmak için bir oturum adı seçin. Uygun AWS hizmetlerine erişebilmeniz için Paws yükleyin (bu yazının başlarındaki kılavuza bakın). Artık tüm alanları veri kümesinden çekmek için bir sorgu çalıştırabilirsiniz. Amazon Atina, komutu kullanarak “SELECT * FROM "databasename.tablename"
ve sorgu çıktısını bir Amazon Basit Depolama Hizmeti (Amazon S3) kovası.
Aşağıdaki ekran görüntüsü, S3 kovasındaki çıktı dosyalarını gösterir.
Aşağıdaki ekran görüntüsü, bu çıktı dosyalarındaki verileri kullanarak gösterir. Amazon S3 Seçimi.
Yalnızca ABD verileri ve sütunları kıta, tarih, total_cases
, total_deaths
, new_cases
, new_deaths
, ve iso_code
için sonuçta gösterilir rstudiouser-limitedaccess
kullanıcı.
için aynı adımları tekrarlayalım. rstudiouser-fullaccess
kullanıcı.
RStudio Workbench ana sayfasını ve oturumların, projelerin ve yayınlanan içeriğin bir listesini görebilirsiniz.
Aynı sorguyu çalıştıralım “SELECT * FROM "databasename.tablename"
Athena'yı kullanarak.
Aşağıdaki ekran görüntüsü, S3 kovasındaki çıktı dosyalarını gösterir.
Aşağıdaki ekran görüntüsü, bu çıktı dosyalarındaki verileri kullanarak gösterir. Amazon S3 Seçimi.
Bu örnekte gösterildiği gibi, rstudiouser-fullaccess
kullanıcının veri kümesindeki tüm sütunlara ve satırlara erişimi vardır.
Amazon EC2'de Kendi Kendine Barındırılan
AWS'de RStudio'nun açık kaynaklı sürümünü denemeye başlamak istiyorsanız, Rstudio'yu bir EC2 bulut sunucusuna yükleyebilirsiniz. Bu gönderide sağlanan bu CloudFormation şablonu, EC2 örneğini sağlar ve kullanıcı veri komut dosyasını kullanarak RStudio'yu kurar. Gerektiğinde birden çok RStudio örneği sağlamak için şablonu birden çok kez çalıştırabilir ve herhangi bir AWS Bölgesinde kullanabilirsiniz. CloudFormation şablonunu dağıttıktan sonra, bir web tarayıcısından RStudio'ya erişmeniz için size bir URL sağlar. Amazon EC2, veri boyutundaki değişiklikleri ve analizlerinizi çalıştırmak için gerekli işlem kapasitesini yönetmek için ölçeği büyütmenize veya küçültmenize olanak tanır.
Güvenli erişim için bir anahtar/değer çifti oluşturun
AWS, EC2 bulut sunucunuz için oturum açma bilgilerinin güvenliğini sağlamak için genel anahtar şifrelemesini kullanır. Anahtar çiftinin adını, KeyPair
CloudFormation şablonunu başlattığınızda parametre. Ardından, gerekirse daha sonra sağlanan EC2 bulut sunucusunda oturum açmak için aynı anahtarı kullanabilirsiniz.
CloudFormation şablonunu çalıştırmadan önce, kullanmayı planladığınız AWS hesabında Amazon EC2 anahtar çiftine sahip olduğunuzdan emin olun. Değilse, bkz. Amazon EC2 kullanarak bir anahtar çifti oluşturun bir tane oluşturma talimatları için.
CloudFormation şablonunu başlatın. us-east-1
Bölge ve Yığını Başlat'ı seçin.
CloudFormation şablonuna birkaç parametre girmelisiniz:
- InitialUser ve InitialPassword – RStudio oturumunda oturum açmak için kullandığınız kullanıcı adı ve parola. Varsayılan değerler
rstudio
veRstudio@123
, Sırasıyla. - Örnek Türü – RStudio sunucusunun dağıtılacağı EC2 bulut sunucusu türü. Şablon şu anda t2, m4, c4, r4, g2, p2 ve g3 bulut sunucusu ailelerindeki tüm örnekleri kabul eder ve diğer bulut sunucusu ailelerini kolayca dahil edebilir. Varsayılan değer t2.micro'dur.
- Anahtar Çifti – EC2 bulut sunucusunda oturum açmak için kullandığınız anahtar çifti.
- VpcId ve Alt Ağ Kimliği - Amazon Sanal Özel Bulut (Amazon VPC) ve örneğin başlatılacağı alt ağ.
Bu parametreleri girdikten sonra CloudFormation şablonunu dağıtın. Tamamlandığında, aşağıdaki kaynaklar kullanılabilir:
- Üzerinde RStudio yüklü bir EC2 örneği.
- Diğer AWS hizmetlerine bağlanmak için gerekli izinlere sahip bir IAM rolü.
- RStudio Sunucusu için 8787 numaralı bağlantı noktasını açma kuralları olan bir güvenlik grubu.
RStudio'da oturum açın
Artık RStudio'yu kullanmaya hazırsınız! şuraya git Çıkışlar CloudFormation yığını için sekmeye gidin ve RStudio URL değerini kopyalayın (biçimde http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/
). Bu URL'yi bir web tarayıcısına girin. Bu, CloudFormation şablonunu çalıştırırken sağladığınız kullanıcı adını ve parolayı kullanarak oturum açabileceğiniz RStudio oturumunuzu açar.
AWS hizmetlerine RStudio'dan erişin
RStudio oturumuna eriştikten sonra AWS için R Paketini (Paws) kurmalısınız. Bu, veri gölünüzdeki hizmetler ve kaynaklar da dahil olmak üzere birçok AWS hizmetine bağlanmanıza olanak tanır. Paws'ı yüklemek için aşağıdaki R kodunu girin ve çalıştırın:
Bir AWS hizmetini kullanmak için bir istemci oluşturun ve hizmetin işlemlerine bu istemciden erişin. AWS API'lerine erişirken kimlik bilgilerinizi ve Bölgenizi sağlamanız gerekir. Paws, AWS kimlik doğrulama zincirini kullanarak kimlik bilgilerini ve Bölgeyi arar:
- Açıkça sağlanan erişim anahtarı, gizli anahtar, oturum belirteci, profil veya Bölge
- R ortam değişkenleri
- İşletim sistemi ortam değişkenleri
- AWS'de paylaşılan kimlik bilgileri ve yapılandırma dosyaları
.aws/credentials
ve.aws/config
- Container IAM rolü
- Örnek IAM rolü
Ekli bir IAM rolüne sahip bir EC2 bulut sunucusunda çalıştığınız için Paws, AWS API isteklerinin kimliğini doğrulamak için otomatik olarak IAM rolü kimlik bilgilerinizi kullanır.
Üretim ortamı için, şu bölümde özetlenen ölçeklenebilir Rstudio çözümünü kullanmanızı öneririz. Bu blogu.
Sonuç
AWS'de RStudio ortamınızı nasıl dağıtacağınızı öğrendiniz. Amazon SageMaker'da RStudio kullanmanın avantajlarını ve nasıl başlayabileceğinizi gösterdik. Ayrıca, Amazon EC2'yi kullanarak şirket içinde barındırılan bir yüklemeyi kullanarak RStudio'nun açık kaynaklı sürümünü denemeye nasıl hızlı bir şekilde başlayacağınızı da öğrendiniz. Ayrıca, Lake Formation'ın satır düzeyinde ve hücre düzeyinde güvenlik özelliğini kullanarak RStudio'nun veri gölü mimarilerinize nasıl entegre edileceğini ve bir data lake tablosunda ince taneli erişim kontrolünün nasıl uygulanacağını gösterdik.
Bir sonraki yazımızda, R komut dosyalarının nasıl kapsayıcı hale getirileceğini ve bunları kullanarak nasıl çalıştırılacağını göstereceğiz. AWS Lambda.
yazarlar hakkında
Venkata Kampana AWS Health and Human Services ekibinde Kıdemli Çözüm Mimarıdır ve merkezi Sacramento, CA'dadır. Bu görevde, kamu sektörü müşterilerinin AWS'de iyi tasarlanmış çözümlerle misyon hedeflerine ulaşmalarına yardımcı olur.
Şafak Heisey-Grove Amazon Web Services'in eyalet ve yerel yönetim ekibinin halk sağlığı analitiği lideridir. Bu görevde, eyalet ve yerel halk sağlığı kurumlarının analitik zorluklarına ve uzun vadeli hedeflerine nasıl ulaşacakları konusunda yaratıcı düşünmelerine yardımcı olmaktan sorumludur. Kariyerini, halk sağlığı sürveyans ve araştırmalarını desteklemek için mevcut veya yeni verileri kullanmanın yeni yollarını bulmaya adadı.
- AI
- yapay zeka
- AI sanat üreteci
- yapay zeka robotu
- Amazon Adaçayı Yapıcı
- yapay zeka
- yapay zeka sertifikası
- bankacılıkta yapay zeka
- yapay zeka robotu
- yapay zeka robotları
- yapay zeka yazılımı
- AWS Makine Öğrenimi
- blockchain
- blockchain konferans ai
- zeka
- konuşma yapay zekası
- kripto konferans ai
- dal-e
- derin öğrenme
- google ai
- makine öğrenme
- Platon
- plato yapay zekası
- Plato Veri Zekası
- Plato Oyunu
- PlatoVeri
- plato oyunu
- ölçek ai
- sözdizimi
- zefirnet