Veri odaklı bir kültüre doğru ilerleyen kuruluşlar, karar vermede veri ve makine öğrenimi (ML) kullanımını benimsiyor. Verilerden ML tabanlı kararlar almak için, ML modellerini eğitmek için verilerinizin kullanılabilir, erişilebilir, temiz ve doğru biçimde olması gerekir. Çoklu hesap mimarisine sahip kuruluşlar, veri hazırlama faaliyetleri için bir hesaptan veri çekip diğerine yüklemeleri gereken durumlardan kaçınmak ister. Farklı hesaplarda farklı ayıklama, dönüştürme ve yükleme (ETL) işlerini manuel olarak oluşturmak ve sürdürmek, karmaşıklığı ve maliyeti artırır ve verilerinizi güvende tutmak için yönetişim, uyumluluk ve güvenlik en iyi uygulamalarını sürdürmeyi zorlaştırır.
Amazon Kırmızıya Kaydırma hızlı, tam olarak yönetilen bir bulut veri ambarıdır. Amazon Redshift hesaplar arası veri paylaşımı özelliği, Amazon Redshift veri ambarınızdaki yeni, eksiksiz ve tutarlı verileri farklı AWS hesaplarındaki herhangi bir sayıda paydaşla paylaşmanın basit ve güvenli bir yolunu sunar. Amazon SageMaker Veri Düzenleyicisi bir yeteneğidir Amazon Adaçayı Yapıcı bu, veri bilimcilerin ve mühendislerin görsel bir arayüz kullanarak ML uygulamaları için veri hazırlamasını hızlandırır. Data Wrangler, Amazon Redshift veri paylaşımlarına bağlanarak makine öğrenimi için verileri keşfetmenize ve dönüştürmenize olanak tanır.
Bu gönderide, Amazon Redshift veri paylaşımı kullanarak hesaplar arası entegrasyon kurma ve Data Wrangler kullanarak veri hazırlama aşamalarını ele alıyoruz.
Çözüme genel bakış
İki AWS hesabıyla başlıyoruz: Amazon Redshift veri ambarına sahip bir üretici hesabı ve SageMaker ML kullanım senaryoları için bir tüketici hesabı. Bu gönderi için, bankacılık veri seti. Devam etmek için veri kümesini yerel makinenize indirin. Aşağıda iş akışına üst düzey bir genel bakış sunulmaktadır:
- Üretici hesabında bir Amazon Redshift RA3 kümesi örneğini oluşturun ve veri kümesini yükleyin.
- Üretici hesabında bir Amazon Redshift veri paylaşımı oluşturun ve tüketici hesabının verilere erişmesine izin verin.
- Tüketici hesabında Amazon Redshift veri paylaşımına erişin.
- Tüketici hesabındaki Data Wrangler ile verileri analiz edin ve işleyin ve veri hazırlama iş akışlarınızı oluşturun.
Farkında olun hususlar Amazon Redshift veri paylaşımıyla çalışmak için:
- Birden çok AWS hesabı – En az iki AWS hesabına ihtiyacınız var: bir üretici hesabı ve bir tüketici hesabı.
- küme türü – RA3 küme türünde veri paylaşımı desteklenir. Bir Amazon Redshift kümesi örneğini oluştururken RA3 küme türünü seçtiğinizden emin olun.
- Şifreleme – Veri paylaşımının çalışması için hem üretici hem de tüketici kümelerinin şifrelenmesi ve aynı AWS Bölgesinde olması gerekir.
- bölgeler – Hesaplar arası veri paylaşımı tüm Amazon Redshift için kullanılabilir RA3 düğüm türleri ABD Doğu (K. Virginia), ABD Doğu (Ohio), ABD Batı (K. Kaliforniya), ABD Batı (Oregon), Asya Pasifik (Mumbai), Asya Pasifik (Seul), Asya Pasifik (Singapur), Asya Pasifik ( Sidney), Asya Pasifik (Tokyo), Kanada (Orta), Avrupa (Frankfurt), Avrupa (İrlanda), Avrupa (Londra), Avrupa (Paris), Avrupa (Stockholm) ve Güney Amerika (São Paulo).
- Fiyatlandırma – Hesaplar arası veri paylaşımı, aynı Bölgedeki kümeler arasında kullanılabilir. Veri paylaşmanın hiçbir maliyeti yoktur. Yalnızca paylaşıma katılan Amazon Redshift kümeleri için ödeme yaparsınız.
Hesaplar arası veri paylaşımı iki adımlı bir işlemdir. İlk olarak, bir üretici küme yöneticisi bir veri paylaşımı oluşturur, nesneler ekler ve tüketici hesabına erişim sağlar. Ardından üretici hesabı yöneticisi, belirtilen tüketici için veri paylaşımına izin verir. Bunu Amazon Redshift konsolundan yapabilirsiniz.
Üretici hesabında bir Amazon Redshift veri paylaşımı oluşturun
Veri paylaşımınızı oluşturmak için aşağıdaki adımları tamamlayın:
- Amazon Redshift konsolunda bir Amazon Redshift kümesi oluşturun.
- Belirtmek üretim ve RA3 düğüm türünü seçin.
- Altında Ek yapılandırmalar, seçimi kaldır Varsayılanları kullan.
- Altında Veritabanı yapılandırmaları, kümeniz için şifrelemeyi ayarlayın.
- Kümeyi oluşturduktan sonra doğrudan pazarlama bankası veri kümesini içeri aktarın. Aşağıdaki URL'den indirebilirsiniz: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- Foto Yükle
bank-additional-full.csv
Bir için Amazon Basit Depolama Hizmeti (Amazon S3) kümenizin erişebildiği paket. - Amazon Redshift sorgu düzenleyicisini kullanın ve verileri Amazon Redshift'e kopyalamak için aşağıdaki SQL sorgusunu çalıştırın:
- Küme ayrıntıları sayfasına gidin ve Veri Paylaşımları sekmesini seçin Veri paylaşımı oluştur.
- İçin veri paylaşımı adı, isim girin.
- İçin Veri tabanı ismi, bir veritabanı seçin.
- içinde Veri paylaşımı nesneleri ekleyin bölümünde, veri paylaşımına dahil etmek istediğiniz nesneleri veritabanından seçin.
Başkalarıyla paylaşmayı seçtiğiniz şey üzerinde ayrıntılı kontrole sahipsiniz. Basit olması için tüm tabloları paylaşıyoruz. Pratikte, bir veya daha fazla tablo, görünüm veya kullanıcı tanımlı işlev seçebilirsiniz. - Klinik Ekle.
- Veri tüketicileri eklemek için Veri paylaşımına AWS hesapları ekleyin ve ikincil AWS hesap kimliğinizi ekleyin.
- Klinik Veri paylaşımı oluştur.
- Yeni oluşturduğunuz veri tüketicisine yetki vermek için şuraya gidin: Veri Paylaşımları Amazon Redshift konsolundaki sayfasına gidin ve yeni veri paylaşımını seçin.
- Veri tüketicisini seçin ve Yetki vermek.
Tüketici durumu şu andan itibaren değişir: Pending authorization
için Authorized
.
Tüketici AWS hesabında Amazon Redshift hesaplar arası veri paylaşımına erişin
Veri paylaşımı ayarlandığına göre, veri paylaşımını kullanmak için tüketici AWS hesabınıza geçin. Tüketici hesabınızda en az bir Amazon Redshift kümesi oluşturduğunuzdan emin olun. Kümenin şifrelenmesi ve kaynakla aynı Bölgede olması gerekir.
- Amazon Redshift konsolunda şunu seçin: Veri Paylaşımları Gezinti bölmesinde.
- Üzerinde diğer hesaplardan sekmesinde, oluşturduğunuz veri paylaşımını seçin ve Ortak.
- Veri paylaşımını bu hesaptaki bir veya daha fazla kümeyle ilişkilendirebilir veya veri paylaşımını hesabın tamamıyla ilişkilendirebilir, böylece tüketici hesabındaki mevcut ve gelecekteki kümelerin bu paylaşıma erişmesini sağlayabilirsiniz.
- Bağlantı ayrıntılarınızı belirtin ve seçin Sosyal medya.
- Klinik Veri paylaşımından veritabanı oluşturun ve yeni veritabanınız için bir ad girin.
- Veri paylaşımını test etmek için, sorgu düzenleyicisine gidin ve tüm nesnelerin veri paylaşımının bir parçası olarak kullanılabilir olduğundan emin olmak için yeni veritabanına karşı sorguları çalıştırın.
Data Wrangler ile verileri analiz edin ve işleyin
Artık Amazon Redshift'te veri paylaşımı olarak oluşturulan hesaplar arası verilere erişmek için Data Wrangler'ı kullanabilirsiniz.
- Açılış Amazon SageMaker Stüdyosu.
- Üzerinde fileto menü seç yeni ve Veri Düzenleyici Akışı.
- Üzerinde ithalat sekmesini seçin Veri kaynağı ekleyin ve Amazon Kırmızıya Kaydırma.
- Veri paylaşımı için tüketici hesabında az önce oluşturduğunuz Amazon Redshift kümesinin bağlantı ayrıntılarını girin.
- Klinik Sosyal medya.
- Kullan AWS Kimlik ve Erişim Yönetimi Amazon Redshift kümeniz için kullandığınız (IAM) rolü.
Veri paylaşımı Amazon Redshift kümesindeki yeni bir veritabanı olsa da, ona doğrudan Data Wrangler'dan bağlanamayacağınızı unutmayın.
Doğru yol, önce varsayılan küme veritabanına bağlanmak ve ardından veri paylaşımı veritabanını sorgulamak için SQL kullanmaktır. Varsayılan küme veritabanına bağlanmak için gerekli bilgileri sağlayın. Bir AWS Anahtar Yönetim Hizmeti (AWS KMS) anahtar kimliği, bağlanmak için gerekli değildir.
Data Wrangler artık Amazon Redshift örneğine bağlı.
- Bir SQL düzenleyici kullanarak Amazon Redshift veri paylaşımı veritabanındaki verileri sorgulayın.
- Klinik ithalat veri kümesini Data Wrangler'a aktarmak için.
- Veri kümesi için bir ad girin ve Ekle.
Artık akışı görebilirsiniz Veri akışı Veri Wrangler sekmesi.
Verileri Data Wrangler'a yükledikten sonra keşifsel veri analizi yapabilir ve ML için veri hazırlayabilirsiniz.
- Artı işaretini seçin ve seçin Analiz ekle.
Data Wrangler, yerleşik analizler sağlar. Bunlara veri kalitesi ve öngörü raporu, veri korelasyonu, eğitim öncesi önyargı raporu, veri kümenizin bir özeti ve görselleştirmeler (histogramlar ve dağılım grafikleri gibi) dahildir ancak bunlarla sınırlı değildir. Ayrıca kendi özel görselleştirmenizi de oluşturabilirsiniz.
Veri kalitesi sorunlarını belirlemek için otomatik olarak görselleştirmeler ve analizler oluşturmak ve veri kümeniz için gereken doğru dönüşümü önermek için Veri Kalitesi ve Öngörüler Raporunu kullanabilirsiniz.
- Klinik Veri Kalitesi ve Öngörüler Raporuve seçin Hedef sütun as y.
- Bu bir sınıflandırma problem ifadesi olduğundan, Sorun tipiseçin Sınıflandırma.
- Klinik oluşturmak.
Data Wrangler, veri kümeniz hakkında ayrıntılı bir rapor oluşturur. Raporu yerel makinenize de indirebilirsiniz.
- Veri hazırlama için artı işaretini seçin ve Analiz ekle.
- Klinik Adım ekle dönüşümlerinizi oluşturmaya başlamak için.
Bu yazının yazıldığı sırada, Data Wrangler 300'den fazla yerleşik dönüşüm sağlıyor. Pandalar veya PySpark kullanarak kendi dönüşümlerinizi de yazabilirsiniz.
Artık iş gereksinimlerinize göre dönüşümlerinizi ve analizlerinizi oluşturmaya başlayabilirsiniz.
Sonuç
Bu gönderide, verileri manuel olarak indirip yüklemek zorunda kalmadan Amazon Redshift veri paylaşımlarını kullanan hesaplar arasında veri paylaşımını araştırdık. Data Wrangler kullanarak paylaşılan verilere nasıl erişileceğini ve verileri makine öğrenimi kullanım durumlarınız için nasıl hazırlayacağınızı anlattık. Amazon Redshift veri paylaşımlarının ve Data Wrangler'ın bu kodsuz/düşük kodlu özelliği, eğitim verilerinin hazırlanmasını hızlandırır ve daha hızlı yinelemeli veri hazırlığıyla veri mühendislerinin ve veri bilimcilerinin çevikliğini artırır.
Amazon Redshift ve SageMaker hakkında daha fazla bilgi edinmek için bkz. Amazon Redshift Veritabanı Geliştirici Kılavuzu ve Amazon SageMaker Belgeleri.
Yazarlar Hakkında
Meenakshisundaram Thandavarayan AWS'de kıdemli bir AI/ML uzmanıdır. Yapay zeka ve makine öğrenimi yolculuklarında yüksek teknolojili stratejik hesaplara yardımcı olur. Veriye dayalı yapay zeka konusunda çok tutkulu.
James Wu AWS'de Kıdemli AI/ML Uzman Çözüm Mimarıdır. müşterilerin AI/ML çözümleri tasarlamasına ve oluşturmasına yardımcı olur. James'in çalışması, bilgisayar vizyonu, derin öğrenme ve kurum genelinde ML'yi ölçeklendirmeye ilgi duyan çok çeşitli ML kullanım durumlarını kapsar. AWS'ye katılmadan önce James, 10 yılı mühendislik ve 6 yılı pazarlama ve reklamcılık sektörlerinde olmak üzere 4 yılı aşkın bir süredir mimar, geliştirici ve teknoloji lideriydi.
- Akıllı para. Avrupa'nın En İyi Bitcoin ve Kripto Borsası.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. SERBEST ERİŞİM.
- KriptoHawk. Altcoin Radarı. Ücretsiz deneme.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- ve-veri-hazırlama/
- "
- &
- 10
- 100
- 11
- 7
- a
- Hakkımızda
- erişim
- ulaşılabilir
- Hesap
- karşısında
- faaliyetler
- reklâm
- karşı
- AI
- Türkiye
- veriyor
- Amazon
- Amerika
- analiz
- Başka
- uygulamaları
- mimari
- Asya
- Asya Pasifik
- Ortak
- otomatik olarak
- mevcut
- AWS
- Banka
- İYİ
- en iyi uygulamalar
- sınır
- inşa etmek
- bina
- yerleşik
- iş
- Kaliforniya
- Kampanya
- Kanada
- durumlarda
- merkezi
- Klinik
- sınıflandırma
- bulut
- tamamlamak
- uyma
- bilgisayar
- Sosyal medya
- bağlı
- bağlantı
- bağ
- tutarlı
- konsolos
- tüketmek
- tüketici
- Tüketiciler
- UAF ile
- kontrol
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- oluşturur
- Tanıtım
- Kültür
- akım
- görenek
- Müşteriler
- veri
- veri analizi
- bilgi paylaşımı
- veritabanı
- kararlar
- derin
- Dizayn
- detaylı
- ayrıntılar
- Geliştirici
- farklı
- zor
- direkt
- direkt olarak
- indir
- editör
- Eğitim
- kucaklamak
- şifreleme
- Mühendislik
- Mühendisler
- Keşfet
- kuruluş
- AVRUPA
- keşfetmek
- HIZLI
- Daha hızlı
- Özellikler(Hazırlık aşamasında)
- Ad
- akış
- takip et
- takip etme
- biçim
- taze
- itibaren
- fonksiyonlar
- gelecek
- oluşturmak
- yönetim
- sahip olan
- yardım
- yardımcı olur
- konut
- Ne kadar
- Nasıl Yapılır
- HTTPS
- belirlemek
- Kimlik
- dahil
- Dahil olmak üzere
- Endüstri
- bilgi
- anlayışlar
- örnek
- bütünleşme
- faiz
- arayüzey
- İrlanda
- sorunlar
- IT
- İş
- Mesleki Öğretiler
- birleştirme
- seyahat
- tutmak
- anahtar
- lider
- ÖĞRENİN
- öğrenme
- Sınırlı
- yük
- yerel
- yer
- London
- makine
- makine öğrenme
- korumak
- yapmak
- YAPAR
- yönetilen
- yönetim
- el ile
- Pazarlama
- olabilir
- ML
- modelleri
- Ay
- Daha
- hareketli
- Mumbai
- Navigasyon
- numara
- Ohio
- sipariş
- Oregon
- organizasyonlar
- Diğer
- kendi
- Pasifik
- Paris
- Bölüm
- katılmak
- tutkulu
- uygulama
- Hazırlamak
- önceki
- birincil
- Sorun
- süreç
- üretici
- sağlamak
- sağlar
- kalite
- menzil
- tavsiye etmek
- bölge
- rapor
- gereklidir
- Rol
- koşmak
- güvenli
- aynı
- ölçekleme
- bilim adamları
- ikincil
- güvenli
- güvenlik
- Seul
- set
- ayar
- paylaş
- Paylaşılan
- paylaşımı
- işaret
- Basit
- Singapur
- So
- katı
- çözüm
- Çözümler
- güney
- uzman
- başlama
- Açıklama
- Durum
- hafızası
- Stratejik
- destekli
- anahtar
- sydney
- Teknoloji
- test
- The
- Kaynak
- İçinden
- zaman
- Tokyo
- karşı
- Eğitim
- Dönüştürmek
- Dönüşüm
- dönüşümler
- us
- kullanım
- Virjinya
- vizyonumuz
- görüntüleme
- Batısında
- Ne
- olmadan
- İş
- iş akışları
- çalışma
- yazı yazıyor
- yıl