Amazon SageMaker Veri Düzenleyicisi haftalardan dakikalara makine öğrenimi (ML) için veri toplama ve hazırlama süresini azaltır. Data Wrangler ile sadece birkaç tıklamayla verileri seçip sorgulayabilir, 300'ün üzerinde yerleşik veri dönüşümü ile verileri hızla dönüştürebilir ve herhangi bir kod yazmadan yerleşik görselleştirmelerle verilerinizi anlayabilirsiniz.
Ek olarak, oluşturabilirsiniz özel dönüşümler gereksinimlerinize özel. Özel dönüşümler, PySpark, Pandas veya SQL kullanarak özel dönüşümler yazmanıza olanak tanır.
Data Wrangler artık özel bir Pandaların kullanıcı tanımlı işlevi (UDF) büyük veri kümelerini verimli bir şekilde işleyebilen dönüşüm. İki özel Panda UDF modundan birini seçebilirsiniz: Pandalar ve Python. Her iki mod da veri kümelerini işlemek için verimli bir çözüm sunar ve seçtiğiniz mod tercihinize bağlıdır.
Bu gönderide, yeni Pandas UDF dönüşümünün her iki modda da nasıl kullanılacağını gösteriyoruz.
Çözüme genel bakış
Bu yazı yazılırken, veri kümelerini şu adresten Data Wrangler'a aktarabilirsiniz: Amazon Basit Depolama Hizmeti (Amazon S3), Amazon Atina, Amazon Kırmızıya Kaydırma, Databricks ve Kar Tanesi. Bu gönderi için 3'ü depolamak için Amazon S2014 kullanıyoruz. Amazon veri kümesini inceler.
Veriler adında bir sütuna sahiptir. reviewText
kullanıcı tarafından oluşturulan metin içeren. Metin ayrıca birkaç kelimeleri durdur"a", "an" ve "the" gibi fazla bilgi sağlamayan yaygın sözcüklerdir. Durdurma sözcüklerinin kaldırılması, doğal dil işleme (NLP) ardışık düzenlerinde yaygın bir ön işleme adımıdır. Durdurma kelimelerini incelemelerden kaldırmak için özel bir işlev oluşturabiliriz.
Özel bir Pandas UDF dönüşümü oluşturun
Pandalar ve Python modlarını kullanarak iki Data Wrangler özel Panda UDF dönüşümü oluşturma sürecini inceleyelim.
- Atomic Cüzdanı indirin : Dijital Müzik incelemeleri veri kümesi ve Amazon S3'e yükleyin.
- Açılış Amazon SageMaker Stüdyosu ve yeni bir Data Wrangler akışı oluşturun.
- Altında Tarihleri içe aktar, seçmek Amazon S3 ve veri kümesi konumuna gidin.
- İçin Dosya türü, seçmek jsonl.
Tabloda verilerin bir önizlemesi görüntülenmelidir.
- Klinik ithalat Devam etmek için.
- Verileriniz içe aktarıldıktan sonra, yanındaki artı işaretini seçin. Veri tipleri Ve seç Dönüşüm ekle.
- Klinik Özel dönüşüm.
- Açılır menüde, Python (Kullanıcı Tanımlı İşlev).
Şimdi, durma sözcüklerini kaldırmak için özel dönüşümümüzü oluşturuyoruz.
- Giriş sütununuzu, çıkış sütununuzu, dönüş türünü ve modunu belirtin.
Aşağıdaki örnek, Pandalar modunu kullanır. Bu, işlevin aynı uzunlukta bir Panda serisini kabul etmesi ve döndürmesi gerektiği anlamına gelir. Bir Panda serisini bir tablodaki bir sütun veya sütunun bir parçası olarak düşünebilirsiniz. Bu, en performanslı Pandas UDF modudur çünkü Pandalar, işlemleri birer birer değer kümeleri arasında vektörleştirebilir. bu pd.Series
Pandalar modunda tür ipuçları gereklidir.
Pandas API yerine saf Python kullanmayı tercih ederseniz, Python modu, tek bir argüman kabul eden ve tek bir değer döndüren saf bir Python işlevi belirtmenize olanak tanır. Aşağıdaki örnek, çıktı açısından önceki Pandas koduna eşdeğerdir. Python modunda tür ipuçları gerekli değildir.
- Klinik Ekle Özel dönüşümünüzü eklemek için.
Sonuç
Data Wrangler'da 300'ün üzerinde yerleşik dönüşüm bulunur ve ayrıca gereksinimlerinize özel özel dönüşümler de ekleyebilirsiniz. Bu gönderide, hem Pandalar hem de Python modlarını kullanarak Data Wrangler'ın yeni özel Pandas UDF dönüşümüyle veri kümelerinin nasıl işleneceğini gösterdik. Tercihinize göre her iki modu da kullanabilirsiniz. Data Wrangler hakkında daha fazla bilgi için bkz. Veri Wrangler Akışı Oluşturun ve Kullanın.
Yazarlar Hakkında
Ben Harris çeşitli alanlarda ölçeklenebilir veri boru hatları ve makine öğrenimi çözümleri tasarlama, dağıtma ve sürdürme deneyimine sahip bir yazılım mühendisidir. Ben, diğerleri arasında veri toplama ve etiketleme, görüntü ve metin sınıflandırma, diziden diziye modelleme, gömme ve kümeleme için sistemler oluşturmuştur.
Haydar Nakvi AWS'de Çözüm Mimarıdır. Kapsamlı Yazılım Geliştirme ve Kurumsal Mimari deneyimine sahiptir. Müşterilerin AWS ile iş sonuçları elde etmesini sağlamaya odaklanıyor. New York merkezlidir.
Vishal Srivastava AWS'de Teknik Hesap Yöneticisidir. Yazılım Geliştirme ve Analitik geçmişine sahip olup, öncelikle finansal hizmetler sektörü ve dijital yerel iş müşterileri ile çalışmakta ve onların bulut yolculuğunu desteklemektedir. Boş zamanlarında ailesiyle seyahat etmeyi sever.
- Akıllı para. Avrupa'nın En İyi Bitcoin ve Kripto Borsası.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. SERBEST ERİŞİM.
- KriptoHawk. Altcoin Radarı. Ücretsiz deneme.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Hakkımızda
- Hesap
- karşısında
- Amazon
- arasında
- analytics
- api
- mimari
- mevcut
- AWS
- arka fon
- yerleşik
- iş
- Klinik
- sınıflandırma
- bulut
- kod
- Toplamak
- Sütun
- ortak
- içeren
- yaratmak
- Oluşturma
- görenek
- Müşteriler
- veri
- göstermek
- gösterdi
- bağlıdır
- dağıtma
- tasarım
- gelişme
- dijital
- etki
- verimli
- verimli biçimde
- etkinleştirme
- mühendis
- kuruluş
- örnek
- deneyim
- kapsamlı, geniş
- aile
- mali
- finansal hizmetler
- akış
- odaklanır
- takip etme
- Ücretsiz
- işlev
- Ne kadar
- Nasıl Yapılır
- HTTPS
- görüntü
- bilgi
- giriş
- IT
- Katıldı
- etiketleme
- dil
- büyük
- ÖĞRENİN
- öğrenme
- yer
- makine
- makine öğrenme
- müdür
- Maç
- ML
- Daha
- çoğu
- Music
- Doğal (Madenden)
- New York
- Operasyon
- Hazırlamak
- Önizleme
- süreç
- işleme
- sağlamak
- Hızlı
- hızla
- gereklidir
- Yer Alan Kurallar
- dönüş
- İade
- Yorumları
- ölçeklenebilir
- sektör
- Dizi
- Hizmetler
- Basit
- Software
- yazılım geliştirme
- Yazılım Mühendisi
- çözüm
- Çözümler
- alanlarda
- hafızası
- mağaza
- Destekler
- Sistemler
- Teknik
- İçinden
- zaman
- simge
- Jeton
- Dönüştürmek
- seyahat
- anlamak
- benzersiz
- kullanım
- değer
- çeşitlilik
- olmadan
- sözler
- çalışır
- yazı yazıyor