Daha fazla kuruluş daha derin içgörüler elde etmek için makine öğrenimine (ML) geçtikçe, karşılaştıkları iki önemli engel etiketleme ve yaşam döngüsü yönetimidir. Etiketleme, bir ML modelinin ondan öğrenebilmesi için bağlam sağlamak için verilerin tanımlanması ve etiketlerin eklenmesidir. Etiketler, bir ses dosyasındaki bir cümleyi, bir fotoğraftaki bir arabayı veya bir MRI'daki bir organı gösterebilir. ML modellerinin verilere karşı çalışmasını sağlamak için veri etiketleme gereklidir. Yaşam döngüsü yönetimi, bir ML denemesi kurma ve sonuçları almak için kullanılan veri kümesini, kitaplığı, sürümü ve modeli belgeleme süreciyle ilgilidir. Bir ekip, tek bir yaklaşıma karar vermeden önce yüzlerce deney yapabilir. Bu deneyin öğelerinin kayıtları olmadan geriye gitmek ve bu yaklaşımı yeniden yaratmak zor olabilir.
Birçok makine öğrenimi örneği ve öğretici, bir hedef değer içeren bir veri kümesiyle başlar. Ancak, gerçek dünya verilerinin her zaman böyle bir hedef değeri yoktur. Örneğin, duygu analizinde, bir kişi genellikle bir incelemenin olumlu, olumsuz veya karışık olup olmadığına dair bir yargıda bulunabilir. Ancak incelemeler, kendisine hiçbir yargı değeri eklenmemiş bir metin koleksiyonundan oluşur. oluşturmak için denetimli öğrenme Bu sorunu çözmek için yüksek kaliteli bir etiketli veri seti gereklidir. Amazon SageMaker Yer Gerçeği makine öğrenimi için son derece doğru eğitim veri kümeleri oluşturmayı kolaylaştıran, tam olarak yönetilen bir veri etiketleme hizmetidir.
AWS'de veri ve analiz platformu olarak ayıklama, dönüştürme ve yükleme (ETL) görevlerini gerçekleştirmek için Databricks'i kullanan kuruluşlar için nihai hedef genellikle denetimli bir öğrenme modeli eğitmektir. Bu gönderide, Databricks'in Temel Gerçek ile nasıl entegre olduğunu gösteriyoruz ve Amazon Adaçayı Yapıcı veri etiketleme ve model dağıtımı için.
Çözüme genel bakış
Ground Truth, makine öğrenimi için son derece doğru eğitim veri kümeleri oluşturmayı kolaylaştıran, tam olarak yönetilen bir veri etiketleme hizmetidir. Ground Truth konsolu aracılığıyla, özel veya yerleşik veri etiketleme iş akışlarını dakikalar içinde oluşturabiliriz. Bu iş akışları, 3B nokta bulutları, video, resimler ve metin dahil olmak üzere çeşitli kullanım durumlarını destekler. Ayrıca Ground Truth, verilerimizi etiketlemek için bir ML modeli kullanan otomatik veri etiketleme sunar.
Modelimizi herkese açık Amazon Müşteri Yorumları veri kümesi üzerinde eğitiyoruz. Yüksek düzeyde, adımlar aşağıdaki gibidir:
- Etiketlenecek ham veri kümesini ayıklayın ve Amazon Basit Depolama Hizmeti (Amazon S3).
- SageMaker'da bir etiketleme işi oluşturarak etiketleme gerçekleştirin.
- Bir örnek kullanarak Databricks platformunda gözden geçirme metninin duyarlılığını sınıflandırmak için basit bir Scikit-learn doğrusal öğrenen modeli oluşturun ve eğitin defter.
- kullanım ML akışı MLO'lar oluşturmak ve gerçekleştirmek ve model yapılarını kaydetmek için bileşenler.
- Modeli kullanarak bir SageMaker uç noktası olarak dağıtın. MLflow SageMaker kitaplığı gerçek zamanlı çıkarım için.
Aşağıdaki şema, Ground Truth ve MLflow kullanılarak etiketleme ve ML yolculuğunu göstermektedir.
SageMaker'da etiketleme işi oluşturun
Bir duyarlılık analizi modeli oluşturduğumuz için Amazon Müşteri Yorumları veri kümesinden yalnızca metin bölümlerini çıkarırız. Ayıklandıktan sonra, metni bir S3 kovasına koyarız ve ardından SageMaker konsolu aracılığıyla bir Temel Gerçeği etiketleme işi yaratırız.
Üzerinde Etiketleme işi oluştur sayfasında, gerekli tüm alanları doldurun. Bu sayfadaki adımın bir parçası olarak Temel Gerçek, iş bildirim dosyasını oluşturmanıza olanak tanır. Temel Gerçek, etiketleme işindeki dosya veya nesnelerin sayısını belirlemek için girdi bildirim dosyasını kullanır, böylece doğru sayıda görev oluşturulur ve insan (veya makine) etiketleyicilere gönderilir. Dosya otomatik olarak S3 klasörüne kaydedilir. Bir sonraki adım, görev kategorisini ve görev seçimini belirlemektir. Bu kullanım durumunda, seçiyoruz Metin görev kategorisi olarak ve Metin Sınıflandırması görev seçimi için tek bir etiketle; bu, bir inceleme metninin tek bir duyguya sahip olacağı anlamına gelir: olumlu, olumsuz veya nötr.
Son olarak, etiketleyiciler için metin verilerinin nasıl etiketleneceğine ilişkin basit ama özlü talimatlar yazıyoruz. Talimatlar etiketleme aracında görüntülenir ve isteğe bağlı olarak şu anda açıklayıcının görünümünü inceleyebilirsiniz. Son olarak işi teslim edip ilerlemeyi konsoldan izliyoruz.
Etiketleme işi devam ederken, etiketli verilere de bakabiliriz. Çıktı sekme. Her inceleme metnini ve etiketini ve işin bir insan veya makine tarafından yapılıp yapılmadığını izleyebiliyoruz. İnsanlar tarafından yapılacak etiketleme işlerinin %100'ünü seçebilir veya işi hızlandıran ve işçilik maliyetlerini azaltan makine açıklamasını seçebiliriz.
İş tamamlandığında, etiketleme işi özeti, çıktı bildirimine ve etiketli veri kümesine bağlantılar içerir. Ayrıca Amazon S3'e gidebilir ve her ikisini de S3 kova klasörümüzden indirebiliriz.
Sonraki adımlarda bir Databricks not defteri kullanıyoruz, ML akışıoluşturmak için Temel Gerçek tarafından etiketlenen veri kümeleri ve Scikit-öğrenme modeli.
Amazon S3'ten etiketli bir veri kümesi indirin
Amazon S3'ten etiketli veri kümesini indirerek başlıyoruz. Bildirim JSON biçiminde kaydedilir ve onu Databricks'te bir Spark DataFrame'e yükleriz. Duyarlılık analizi modelini eğitmek için yalnızca Temel Gerçeği etiketleme işi tarafından açıklama eklenen inceleme metnine ve duyarlılığa ihtiyacımız var. Bu iki özelliği çıkarmak için select() kullanıyoruz. Ardından, Scikit-learn algoritması Pandas DataFrame formatı gerektirdiğinden, veri kümesini bir PySpark DataFrame'den bir Pandas DataFrame'e dönüştürürüz.
Sonra, Scikit-learn kullanıyoruz CountVectorizer
ayarlayarak gözden geçirme metnini bir bigram vektörüne dönüştürmek için ngram_range
maksimum değer 2'dir. CountVectorizer
metni bir belirteç sayısı matrisine dönüştürür. Sonra kullanırız TfidfTransformer
bigram vektörünü bir terim frekansı-ters belge frekansı (TF-IDF) formatına dönüştürmek için.
Bigram vektörü ile yapılan antrenman için doğruluk puanlarını TF-IDF ile bigram ile karşılaştırıyoruz. TF-IDF, bir belge koleksiyonundaki bir kelimenin bir belgeyle ne kadar alakalı olduğunu değerlendiren istatistiksel bir ölçüdür. İnceleme metni nispeten kısa olma eğiliminde olduğundan, TF-IDF'nin tahmine dayalı modelin performansını nasıl etkilediğini gözlemleyebiliriz.
Bir MLflow denemesi oluşturun
MLflow, Databricks tarafından geliştirildi ve artık bir açık kaynaklı proje. MLflow, deneyleri kolayca izleyebilmeniz, yeniden oluşturabilmeniz ve yayınlayabilmeniz için makine öğrenimi yaşam döngüsünü yönetir.
MLflow deneylerini ayarlamak için şunu kullanırız: mlflow.sklearn.autolog()
hiperparametrelerin, metriklerin ve model yapılarının otomatik olarak günlüğe kaydedilmesini sağlamak için estimator.fit()
, estimator.fit_predict()
, ve estimator.fit_transform()
arandı. Alternatif olarak, bunu arayarak manuel olarak da yapabilirsiniz. mlflow.log_param()
ve mlflow.log_metric()
.
Dönüştürülen veri kümesini, Stokastik Gradyan İniş (SGD) öğrenimi ile doğrusal bir sınıflandırıcıya sığdırdık. SGD ile, kaybın gradyanı her seferinde bir numune olarak tahmin edilir ve model, azalan bir mukavemet çizelgesi ile yol boyunca güncellenir.
Daha önce hazırladığımız bu iki veri seti, train_and_show_scores()
eğitim için işlev. Eğitimden sonra bir model kaydetmemiz ve eserlerini kaydetmemiz gerekiyor. Kullanırız mlflow.sklearn.log_model()
Bunu yapmak için.
Yerleştirmeden önce, deneyin sonuçlarına bakarız ve karşılaştırmak için iki deney seçeriz (biri bigram için, diğeri TF-IDF ile bigram için). Bizim kullanım durumumuzda, bigram TF-IDF ile eğitilen ikinci model biraz daha iyi performans gösterdi, bu yüzden dağıtmak için bu modeli seçtik. Model kaydedildikten sonra, model aşamasını üretime çevirerek modeli devreye alıyoruz. Bunu MLflow kullanıcı arayüzünde veya kullanarak kodda gerçekleştirebiliriz. transition_model_version_stage()
.
Modeli bir SageMaker uç noktası olarak dağıtın ve test edin
Eğitilmiş modeli dağıtmadan önce, modeli SageMaker'da barındırmak için bir Docker kapsayıcısı oluşturmamız gerekir. Bunu, kapsayıcıyı oluşturan ve ona iten basit bir MLflow komutu çalıştırarak yapıyoruz. Amazon Elastik Konteyner Kayıt Defteri (Amazon ECR) AWS hesabımızda.
Artık görüntü URI'sini Amazon ECR konsolunda bulabiliriz. Resim URI'sini bir image_url
parametre ve kullanım DEPLOYMENT_MODE_CREATE
bu yeni bir dağıtım ise mode parametresi için. Mevcut bir uç noktayı yeni bir sürümle güncelliyorsanız, şunu kullanın: DEPLOYMENT_MODE_REPLACE
.
SageMaker uç noktasını test etmek için, parametresi olarak uç nokta adını ve girdi verilerini alan bir işlev yaratırız.
Sonuç
Bu gönderide, ham bir veri kümesini etiketlemek için Temel Gerçeği nasıl kullanacağınızı ve Scikit-learn kullanarak basit bir doğrusal sınıflandırıcıyı eğitmek için etiketli verileri nasıl kullanacağınızı gösterdik. Bu örnekte, hiperparametreleri ve ölçümleri izlemek, üretim düzeyinde bir model kaydetmek ve eğitilmiş modeli bir uç nokta olarak SageMaker'a dağıtmak için MLflow kullanıyoruz. Verileri işlemek için Databricks ile birlikte, tüm bu kullanım durumunu otomatikleştirebilirsiniz, böylece yeni veriler eklendikçe etiketlenebilir ve modele işlenebilir. Bu ardışık düzenleri ve modelleri otomatikleştirerek, veri bilimi ekipleri zamanlarını günlük olarak veri güncellemelerini yönetmekle harcamak yerine yeni kullanım senaryolarına odaklanabilir ve daha fazla içgörü ortaya çıkarabilir.
Başlamak için, kontrol edin Verileri Etiketlemek için Amazon SageMaker Temel Gerçeği Kullanın ve kayıt olun AWS'de Databricks'in 14 günlük ücretsiz deneme sürümü. Databricks'in SageMaker ve aşağıdakiler gibi diğer AWS hizmetleriyle nasıl entegre olduğu hakkında daha fazla bilgi edinmek için AWS Tutkal ve Amazon Kırmızıya KaydırmaZiyaret AWS'deki Veri Tuğlaları.
Ek olarak, bu gönderide kullanılan aşağıdaki kaynaklara göz atın:
Aşağıdakileri kullanın defter Başlamak için.
Yazarlar Hakkında
Rumi Olsen AWS Çözüm Ortağı Programında bir Çözüm Mimarıdır. Mevcut görevinde sunucusuz ve makine öğrenimi çözümlerinde uzmanlaşmıştır ve doğal dil işleme teknolojilerinde bir geçmişe sahiptir. Boş zamanlarının çoğunu kızıyla birlikte Kuzeybatı Pasifik'in doğasını keşfederek geçirir.
Igor Alekseev, AWS'de Veri ve Analitikte İş Ortağı Çözüm Mimarıdır. Igor, karmaşık, AWS için optimize edilmiş mimariler oluşturmalarına yardımcı olan stratejik ortaklarla birlikte çalışır. AWS'ye Veri/Çözüm Mimarı olarak katılmadan önce, Hadoop ekosistemindeki çeşitli veri gölleri de dahil olmak üzere Büyük Veri'de birçok projeyi hayata geçirdi. Bir Veri Mühendisi olarak, sahtekarlık tespiti ve ofis otomasyonuna AI/ML uygulamasında yer aldı. Igor'un projeleri iletişim, finans, kamu güvenliği, üretim ve sağlık dahil olmak üzere çeşitli sektörlerdeydi. Daha önce, Igor tam yığın mühendis/teknoloji lideri olarak çalıştı.
Nasır Ahmed Databricks'te AWS işini destekleyen Kıdemli İş Ortağı Çözümleri Mimarıdır. Naseer, AWS'de Veri Ambarı, İş Zekası, Uygulama geliştirme, Kapsayıcı, Sunucusuz, Makine Öğrenimi Mimarilerinde uzmanlaşmıştır. Databricks'te yılın 2021 KOBİ'si seçildi ve hevesli bir kripto meraklısı.
- Akıllı para. Avrupa'nın En İyi Bitcoin ve Kripto Borsası.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. SERBEST ERİŞİM.
- KriptoHawk. Altcoin Radarı. Ücretsiz deneme.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/build-an-mlops-sentiment-analysis-pipeline-using-amazon-sagemaker-ground-truth-and-databricks-mlflow/
- "
- 100
- 2021
- 3d
- Hakkımızda
- Hesap
- doğru
- ilave
- algoritma
- Türkiye
- Amazon
- analiz
- analytics
- uygulamayı yükleyeceğiz
- Uygulama geliştirme
- Uygulanması
- yaklaşım
- ses
- Oto
- Otomasyon
- mevcut
- AWS
- arka fon
- temel
- büyük Veri
- inşa etmek
- bina
- inşa
- yerleşik
- iş
- iş zekası
- araba
- durumlarda
- Kategoriler
- Klinik
- sınıflandırma
- kod
- Toplamak
- İletişim
- karmaşık
- konsolos
- Konteyner
- içeren
- maliyetler
- çevrimiçi kurslar düzenliyorlar.
- Oluşturma
- kripto
- akım
- görenek
- veri
- veri bilimi
- derin
- dağıtmak
- dağıtma
- açılma
- Bulma
- gelişmiş
- gelişme
- zor
- dağıtım
- liman işçisi
- evraklar
- Değil
- sürücü
- kolayca
- ekosistem
- etkinleştirmek
- Son nokta
- mühendis
- gerekli
- tahmini
- örnek
- deneme
- Özellikler
- Alanlar
- Nihayet
- maliye
- uygun
- odak
- takip etme
- biçim
- dolandırıcılık
- Ücretsiz
- tam
- işlev
- oluşturmak
- gol
- gidiş
- sağlık
- Yüksek
- büyük ölçüde
- Ne kadar
- Nasıl Yapılır
- HTTPS
- insan
- İnsanlar
- Yüzlerce
- Kimlik
- belirlemek
- görüntü
- uygulanan
- Dahil olmak üzere
- Endüstri
- giriş
- anlayışlar
- İstihbarat
- ilgili
- IT
- İş
- Mesleki Öğretiler
- anahtar
- etiketleme
- Etiketler
- emek
- dil
- öncülük etmek
- ÖĞRENİN
- öğrenme
- seviye
- Kütüphane
- bağlantılar
- yük
- makine
- makine öğrenme
- yapılmış
- YAPAR
- yönetilen
- yönetim
- yönetme
- el ile
- üretim
- Matris
- ölçmek
- Metrikleri
- karışık
- ML
- model
- modelleri
- izlemek
- Daha
- çoğu
- hareket
- Doğal (Madenden)
- Tabiat
- defter
- numara
- Teklifler
- sipariş
- organizasyonlar
- Diğer
- Pasifik
- Partner
- ortaklar
- performans
- kişi
- platform
- Nokta
- pozitif
- Sorun
- süreç
- üretim
- Programı
- Projeler
- sağlamak
- halka açık
- yayınlamak
- Çiğ
- gerçek zaman
- kayıtlar
- kayıt olmak
- kayıtlı
- uygun
- gereklidir
- Kaynaklar
- Sonuçlar
- yorum
- Yorumları
- koşmak
- koşu
- Güvenlik
- Bilim
- duygu
- Serverless
- hizmet
- Hizmetler
- set
- ayar
- kısa
- Basit
- So
- çözüm
- Çözümler
- ÇÖZMEK
- uzmanlaşmış
- Harcama
- yığın
- Aşama
- başlama
- başladı
- istatistiksel
- hafızası
- Stratejik
- destek
- Destek
- Hedef
- görevleri
- takım
- Teknolojileri
- test
- İçinden
- zaman
- simge
- araç
- iz
- Eğitim
- Dönüştürmek
- deneme
- Öğreticiler
- ui
- nihai
- ortaya çıkarmak
- Güncellemeler
- kullanım
- genellikle
- değer
- çeşitlilik
- Video
- Görüntüle
- olup olmadığını
- olmadan
- İş
- işlenmiş
- çalışır
- yıl