Derleyin, Paylaşın, Dağıtın: İş Analistleri ve Veri Bilimciler Kodsuz Makine Öğrenimi ve Amazon SageMaker Canvas'ı Kullanarak Pazara Çıkış Süresini Nasıl Daha Hızlı Elde Ediyor?

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Makine öğrenimi (ML), talep tahmini, kredi puanlama, fiyatlandırma, müşteri kaybını tahmin etme, sonraki en iyi teklifleri belirleme, geç sevkiyatları tahmin etme ve çok sayıda dikeyde temel iş işlevlerini optimize ederek kuruluşların geliri artırmalarına, iş büyümesini yönlendirmelerine ve maliyetleri düşürmelerine yardımcı olur. üretim kalitesinin iyileştirilmesi. Geleneksel makine öğrenimi geliştirme döngüleri aylar alır ve kıt veri bilimi ve makine öğrenimi mühendisliği becerileri gerektirir. Analistlerin ML modelleri için fikirleri genellikle veri bilimi ekibinin bant genişliğini bekleyen uzun birikmiş iş listelerinde otururken, veri bilimcileri tüm becerilerini gerektiren daha karmaşık ML projelerine odaklanır.

Bu açmazı kırmaya yardımcı olmak için, Amazon SageMaker Canvas'ı tanıttı, şirketlerin makine öğrenimi çözümlerinin teslimini saatler veya günler içinde hızlandırmasına yardımcı olabilecek kodsuz bir makine öğrenimi çözümü. SageMaker Canvas, analistlerin veri göllerinde, veri ambarlarında ve operasyonel veri depolarında mevcut verileri kolayca kullanmasını sağlar; ML modelleri oluşturmak; ve bunları tek bir kod satırı yazmadan etkileşimli olarak tahminler yapmak ve toplu veri kümelerinde toplu puanlama yapmak için kullanın.

Bu gönderide, SageMaker Canvas'ın veri bilimcileri ve iş analistleri arasında işbirliğini nasıl sağladığını, daha hızlı pazara sunma süresini nasıl sağladığını ve makine öğrenimi çözümlerinin geliştirilmesini nasıl hızlandırdığını gösteriyoruz. Analistler, bir ML uzmanı olmak zorunda kalmadan SageMaker Canvas'ta kendi kodsuz ML çalışma alanlarına sahip olurlar. Analistler daha sonra birkaç tıklamayla Canvas'taki modellerini paylaşabilir; bu, veri bilimcilerin Amazon SageMaker Stüdyosu, bir uçtan uca ML tümleşik geliştirme ortamı (IDE). İş analistleri birlikte çalışarak kendi alan bilgilerini ve deney sonuçlarını getirebilirken, veri bilimciler etkili bir şekilde boru hatları oluşturabilir ve süreci düzenleyebilir.

İş akışının nasıl görüneceğine derinlemesine bakalım.

İş analistleri bir model oluşturur, sonra paylaşır

SageMaker Canvas'ın iş analistleri ve veri bilimcileri (veya makine öğrenimi mühendisleri) arasındaki işbirliğini nasıl basitleştirdiğini anlamak için önce sürece bir iş analisti olarak yaklaşıyoruz. Başlamadan önce, bkz. Amazon SageMaker Canvas – İş Analistleri için Görsel, Kodsuz Makine Öğrenimi Yeteneği Duyurusu Modeli SageMaker Canvas ile oluşturma ve test etme talimatları için.

Bu gönderi için, değiştirilmiş bir sürümünü kullanıyoruz Kredi Kartı Dolandırıcılık Tespiti veri kümesi İkili sınıflandırma problemi için iyi bilinen bir veri seti olan Kaggle'dan. Veri kümesi orijinal olarak oldukça dengesizdir—negatif sınıf (anormal işlemler) olarak sınıflandırılan çok az girişe sahiptir. Hedef özellik dağılımından bağımsız olarak, bu veri setini hala kullanabiliriz çünkü SageMaker Canvas bu dengesizliği bir modeli otomatik olarak eğitirken ve ayarlarken ele alır. Bu veri seti yaklaşık 9 milyon hücreden oluşmaktadır. Ayrıca bir indirebilirsiniz bu veri kümesinin azaltılmış versiyonu. Veri kümesi boyutu, yaklaşık 500,000 hücrede çok daha küçüktür, çünkü bu işlem sırasında mümkün olduğu kadar az bilginin kaybolmasını sağlamak için SMOTE tekniği ile rastgele olarak eksik örneklenmiş ve daha sonra aşırı örneklenmiştir. Bu azaltılmış veri kümesiyle tam bir deneme yürütmenin maliyeti SageMaker Canvas Ücretsiz Katmanı kapsamında 0 ABD dolarıdır.

Model oluşturulduktan sonra analistler, bireysel istekler veya toplu olarak bir girdi veri kümesinin tamamı için doğrudan Canvas'ta tahminler yapmak için kullanabilir.

Canvas Standard Build ile oluşturulan modeller, SageMaker Studio kullanan veri bilimcileri ve makine öğrenimi mühendisleriyle tek bir tıklamayla kolayca paylaşılabilir. Bu, bir veri bilimcinin oluşturduğunuz modelin performansını doğrulamasına ve geri bildirim sağlamasına olanak tanır. Makine öğrenimi mühendisleri, modelinizi alabilir ve onu, şirketinize ve müşterilerinize sunulan mevcut iş akışları ve ürünlerle entegre edebilir. Yazma sırasında, Canvas Quick Build ile oluşturulmuş bir modeli veya bir zaman serisi tahmin modelini paylaşmanın mümkün olmadığını unutmayın.

Canvas UI aracılığıyla bir model paylaşmak basittir:

Oluşturduğunuz modelleri gösteren sayfada bir model seçin.
Klinik paylaş.
Paylaşmak istediğiniz modelin bir veya daha fazla sürümünü seçin.
İsteğe bağlı olarak, aradığınız model veya yardım hakkında daha fazla bağlam sağlayan bir not ekleyin.
Klinik SageMaker Studio Bağlantısı Oluşturun.
Oluşturulan bağlantıyı kopyalayın.

Ve bu kadar! Artık bağlantıyı iş arkadaşlarınızla Slack, e-posta veya tercih ettiğiniz başka bir yöntemle paylaşabilirsiniz. Modelinize erişmek için veri bilimcisinin aynı SageMaker Studio etki alanında olması gerekir, bu nedenle kuruluş yöneticinizle ilgili durumun böyle olduğundan emin olun.

Veri bilimcileri, model bilgilerine SageMaker Studio'dan erişiyor

Şimdi, bir veri bilimcisi veya makine öğrenimi mühendisi rolünü oynayalım ve SageMaker Studio'yu kullanarak olaylara onların bakış açısından bakalım.

Analist tarafından paylaşılan bağlantı, bizi uçtan uca ML iş akışı için ilk bulut tabanlı IDE olan SageMaker Studio'ya götürüyor.

Sekme otomatik olarak açılır ve analist tarafından SageMaker Canvas'ta oluşturulan modele genel bir bakış gösterir. Modelin adını, makine öğrenimi problem türünü, model sürümünü ve modeli hangi kullanıcının oluşturduğunu (Tuval kullanıcı kimliği alanı altında) hızlı bir şekilde görebilirsiniz. Ayrıca giriş veri seti ve SageMaker'ın üretebildiği en iyi model hakkındaki ayrıntılara da erişebilirsiniz. Bunu yazının ilerleyen bölümlerinde ele alacağız.

Üzerinde Girdi Veri Kümesi sekmesinde, kaynaktan giriş veri kümesine veri akışını da görebilirsiniz. Bu durumda, yalnızca bir veri kaynağı kullanılır ve hiçbir birleştirme işlemi uygulanmaz, bu nedenle tek bir kaynak gösterilir. Seçerek veri seti ile ilgili istatistikleri ve detayları analiz edebilirsiniz. Veri keşif not defterini aç. Bu not defteri, modeli eğitmeden önce mevcut olan verileri keşfetmenize olanak tanır ve hedef değişkenin bir analizini, girdi verilerinin bir örneğini, sütun ve satırların istatistiklerini ve açıklamalarını ve ayrıca veri bilimcisinin yararlanabileceği diğer yararlı bilgileri içerir. veri kümesi hakkında daha fazla bilgi edinin. Bu rapor hakkında daha fazla bilgi edinmek için bkz. Veri keşif raporu.

Girdi veri setini analiz ettikten sonra, modele genel bakışın ikinci sekmesine geçelim, AutoML İşi. Bu sekme, SageMaker Canvas'ta Standart Oluşturma seçeneğini belirlediğinizde AutoML işinin bir açıklamasını içerir.

SageMaker Canvas'ın altındaki AutoML teknolojisi, bina ML modellerinin ağır yükünü ortadan kaldırır. Otomatik bir yaklaşım kullanarak verilerinize dayalı olarak en iyi ML modelini otomatik olarak oluşturur, eğitir ve ayarlarken tam kontrol ve görünürlüğü korumanıza olanak tanır. Oluşturulan aday modellerin yanı sıra AutoML işlemi sırasında kullanılan hiper parametreler üzerindeki bu görünürlük, aday nesil not defteri, bu sekmede mevcuttur.

The AutoML İşi sekmesi ayrıca, AutoML sürecinin bir parçası olarak oluşturulan her modelin F1 amaç metriğine göre sıralanmış bir listesini içerir. Başlatılan eğitim işlerinden en iyi modeli vurgulamak için yeşil daireli bir etiket kullanılır. En İyi Model kolon. Doğruluk puanı ve Eğrinin Altındaki Alan (AUC) gibi eğitim ve değerlendirme aşamasında kullanılan diğer metrikleri de kolayca görselleştirebilirsiniz. Bir AutoML işi sırasında eğitebileceğiniz modeller ve eğitilen modelin performanslarını değerlendirmek için kullanılan metrikler hakkında daha fazla bilgi edinmek için bkz. Model desteği, ölçümler ve doğrulama.

Model hakkında daha fazla bilgi edinmek için artık en iyi modele sağ tıklayıp seçim yapabilirsiniz. Model ayrıntılarında aç. Alternatif olarak, En iyi model üstteki link Modele genel bakış ilk ziyaret ettiğiniz bölüm.

Model ayrıntıları sayfası, bu girdi verileriyle en iyi performansı gösteren modelle ilgili çok sayıda yararlı bilgi içerir. Önce sayfanın üst kısmındaki özete odaklanalım. Yukarıdaki örnek ekran görüntüsü, yüzlerce model eğitim çalışmasından bir XGBoost modelinin girdi veri kümesinde en iyi performansı gösterdiğini göstermektedir. Bu yazının yazıldığı sırada, SageMaker Canvas üç tür ML algoritması eğitebilir: doğrusal öğrenici, XGBoost ve çok katmanlı algılayıcı (MLP), her biri çok çeşitli ön işleme ardışık düzenleri ve hiper parametrelere sahip. Her bir algoritma hakkında daha fazla bilgi edinmek için bkz. desteklenen algoritmalar sayfası.

SageMaker ayrıca ölçeklenebilir ve verimli bir uygulama sayesinde açıklayıcı bir işlevsellik içerir. ÇekirdekSHAPHer bir özelliğe belirli bir tahmin için bir önem değeri atayan işbirlikçi oyun teorisi alanından bir Shapley değeri kavramına dayalıdır. Bu, modelin tahminlerine nasıl ulaştığı konusunda şeffaflık sağlar ve özelliğin önemini tanımlamak çok faydalıdır. Özelliğin önemini içeren eksiksiz bir açıklanabilirlik raporu PDF, not defteri veya ham veri formatında indirilebilir. Bu raporda, AutoML işi sırasında kullanılan hiper parametrelerin tam listesinin yanı sıra daha geniş bir ölçüm kümesi gösterilir. SageMaker'ın AutoML çözümleri ve standart ML algoritmaları için nasıl entegre açıklanabilirlik araçları sağladığı hakkında daha fazla bilgi edinmek için bkz. Amazon SageMaker Autopilot'u kullanarak entegre açıklanabilirlik araçlarını kullanın ve model kalitesini iyileştirin.

Son olarak, bu görünümdeki diğer sekmeler, performans ayrıntıları (karışıklık matrisi, hassas geri çağırma eğrisi, ROC eğrisi), girdiler için kullanılan ve AutoML işi sırasında oluşturulan yapay nesneler ve ağ ayrıntıları hakkında bilgileri gösterir.

Bu noktada, veri bilimcisinin iki seçeneği vardır: modeli doğrudan dağıtmak veya manuel veya otomatik olarak planlanabilen veya tetiklenebilen bir eğitim hattı oluşturmak. Aşağıdaki bölümler, her iki seçeneğe ilişkin bazı bilgiler sağlar.

Modeli doğrudan dağıtın

Veri bilimcisi, AutoML işi tarafından elde edilen sonuçlardan memnunsa, modeli doğrudan Model Ayrıntıları sayfa. Seçmek kadar basit Modeli dağıt model adının yanında.

SageMaker, dağıtım için size iki seçenek gösterir: tarafından desteklenen gerçek zamanlı bir uç nokta. Amazon SageMaker uç noktaları, ve toplu çıkarım, tarafından desteklenmektedir Amazon SageMaker toplu dönüşümü.

SageMaker ayrıca başka çıkarım modları da sağlar. Daha fazla bilgi edinmek için bkz. Çıkarım için Modelleri Dağıt.

Gerçek zamanlı tahminler modunu etkinleştirmek için uç noktaya bir ad, örnek türü ve örnek sayısı vermeniz yeterlidir. Bu model yoğun bilgi işlem kaynakları gerektirmediğinden, başlangıç sayısı 1 olan CPU tabanlı bir örnek kullanabilirsiniz. Amazon SageMaker Fiyatlandırma sayfası (içinde İsteğe Bağlı Fiyatlandırma bölüm, seçin Gerçek Zamanlı Çıkarım sekmesi). Dağıtımınız için hangi örneği seçmeniz gerektiğini bilmiyorsanız, aşağıdakileri kullanarak SageMaker'dan KPI'larınıza göre sizin için en iyisini bulmasını da isteyebilirsiniz. SageMaker Çıkarım Öneri Aracı. Ayrıca, uç noktadan veya uç noktadan istek ve yanıt verilerini yakalamak isteyip istemediğinize ilişkin isteğe bağlı ek parametreler de sağlayabilirsiniz. planlıyorsanız bu yararlı olabilir. modelinizi izleme. Ayrıca, yanıtınızın bir parçası olarak hangi içeriği sağlamak istediğinizi de seçebilirsiniz - bu yalnızca tahmin mi yoksa tahmin olasılığı mı, tüm sınıfların olasılığı ve hedef etiketler olsun.

Tek seferde tüm girdiler için tahminler alarak toplu puanlama işi çalıştırmak için, toplu dönüştürme işini şuradan başlatabilirsiniz: AWS Yönetim Konsolu veya SageMaker Python SDK aracılığıyla. Toplu dönüştürme hakkında daha fazla bilgi edinmek için bkz. Toplu Dönüştürmeyi Kullan ve örnek defterler.

Bir eğitim hattı tanımlayın

ML modelleri çok nadiren statik ve değişmez olarak kabul edilebilir, çünkü eğitildikleri temel çizgiden saparlar. Gerçek dünya verileri zamanla gelişir ve ondan, tarihsel veriler üzerinde eğitilmiş orijinal model tarafından yakalanan veya yakalanmayan daha fazla kalıp ve içgörü ortaya çıkar. Bu sorunu çözmek için, modellerinizi mevcut en son verilerle otomatik olarak yeniden eğiten bir eğitim hattı oluşturabilirsiniz.

Bu ardışık düzeni tanımlarken, veri bilimcisinin seçeneklerinden biri, eğitim hattı için bir kez daha AutoML kullanmaktır. Create_auto_ml_job() API'sini şuradan çağırarak programlı olarak bir AutoML işi başlatabilirsiniz. AWS Boto3 SDK'sı. Bu işlemi bir AWS Lambda içinde işlev AWS Basamak İşlevleri iş akışından veya bir LambdaStep'ten Amazon SageMaker Ardışık Düzenleri.

Alternatif olarak, veri bilimcisi, eksiksiz bir eğitim hattı tanımlamak için AutoML işinden elde edilen bilgileri, yapıları ve hiper parametreleri kullanabilir. Aşağıdaki kaynaklara ihtiyacınız var:

Kullanım durumu için en iyi sonucu veren algoritma – Bu bilgiyi Canvas tarafından oluşturulan modelin özetinden zaten aldınız. Bu kullanım durumu için, XGBoost yerleşik algoritmasıdır. SageMaker ile XGBoost algoritmasını eğitmek için SageMaker Python SDK'nın nasıl kullanılacağına ilişkin talimatlar için bkz. SageMaker Python SDK ile XGBoost kullanın.

AutoML işi tarafından türetilen hiperparametreler – Bunlar şurada mevcuttur: Açıklanabilirlik Bölüm. SageMaker Python SDK ile eğitim işini tanımlarken bunları girdi olarak kullanabilirsiniz.

Yapılar bölümünde sağlanan özellik mühendisliği kodu – Bu kodu, hem eğitimden önce (örneğin, Amazon SageMaker İşleme yoluyla) hem de çıkarımdan önce (örneğin, bir SageMaker çıkarım hattının parçası olarak) verileri ön işlemek için kullanabilirsiniz.

Bu kaynakları bir SageMaker işlem hattının parçası olarak birleştirebilirsiniz. Bu gönderideki uygulama ayrıntılarını atlıyoruz; bu konuyla ilgili daha fazla içerik için bizi izlemeye devam edin.

Sonuç

SageMaker Canvas, herhangi bir kod yazmanıza gerek kalmadan tahminler oluşturmak için ML kullanmanıza olanak tanır. Bir iş analisti, yerel veri kümeleriyle ve halihazırda depolanmış verilerle özerk olarak kullanmaya başlayabilir. Amazon Basit Depolama Hizmeti (Amazon S3), Amazon Kırmızıya Kaydırmaveya Kar Tanesi. Yalnızca birkaç tıklamayla veri kümelerini hazırlayabilir ve birleştirebilir, tahmini doğruluğu analiz edebilir, hangi sütunların etkili olduğunu doğrulayabilir, en iyi performans gösteren modeli eğitebilir ve yeni bireysel veya toplu tahminler oluşturabilir, bunların hepsini uzman bir veri bilimcisi çekmeye gerek duymadan gerçekleştirebilirler. Ardından, gerektiğinde modeli, modelleri SageMaker Studio'ya aktaran ve bir üretim çözümü sunmak için analistle birlikte çalışan bir veri bilimcisi veya MLOps mühendisleri ekibiyle paylaşabilirler.

İş analistleri, makine öğrenimi diplomasına sahip olmadan ve tek bir kod satırı yazmak zorunda kalmadan verilerinden bağımsız olarak içgörüler elde edebilir. Veri bilimcilerin artık kapsamlı AI ve ML bilgilerini daha iyi kullanabilecek daha zorlu projeler üzerinde çalışmak için ek zamanları olabilir.

Bu yeni işbirliğinin işletmeniz için çok daha güçlü makine öğrenimi çözümleri oluşturmanın kapısını açtığına inanıyoruz. Artık veri bilimcilerin ve makine öğrenimi mühendislerinin gerektiğinde iyileştirme, ayarlama ve genişletmeye yardımcı olmasına izin verirken, değerli iş içgörüleri üreten analistleriniz var.

Ek kaynaklar

SageMaker'ın iş analistlerine nasıl daha fazla yardımcı olabileceği hakkında daha fazla bilgi edinmek için bkz. İş Analistleri için Amazon SageMaker.
SageMaker'ın veri bilimcilerin makine öğrenimi modellerini geliştirmelerine, eğitmelerine ve dağıtmalarına nasıl izin verdiği hakkında daha fazla bilgi edinmek için şu adrese göz atın: Veri Bilimciler için Amazon SageMaker.
SageMaker'ın MLOps mühendislerine MLOps kullanarak makine öğrenimi yaşam döngüsünü düzenlemede nasıl yardımcı olabileceği hakkında daha fazla bilgi için bkz. MLOps Mühendisleri için Amazon SageMaker.

Yazarlar Hakkında

Davide Gallitelli EMEA bölgesinde AI/ML için Uzman Çözüm Mimarıdır. Merkezi Brüksel'dedir ve Benelüks genelindeki müşterilerle yakın işbirliği içinde çalışmaktadır. Çok küçük yaşlardan beri geliştiricidir, 7 yaşında kodlamaya başlar. Üniversitede AI/ML öğrenmeye başladı ve o zamandan beri ona aşık oldu.

Mark Roy AWS için Başlıca Makine Öğrenimi Mimarıdır ve müşterilerin AI / ML çözümleri tasarlamasına ve oluşturmasına yardımcı olur. Mark'ın çalışması, temel ilgi alanı bilgisayarla görme, derin öğrenme ve kurum genelinde ML'yi ölçeklendirmeye yönelik çok çeşitli makine öğrenimi kullanım örneklerini kapsar. Sigorta, finansal hizmetler, medya ve eğlence, sağlık hizmetleri, kamu hizmetleri ve imalat dahil birçok sektördeki şirketlere yardım etti. Mark, ML Uzmanlık Sertifikası da dahil olmak üzere altı AWS sertifikasına sahiptir. Mark, AWS'ye katılmadan önce, 25 yılı finansal hizmetler dahil olmak üzere 19 yılı aşkın süredir mimar, geliştirici ve teknoloji lideriydi.

Zaman Damgası: 10 Mart, 2022

Zaman Damgası: Temmuz 20, 2022

Plato tarafından yeniden yayınlandı

Teknik Rapor: Sağlık ve Yaşam Bilimlerinde Makine Öğrenimi En İyi Uygulamaları

Amazon SageMaker Pipelines yerel moduyla maliyeti ve geliştirme süresini azaltın

Amazon SageMaker, HashiCorp Terraform ve GitLab CI/CD'yi kullanarak model izleme ve yeniden eğitim ile toplu çıkarım için MLOps | Amazon Web Hizmetleri

Veri deneyimini yeniden keşfetme: Öngörüleri ortaya çıkarmak için üretken yapay zekayı ve modern veri mimarisini kullanın | Amazon Web Hizmetleri

Amazon Rekognition ve Amazon Textract kullanarak belgeleri denetleyin, sınıflandırın ve işleyin

AWS Media Intelligence ve Hugging Face BERT kullanarak sınıflandırma tabanlı bağlamsal hedefleme oluşturun

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap