Amazon SageMaker'da Kodsuz Bir Risk Yönetimi Makine Öğrenimi İş Akışı Oluşturun

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Küresel mali krizden bu yana, risk yönetimi, potansiyel müşteriler için kredi durumunu tahmin etmek de dahil olmak üzere, bankaların karar verme sürecini şekillendirmede önemli bir rol üstlenmiştir. Bu genellikle makine öğrenimi (ML) gerektiren veri açısından yoğun bir alıştırmadır. Ancak, tüm kuruluşlar bir risk yönetimi ML iş akışı oluşturmak için veri bilimi kaynaklarına ve uzmanlığına sahip değildir.

Amazon Adaçayı Yapıcı veri mühendislerinin ve iş analistlerinin makine öğrenimi modellerini hızlı ve kolay bir şekilde oluşturmasına, eğitmesine ve dağıtmasına olanak tanıyan tam olarak yönetilen bir makine öğrenimi platformudur. Veri mühendisleri ve iş analistleri, SageMaker'ın kodsuz/düşük kodlu özelliklerini kullanarak işbirliği yapabilir. Veri mühendisleri kullanabilir Amazon SageMaker Veri Düzenleyicisi kod yazmadan model oluşturma için verileri hızlı bir şekilde toplamak ve hazırlamak için. Daha sonra iş analistleri, aşağıdaki görsel işaretle ve tıkla arayüzünü kullanabilir: Amazon SageMaker Tuval kendi başlarına doğru ML tahminleri oluşturmak için.

Bu gönderide, veri mühendisleri ve iş analistlerinin kod yazmadan veri hazırlama, model oluşturma ve çıkarım içeren bir ML iş akışı oluşturmak için işbirliği yapmasının ne kadar basit olduğunu gösteriyoruz.

Çözüme genel bakış

Makine öğrenimi geliştirme karmaşık ve yinelemeli bir süreç olsa da, bir makine öğrenimi iş akışını veri hazırlama, model geliştirme ve model yerleştirme aşamalarına genelleştirebilirsiniz.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Data Wrangler ve Canvas, veri hazırlama ve model geliştirmenin karmaşıklıklarını soyutlar, böylece kod geliştirme konusunda uzman olmadan verilerinizden içgörüler alarak işinize değer sağlamaya odaklanabilirsiniz. Aşağıdaki mimari diyagram, kodsuz/düşük kodlu bir çözümdeki bileşenleri vurgulamaktadır.

Amazon Basit Depolama Hizmeti (Amazon S3), ham veriler, mühendislik verileri ve model yapıları için veri havuzumuz olarak işlev görür. Ayrıca verileri içe aktarmayı da seçebilirsiniz. Amazon Kırmızıya Kaydırma, Amazon Atina, Databricks ve Kar Tanesi.

Veri bilimcileri olarak, keşif amaçlı veri analizi ve özellik mühendisliği için Data Wrangler'ı kullanıyoruz. Canvas özellik mühendisliği görevlerini yürütebilse de, özellik mühendisliği genellikle bir veri kümesini model geliştirme için doğru biçimde zenginleştirmek için bazı istatistiksel ve alan bilgisi gerektirir. Bu nedenle, Data Wrangler ile kod yazmadan verileri dönüştürebilmeleri için bu sorumluluğu veri mühendislerine veriyoruz.

Veri hazırlığından sonra, herhangi bir kod yazmak zorunda kalmadan bir modeli eğitmek için Canvas'ı kullanabilen veri analistlerine model oluşturma sorumluluklarını aktarıyoruz.

Son olarak, model uç noktalarını kendimiz dağıtmak zorunda kalmadan elde edilen modelden doğrudan Canvas içinde tek ve toplu tahminler yaparız.

Veri kümesine genel bakış

Lending Club'ın değiştirilmiş bir sürümünü kullanarak bir kredinin durumunu tahmin etmek için SageMaker özelliklerini kullanıyoruz. halka açık kredi analizi veri seti. Veri seti, 2007–2011 arasında verilen krediler için kredi verilerini içerir. Krediyi ve borçluyu tanımlayan sütunlar özelliklerimizdir. Kredi_durumu sütunu, tahmin etmeye çalıştığımız hedef değişkendir.

Data Wrangler'da göstermek için veri setini iki CSV dosyasına böldük: Bölüm Bir ve Bölüm iki. Demoyu basitleştirmek için Lending Club'ın orijinal veri kümesinden bazı sütunları kaldırdık. Veri kümemiz, aşağıdaki tabloda açıklandığı gibi 37,000'den fazla satır ve 21 özellik sütunu içerir.

Sütun adı	Açıklama
`loan_status`	Kredinin mevcut durumu (hedef değişken).
`loan_amount`	Borçlunun başvurduğu kredinin listelenen tutarı. Kredi departmanı kredi tutarını düşürürse bu değere yansır.
`funded_amount_by_investors`	Yatırımcılar tarafından o dönemde söz konusu kredi için taahhüt edilen toplam tutar.
`term`	Kredi ödemelerinin sayısı. Değerler ay cinsindendir ve 36 veya 60 olabilir.
`interest_rate`	Kredi faiz oranı.
`installment`	Kredinin ortaya çıkması durumunda borçlunun borçlu olduğu aylık ödeme.
`grade`	LC tarafından atanan kredi notu.
`sub_grade`	LC tarafından atanan kredi alt notu.
`employment_length`	İstihdam süresi yıl olarak. Olası değerler 0-10 arasındadır; burada 0, bir yıldan az ve 10, on veya daha fazla yıl anlamına gelir.
`home_ownership`	Kayıt sırasında borçlu tarafından sağlanan ev sahipliği durumu. Değerlerimiz KİRA, KENDİ, İpotek ve DİĞER'dir.
`annual_income`	Kayıt sırasında borçlu tarafından sağlanan, kendi bildirdiği yıllık gelir.
`verification_status`	Gelirin LC tarafından doğrulanıp doğrulanmadığını gösterir.
`issued_amount`	Kredinin finanse edildiği ay.
`purpose`	Borçlu tarafından kredi talebi için sağlanan bir kategori.
`dti`	İpotek ve talep edilen LC kredisi hariç olmak üzere toplam borç yükümlülükleri üzerinde borçlunun toplam aylık borç ödemeleri kullanılarak hesaplanan ve borçlunun beyan ettiği aylık gelire bölünen oran.
`earliest_credit_line`	Borçlunun en erken bildirilen kredi limitinin açıldığı ay.
`inquiries_last_6_months`	Son 6 aydaki sorgu sayısı (otomobil ve ipotek sorguları hariç).
`open_credit_lines`	Borçlunun kredi dosyasındaki açık kredi limitlerinin sayısı.
`derogatory_public_records`	Aşağılayıcı kamu kayıtlarının sayısı.
`revolving_line_utilization_rate`	Döner hat kullanım oranı veya mevcut tüm rotatif kredilere göre borçlunun kullandığı kredi miktarı.
`total_credit_lines`	Şu anda borçlunun kredi dosyasında bulunan toplam kredi limiti sayısı.

Bu veri setini veri hazırlama ve model eğitimimiz için kullanıyoruz.

Önkoşullar

Aşağıdaki ön koşul adımlarını tamamlayın:

Her iki kredi dosyasını da yükleyin seçtiğiniz bir S3 kovasına.
Gerekli izinlere sahip olduğunuzdan emin olun. Daha fazla bilgi için bkz. Data Wrangler'ı Kullanmaya Başlayın.
Data Wrangler'ı kullanmak için yapılandırılmış bir SageMaker etki alanı ayarlayın. Talimatlar için bkz. Amazon SageMaker Etki Alanında Yerleşik.

Verileri içeri aktarın

Yeni bir Data Wrangler veri akışı oluşturun itibaren Amazon SageMaker Studio Kullanıcı Arayüzü.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Veri kümenizi yerleştirdiğiniz S3 klasöründen CSV dosyalarını seçerek Amazon S3'ten verileri içe aktarın. Her iki dosyayı da içe aktardıktan sonra, iki ayrı iş akışını görebilirsiniz. Veri akışı görünümü.

Verilerinizi bir Data Wrangler akışına aktarırken birkaç örnekleme seçeneği seçebilirsiniz. Örnekleme, etkileşimli olarak hazırlanmak için çok büyük bir veri kümeniz olduğunda veya örneklenmiş veri kümenizdeki nadir olayların oranını korumak istediğinizde yardımcı olabilir. Veri kümemiz küçük olduğu için örnekleme kullanmıyoruz.

Verileri hazırlayın

Kullanım durumumuz için ortak bir sütuna sahip iki veri kümemiz var: id. Veri hazırlamada ilk adım olarak bu dosyaları birleştirerek birleştirmek istiyoruz. Talimatlar için bkz. Verileri Dönüştür.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Biz kullanın Kaydol veri dönüştürme adımını kullanın ve İç üzerindeki birleştirme türü id sütun.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Birleştirme dönüşümümüzün bir sonucu olarak, Data Wrangler iki ek sütun oluşturur: id_0 ve id_1. Ancak, bu sütunlar model oluşturma amaçlarımız için gereksizdir. Bu gereksiz sütunları aşağıdakileri kullanarak bırakıyoruz: Sütunları yönet adımı dönüştürün.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Veri kümelerimizi içe aktardık, onlara katıldık ve gereksiz sütunları kaldırdık. Artık özellik mühendisliği yoluyla verilerimizi zenginleştirmeye ve model oluşturmaya hazırlanmaya hazırız.

Özellik mühendisliği gerçekleştirin

Veri hazırlamak için Data Wrangler kullandık. Ayrıca Veri Kalitesi ve Öngörü Raporu özelliği Veri kalitenizi doğrulamak ve verilerinizdeki anormallikleri tespit etmek için Data Wrangler içinde. Veri bilimcilerin, mühendislik özelliklerine doğru etki alanı bilgisini verimli bir şekilde uygulamak için genellikle bu veri içgörülerini kullanmaları gerekir. Bu gönderi için, bu kalite değerlendirmelerini tamamladığımızı ve özellik mühendisliğine geçebileceğimizi varsayıyoruz.

Bu adımda sayısal, kategorik ve metin sütunlarına birkaç dönüşüm uyguluyoruz.

İlk önce 0-1 arasındaki değerleri ölçeklendirmek için faiz oranını normalleştiriyoruz. Bunu kullanarak yapıyoruz İşlem sayısal ölçeklendirmek için dönüştürmek interest_rate bir min-maks ölçekleyici kullanarak sütun. Normalleştirmenin (veya standardizasyonun) amacı, modelimizdeki yanlılığı ortadan kaldırmaktır. Farklı ölçeklerde ölçülen değişkenler, model öğrenme sürecine eşit katkı sağlamayacaktır. Bu nedenle, min-maks ölçekleyici dönüşümü gibi bir dönüşüm işlevi, özellikleri normalleştirmeye yardımcı olur.

Kategorik bir değişkeni sayısal bir değere dönüştürmek için one-hot kodlama kullanırız. biz seçiyoruz kategorik kodlama dönüştürün, ardından seçin Tek sıcak kodlama. Tek-sıcak kodlama, bir ML modelinin tahmin yeteneğini geliştirir. Bu işlem, özelliğe 1 veya 0 ikili değeri atayarak kategorik bir değeri yeni bir özelliğe dönüştürür. Basit bir örnek olarak, ya değerini tutan bir sütununuz varsa yes or no, tek sıcak kodlama, bu sütunu iki sütuna dönüştürür: a Yes sütun ve bir No kolon. Bir evet değeri 1'e sahip olacaktır. Yes sütun ve bir 0 No kolon. Tek-sıcak kodlama, verilerimizi daha kullanışlı hale getirir, çünkü sayısal değerler, tahminlerimiz için bir olasılığı daha kolay belirleyebilir.

Son olarak, biz employer_title dize değerlerini sayısal bir vektöre dönüştürmek için sütun. biz uygularız Sayı Vektörleştirici ve içinde standart bir belirteç vektörleştir dönüştürmek. Belirteçleştirme, bir cümleyi veya metin dizisini kelimelere ayırırken, bir vektörleştirici metin verilerini makine tarafından okunabilir bir forma dönüştürür. Bu kelimeler vektörler olarak temsil edilir.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Tüm özellik mühendisliği adımları tamamlandığında, verileri dışa aktarabilir ve sonuçları S3 kovamıza aktarabiliriz. Alternatif olarak, kullanarak görünümünüzle bir işlem hattı oluşturmak için akışınızı Python kodu veya bir Jupyter not defteri olarak dışa aktarabilirsiniz. Amazon SageMaker Ardışık Düzenleri. Özellik mühendisliği adımlarınızı ölçekte veya bir ML işlem hattının parçası olarak çalıştırmak istediğinizde bunu göz önünde bulundurun.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Artık Canvas için girdimiz olarak Data Wrangler çıktı dosyasını kullanabiliriz. Bunu, ML modelimizi oluşturmak için Canvas'ta bir veri kümesi olarak referans alıyoruz.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Bizim durumumuzda, hazırladığımız veri setimizi bir varsayılan Studio kovasına aktardık. output önek. Sonraki model oluşturmak için verileri Canvas'a yüklerken bu veri kümesi konumuna başvururuz.

Canvas ile makine öğrenimi modelinizi oluşturun ve eğitin

SageMaker konsolunda Canvas uygulamasını başlatın. Bir önceki bölümde hazırlanan verilerden bir ML modeli oluşturmak için aşağıdaki adımları gerçekleştiriyoruz:

Hazırlanan veri kümesini S3 kovasından Canvas'a aktarın.

Önceki bölümdeki Data Wrangler sonuçlarını dışa aktardığımız aynı S3 yoluna başvuruyoruz.

Canvas'ta yeni model oluşturun ve adlandırın loan_prediction_model.
İçe aktarılan veri kümesini seçin ve onu model nesnesine ekleyin.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Canvas'ın bir model oluşturması için hedef sütunu seçmeliyiz.

Amacımız, borç verenin bir krediyi geri ödeyebilme olasılığını tahmin etmek olduğundan, loan_status sütun.

Canvas, makine öğrenimi sorun bildiriminin türünü otomatik olarak tanımlar. Yazma sırasında Canvas, regresyon, sınıflandırma ve zaman serisi tahmin problemlerini destekler. Sorunun türünü belirleyebilir veya Canvas'ın sorunu verilerinizden otomatik olarak çıkarmasını sağlayabilirsiniz.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Model oluşturma sürecini başlatmak için seçeneğinizi seçin: Hızlı inşa or Standart yapı.

The Hızlı inşa seçeneği, bir modeli 2-15 dakika içinde eğitmek için veri kümenizi kullanır. Bu, sahip olduğunuz veri kümesinin tahmin yapmak için yeterli olup olmayacağını belirlemek için yeni bir veri kümesiyle denemeler yaparken kullanışlıdır. Bu gönderi için bu seçeneği kullanıyoruz.

The Standart yapı seçeneği hız yerine doğruluğu seçer ve modeli eğitmek için yaklaşık 250 model adayı kullanır. İşlem genellikle 1-2 saat sürer.

Model oluşturulduktan sonra modelin sonuçlarını inceleyebilirsiniz. Canvas, modelinizin zamanın %82.9'unda doğru sonucu tahmin edebildiğini tahmin ediyor. Eğitim modellerindeki değişkenlik nedeniyle kendi sonuçlarınız değişebilir.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Ayrıca, model hakkında daha fazla bilgi edinmek için modelin ayrıntılı analizine derinlemesine dalabilir.

Özelliğin önemi, hedef sütunu tahmin etmede her bir özelliğin tahmini önemini temsil eder. Bu durumda, kredi limiti sütunu, bir müşterinin kredi tutarını geri ödeyip ödemeyeceğini tahmin etmede en önemli etkiye sahiptir, bunu faiz oranı ve yıllık gelir izler.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

karışıklık matrisi Gelişmiş metrikler bölümü, model performanslarını daha iyi anlamak isteyen kullanıcılar için bilgiler içerir.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Modelinizi üretim iş yükleri için dağıtmadan önce, modeli test etmek için Canvas'ı kullanın. Canvas, model uç noktamızı yönetir ve doğrudan Canvas kullanıcı arayüzünde tahminler yapmamızı sağlar.

Klinik Tahmin ve bulguları gözden geçirin Toplu tahmin or Tek tahmin sekmesi.

Aşağıdaki örnekte, hedef değişkenimizi tahmin etmek için değerleri değiştirerek tek bir tahmin yapıyoruz. loan_status gerçek zamanda

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Ayrıca daha büyük bir veri kümesi seçebilir ve Canvas'ın bizim adımıza toplu tahminler oluşturmasını sağlayabiliriz.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai.

Sonuç

Uçtan uca makine öğrenimi karmaşık ve yinelemelidir ve genellikle birden çok kişiyi, teknolojiyi ve süreci içerir. Data Wrangler ve Canvas, bu ekiplerin herhangi bir kod yazmasına gerek kalmadan ekipler arasında işbirliğine olanak tanır.

Bir veri mühendisi, Data Wrangler kullanarak herhangi bir kod yazmadan kolayca veri hazırlayabilir ve hazırlanan veri setini bir iş analistine iletebilir. Bir iş analisti, daha sonra Canvas'ı kullanarak yalnızca birkaç tıklamayla doğru makine öğrenimi modellerini kolayca oluşturabilir ve gerçek zamanlı veya toplu olarak doğru tahminler alabilir.

Data Wrangler'ı kullanmaya başlayın herhangi bir altyapıyı yönetmek zorunda kalmadan bu araçları kullanmak. Yapabilirsin Tuvali kurmak iş ihtiyaçlarınızı desteklemek için hızla ve hemen makine öğrenimi modelleri oluşturmaya başlayın.

Yazarlar Hakkında

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai. Peter Chung AWS için bir Çözüm Mimarıdır ve müşterilerin verilerinden içgörüler elde etmesine yardımcı olma konusunda tutkuludur. Hem kamu hem de özel sektörde kuruluşların veriye dayalı kararlar almasına yardımcı olacak çözümler geliştiriyor. Tüm AWS sertifikalarının yanı sıra iki GCP sertifikasına sahiptir.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai. Meenakshisundaram Thandavarayan AWS'de kıdemli bir AI/ML uzmanıdır. Yapay zeka ve makine öğrenimi yolculuklarında yüksek teknolojili stratejik hesaplara yardımcı olur. Veriye dayalı yapay zeka konusunda çok tutkulu.

PlatoBlockchain Veri Zekası olmadan Amazon SageMaker'da risk yönetimi makine öğrenimi iş akışı oluşturun. Dikey Arama. Ai. Dan Ferguson New York, ABD merkezli AWS'de Çözüm Mimarıdır. Bir makine öğrenimi hizmetleri uzmanı olarak Dan, müşterileri makine öğrenimi iş akışlarını verimli, etkili ve sürdürülebilir bir şekilde entegre etme yolculuklarında desteklemek için çalışıyor.

Zaman Damgası: Mayıs 19, 2022

Zaman Damgası: Mayıs 4, 2022

Amazon SageMaker'da kodsuz bir risk yönetimi makine öğrenimi iş akışı oluşturun

Plato tarafından yeniden yayınlandı

Çözüme genel bakış

Veri kümesine genel bakış

Önkoşullar

Verileri içeri aktarın

Verileri hazırlayın

Özellik mühendisliği gerçekleştirin

Canvas ile makine öğrenimi modelinizi oluşturun ve eğitin

Sonuç

Yazarlar Hakkında

Den fazla AWS Makine Öğrenimi

Amazon SageMaker Özellik Mağazası'nı ve özellik düzeyindeki meta veri yeteneğini kullanarak kuruluşunuz genelinde özellik keşfini ve yeniden kullanımını teşvik edin

AWS Graviton ile Amazon SageMaker çıkarım maliyetini azaltın

Amazon SageMaker kullanarak Terraform ile makine öğrenimi ardışık düzenlerini devreye alın ve yönetin

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap