Amazon Comprehend ile Özel Sınıflandırma Modellerinde Tahmin Kalitesini Artırın

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Yapay zeka (AI) ve makine öğrenimi (ML), kurumsal ve devlet kuruluşlarında yaygın bir şekilde benimsenmiştir. Yapılandırılmamış verilerin işlenmesi, doğal dil işleme (NLP) ve kullanıcı dostu AI/ML hizmetlerindeki gelişmeler sayesinde daha kolay hale geldi. Amazon Metin Yazısı, Amazon Yazısı, ve Amazon Kavramak. Kuruluşlar, daha önce sahip olmadıkları derinlemesine içgörüler elde etmek amacıyla yapılandırılmamış verileriyle sınıflandırma modelleri oluşturmak için Amazon Comprehend gibi AI/ML hizmetlerini kullanmaya başladı. Önceden eğitilmiş modelleri minimum çabayla, uygun veri iyileştirme ve model ayarlaması olmadan kullanabilseniz de, AI/ML modellerinin tüm avantajlarından yararlanamazsınız.

Bu yazıda Amazon Comprehend'i kullanarak özel bir sınıflandırma modelinin nasıl oluşturulacağını ve optimize edileceğini açıklıyoruz. Bunu, çok etiketli özel bir sınıflandırma modeli oluşturmak için Amazon Comprehend özel sınıflandırmasını kullanarak gösteriyoruz ve eğitim veri kümesinin nasıl hazırlanacağına ve modelin doğruluk, kesinlik, geri çağırma ve F1 puanı gibi performans ölçümlerini karşılayacak şekilde nasıl ayarlanacağına ilişkin yönergeler sağlıyoruz. Model performansını ayarlamak ve eğitim verilerinizi iyileştirme konusunda size rehberlik etmek için karışıklık matrisi gibi Amazon Comprehend model eğitimi çıktı yapıtlarını kullanırız.

Çözüme genel bakış

Bu çözüm, Amazon Comprehend'i kullanarak optimize edilmiş bir özel sınıflandırma modeli oluşturmaya yönelik bir yaklaşım sunar. Veri hazırlama, model oluşturma, model performans ölçüm analizi ve analizimize dayalı çıkarımları optimize etme dahil olmak üzere çeşitli adımlardan geçiyoruz. Bir kullanıyoruz Amazon Adaçayı Yapıcı defter ve AWS Yönetim Konsolu Bu adımlardan bazılarını tamamlamak için.

Ayrıca veri hazırlama, model oluşturma ve model ayarlama sırasında en iyi uygulamaları ve optimizasyon tekniklerini de inceliyoruz.

Önkoşullar

SageMaker not defteri örneğiniz yoksa bir tane oluşturabilirsiniz. Talimatlar için bkz. Amazon SageMaker Dizüstü Bilgisayar Örneği Oluşturun.

Verileri hazırlayın

Bu analiz için, Toksik Yorum Sınıflandırması veri kümesini kullanıyoruz. Kaggle. Bu veri kümesi 6 veri noktasına sahip 158,571 etiket içerir. Bununla birlikte, pozitif örnekler olarak her etiket toplam verinin yalnızca %10'undan azına sahiptir; etiketlerden ikisi %1'den azına sahiptir.

Mevcut Kaggle veri kümesini şuna dönüştürüyoruz: Amazon Comprehend iki sütunlu CSV biçimi etiketler bir çizgi (|) sınırlayıcı kullanılarak bölünmüş halde. Amazon Comprehend, her veri noktası için en az bir etiket bekler. Bu veri kümesinde, sağlanan etiketlerin hiçbirinin kapsamına girmeyen çeşitli veri noktalarıyla karşılaşıyoruz. Clean adında yeni bir etiket oluşturuyoruz ve toksik olmayan veri noktalarından herhangi birini bu etiketle pozitif olarak atadık. Son olarak, seçilmiş veri kümelerini, etiket başına 80/20 oranlı bir bölme kullanarak eğitim ve test veri kümelerine ayırdık.

Veri Hazırlama defterini kullanacağız. Aşağıdaki adımlarda Kaggle veri kümesi kullanılır ve veriler modelimiz için hazırlanır.

SageMaker konsolunda, Dizüstü bilgisayar örnekleri Gezinti bölmesinde.
Yapılandırdığınız not defteri örneğini seçin ve Jupyter'ı aç.
Üzerinde yeni menü seç terminal.

Amazon Comprehen ile özel sınıflandırma modellerinde tahmin kalitesini artırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Bu gönderi için gerekli yapıları indirmek üzere terminalde aşağıdaki komutları çalıştırın:

cd SageMaker
wget https://aws-ml-blog.s3.amazonaws.com/artifacts/amazon-comprehend-improve-prediction-quality/comprehend-blog-artifacts.zip
unzip comprehend-blog-artifacts.zip
rm comprehend-blog-artifacts.zip
mkdir assets

Terminal penceresini kapatın.

Üç defter görmelisiniz ve tren.csv dosyaları.

Not defterini seçin Veri Hazırlama.ipynb.
Not defterindeki tüm adımları çalıştırın.

Bu adımlar, ham Kaggle veri kümesini seçilmiş eğitim ve test veri kümeleri olarak hizmet verecek şekilde hazırlar. Seçilen veri kümeleri not defterinde saklanacak ve Amazon Basit Depolama Hizmeti (Amazon S3).

Büyük ölçekli çok etiketli veri kümeleriyle uğraşırken aşağıdaki veri hazırlama yönergelerini göz önünde bulundurun:

Veri kümeleri etiket başına en az 10 örnek içermelidir.
Amazon Comprehend en fazla 100 etiketi kabul eder. Bu artırılabilecek esnek bir sınırdır.
Veri kümesi dosyasının olduğundan emin olun doğru biçimlendirilmiş uygun sınırlayıcıyla. Yanlış sınırlayıcılar boş etiketlerin ortaya çıkmasına neden olabilir.
Tüm veri noktalarının etiketleri olmalıdır.
Eğitim ve test veri kümeleri etiket başına dengeli veri dağılımına sahip olmalıdır. Rastgele dağılım kullanmayın çünkü bu, eğitim ve test veri kümelerinde yanlılığa neden olabilir.

Özel bir sınıflandırma modeli oluşturun

Modelimizi oluşturmak için veri hazırlama aşamasında oluşturduğumuz seçilmiş eğitim ve test veri kümelerini kullanıyoruz. Aşağıdaki adımlarla Amazon Comprehend çok etiketli özel sınıflandırma modeli oluşturulur:

Amazon Comprehend konsolunda şunu seçin: Özel sınıflandırma Gezinti bölmesinde.
Klinik Yeni model oluştur.
İçin Model adı, toksik sınıflandırma modeline girin.
İçin Sürüm adı, 1 girin.
İçin Ek açıklama ve veri formatı, seçmek Çoklu etiket modunu kullanma.
İçin Eğitim veri setiAmazon S3'te seçilmiş eğitim veri kümesinin konumunu girin.
Klinik Müşteri tarafından sağlanan test veri kümesi ve Amazon S3'te seçilmiş test verilerinin konumunu girin.
İçin Çıktı verileri, Amazon S3 konumunu girin.
İçin IAM rolüseçin Bir IAM rolü oluşturun, ad son ekini “anlamak-blog” olarak belirtin.
Klinik oluşturmak özel sınıflandırma modeli eğitimini ve model oluşturmayı başlatmak için.

Aşağıdaki ekran görüntüsü Amazon Comprehend konsolundaki özel sınıflandırma modeli ayrıntılarını göstermektedir.

Amazon Comprehen ile özel sınıflandırma modellerinde tahmin kalitesini artırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Model performansına göre ayarlayın

Aşağıdaki ekran görüntüsü model performans ölçümlerini göstermektedir. Hassasiyet, geri çağırma, F1 puanı, doğruluk ve daha fazlası gibi önemli ölçümleri içerir.

Amazon Comprehen ile özel sınıflandırma modellerinde tahmin kalitesini artırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Model eğitilip oluşturulduktan sonra, veri kümesindeki etiketleri ve etiketlerin her biri için karışıklık matrisini içeren çıktı.tar.gz dosyasını oluşturacaktır. Modelin tahmin performansını daha da ayarlamak için modelinizi her sınıfa yönelik tahmin olasılıklarıyla birlikte anlamalısınız. Bunu yapmak için Amazon Comprehend'in veri noktalarının her birine atadığı puanları belirlemek üzere bir analiz işi oluşturmanız gerekir.

Bir analiz işi oluşturmak için aşağıdaki adımları tamamlayın:

Amazon Comprehend konsolunda şunu seçin: Analiz işleri Gezinti bölmesinde.
Klinik İş oluştur.
İçin Name, girmek toxic_train_data_analysis_job.
İçin Analiz türü, seçmek Özel sınıflandırma.
İçin Sınıflandırma modelleri ve volanlar, belirtin toxic-classification-model.
İçin Sürümü, 1'i belirtin.
İçin Giriş verileri S3 konumu, seçilmiş eğitim veri dosyasının konumunu girin.
İçin Girdi biçimi, seçmek Satır başına bir belge.
İçin Çıkış verileri S3 konumu, konumu girin.
İçin Erişim İzinleriseçin Mevcut bir IAM Rolünü kullanın ve daha önce oluşturulan rolü seçin.
Klinik İş oluştur Analiz işini başlatmak için.
seçmek Analiz işleri iş ayrıntılarını görüntülemek için. Lütfen İş ayrıntıları altındaki iş kimliğini not edin. Bir sonraki adımımızda iş kimliğini kullanacağız.

Amazon Comprehen ile özel sınıflandırma modellerinde tahmin kalitesini artırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Seçilen test verileri için analiz işine başlama adımlarını tekrarlayın. Modelimizin tahmin olasılıkları hakkında bilgi edinmek için analiz işlerimizin tahmin çıktılarını kullanırız. Lütfen eğitim ve test analizi işlerinin iş kimliklerini not edin.

Biz kullanın Model-Eşik-Analiz.ipynb çıktıları tüm olası eşik değerlerinde test etmek ve scikit-learn'i kullanarak tahmin olasılığına göre çıktıyı puanlamak için dizüstü bilgisayar precision_recall_curve işlev. Ek olarak her eşikteki F1 puanını da hesaplayabiliriz.

Giriş olarak Amazon Comprehend analiz iş kimliklerine ihtiyacımız olacak. Model-Eşik-Analizi not defteri. İş kimliklerini Amazon Comprehend konsolundan alabilirsiniz. içindeki tüm adımları uygulayın Model-Eşik-Analizi tüm sınıfların eşiklerini gözlemlemek için not defteri.

Amazon Comprehen ile özel sınıflandırma modellerinde tahmin kalitesini artırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Eşik yükseldikçe hassasiyetin nasıl arttığına, geri çağırmada ise bunun tersinin gerçekleştiğine dikkat edin. İkisi arasındaki dengeyi bulmak için eğrilerinde görünür zirvelerin olduğu F1 puanını kullanırız. F1 puanındaki zirveler, modelin performansını iyileştirebilecek belirli bir eşiğe karşılık gelir. 0.5 civarında bir eşiğe sahip olan tehdit etiketi dışında çoğu etiketin eşik için 0.04 işareti civarında olduğuna dikkat edin.

Amazon Comprehen ile özel sınıflandırma modellerinde tahmin kalitesini artırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Daha sonra bu eşiği, yalnızca varsayılan 0.5 eşiğiyle düşük performans gösteren belirli etiketler için kullanabiliriz. Optimize edilmiş eşik değerleri kullanılarak, test verileri üzerindeki modelin sonuçları etiket tehdidi açısından 0.00'dan 0.24'e iyileşir. Tüm etiketler için ortak bir kıyaslama (> 1 gibi standart bir değer) yerine o etiket için pozitif ve negatifi belirlemek amacıyla eşikteki maksimum F0.7 puanını bir kıyaslama olarak kullanıyoruz.

Amazon Comprehen ile özel sınıflandırma modellerinde tahmin kalitesini artırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Yeterince temsil edilmeyen sınıfların ele alınması

Dengesiz bir veri kümesi için etkili olan başka bir yaklaşım ise örnekleme. Model, az temsil edilen sınıftan fazla örnek alarak, az temsil edilen sınıfı daha sık görür ve bu örneklerin önemini vurgular. biz kullanıyoruz Aşırı örnekleme-yetersiz temsil.ipynb veri kümelerini optimize etmek için dizüstü bilgisayar.

Bu veri kümesi için, daha fazla örnek sağladıkça modelin değerlendirme veri kümesindeki performansının nasıl değiştiğini test ettik. Performansı artırmak amacıyla yeterince temsil edilmeyen sınıfların oluşumunu artırmak için aşırı örnekleme tekniğini kullanıyoruz.

Amazon Comprehen ile özel sınıflandırma modellerinde tahmin kalitesini artırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Bu özel durumda 10, 25, 50, 100, 200 ve 500 pozitif örnek üzerinde test yaptık. Veri noktalarını tekrarlıyor olsak da, yeterince temsil edilmeyen sınıfın önemini vurgulayarak modelin performansını doğal olarak iyileştirdiğimize dikkat edin.

Ücret

Amazon Comprehend ile işlenen metin karakterlerinin sayısına göre kullandıkça ödeme yaparsınız. Bakınız Amazon Anlayış Fiyatlandırması gerçek maliyetler için.

Temizlemek

Bu çözümle denemelerinizi tamamladığınızda, bu örnekte dağıtılan tüm kaynakları silmek için kaynaklarınızı temizleyin. Bu, hesabınızda devam eden maliyetlerden kaçınmanıza yardımcı olur.

Sonuç

Bu yazıda, veri hazırlama, tahmin olasılıklarını kullanarak model ayarlama ve yeterince temsil edilmeyen veri sınıflarını ele almaya yönelik teknikler konusunda en iyi uygulamaları ve rehberlik sağladık. Amazon Comprehend özel sınıflandırma modelinizin performans ölçümlerini iyileştirmek için bu en iyi uygulamaları ve teknikleri kullanabilirsiniz.

Amazon Comprehend hakkında daha fazla bilgi için şu adresi ziyaret edin: Amazon Comprehend geliştirici kaynakları video kaynaklarını ve blog gönderilerini bulmak ve AWS Comprehend SSS'leri.

Yazarlar Hakkında

Sathya Balakrishnan AWS'deki Profesyonel Hizmetler ekibinde, veri ve makine öğrenimi çözümlerinde uzmanlaşmış Kıdemli Müşteri Teslimat Mimarıdır. ABD federal finans müşterileriyle çalışıyor. Müşterilerin iş sorunlarını çözmek için pragmatik çözümler üretme konusunda tutkulu. Boş zamanlarında ailesiyle birlikte film izlemekten ve yürüyüş yapmaktan hoşlanır.

Prens Mallari AWS'deki Profesyonel Hizmetler ekibinde yer alan ve kamu sektörü müşterileri için NLP uygulamalarında uzmanlaşmış bir NLP Veri Bilimcisidir. Makine öğrenimini müşterilerin daha üretken olmasına olanak tanıyan bir araç olarak kullanma konusunda tutkulu. Boş zamanlarında arkadaşlarıyla video oyunları oynamaktan ve geliştirmekten keyif alıyor.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/

Zaman Damgası: 5 Ekim 2023

Zaman Damgası: Mar 10, 2022

Snapper, mükemmel piksel görüntü nesnesi tespiti için makine öğrenimi destekli etiketleme sağlar

Kaynak Küme:

AWS Makine Öğrenimi

Kaynak Düğüm: 1820241

Zaman Damgası: Mar 30, 2023

Amazon SageMaker JumpStart'ı kullanarak Falcon ile bir HCLS belge özetleme uygulaması oluşturun | Amazon Web Hizmetleri

Kaynak Küme:

AWS Makine Öğrenimi

Kaynak Düğüm: 1898108

Zaman Damgası: Ekim 4, 2023

Amazon AppFlow ve Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ile kodsuz makine öğrenimi çözümleriyle SAP ERP'den içgörüler elde edin. Dikey Arama. Ai.

Amazon AppFlow ve Amazon SageMaker Canvas ile kodsuz ML çözümleriyle SAP ERP'den öngörüler elde edin

Kaynak Küme:

AWS Makine Öğrenimi

Kaynak Düğüm: 1401082

Zaman Damgası: Haziran 15, 2022

Amazon Comprehen ile özel sınıflandırma modellerinde tahmin kalitesini artırın | Amazon Web Hizmetleri

Plato tarafından yeniden yayınlandı

Çözüme genel bakış

Önkoşullar

Verileri hazırlayın

Özel bir sınıflandırma modeli oluşturun

Model performansına göre ayarlayın

Yeterince temsil edilmeyen sınıfların ele alınması

Ücret

Temizlemek

Sonuç

Yazarlar Hakkında

Den fazla AWS Makine Öğrenimi

Amazon Comprehend'i kullanarak PDF belgeleri için özel bir varlık tanıyıcı oluşturun

AWS AI hizmetlerini kullanarak ipotek sigortalama sürecinde belge doğrulamasını ve dolandırıcılık tespitini otomatikleştirin: Bölüm 1 | Amazon Web Hizmetleri

Amazon Lex ve Amazon Connect kullanarak Meta ile entegre bir randevu planlayıcı arabirimi oluşturun

Üretken yapay zeka ile kurumsal verilerin gücünden yararlanma: Amazon Kendra, LangChain ve büyük dil modellerinden bilgiler | Amazon Web Hizmetleri

Amazon SageMaker JumpStart kullanarak görsel denetim otomasyonu

Sunucusuz AWS Glue etkileşimli oturumlarını kullanarak Amazon SageMaker Studio'da verileri uygun ölçekte hazırlayın

Amazon Textract ve Amazon A2I kullanarak insan gözetiminde işlem belgelerinin dijitalleştirilmesini otomatikleştirin

Snapper, mükemmel piksel görüntü nesnesi tespiti için makine öğrenimi destekli etiketleme sağlar

Amazon SageMaker JumpStart'ı kullanarak Falcon ile bir HCLS belge özetleme uygulaması oluşturun | Amazon Web Hizmetleri

Amazon AppFlow ve Amazon SageMaker Canvas ile kodsuz ML çözümleriyle SAP ERP'den öngörüler elde edin

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap