Yapay zeka (AI) ve makine öğrenimi (ML), kurumsal ve devlet kuruluşlarında yaygın bir şekilde benimsenmiştir. Yapılandırılmamış verilerin işlenmesi, doğal dil işleme (NLP) ve kullanıcı dostu AI/ML hizmetlerindeki gelişmeler sayesinde daha kolay hale geldi. Amazon Metin Yazısı, Amazon Yazısı, ve Amazon Kavramak. Kuruluşlar, daha önce sahip olmadıkları derinlemesine içgörüler elde etmek amacıyla yapılandırılmamış verileriyle sınıflandırma modelleri oluşturmak için Amazon Comprehend gibi AI/ML hizmetlerini kullanmaya başladı. Önceden eğitilmiş modelleri minimum çabayla, uygun veri iyileştirme ve model ayarlaması olmadan kullanabilseniz de, AI/ML modellerinin tüm avantajlarından yararlanamazsınız.
Bu yazıda Amazon Comprehend'i kullanarak özel bir sınıflandırma modelinin nasıl oluşturulacağını ve optimize edileceğini açıklıyoruz. Bunu, çok etiketli özel bir sınıflandırma modeli oluşturmak için Amazon Comprehend özel sınıflandırmasını kullanarak gösteriyoruz ve eğitim veri kümesinin nasıl hazırlanacağına ve modelin doğruluk, kesinlik, geri çağırma ve F1 puanı gibi performans ölçümlerini karşılayacak şekilde nasıl ayarlanacağına ilişkin yönergeler sağlıyoruz. Model performansını ayarlamak ve eğitim verilerinizi iyileştirme konusunda size rehberlik etmek için karışıklık matrisi gibi Amazon Comprehend model eğitimi çıktı yapıtlarını kullanırız.
Çözüme genel bakış
Bu çözüm, Amazon Comprehend'i kullanarak optimize edilmiş bir özel sınıflandırma modeli oluşturmaya yönelik bir yaklaşım sunar. Veri hazırlama, model oluşturma, model performans ölçüm analizi ve analizimize dayalı çıkarımları optimize etme dahil olmak üzere çeşitli adımlardan geçiyoruz. Bir kullanıyoruz Amazon Adaçayı Yapıcı defter ve AWS Yönetim Konsolu Bu adımlardan bazılarını tamamlamak için.
Ayrıca veri hazırlama, model oluşturma ve model ayarlama sırasında en iyi uygulamaları ve optimizasyon tekniklerini de inceliyoruz.
Önkoşullar
SageMaker not defteri örneğiniz yoksa bir tane oluşturabilirsiniz. Talimatlar için bkz. Amazon SageMaker Dizüstü Bilgisayar Örneği Oluşturun.
Verileri hazırlayın
Bu analiz için, Toksik Yorum Sınıflandırması veri kümesini kullanıyoruz. Kaggle. Bu veri kümesi 6 veri noktasına sahip 158,571 etiket içerir. Bununla birlikte, pozitif örnekler olarak her etiket toplam verinin yalnızca %10'undan azına sahiptir; etiketlerden ikisi %1'den azına sahiptir.
Mevcut Kaggle veri kümesini şuna dönüştürüyoruz: Amazon Comprehend iki sütunlu CSV biçimi etiketler bir çizgi (|) sınırlayıcı kullanılarak bölünmüş halde. Amazon Comprehend, her veri noktası için en az bir etiket bekler. Bu veri kümesinde, sağlanan etiketlerin hiçbirinin kapsamına girmeyen çeşitli veri noktalarıyla karşılaşıyoruz. Clean adında yeni bir etiket oluşturuyoruz ve toksik olmayan veri noktalarından herhangi birini bu etiketle pozitif olarak atadık. Son olarak, seçilmiş veri kümelerini, etiket başına 80/20 oranlı bir bölme kullanarak eğitim ve test veri kümelerine ayırdık.
Veri Hazırlama defterini kullanacağız. Aşağıdaki adımlarda Kaggle veri kümesi kullanılır ve veriler modelimiz için hazırlanır.
- SageMaker konsolunda, Dizüstü bilgisayar örnekleri Gezinti bölmesinde.
- Yapılandırdığınız not defteri örneğini seçin ve Jupyter'ı aç.
- Üzerinde yeni menü seç terminal.
- Bu gönderi için gerekli yapıları indirmek üzere terminalde aşağıdaki komutları çalıştırın:
- Terminal penceresini kapatın.
Üç defter görmelisiniz ve tren.csv dosyaları.
- Not defterini seçin Veri Hazırlama.ipynb.
- Not defterindeki tüm adımları çalıştırın.
Bu adımlar, ham Kaggle veri kümesini seçilmiş eğitim ve test veri kümeleri olarak hizmet verecek şekilde hazırlar. Seçilen veri kümeleri not defterinde saklanacak ve Amazon Basit Depolama Hizmeti (Amazon S3).
Büyük ölçekli çok etiketli veri kümeleriyle uğraşırken aşağıdaki veri hazırlama yönergelerini göz önünde bulundurun:
- Veri kümeleri etiket başına en az 10 örnek içermelidir.
- Amazon Comprehend en fazla 100 etiketi kabul eder. Bu artırılabilecek esnek bir sınırdır.
- Veri kümesi dosyasının olduğundan emin olun doğru biçimlendirilmiş uygun sınırlayıcıyla. Yanlış sınırlayıcılar boş etiketlerin ortaya çıkmasına neden olabilir.
- Tüm veri noktalarının etiketleri olmalıdır.
- Eğitim ve test veri kümeleri etiket başına dengeli veri dağılımına sahip olmalıdır. Rastgele dağılım kullanmayın çünkü bu, eğitim ve test veri kümelerinde yanlılığa neden olabilir.
Özel bir sınıflandırma modeli oluşturun
Modelimizi oluşturmak için veri hazırlama aşamasında oluşturduğumuz seçilmiş eğitim ve test veri kümelerini kullanıyoruz. Aşağıdaki adımlarla Amazon Comprehend çok etiketli özel sınıflandırma modeli oluşturulur:
- Amazon Comprehend konsolunda şunu seçin: Özel sınıflandırma Gezinti bölmesinde.
- Klinik Yeni model oluştur.
- İçin Model adı, toksik sınıflandırma modeline girin.
- İçin Sürüm adı, 1 girin.
- İçin Ek açıklama ve veri formatı, seçmek Çoklu etiket modunu kullanma.
- İçin Eğitim veri setiAmazon S3'te seçilmiş eğitim veri kümesinin konumunu girin.
- Klinik Müşteri tarafından sağlanan test veri kümesi ve Amazon S3'te seçilmiş test verilerinin konumunu girin.
- İçin Çıktı verileri, Amazon S3 konumunu girin.
- İçin IAM rolüseçin Bir IAM rolü oluşturun, ad son ekini “anlamak-blog” olarak belirtin.
- Klinik oluşturmak özel sınıflandırma modeli eğitimini ve model oluşturmayı başlatmak için.
Aşağıdaki ekran görüntüsü Amazon Comprehend konsolundaki özel sınıflandırma modeli ayrıntılarını göstermektedir.
Model performansına göre ayarlayın
Aşağıdaki ekran görüntüsü model performans ölçümlerini göstermektedir. Hassasiyet, geri çağırma, F1 puanı, doğruluk ve daha fazlası gibi önemli ölçümleri içerir.
Model eğitilip oluşturulduktan sonra, veri kümesindeki etiketleri ve etiketlerin her biri için karışıklık matrisini içeren çıktı.tar.gz dosyasını oluşturacaktır. Modelin tahmin performansını daha da ayarlamak için modelinizi her sınıfa yönelik tahmin olasılıklarıyla birlikte anlamalısınız. Bunu yapmak için Amazon Comprehend'in veri noktalarının her birine atadığı puanları belirlemek üzere bir analiz işi oluşturmanız gerekir.
Bir analiz işi oluşturmak için aşağıdaki adımları tamamlayın:
- Amazon Comprehend konsolunda şunu seçin: Analiz işleri Gezinti bölmesinde.
- Klinik İş oluştur.
- İçin Name, girmek
toxic_train_data_analysis_job
. - İçin Analiz türü, seçmek Özel sınıflandırma.
- İçin Sınıflandırma modelleri ve volanlar, belirtin
toxic-classification-model
. - İçin Sürümü, 1'i belirtin.
- İçin Giriş verileri S3 konumu, seçilmiş eğitim veri dosyasının konumunu girin.
- İçin Girdi biçimi, seçmek Satır başına bir belge.
- İçin Çıkış verileri S3 konumu, konumu girin.
- İçin Erişim İzinleriseçin Mevcut bir IAM Rolünü kullanın ve daha önce oluşturulan rolü seçin.
- Klinik İş oluştur Analiz işini başlatmak için.
- seçmek Analiz işleri iş ayrıntılarını görüntülemek için. Lütfen İş ayrıntıları altındaki iş kimliğini not edin. Bir sonraki adımımızda iş kimliğini kullanacağız.
Seçilen test verileri için analiz işine başlama adımlarını tekrarlayın. Modelimizin tahmin olasılıkları hakkında bilgi edinmek için analiz işlerimizin tahmin çıktılarını kullanırız. Lütfen eğitim ve test analizi işlerinin iş kimliklerini not edin.
Biz kullanın Model-Eşik-Analiz.ipynb çıktıları tüm olası eşik değerlerinde test etmek ve scikit-learn'i kullanarak tahmin olasılığına göre çıktıyı puanlamak için dizüstü bilgisayar precision_recall_curve
işlev. Ek olarak her eşikteki F1 puanını da hesaplayabiliriz.
Giriş olarak Amazon Comprehend analiz iş kimliklerine ihtiyacımız olacak. Model-Eşik-Analizi not defteri. İş kimliklerini Amazon Comprehend konsolundan alabilirsiniz. içindeki tüm adımları uygulayın Model-Eşik-Analizi tüm sınıfların eşiklerini gözlemlemek için not defteri.
Eşik yükseldikçe hassasiyetin nasıl arttığına, geri çağırmada ise bunun tersinin gerçekleştiğine dikkat edin. İkisi arasındaki dengeyi bulmak için eğrilerinde görünür zirvelerin olduğu F1 puanını kullanırız. F1 puanındaki zirveler, modelin performansını iyileştirebilecek belirli bir eşiğe karşılık gelir. 0.5 civarında bir eşiğe sahip olan tehdit etiketi dışında çoğu etiketin eşik için 0.04 işareti civarında olduğuna dikkat edin.
Daha sonra bu eşiği, yalnızca varsayılan 0.5 eşiğiyle düşük performans gösteren belirli etiketler için kullanabiliriz. Optimize edilmiş eşik değerleri kullanılarak, test verileri üzerindeki modelin sonuçları etiket tehdidi açısından 0.00'dan 0.24'e iyileşir. Tüm etiketler için ortak bir kıyaslama (> 1 gibi standart bir değer) yerine o etiket için pozitif ve negatifi belirlemek amacıyla eşikteki maksimum F0.7 puanını bir kıyaslama olarak kullanıyoruz.
Yeterince temsil edilmeyen sınıfların ele alınması
Dengesiz bir veri kümesi için etkili olan başka bir yaklaşım ise örnekleme. Model, az temsil edilen sınıftan fazla örnek alarak, az temsil edilen sınıfı daha sık görür ve bu örneklerin önemini vurgular. biz kullanıyoruz Aşırı örnekleme-yetersiz temsil.ipynb veri kümelerini optimize etmek için dizüstü bilgisayar.
Bu veri kümesi için, daha fazla örnek sağladıkça modelin değerlendirme veri kümesindeki performansının nasıl değiştiğini test ettik. Performansı artırmak amacıyla yeterince temsil edilmeyen sınıfların oluşumunu artırmak için aşırı örnekleme tekniğini kullanıyoruz.
Bu özel durumda 10, 25, 50, 100, 200 ve 500 pozitif örnek üzerinde test yaptık. Veri noktalarını tekrarlıyor olsak da, yeterince temsil edilmeyen sınıfın önemini vurgulayarak modelin performansını doğal olarak iyileştirdiğimize dikkat edin.
Ücret
Amazon Comprehend ile işlenen metin karakterlerinin sayısına göre kullandıkça ödeme yaparsınız. Bakınız Amazon Anlayış Fiyatlandırması gerçek maliyetler için.
Temizlemek
Bu çözümle denemelerinizi tamamladığınızda, bu örnekte dağıtılan tüm kaynakları silmek için kaynaklarınızı temizleyin. Bu, hesabınızda devam eden maliyetlerden kaçınmanıza yardımcı olur.
Sonuç
Bu yazıda, veri hazırlama, tahmin olasılıklarını kullanarak model ayarlama ve yeterince temsil edilmeyen veri sınıflarını ele almaya yönelik teknikler konusunda en iyi uygulamaları ve rehberlik sağladık. Amazon Comprehend özel sınıflandırma modelinizin performans ölçümlerini iyileştirmek için bu en iyi uygulamaları ve teknikleri kullanabilirsiniz.
Amazon Comprehend hakkında daha fazla bilgi için şu adresi ziyaret edin: Amazon Comprehend geliştirici kaynakları video kaynaklarını ve blog gönderilerini bulmak ve AWS Comprehend SSS'leri.
Yazarlar Hakkında
Sathya Balakrishnan AWS'deki Profesyonel Hizmetler ekibinde, veri ve makine öğrenimi çözümlerinde uzmanlaşmış Kıdemli Müşteri Teslimat Mimarıdır. ABD federal finans müşterileriyle çalışıyor. Müşterilerin iş sorunlarını çözmek için pragmatik çözümler üretme konusunda tutkulu. Boş zamanlarında ailesiyle birlikte film izlemekten ve yürüyüş yapmaktan hoşlanır.
Prens Mallari AWS'deki Profesyonel Hizmetler ekibinde yer alan ve kamu sektörü müşterileri için NLP uygulamalarında uzmanlaşmış bir NLP Veri Bilimcisidir. Makine öğrenimini müşterilerin daha üretken olmasına olanak tanıyan bir araç olarak kullanma konusunda tutkulu. Boş zamanlarında arkadaşlarıyla video oyunları oynamaktan ve geliştirmekten keyif alıyor.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/
- :vardır
- :dır-dir
- :Neresi
- $UP
- 1
- 10
- 100
- 200
- 24
- 25
- 50
- 500
- 7
- 9
- a
- Hakkımızda
- Kabul eder
- Hesap
- doğruluk
- karşısında
- gerçek
- Ayrıca
- Benimseme
- gelişmeler
- AI
- AI / ML
- Türkiye
- izin vermek
- Ayrıca
- Rağmen
- Amazon
- Amazon Kavramak
- Amazon Adaçayı Yapıcı
- Amazon Web Servisleri
- an
- analiz
- ve
- herhangi
- uygulamaları
- NLP Uygulamaları
- yaklaşım
- ARE
- etrafında
- AS
- Varlıklar
- atanmış
- At
- önlemek
- AWS
- Bakiye
- merkezli
- BE
- Çünkü
- müşterimiz
- önce
- kıyaslama
- faydaları
- İYİ
- en iyi uygulamalar
- arasında
- önyargı
- Blog
- Blog Yazıları
- inşa etmek
- bina
- iş
- by
- denilen
- CAN
- Alabilirsin
- dava
- değişiklikler
- karakterler
- Klinik
- sınıf
- sınıflar
- sınıflandırma
- istemciler
- yorum Yap
- ortak
- tamamlamak
- idrak
- hesaplamak
- yapılandırılmış
- karışıklık
- konsolos
- içeren
- devam eden
- dönüştürmek
- maliyetler
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- oluşturma
- küratörlüğünü
- kürasyon
- eğri
- görenek
- müşteri
- Müşteriler
- veri
- Veri noktaları
- Veri Hazırlama
- veri bilimcisi
- veri kümeleri
- ilgili
- derin
- Varsayılan
- teslim
- göstermek
- konuşlandırılmış
- ayrıntılar
- Belirlemek
- Geliştirici
- gelişen
- dağıtım
- do
- belge
- Dont
- indir
- sırasında
- her
- kolay
- Etkili
- çaba
- vurgulamaktadır
- vurgulayan
- Keşfet
- kuruluş
- değerlendirme
- örnek
- örnekler
- Dışında
- yürütmek
- mevcut
- beklediğini
- Açıklamak
- f1
- Düşmek
- aile
- Federal
- fileto
- dosyalar
- Nihayet
- mali
- bulmak
- takip etme
- İçin
- arkadaşlar
- itibaren
- tam
- işlev
- daha fazla
- Games
- oluşturmak
- almak
- Go
- Goes
- Hükümet
- rehberlik
- rehberlik
- kuralları yenileyerek
- sap
- Var
- sahip olan
- he
- yardımcı olur
- onun
- Ne kadar
- Nasıl Yapılır
- Ancak
- HTML
- http
- HTTPS
- ID
- belirlemek
- kimlikleri
- önem
- iyileştirmek
- geliştirme
- in
- içerir
- Dahil olmak üzere
- Artırmak
- artmış
- bilgi
- doğal olarak
- giriş
- anlayışlar
- örnek
- yerine
- talimatlar
- İstihbarat
- içine
- tanıtmak
- IT
- İş
- Mesleki Öğretiler
- sadece
- anahtar
- etiket
- Etiketler
- dil
- büyük ölçekli
- ÖĞRENİN
- öğrenme
- en az
- az
- sevmek
- LİMİT
- yer
- makine
- makine öğrenme
- yapmak
- yönetim
- işaret
- Matris
- maksimum
- maksimum
- Neden
- Menü
- metrik
- Metrikleri
- olabilir
- en az
- asgari
- ML
- model
- modelleri
- Daha
- çoğu
- filmler
- şart
- isim
- Doğal (Madenden)
- Doğal Dil İşleme
- Navigasyon
- gerek
- negatif
- yeni
- sonraki
- nlp
- defter
- Fark etme..
- numara
- gözlemek
- olay
- of
- sık sık
- on
- ONE
- bir tek
- optimizasyon
- optimize
- optimize
- optimize
- organizasyonlar
- bizim
- çıktı
- bölmesi
- belirli
- tutkulu
- başına
- performans
- seçmek
- boru
- Platon
- Plato Veri Zekası
- PlatoVeri
- oynama
- Lütfen
- Nokta
- noktaları
- pozitif
- mümkün
- Çivi
- Mesajlar
- uygulamalar
- pragmatik
- Hassas
- tahmin
- hazırlık
- Hazırlamak
- hediyeler
- Önceden
- sorunlar
- İşlenmiş
- işleme
- üretken
- profesyonel
- uygun
- sağlamak
- sağlanan
- halka açık
- kalite
- rasgele
- oran
- Çiğ
- gerçekleştirmek
- başvurmak
- gereklidir
- Kaynaklar
- Sonuçlar
- Rol
- sagemaker
- bilim adamı
- Gol
- sektör
- görmek
- görüldü
- Gördükleri
- hizmet vermek
- Hizmetler
- birkaç
- meli
- Gösteriler
- Basit
- Yumuşak
- çözüm
- Çözümler
- ÇÖZMEK
- biraz
- uzmanlaşmış
- özel
- bölmek
- standart
- başlama
- başladı
- adım
- Basamaklar
- hafızası
- saklı
- böyle
- Bizi daha iyi tanımak için
- takım
- teknik
- teknikleri
- terminal
- test
- test edilmiş
- metin
- göre
- o
- The
- ve bazı Asya
- sonra
- Bunlar
- onlar
- Re-Tweet
- Bu
- tehdit
- üç
- eşik
- İçinden
- zaman
- için
- araç
- Toplam
- eğitilmiş
- Eğitim
- iki
- altında
- yetersiz temsil
- anlamak
- us
- ABD Federal
- kullanım
- kullanıcı dostu
- kullanma
- değer
- Video
- video oyunları
- Görüntüle
- gözle görülür
- Türkiye Dental Sosyal Medya Hesaplarından bizi takip edebilirsiniz.
- vs
- izlerken
- we
- ağ
- web hizmetleri
- İYİ
- ne zaman
- hangi
- süre
- yaygın
- irade
- pencere
- ile
- olmadan
- çalışır
- Sen
- zefirnet
- zip