Çevrimiçi sohbetler, video oyunlarından telekomünikasyona kadar endüstrileri kapsayan modern yaşamın her yerinde mevcuttur. Bu, sohbet robotları ve doğal dil oluşturma (NLG) modelleri gibi son teknoloji doğal dil işleme (NLP) sistemlerinin geliştirilmesine yardımcı olan çevrimiçi konuşma verilerinin miktarında üstel bir büyümeye yol açtı. Zamanla, metin analizi için çeşitli NLP teknikleri de gelişti. Bu, kapsamlı makine öğrenimi (ML) uzmanlığına ihtiyaç duymadan API çağrıları kullanılarak uygulamalara entegre edilebilen, tam olarak yönetilen bir hizmet gereksinimini gerektirir. AWS, aşağıdakiler gibi önceden eğitilmiş AWS AI hizmetleri sunar: Amazon Kavramak, metinden içgörü toplamak için sınıflandırma, metin özetleme, varlık tanıma ve daha fazlasını içeren NLP kullanım durumlarını etkili bir şekilde ele alabilir.
Ek olarak, çevrimiçi konuşmalar, dilin geleneksel olmayan kullanımı gibi yaygın bir fenomene yol açmıştır. Geleneksel NLP teknikleri, farklı platformlarda bulunan sürekli gelişen ve alana özgü kelime dağarcığının yanı sıra, yanlışlıkla veya kasıtlı olarak bir düşman saldırısı biçimi olarak kelimelerin doğru İngilizceden önemli sözcük sapmaları nedeniyle bu metin verileri üzerinde genellikle düşük performans gösterir. .
Bu yayında, AWS'de bulunan araçlar ve hizmetlerle çevrimiçi konuşmaların metin sınıflandırmasına yönelik birden çok makine öğrenimi yaklaşımını açıklıyoruz.
Önkoşullar
Bu kullanım senaryosunu derinlemesine incelemeden önce lütfen aşağıdaki ön koşulları tamamlayın:
- Bir AWS hesabı ve bir IAM kullanıcısı oluştur.
- Ayarla AWS CLI'si ve AWS SDK'ları.
- (İsteğe bağlı) Cloud9 IDE ortamı.
Veri kümesi
Bu yazı için, Toksisite Sınıflandırması veri kümesinde Yapboz İstenmeyen Önyargı, çevrimiçi konuşmalarda toksisite sınıflandırmasının özel sorunu için bir kıyaslama. Veri seti, müstehcen, kimlik saldırısı, hakaret, tehdit ve müstehcenlik gibi çeşitli alt grup özelliklerinin yanı sıra toksisite etiketleri sağlar. Etiketler, belirli bir metin parçasına uygulanan özniteliğin nadiren oybirliğiyle uygulandığına inanan insan yorumcuların oranını temsil eden kesirli değerler olarak sağlanır. İkili etiketler (örneğin, toksik veya toksik olmayan) oluşturmak için kesirli değerlere 0.5'lik bir eşik uygulanır ve eşikten daha büyük değerlere sahip yorumlar bu etiket için pozitif sınıf olarak değerlendirilir.
Alt kelime yerleştirme ve RNN'ler
İlk modelleme yaklaşımımız için, metin sınıflandırma modellerini eğitmek için alt kelime yerleştirme ve tekrarlayan sinir ağlarının (RNN'ler) bir kombinasyonunu kullanıyoruz. Alt kelime yerleştirmeleri tarafından tanıtıldı Bojanowski ve ark. 2017'de önceki sözcük düzeyindeki gömme yöntemlerinde bir gelişme olarak. Geleneksel Word2Vec atlama gram modelleri, o kelimenin bağlamını en iyi şekilde tahmin eden bir hedef kelimenin statik vektör temsilini öğrenmek için eğitilir. Diğer yandan, alt kelime modelleri, her hedef kelimeyi, kelimeyi oluşturan n-gram karakterlerinin bir torbası olarak temsil eder; burada bir n-gram, bir dizi n ardışık karakterden oluşur. Bu yöntem, yerleştirme modelinin bütüncedeki ilgili kelimelerin altında yatan morfolojiyi daha iyi temsil etmesine ve yeni, kelime dağarcığında olmayan (OOV) kelimeler için yerleştirmelerin hesaplanmasına izin verir. Bu, kullanıcıların sıklıkla kelimeleri yanlış yazdığı (bazen kasıtlı olarak algılamadan kaçınmak için) ve ayrıca genel bir eğitim külliyatı tarafından yakalanamayan benzersiz, sürekli gelişen bir kelime dağarcığı kullandığı bir problem alanı olan çevrimiçi konuşmalar bağlamında özellikle önemlidir.
Amazon Adaçayı Yapıcı yerleşik olarak kendi etki alanına özgü metin verisi korpusunuz üzerinde denetimsiz bir alt sözcük yerleştirme modelini eğitmeyi ve optimize etmeyi kolaylaştırır. BlazingText algoritması. Ayrıca, aşağıdakiler gibi büyük çevrimiçi metin veri kümeleri üzerinde eğitilmiş mevcut genel amaçlı modelleri de indirebiliriz: İngilizce dil modelleri doğrudan fastText'ten edinilebilir. Önceden eğitilmiş bir fastText modelini indirmek için SageMaker not defteri örneğinizden aşağıdakileri çalıştırmanız yeterlidir:
İster BlazingText ile kendi yerleştirmelerinizi eğitmiş olun, ister önceden eğitilmiş bir model indirmiş olun, sonuç, belirli bir hedef kelimeyi kurucu alt kelimelerine dayalı bir vektör olarak yerleştirmek için gensim kitaplığı ile kullanabileceğiniz sıkıştırılmış bir model ikili dosyasıdır:
Belirli bir metin segmentini önceden işledikten sonra, bu yaklaşımı, kurucu kelimelerin her biri için (boşluklarla ayrılmış olarak) bir vektör temsili oluşturmak için kullanabiliriz. Daha sonra, metnin toksik olup olmadığını ve etiketli eğitim örneklerine dayalı olarak belirli bir toksisite alt tipini tahmin etmek için ikili veya çok etiketli sınıflandırma hedefiyle özelleştirilmiş bir RNN'yi eğitmek için SageMaker ve PyTorch gibi bir derin öğrenme çerçevesini kullanırız.
Önceden işlenmiş metninizi şuraya yüklemek için Amazon Basit Depolama Hizmeti (Amazon S3), aşağıdaki kodu kullanın:
SageMaker ile ölçeklenebilir, çoklu GPU model eğitimini başlatmak için aşağıdaki kodu girin:
Içinde tarafından kullanılan bir PyTorch Veri Kümesi tanımlarız. train.py
modelin eğitimi ve değerlendirilmesi için metin verilerini hazırlamak için:
Bu kodun aşağıdakileri öngördüğünü unutmayın: vectors.zip
fastText veya BlazingText yerleştirmelerinizi içeren dosya, .
Ek olarak, ilgili sözcük düzeyindeki görevlerde kullanım için gömme vektörlerini anında hesaplamak için önceden eğitilmiş fastText modellerini canlı SageMaker uç noktalarına kolayca dağıtabilirsiniz. Aşağıdakilere bakın GitHub örneği daha fazla ayrıntı için.
Sarılma Yüzlü Transformatörler
İkinci modelleme yaklaşımımız için, makalede tanıtılan Transformers kullanımına geçiyoruz. Dikkat İhtiyacınız Olan Her Şey. Transformatörler, girdi ve çıktı arasında küresel bağımlılıklar çekmek için bir öz-dikkat mekanizmasına dayanarak RNN'lerin tuzaklarından kasten kaçınmak için tasarlanmış derin öğrenme modelleridir. Transformer model mimarisi, önemli ölçüde daha iyi paralelleştirmeye izin verir ve nispeten kısa eğitim süresinde yüksek performans elde edebilir.
Transformers'ın başarısı üzerine inşa edilen BERT, makalede tanıtılmıştır. BERT: Dil Anlayışı İçin Derin Çift Yönlü Transformatörlerin Ön Eğitimi, dil gösterimi için çift yönlü ön eğitim eklendi. Cloze görevinden ilham alan BERT, modelin rastgele maskelenmiş belirteçler için orijinal kelimeleri kurtarmayı öğrendiği maskeli dil modellemesi (MLM) ile önceden eğitilmiştir. BERT modeli ayrıca, iki cümlenin doğru okuma sırasında olup olmadığını tahmin etmek için bir sonraki cümle tahmini (NSP) görevi üzerinde önceden eğitilmiştir. BERT ve varyasyonları, 2018'deki ortaya çıkışından bu yana, metin sınıflandırma görevlerinde yaygın olarak kullanılmaktadır.
Çözümümüz, makalede tanıtılan RoBERTa olarak bilinen bir BERT çeşidini kullanır. RoBERTa: Sağlam Bir Şekilde Optimize Edilmiş BERT Ön Eğitim Yaklaşımı. RoBERTa, 10 kat daha büyük bir korpusta daha uzun eğitim modelleri, optimize edilmiş hiperparametreler kullanma, dinamik rastgele maskeleme, NSP görevini kaldırma ve daha fazlasını içeren optimize edilmiş model eğitimi ile çeşitli doğal dil görevlerinde BERT performansını daha da geliştirir.
RoBERTa tabanlı modellerimiz, Sarılma Yüz Transformatörleri Çeşitli NLP görevleri için her türden son teknoloji Transformer modellerinin yüksek kaliteli uygulamalarını sağlayan popüler bir açık kaynaklı Python çerçevesi olan kütüphane. Hugging Face, AWS ile ortaklık kurdu Transformer modellerini SageMaker üzerinde kolayca eğitmenizi ve dağıtmanızı sağlamak için. Bu işlevsellik aracılığıyla kullanılabilir Hugging Face AWS Deep Learning Container görüntüleriTransformers, Tokenizers ve Datasets kitaplıklarını içeren ve model eğitimi ve çıkarımı için SageMaker ile optimize edilmiş entegrasyon.
Uygulamamızda, RoBERTa mimarisi omurgasını Hugging Face Transformers çerçevesinden devralıyoruz ve RoBERTox olarak adlandırdığımız kendi metin sınıflandırma modelimizi eğitmek ve dağıtmak için SageMaker kullanıyoruz. RoBERTox, içinde tanıtılan bayt çifti kodlamasını (BPE) kullanır. Alt Kelime Birimleri ile Nadir Kelimelerin Sinir Makinesi Çevirisi, giriş metnini alt sözcük temsillerine dönüştürmek için. Daha sonra modellerimizi ve belirteçlerimizi Jigsaw verileri veya herhangi bir büyük etki alanına özgü yapı (belirli bir oyundan sohbet günlükleri gibi) üzerinde eğitebilir ve bunları özelleştirilmiş metin sınıflandırması için kullanabiliriz. Özel sınıflandırma modeli sınıfımızı aşağıdaki kodda tanımlıyoruz:
Eğitimden önce Hugging Face'in veri kümeleri kitaplığını kullanarak metin verilerimizi ve etiketlerimizi hazırlıyoruz ve sonucu Amazon S3'e yüklüyoruz:
Modelin eğitimini RNN'ye benzer şekilde başlatıyoruz:
Son olarak, aşağıdaki Python kod parçacığı, bir JSON isteği için gerçek zamanlı metin sınıflandırması için canlı bir SageMaker uç noktası aracılığıyla RoBERTox sunma sürecini gösterir:
Model performansının değerlendirilmesi: Yapboz istenmeyen önyargı veri seti
Aşağıdaki tablo, Zehirlilik Tespiti Kaggle yarışmasında Jigsaw İstenmeyen Önyargı verileri üzerinde eğitilen ve değerlendirilen modeller için performans ölçümlerini içerir. Modelleri üç farklı ancak birbiriyle ilişkili görev için eğittik:
- ikili durum – Model, aşağıdakileri tahmin etmek için tam eğitim veri kümesi üzerinde eğitildi.
toxicity
sadece etiket - İnce taneli kasa – Hangi eğitim verilerinin alt kümesi
toxicity>=0.5
diğer toksisite alt tipi etiketlerini tahmin etmek için kullanıldı (obscene
,threat
,insult
,identity_attack
,sexual_explicit
) - çoklu görev vakası – Altı etiketi aynı anda tahmin etmek için tam eğitim veri seti kullanıldı
Bu üç görevin her biri için RNN ve RoBERTa modellerini, etiketin metin için uygun olduğunu düşünen ek açıklamaların oranına ve ağdaki sınıf ağırlıklarıyla birleştirilmiş ikili etiketlere karşılık gelen Jigsaw tarafından sağlanan kesirli etiketleri kullanarak eğittik. kayıp fonksiyonu. İkili etiketleme şemasında, oranlar mevcut her etiket için 0.5'te eşiklenmiştir (etiket>=1 ise 0.5, aksi takdirde 0) ve model kaybı işlevleri, eğitim veri kümesindeki her ikili etiketin göreli oranlarına dayalı olarak ağırlıklandırılmıştır. Her durumda, kesirli etiketleri kullanmanın doğrudan en iyi performansla sonuçlandığını ve açıklayıcılar arasındaki anlaşma derecesinde bulunan bilginin katma değerini gösterdiğini bulduk.
İki model metriği gösteriyoruz: her sınıflandırma eşiğinde elde edilen kesinlik değerlerinin ağırlıklı ortalamasını hesaplayarak kesinlik-geri çağırma eğrisinin bir özetini sağlayan ortalama kesinlik (AP) ve alıcı işletim karakteristik eğrisi (AUC) altındaki alan , model performansını gerçek pozitif orana ve yanlış pozitif orana göre sınıflandırma eşikleri arasında toplar. Test kümesindeki belirli bir metin örneği için doğru sınıfın, gerçek oranın 0.5'e eşit veya büyük olup olmadığına karşılık geldiğine dikkat edin (etiket>=1 ise 0.5, aksi takdirde 0).
. | Alt Kelime Gömme + RNN | roBERTa | ||
. | kesirli etiketler | İkili etiketler + Sınıf ağırlığı | kesirli etiketler | İkili etiketler + Sınıf ağırlığı |
İkili | AP=0.746, EAA=0.966 | AP=0.730, EAA=0.963 | AP=0.758, EAA=0.966 | AP=0.747, EAA=0.963 |
ince taneli | AP=0.906, EAA=0.909 | AP=0.850, EAA=0.851 | AP=0.913, EAA=0.913 | AP=0.911, EAA=0.912 |
Multitask | AP=0.721, EAA=0.972 | AP=0.535, EAA=0.907 | AP=0.740, EAA=0.972 | AP=0.711, EAA=0.961 |
Sonuç
Bu gönderide, AWS ML hizmetlerini kullanan çevrimiçi konuşmalar için iki metin sınıflandırma yaklaşımı sunduk. Bu çözümleri çevrimiçi iletişim platformlarında genelleştirebilirsiniz; oyun gibi endüstriler özellikle zararlı içeriği tespit etme becerisinin geliştirilmesinden faydalanabilir. Gelecekteki gönderilerde, modellerin AWS hesabınıza sorunsuz bir şekilde dağıtılması için uçtan uca bir mimariyi daha ayrıntılı olarak ele almayı planlıyoruz.
Ürünlerinizde ve süreçlerinizde makine öğrenimi kullanımınızı hızlandırmak için yardıma ihtiyacınız varsa, lütfen şurayla iletişime geçin: Amazon ML Çözümleri Laboratuvarı.
Yazarlar Hakkında
Ryan Marka Amazon Makine Öğrenimi Çözümleri Laboratuvarı'nda Veri Bilimcisidir. Makine öğrenimini sağlık ve yaşam bilimlerindeki sorunlara uygulama konusunda özel deneyime sahiptir ve boş zamanlarında tarih ve bilim kurgu okumaktan hoşlanır.
sourav yenge Amazon ML Çözümleri Laboratuvarı'nda Veri Bilimcisidir. Çeşitli sektörlerdeki AWS müşterileri için AI/ML çözümleri geliştiriyor. Uzmanlık alanı Doğal Dil İşleme (NLP) ve derin öğrenme konusunda tutkulu. İş dışında kitap okumayı ve seyahat etmeyi sever.
Liutong Zhou Amazon ML Çözümleri Laboratuvarı'nda Uygulamalı Bilim Adamıdır. Çeşitli sektörlerdeki AWS müşterileri için özel yapay zeka/ML çözümleri geliştiriyor. Doğal Dil İşleme (NLP) konusunda uzmanlaşmıştır ve çok modlu derin öğrenme konusunda tutkuludur. O bir lirik tenor ve iş dışında operalar söylemekten hoşlanıyor.
Sia Gholami Çeşitli sektörlerdeki müşteriler için AI/ML çözümleri oluşturduğu Amazon ML Çözümleri Laboratuvarı'nda Kıdemli Veri Bilimcisi olarak görev yapmaktadır. Doğal dil işleme (NLP) ve derin öğrenme konusunda tutkulu. Sia, iş dışında doğada vakit geçirmeyi ve tenis oynamayı sever.
Daniel Horowitz Uygulamalı Yapay Zeka Bilim Yöneticisidir. Amazon ML Solutions Lab'de müşteri sorunlarını çözmek ve ML ile bulutun benimsenmesini sağlamak için çalışan bir bilim insanı ekibine liderlik ediyor.
- Akıllı para. Avrupa'nın En İyi Bitcoin ve Kripto Borsası.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. SERBEST ERİŞİM.
- KriptoHawk. Altcoin Radarı. Ücretsiz deneme.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/text-classification-for-online-conversations-with-machine-learning-on-aws/
- '
- "
- 10
- 100
- 7
- a
- kabiliyet
- Hakkımızda
- hızlanan
- Hesap
- Başarmak
- elde
- karşısında
- katma
- Benimseme
- Bireysel Üyelik Sözleşmesi
- AI
- AI hizmetleri
- Türkiye
- veriyor
- Amazon
- miktar
- analiz
- api
- uygulamaları
- uygulamalı
- Tamam
- Uygulanması
- yaklaşım
- yaklaşımlar
- uygun
- mimari
- ALAN
- öznitelikleri
- mevcut
- ortalama
- AWS
- çanta
- kıyaslama
- yarar
- İYİ
- Daha iyi
- arasında
- büyük
- Kitaplar
- inşa
- yerleşik
- çağrı
- dava
- durumlarda
- karakterler
- sınıf
- sınıflandırma
- bulut
- kod
- kombinasyon
- kombine
- yorumlar
- Yakın İletişim
- rekabet
- tamamlamak
- oluşan
- hesaplama
- hesaplamak
- bilgisayar
- ardışık
- sürekli
- UAF ile
- Konteyner
- içeren
- içerik
- konuşma
- konuşmaları
- yaratmak
- eğri
- görenek
- müşteri
- Müşteriler
- veri
- veri bilimcisi
- derin
- dağıtmak
- açılma
- tanımlamak
- tasarlanmış
- ayrıntılar
- Bulma
- Belirlemek
- gelişme
- farklı
- Boyut
- direkt olarak
- tartışmak
- ekran
- indir
- sürücü
- sırasında
- dinamik
- her
- kolayca
- etkili bir şekilde
- etkinleştirmek
- son uca
- Son nokta
- İngilizce
- Keşfet
- varlık
- değerlendirme
- gelişen
- örnek
- örnekler
- mevcut
- deneyim
- Uzmanlık
- kapsamlı, geniş
- Yüz
- Moda
- Kurgu
- Ad
- takip etme
- Airdrop Formu
- ileri
- bulundu
- kesirli
- iskelet
- Ücretsiz
- itibaren
- tam
- işlev
- işlevsellik
- fonksiyonlar
- daha fazla
- gelecek
- oyun
- Games
- kumar
- genel
- genel amaçlı
- oluşturmak
- nesil
- Küresel
- büyük
- Büyüme
- sap
- baş
- sağlık
- yardım et
- yardım
- Yüksek
- Yüksek kaliteli
- tarih
- HTTPS
- insan
- Kimlik
- uygulama
- önemli
- gelişmiş
- iyileşme
- dahil
- Dahil olmak üzere
- Endüstri
- bilgi
- doğal
- giriş
- anlayışlar
- ilham
- örnek
- Hakaret
- entegre
- bütünleşme
- IT
- yapboz
- İş
- anahtarlar
- bilinen
- laboratuvar
- etiket
- etiketleme
- Etiketler
- dil
- büyük
- büyük
- tabaka
- İlanlar
- ÖĞRENİN
- öğrenme
- Led
- Kütüphane
- Yaşam Bilimleri
- Muhtemelen
- yaşamak
- yük
- makine
- makine öğrenme
- yapmak
- YAPAR
- yönetilen
- müdür
- maske
- Maskeler
- Maç
- Matris
- mekanizma
- Bellek
- yöntemleri
- Metrikleri
- olabilir
- ML
- model
- modelleri
- Daha
- çoklu
- Doğal (Madenden)
- Tabiat
- ağ
- ağlar
- sonraki
- defter
- numara
- Teklifler
- Online
- işletme
- optimize
- optimize
- sipariş
- orijinal
- Diğer
- aksi takdirde
- kendi
- kâğıt
- özellikle
- ortaklık
- tutkulu
- performans
- parça
- Platformlar
- oynama
- Lütfen
- Popüler
- pozitif
- Mesajlar
- tahmin
- tahmin
- Hazırlamak
- önceki
- Sorun
- sorunlar
- süreç
- Süreçler
- işleme
- Ürünler
- Projeksiyon
- sağlanan
- sağlar
- Okuma
- gerçek zaman
- Kurtarmak
- uygun
- kaldırma
- temsil etmek
- temsil
- temsil
- talep
- dönüş
- İade
- Rol
- koşmak
- ölçeklenebilir
- plan
- Bilim
- BİLİMLERİ
- bilim adamı
- bilim adamları
- sorunsuz
- bölüm
- hizmet
- Hizmetler
- servis
- set
- birkaç
- kısa
- önemli
- benzer
- Basit
- beri
- ALTINCI
- beden
- çözüm
- Çözümler
- ÇÖZMEK
- uzay
- alanlarda
- uzmanlaşmış
- Uzmanlık
- özel
- Harcama
- state-of-the-art
- Devletler
- hafızası
- başarı
- Sistemler
- Hedef
- görevleri
- takım
- teknikleri
- telekomünikasyon
- test
- The
- üç
- eşik
- İçinden
- zaman
- zamanlar
- Jeton
- araçlar
- meşale
- geleneksel
- Tren
- Eğitim
- geçiş
- Çeviri
- Seyahat
- altında
- benzersiz
- kullanım
- kullanıcılar
- onaylama
- değer
- çeşitlilik
- çeşitli
- Video
- video oyunları
- olup olmadığını
- DSÖ
- içinde
- olmadan
- sözler
- İş
- çalışma