Amazon Comprehend, özel varlık tanıma PlatoBlockchain Veri Zekası için daha düşük açıklama limitlerini duyurdu. Dikey Arama. Ai.

Amazon Comprehend, özel varlık tanıma için daha düşük ek açıklama sınırlarını duyurdu

Amazon Kavramak belgelerden varlıkları, anahtar sözcükleri, dili, duyguları ve diğer öngörüleri otomatik olarak çıkarmak için kullanabileceğiniz bir doğal dil işleme (NLP) hizmetidir. Örneğin, kişiler, yerler, ticari öğeler, tarihler ve miktarlar gibi varlıkları, Amazon Comprehend konsolu, AWS Komut Satırı Arayüzüya da Amazon Anlamak API'leri. Ayrıca, bir parçası olmayan varlıkları çıkarmanız gerekirse Amazon Comprehend yerleşik varlık türleri, özel bir varlık tanıma modeli oluşturabilirsiniz (olarak da bilinir) özel varlık tanıyıcı) bir ürün kataloğundaki öğelerin adları, etki alanına özgü tanımlayıcılar vb. gibi özel kullanım durumunuzla daha alakalı terimleri çıkarmak için. Makine öğrenimi kitaplıkları ve çerçevelerini kullanarak kendi başınıza doğru bir varlık tanıyıcı oluşturmak karmaşık ve zaman alıcı bir süreç olabilir. Amazon Comprehend, model eğitim çalışmanızı önemli ölçüde basitleştirir. Tek yapmanız gereken belge ve ek açıklamalardan oluşan veri kümenizi yüklemek ve modeli oluşturmak için Amazon Comprehend konsolunu, AWS CLI'yi veya API'leri kullanmaktır.

Özel bir varlık tanıyıcıyı eğitmek için Amazon Comprehend'e eğitim verilerini şu şekilde sağlayabilirsiniz: ek açıklamalar veya varlık listeleri. İlk durumda, bir belge koleksiyonu ve belgelerin kümesi içinde varlıkların oluştuğu yeri belirten açıklamaları içeren bir dosya sağlarsınız. Alternatif olarak, varlık listeleriyle, ilgili varlık türü etiketiyle birlikte varlıkların bir listesini ve varlıklarınızın bulunmasını beklediğiniz bir dizi açıklamasız belge sağlarsınız. Her iki yaklaşım da başarılı bir özel varlık tanıma modelini eğitmek için kullanılabilir; ancak, bir yöntemin daha iyi bir seçim olabileceği durumlar vardır. Örneğin, belirli varlıkların anlamı belirsiz ve bağlama bağlı olduğunda, ek açıklamaların sağlanması önerilir çünkü bu, varlıkları ayıklarken bağlamı daha iyi kullanabilen bir Amazon Anlama modeli oluşturmanıza yardımcı olabilir.

Belgelere açıklama eklemek oldukça fazla çaba ve zaman gerektirebilir, özellikle de açıklamaların hem kalitesinin hem de miktarının sonuçta ortaya çıkan varlık tanıma modeli üzerinde bir etkisi olduğunu düşünüyorsanız. Kesin olmayan veya çok az açıklama, kötü sonuçlara yol açabilir. Ek açıklamalar almak için bir süreç oluşturmanıza yardımcı olmak için aşağıdaki gibi araçlar sunuyoruz: Amazon SageMaker Yer GerçeğiBelgelerinize daha hızlı açıklama eklemek ve bir artırılmış bildirim ek açıklamaları dosyası. Ancak, Temel Gerçeği kullansanız bile, varlık tanıyıcınızı başarılı bir şekilde oluşturmak için eğitim veri kümenizin yeterince büyük olduğundan emin olmanız gerekir.

Bugüne kadar bir Amazon Comprehend özel varlık tanıyıcıyı eğitmeye başlamak için varlık türü başına en az 250 belge ve en az 100 ek açıklama sağlamanız gerekiyordu. Bugün, Amazon Comprehend'in temelindeki modellerde yapılan son iyileştirmeler sayesinde, bir tanıyıcıyı düz metin CSV ek açıklama dosyalarıyla eğitmek için minimum gereksinimleri azalttığımızı duyuruyoruz. Artık varlık türü başına en az üç belge ve 25 ek açıklama ile özel bir varlık tanıma modeli oluşturabilirsiniz. Yeni hizmet limitleri hakkında daha fazla bilgiyi şurada bulabilirsiniz: Yönergeler ve kotalar.

Bu azaltmanın özel bir varlık tanıyıcı oluşturmaya başlamanıza nasıl yardımcı olabileceğini göstermek için birkaç açık kaynaklı veri kümesi üzerinde bazı testler yaptık ve performans ölçümlerini topladık. Bu gönderide, karşılaştırmalı değerlendirme süreci ve alt örneklenmiş veri kümeleri üzerinde çalışırken elde ettiğimiz sonuçlar konusunda size yol gösteriyoruz.

Veri seti hazırlığı

Bu gönderide, açıklamalı belgeler kullanarak bir Amazon Comprehend özel varlık tanıyıcısını nasıl eğittiğimizi açıklıyoruz. Genel olarak, ek açıklamalar bir CSV dosyası, Bir Ground Truth tarafından oluşturulan artırılmış manifest dosyası, Ya da bir PDF dosyası. Yeni minimum gereksinimlerden etkilenen ek açıklama türü bu olduğundan, odak noktamız CSV düz metin ek açıklamalarıdır. CSV dosyaları aşağıdaki yapıya sahip olmalıdır:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

İlgili alanlar aşağıdaki gibidir:

  • fileto – Belgeleri içeren dosyanın adı
  • çizgi – 0 satırından başlayarak varlığı içeren satırın numarası
  • Başlamak Dengelemek – Giriş metnindeki (satırın başına göre) ilk karakterin 0 konumunda olduğu dikkate alınarak varlığın nerede başladığını gösteren karakter ofseti
  • Ofseti Sonlandır – Varlığın nerede bittiğini gösteren giriş metnindeki karakter ofseti
  • Tip – Tanımlamak istediğiniz varlık tipinin adı

Ek olarak, bu yaklaşımı kullanırken, her satırda bir belge veya dosya başına bir belge içeren .txt dosyaları olarak bir eğitim belgeleri koleksiyonu sağlamanız gerekir.

Testlerimiz için kullandık SNIPS Doğal Dil Anlama karşılaştırmasıyedi kullanıcı amacı (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). Veri seti, makale bağlamında 2018'de yayınlandı. Snips Voice Platform: özel tasarım ses arabirimleri için yerleşik bir Sözlü Dil Anlama sistemi Coucke, et al.

SNIPS veri kümesi, hem açıklamaları hem de ham metin dosyalarını yoğunlaştıran bir JSON dosyaları koleksiyonundan oluşur. Aşağıdaki, veri kümesinden bir pasajdır:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

Varlık tanıyıcımızı oluşturmadan önce, SNIPS ek açıklamalarını ve ham metin dosyalarını bir CSV açıklama dosyasına ve bir .txt belge dosyasına dönüştürdük.

Aşağıdaki bizim bir alıntıdır annotations.csv Dosya:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

Aşağıdaki bizim bir alıntıdır documents.txt Dosya:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

Örnekleme yapılandırması ve kıyaslama süreci

Deneylerimiz için, SNIPS veri kümesinden varlık türlerinin bir alt kümesine odaklandık:

  • KitapRestoran – Varlık türleri: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
  • Hava Durumu Al – Varlık türleri: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
  • Müzik çal – Varlık türleri: track, artist, music_item, service, genre, sort, playlist, album, year

Ayrıca, eğitim için örneklenen belge sayısı ve varlık başına ek açıklama sayısı açısından farklı konfigürasyonlar elde etmek için her bir veri kümesini alt örnekledik (aynı zamanda çekim). Bu, her varlık türünün en az göründüğü alt örneklenmiş veri kümeleri oluşturmak için tasarlanmış özel bir komut dosyası kullanılarak yapıldı. k kez, minimum süre içinde n belgeler.

Her model, eğitim veri kümelerinin belirli bir alt örneği kullanılarak eğitildi; dokuz model konfigürasyonu aşağıdaki tabloda gösterilmektedir.

Alt örneklenmiş veri kümesi adı Eğitim için örneklenen belge sayısı Test için örneklenen belge sayısı Varlık türü (çekimler) başına ortalama açıklama sayısı
snips-BookRestaurant-subsample-A 132 17 33
snips-BookRestaurant-subsample-B 257 33 64
snips-BookRestaurant-subsample-C 508 64 128
snips-GetWeather-subsample-A 91 12 25
snips-GetWeather-subsample-B 185 24 49
snips-GetWeather-subsample-C 361 46 95
snips-PlayMusic-subsample-A 130 17 30
snips-PlayMusic-subsample-B 254 32 60
snips-PlayMusic-subsample-C 505 64 119

Modellerimizin doğruluğunu ölçmek için Amazon Comprehend'in bir varlık tanıyıcıyı eğitirken otomatik olarak hesapladığı değerlendirme ölçümlerini topladık:

  • Hassas – Bu, tanıyıcı tarafından tespit edilen ve doğru şekilde tanımlanmış ve etiketlenmiş varlıkların oranını gösterir. Farklı bir bakış açısıyla, kesinlik şu şekilde tanımlanabilir: tp / (tp + fps), Burada tp gerçek pozitiflerin sayısıdır (doğru tanımlamalar) ve fp yanlış pozitiflerin sayısıdır (yanlış tanımlamalar).
  • Geri çağırmak – Bu, belgelerde bulunan ve doğru şekilde tanımlanmış ve etiketlenmiş varlıkların oranını gösterir. şu şekilde hesaplanır tp / (tp + fn), Burada tp gerçek pozitiflerin sayısıdır ve fn yanlış negatiflerin sayısıdır (kaçırılan tanımlamalar).
  • F1 skoru – Bu, modelin genel doğruluğunu ölçen kesinlik ve geri çağırma metriklerinin bir birleşimidir. F1 puanı, kesinlik ve geri çağırma metriklerinin harmonik ortalamasıdır ve şu şekilde hesaplanır: 2 * Hassas * Geri Çağırma / (Hassas + Geri Çağırma).

Varlık tanıyıcılarımızın performansını karşılaştırmak için F1 puanlarına odaklanıyoruz.

Bir veri seti ve bir alt örnek boyutu (belge ve çekim sayısı açısından) verildiğinde, farklı alt örnekler oluşturabileceğinizi göz önünde bulundurarak, dokuz konfigürasyonun her biri için 10 alt örnek oluşturduk, varlık tanıma modellerini eğittik, performans metriklerini topladık ve mikro ortalamayı kullanarak ortalamalarını aldı. Bu, özellikle az sayıdaki alt örnekler için daha kararlı sonuçlar elde etmemizi sağladı.

Sonuçlar

Aşağıdaki tablo, her varlık tanıyıcıyı eğittikten sonra Amazon Comprehend tarafından döndürülen performans ölçümlerinde hesaplanan mikro ortalamalı F1 puanlarını gösterir.

Alt örneklenmiş veri kümesi adı Varlık tanıyıcı mikro ortalamalı F1 puanı (%)
snips-BookRestaurant-subsample-A 86.89
snips-BookRestaurant-subsample-B 90.18
snips-BookRestaurant-subsample-C 92.84
snips-GetWeather-subsample-A 84.73
snips-GetWeather-subsample-B 93.27
snips-GetWeather-subsample-C 93.43
snips-PlayMusic-subsample-A 80.61
snips-PlayMusic-subsample-B 81.80
snips-PlayMusic-subsample-C 85.04

Aşağıdaki sütun grafiği, önceki bölümde açıklandığı gibi eğittiğimiz dokuz konfigürasyon için F1 puanlarının dağılımını göstermektedir.

Varlık türü başına en az 25 ek açıklama ile bile özel varlık tanıma modellerini başarıyla eğitebildiğimizi gözlemleyebiliriz. En küçük üç alt örneklenmiş veri kümesine odaklanırsak (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-A, ve snips-PlayMusic-subsample-A), kullandığımız sınırlı sayıda belge ve açıklama dikkate alındığında oldukça iyi bir sonuç olan ortalama olarak %1'lük bir F84 puanı elde edebildiğimizi görüyoruz. Modelimizin performansını iyileştirmek istiyorsak, ek belgeler ve açıklamalar toplayabilir ve daha fazla veri ile yeni bir model eğitebiliriz. Örneğin, orta büyüklükteki alt örneklerle (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-B, ve snips-PlayMusic-subsample-B), iki kat daha fazla belge ve ek açıklama içeren, ortalama olarak %1'lik bir F88 puanı elde ettik ( subsample-A veri kümeleri). Son olarak, daha büyük alt örneklenmiş veri kümeleri (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-C, ve snips-PlayMusic-subsample-C), daha da fazla açıklamalı veri içerir (bunun için kullanılan belge ve açıklama sayısının yaklaşık dört katı subsample-A veri kümeleri), ortalama F2 puanını %1'a yükselterek %90'lik bir iyileştirme daha sağladı.

Sonuç

Bu gönderide, Amazon Comprehend ile özel varlık tanıyıcı eğitimi için minimum gereksinimlerin azaltıldığını duyurduk ve bu azaltmanın başlamanıza nasıl yardımcı olabileceğini göstermek için açık kaynaklı veri kümelerinde bazı karşılaştırmalar yaptık. Bugünden itibaren, varlık türü başına (25 yerine) en az 100 ek açıklama ve en az üç belge (250 yerine) içeren bir varlık tanıma modeli oluşturabilirsiniz. Bu duyuruyla, Amazon Comprehend özel varlık tanıma teknolojisini kullanmakla ilgilenen kullanıcılar için giriş engelini azaltıyoruz. Kullanım durumunuz için daha doğru bir varlık tanıma modeline ihtiyacınız varsa, artık denemelerinizi çok küçük bir açıklamalı belge koleksiyonuyla çalıştırmaya başlayabilir, ön sonuçları analiz edebilir ve ek açıklamalar ve belgeler ekleyerek yineleyebilirsiniz.

Daha fazla bilgi edinmek ve özel varlık tanıyıcıyı kullanmaya başlamak için bkz. Özel varlık tanıma.

Veri hazırlama ve kıyaslama konusundaki değerli yardımları için meslektaşlarım Jyoti Bansal ve Jie Ma'ya özel teşekkürler.


Yazar hakkında

Amazon Comprehend, özel varlık tanıma PlatoBlockchain Veri Zekası için daha düşük açıklama limitlerini duyurdu. Dikey Arama. Ai.Luca Guida AWS'de Çözüm Mimarı; Milano merkezlidir ve İtalyan ISV'leri bulut yolculuklarında destekler. Bilgisayar bilimi ve mühendisliğinde akademik bir geçmişe sahip olarak, AI/ML tutkusunu üniversitede geliştirmeye başladı. AWS içindeki doğal dil işleme (NLP) topluluğunun bir üyesi olarak Luca, müşterilerin AI/ML hizmetlerini benimserken başarılı olmalarına yardımcı olur.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi