Amazon Kavramak metinsel verilerden öngörüler elde etmek için önceden eğitilmiş ve özel API'ler sağlayan bir doğal dil işleme (NLP) hizmetidir. Amazon Comprehen müşterileri, işlerine özgü konum, kişi adı ve tarih gibi ilgi çekici varlıkları çıkarmak için özel adlandırılmış varlık tanıma (NER) modellerini eğitebilir.
Özel bir modeli eğitmek için öncelikle belgelerdeki varlıklara manuel olarak açıklama ekleyerek eğitim verilerini hazırlarsınız. Bu şu şekilde yapılabilir: Yarı Yapılandırılmış Belgeleri Anlama Ek Açıklama Aracı, bu bir yaratır Amazon SageMaker Yer Gerçeği Açıklamacıların doğrudan PDF belgeleri üzerinde varlıkların etrafına sınırlayıcı kutular çizmesine olanak tanıyan özel bir şablonla iş yapın. Ancak SAP gibi ERP sistemlerinde tablosal varlık verileri bulunan şirketler için manuel açıklama tekrarlayan ve zaman alıcı olabilir.
Eğitim verilerini hazırlama çabasını azaltmak için aşağıdakileri kullanarak bir ön etiketleme aracı geliştirdik: AWS Basamak İşlevleri mevcut tablosal varlık verilerini kullanarak belgelere otomatik olarak ön açıklama ekler. Bu, Amazon Comprehend'de doğru özel varlık tanıma modellerini eğitmek için gereken manuel çalışmayı önemli ölçüde azaltır.
Bu yazıda, ön etiketleme aracını kurma adımlarında size yol gösterecek ve bu aracın herkese açık bir belgeden gelen belgelere otomatik olarak nasıl açıklama eklediğine dair örnekler göstereceğiz. veri kümesi PDF formatında örnek banka ekstreleri. Kodun tamamı şu adreste mevcuttur: GitHub repo.
Çözüme genel bakış
Bu bölümde ön etiketleme aracının giriş ve çıkışlarını tartışıyor ve çözüm mimarisine genel bir bakış sunuyoruz.
Girdiler ve çıktılar
Giriş olarak ön etiketleme aracı, açıklama eklenecek metin içeren PDF belgelerini alır. Demo için aşağıdaki örnekteki gibi simüle edilmiş banka ekstreleri kullanıyoruz.
Araç aynı zamanda PDF belgelerini bu belgelerden çıkarmak istediğimiz varlıklarla eşleştiren bir bildirim dosyası da alır. Varlıklar iki şeyden oluşur: expected_text
belgeden çıkarmak için (örneğin, AnyCompany Bank
) ve karşılık gelen entity_type
(Örneğin, bank_name
). Bu yazının ilerleyen kısımlarında, bu manifest dosyasının aşağıdaki örnekteki gibi bir CSV belgesinden nasıl oluşturulacağını göstereceğiz.
Ön etiketleme aracı, belgelere ilgili varlıklarla otomatik olarak açıklama eklemek için bildirim dosyasını kullanır. Daha sonra bu ek açıklamaları doğrudan bir Amazon Comprehend modelini eğitmek için kullanabiliriz.
Alternatif olarak, aşağıdaki ekran görüntüsünde gösterildiği gibi, insanların incelemesi ve düzenlemesi için bir SageMaker Ground Truth etiketleme işi oluşturabilirsiniz.
İnceleme tamamlandığında, ek açıklamalı verileri bir Amazon Comprehend özel varlık tanıyıcı modelini eğitmek için kullanabilirsiniz.
mimari
Ön etiketleme aracı birden fazla bileşenden oluşur AWS Lambda Step Functions durum makinesi tarafından düzenlenen işlevler. Ön açıklamalar oluşturmak için farklı teknikler kullanan iki sürümü vardır.
İlk teknik bulanık eşleme. Bu, beklenen varlıklara sahip bir ön bildirim dosyası gerektirir. Araç, metin benzerliğini karşılaştırarak ön açıklamalar oluşturmak için bulanık eşleştirme algoritmasını kullanır.
Bulanık eşleştirme, belgede, bildirim öncesi dosyada listelenen beklenen varlıklara benzer (ancak tam olarak aynı olması gerekmeyen) dizeleri arar. Önce beklenen metin ile belgedeki kelimeler arasındaki metin benzerliği puanlarını hesaplar, ardından bir eşiğin üzerindeki tüm çiftleri eşleştirir. Bu nedenle, tam eşleşmeler olmasa bile bulanık eşleştirme, kısaltmalar ve yazım yanlışları gibi değişkenleri bulabilir. Bu, aracın, varlıkların kelimesi kelimesine görünmesini gerektirmeden belgeleri önceden etiketlemesine olanak tanır. Örneğin, eğer 'AnyCompany Bank'
beklenen bir varlık olarak listelendiğinde, Bulanık Eşleştirme aşağıdakilerin oluşumlarına açıklama ekleyecektir: 'Any Companys Bank'
. Bu, katı dize eşleştirmeden daha fazla esneklik sağlar ve ön etiketleme aracının daha fazla varlığı otomatik olarak etiketlemesine olanak tanır.
Aşağıdaki diyagram bu Step Functions durum makinesinin mimarisini göstermektedir.
İkinci teknik gerektirir önceden eğitilmiş Amazon Comprehend varlık tanıyıcı modeli. Araç, aşağıdaki diyagramda gösterilen iş akışını izleyerek Amazon Comprehend modelini kullanarak ön açıklamalar oluşturur.
Aşağıdaki diyagram tüm mimariyi göstermektedir.
Aşağıdaki bölümlerde çözümü uygulamaya yönelik adımları inceleyeceğiz.
Ön etiketleme aracını dağıtın
Depoyu yerel makinenize kopyalayın:
Bu depo, Comprehend Yarı Yapılandırılmış Belgeler Ek Açıklama Aracının üzerine inşa edilmiştir ve SageMaker Ground Truth kullanıcı arayüzünde halihazırda görüntülenen ön açıklamalarla bir SageMaker Ground Truth etiketleme işi başlatmanıza olanak tanıyarak işlevlerini genişletir.
Ön etiketleme aracı, hem Yarı Yapılandırılmış Belgeleri Anlama Ek Açıklama Aracı kaynaklarını hem de ön etiketleme aracına özel bazı kaynakları içerir. Çözümü şununla dağıtabilirsiniz: AWS Sunucusuz Uygulama Modeli (AWS SAM), sunucusuz uygulama altyapısı kodunu tanımlamak için kullanabileceğiniz açık kaynaklı bir çerçevedir.
Daha önce Yarı Yapılandırılmış Belgeleri Anlama Ek Açıklama Aracı'nı dağıttıysanız, SSS bölümüne bakın. Pre_labeling_tool/README.md
Yalnızca ön etiketleme aracına özel kaynakların nasıl dağıtılacağına ilişkin talimatlar için.
Aracı daha önce dağıtmadıysanız ve yeni başlıyorsanız çözümün tamamını dağıtmak için aşağıdakileri yapın.
Geçerli dizini ek açıklama aracı klasörüne değiştirin:
Çözümü oluşturun ve dağıtın:
Ön bildirim dosyasını oluşturun
Ön etiketleme aracını kullanmadan önce verilerinizi hazırlamanız gerekir. Ana girdiler PDF belgeleri ve bir ön bildirim dosyasıdır. Ön bildirim dosyası, altındaki her PDF belgesinin konumunu içerir. 'pdf'
ve altında etiketlenmesi beklenen varlıklara sahip bir JSON dosyasının konumu 'expected_entities'
.
Defter created_premanifest_file.ipynb bu dosyanın nasıl oluşturulacağını gösterir. Demoda ön bildirim dosyası aşağıdaki kodu gösterir:
Ön bildirim dosyasında listelenen her JSON dosyası (altında) expected_entities
) her beklenen varlık için bir sözlük listesi içerir. Sözlüklerde aşağıdaki tuşlar bulunur:
- 'beklenen_metinler' – Varlıkla eşleşen olası metin dizelerinin listesi.
- 'varlık_türü' – İlgili varlık türü.
- 'ignore_list' (isteğe bağlı) – Maçta göz ardı edilmesi gereken kelimelerin listesi. Bu parametreler, bulanık eşleştirmenin, yanlış olduğunu bildiğiniz belirli sözcük kombinasyonlarıyla eşleşmesini önlemek için kullanılmalıdır. İsimlere bakarken bazı numaraları veya e-posta adreslerini göz ardı etmek istiyorsanız bu yararlı olabilir.
Örneğin, expected_entities
Daha önce gösterilen PDF'nin bir kısmı aşağıdakine benzer:
Ön etiketleme aracını çalıştırın
Önceki adımda oluşturduğunuz ön bildirim dosyasıyla ön etiketleme aracını çalıştırmaya başlayın. Daha fazla ayrıntı için not defterine bakın start_step_functions.ipynb.
Ön etiketleme aracını başlatmak için bir event
aşağıdaki tuşlarla:
- Ön tezahür – Her PDF belgesini kendisine eşler
expected_entities
dosya. Bu şunları içermelidir: Amazon Basit Depolama Hizmeti (Amazon S3) kovası (altındabucket
) ve tuşu (altındakey
) dosyanın. - Önek – Oluşturmak için kullanılır
execution_id
, çıktı depolaması için S3 klasörünü ve SageMaker Ground Truth etiketleme işi adını adlandıran. - varlık_tipleri – Ek açıklamacıların etiketlemesi için kullanıcı arayüzünde görüntülenir. Bunlar, beklenen varlıklar dosyalarındaki tüm varlık türlerini içermelidir.
- iş_ekibi_adı (isteğe bağlı) – SageMaker Ground Truth etiketleme işini oluşturmak için kullanılır. Kullanılacak özel işgücüne karşılık gelir. Sağlanmazsa SageMaker Ground Truth etiketleme işi yerine yalnızca bir bildirim dosyası oluşturulacaktır. Daha sonra bir SageMaker Ground Truth etiketleme işi oluşturmak için manifest dosyasını kullanabilirsiniz. Bu yazının yazıldığı an itibariyle, etiketleme işini not defterinden oluştururken harici bir iş gücü sağlayamayacağınızı unutmayın. Ancak oluşturulan işi klonlayabilir ve onu SageMaker Ground Truth konsolunda harici bir iş gücüne atayabilirsiniz.
- kavrama_parametreleri (isteğe bağlı) – Bir Amazon Comprehend özel varlık tanıyıcı modelini doğrudan eğitmeye yönelik parametreler. Atlanırsa bu adım atlanacaktır.
Durum makinesini başlatmak için aşağıdaki Python kodunu çalıştırın:
Bu, durum makinesinin çalışmasını başlatacaktır. Durum makinesinin ilerlemesini Step Functions konsolundan izleyebilirsiniz. Aşağıdaki şemada durum makinesi iş akışı gösterilmektedir.
Durum makinesi tamamlandığında aşağıdakileri yapın:
- Kayıtlı aşağıdaki çıktıları inceleyin
prelabeling/
klasörücomprehend-semi-structured-docs
S3 paketi:- Belgelerin her sayfası için ayrı ek açıklama dosyaları (belge başına her sayfada bir tane)
temp_individual_manifests/
- SageMaker Ground Truth etiketleme işi için bir bildirim
consolidated_manifest/consolidated_manifest.manifest
- Özel bir Amazon Comprehend modelini eğitmek için kullanılabilecek bir bildirim
consolidated_manifest/consolidated_manifest_comprehend.manifest
- Belgelerin her sayfası için ayrı ek açıklama dosyaları (belge başına her sayfada bir tane)
- SageMaker konsolunda, ek açıklamaları incelemek için oluşturulan SageMaker Ground Truth etiketleme işini açın
- Eğitilen özel Amazon Comprehend modelini inceleyin ve test edin
Daha önce de belirtildiği gibi, araç yalnızca özel iş gücü için SageMaker Ground Truth etiketleme işleri oluşturabilir. İnsan etiketleme işini dış kaynak olarak kullanmak için etiketleme işini SageMaker Ground Truth konsolunda kopyalayabilir ve istediğiniz iş gücünü yeni işe atayabilirsiniz.
Temizlemek
Ek ücret alınmasını önlemek için, oluşturduğunuz kaynakları ve dağıttığınız yığını aşağıdaki komutla silin:
Sonuç
Ön etiketleme aracı, şirketlerin Amazon Comprehend'de özel varlık tanıma modellerini eğitme sürecini hızlandırmak amacıyla mevcut tablo verilerini kullanması için güçlü bir yol sağlar. PDF belgelerine otomatik olarak önceden açıklama ekleyerek etiketleme sürecinde gereken manuel çabayı önemli ölçüde azaltır.
Aracın iki sürümü vardır: bulanık eşleştirme ve ilk ek açıklamaların nasıl oluşturulacağı konusunda esneklik sağlayan Amazon Comprehend tabanlı. Belgeler önceden etiketlendikten sonra bunları SageMaker Ground Truth etiketleme işinde hızlı bir şekilde inceleyebilir, hatta incelemeyi atlayıp doğrudan bir Amazon Comprehend özel modelini eğitebilirsiniz.
Ön etiketleme aracı, geçmiş varlık verilerinizin değerini hızlı bir şekilde ortaya çıkarmanıza ve bunu, kendi alan adınıza göre uyarlanmış özel modeller oluşturmak için kullanmanıza olanak tanır. Sürecin genellikle en emek yoğun kısmını hızlandırarak Amazon Comprehend ile özel varlık tanımayı her zamankinden daha erişilebilir hale getirir.
SageMaker Ground Truth etiketleme işi kullanılarak PDF belgelerinin nasıl etiketleneceği hakkında daha fazla bilgi için bkz. Amazon Comprehend kullanarak belgelerdeki adlandırılmış varlıkları ayıklamak için özel belge ek açıklaması ve Verileri Etiketlemek için Amazon SageMaker Temel Gerçeği Kullanın.
yazarlar hakkında
Oskar Schnaack Üretken Yapay Zeka İnovasyon Merkezi'nde Uygulamalı Bilim Adamıdır. Müşteriler için erişilebilir kılmak amacıyla makine öğreniminin arkasındaki bilime dalma konusunda tutkulu. Oskar, iş dışında bisiklet sürmeyi ve bilgi teorisindeki trendleri takip etmeyi seviyor.
Romain Besombes Üretken Yapay Zeka İnovasyon Merkezi'nde Derin Öğrenme Mimarıdır. Müşterilerin iş sorunlarını makine öğrenimi ile çözmek için yenilikçi mimariler oluşturma konusunda tutkulu.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/automate-pdf-pre-labeling-for-amazon-comprehend/
- :vardır
- :dır-dir
- :olumsuzluk
- $UP
- 100
- 11
- 150
- 152
- 19
- 400
- 500
- 600
- 7
- 804
- 9
- a
- Hakkımızda
- yukarıdaki
- hızlandırmak
- ulaşılabilir
- doğru
- Ek
- adres
- adresleri
- Sonra
- AI
- algoritma
- Türkiye
- Izin
- veriyor
- zaten
- Ayrıca
- Amazon
- Amazon Kavramak
- Amazon Adaçayı Yapıcı
- Amazon SageMaker Yer Gerçeği
- Amazon Web Servisleri
- an
- ve
- herhangi
- API'ler
- görünmek
- Uygulama
- uygulamalı
- mimari
- ARE
- etrafında
- AS
- At
- iliştirmek
- otomatikleştirmek
- otomatik olarak
- mevcut
- önlemek
- AWS
- Banka
- BE
- olmuştur
- önce
- arkasında
- arasında
- her ikisi de
- kutular
- bina
- yapılı
- iş
- fakat
- by
- hesaplar
- CAN
- Merkez
- yükler
- kod
- COM
- kombinasyonları
- Şirketler
- karşılaştırarak
- tamamlamak
- idrak
- oluşur
- konsolos
- kurmak
- içermek
- içeren
- uyan
- tekabül
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- oluşturur
- Oluşturma
- akım
- görenek
- Müşteriler
- veri
- Tarih
- azalır
- derin
- derin öğrenme
- tanımlamak
- gösteri
- dağıtmak
- konuşlandırılmış
- türetmek
- ayrıntılar
- farklı
- direkt olarak
- tartışmak
- görüntülenen
- dalış
- do
- belge
- evraklar
- dişi geyik
- domain
- yapılmış
- çekmek
- her
- çaba
- E-posta
- sağlar
- etkinleştirme
- kişiler
- varlık
- ERP
- Hatta
- hİÇ
- örnek
- örnekler
- mevcut
- beklenen
- uzanır
- dış
- çıkarmak
- SSS
- fileto
- dosyalar
- bulmak
- Ad
- Esneklik
- takip etme
- İçin
- biçim
- iskelet
- taze
- itibaren
- tam
- işlevsellikleri
- fonksiyonlar
- oluşturmak
- üretir
- üretken
- üretken yapay zeka
- Verilmesi
- Zemin
- Var
- he
- tarihsel
- Ne kadar
- Nasıl Yapılır
- Ancak
- HTML
- http
- HTTPS
- insan
- özdeş
- if
- aldırmamak
- göstermektedir
- uygulamak
- in
- dahil
- içerir
- bilgi
- Altyapı
- ilk
- Yenilikçilik
- yenilikçi
- giriş
- girişler
- anlayışlar
- yerine
- talimatlar
- faiz
- içine
- IT
- ONUN
- jane
- İş
- Mesleki Öğretiler
- jpg
- json
- koruma
- anahtar
- anahtarlar
- Bilmek
- etiket
- etiketleme
- sonra
- öğrenme
- sevmek
- Liste
- Listelenmiş
- yerel
- yer
- bakıyor
- GÖRÜNÜYOR
- makine
- makine öğrenme
- Ana
- yapmak
- YAPAR
- Manuel
- el işi
- el ile
- Haritalar
- Maç
- maçlar
- uygun
- adı geçen
- model
- modelleri
- izlemek
- Daha
- çoğu
- çoklu
- isim
- adlı
- isimleri
- zorunlu olarak
- gerek
- gerekli
- yeni
- nlp
- yok hayır
- notlar
- defter
- sayılar
- of
- on
- ONE
- bir tek
- açık
- açık kaynak
- or
- orkestra
- çıktı
- çıkışlar
- dışında
- outsource
- genel bakış
- Kanal
- çiftleri
- parametreler
- Bölüm
- tutkulu
- başına
- kişi
- Platon
- Plato Veri Zekası
- PlatoVeri
- mümkün
- Çivi
- güçlü
- Hazırlamak
- hazırlanması
- önlemek
- önceki
- Önceden
- özel
- sorunlar
- süreç
- işleme
- Ilerleme
- sağlamak
- sağlanan
- sağlar
- halka açık
- Python
- hızla
- tanıma
- azaltmak
- azaltır
- başvurmak
- tekrarlayan
- Depo
- gereklidir
- gerektirir
- Kaynaklar
- yorum
- koşmak
- koşu
- sagemaker
- Sam
- özsu
- kaydedilmiş
- Bilim
- bilim adamı
- İkinci
- Bölüm
- bölümler
- görmek
- Serverless
- hizmet
- Hizmetler
- ayar
- meli
- şov
- gösterilen
- Gösteriler
- önemli ölçüde
- benzer
- Basit
- çözüm
- biraz
- Kaynak
- özel
- yığın
- başlama
- XNUMX dakika içinde!
- Eyalet
- ifadeleri
- adım
- Basamaklar
- hafızası
- Sıkı
- dizi
- böyle
- Sistemler
- ısmarlama
- alır
- teknik
- teknikleri
- şablon
- test
- metin
- metinsel
- göre
- o
- The
- Devlet
- ve bazı Asya
- Onları
- sonra
- teori
- Orada.
- bu nedenle
- Bunlar
- işler
- Re-Tweet
- eşik
- İçinden
- zaman tükeniyor
- için
- araç
- üst
- Tren
- Eğitim
- Trendler
- Hakikat
- iki
- tip
- türleri
- tipik
- ui
- altında
- benzersiz
- kilidini açmak
- kullanım
- Kullanılmış
- kullanım
- kullanma
- değer
- sürümler
- yürümek
- istemek
- oldu
- Yol..
- we
- ağ
- web hizmetleri
- İYİ
- Ne
- Nedir
- ne zaman
- hangi
- bütün
- Vikipedi
- irade
- ile
- olmadan
- sözler
- İş
- iş akışı
- işgücü
- yazı yazıyor
- Yanlış
- Sen
- zefirnet
- zip