Pek çok sektörde, belgelerden özel varlıkları zamanında çıkarmak çok önemlidir. Bu zorlayıcı olabilir. Örneğin sigorta talepleri, uzun ve yoğun belgelere serpiştirilmiş düzinelerce önemli özelliği (tarihler, adlar, konumlar ve raporlar gibi) içerir. Bu tür bilgilerin manuel olarak taranması ve çıkarılması, hataya açık ve zaman alıcı olabilir. Kural tabanlı yazılım yardımcı olabilir, ancak sonuçta birçok farklı belge türüne ve düzenine uyum sağlamak için çok katıdır.
Bu işlemi otomatikleştirmeye ve hızlandırmaya yardımcı olmak için şunları kullanabilirsiniz: Amazon Kavramak makine öğrenimini (ML) kullanarak özel varlıkları hızlı ve doğru bir şekilde algılamak için. Bu yaklaşım esnek ve doğrudur çünkü sistem geçmişte öğrendiklerini kullanarak yeni belgelere uyum sağlayabilir. Ancak yakın zamana kadar, bu yetenek yalnızca düz metin belgelerine uygulanabiliyordu; bu, belgeler yerel biçimlerinden dönüştürülürken konum bilgilerinin kaybolması anlamına geliyordu. Bunu ele almak için, geçenlerde açıkladı Amazon Comprehend'in PDF'lerde, resimlerde ve Word dosya biçimlerinde özel varlıkları ayıklayabileceği.
Bu gönderide, PDF ek açıklamalarını kullanarak özel bir tanıyıcıyı nasıl oluşturabileceğinize dair sigorta endüstrisinden somut bir örnek üzerinden ilerliyoruz.
Çözüme genel bakış
Aşağıdaki üst düzey adımlarda size yol gösteriyoruz:
- PDF ek açıklamaları oluşturun.
- Python API'sini kullanarak özel bir model eğitmek için PDF ek açıklamalarını kullanın.
- Eğitimli modelden değerlendirme metrikleri edinin.
- Görünmeyen bir belge üzerinde çıkarım gerçekleştirin.
Bu gönderinin sonunda, eğitilmiş modelimize ham bir PDF belgesi gönderebilmek ve ilgili etiketlerimizle ilgili bilgileri içeren yapılandırılmış bir dosya çıktısını almak istiyoruz. Modelimizi özellikle, sigorta talepleriyle alakaları nedeniyle seçtiğimiz aşağıdaki beş kuruluşu tespit edecek şekilde eğitiyoruz: DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
, ve InsuredMailingAddress
. Yapılandırılmış çıktıyı okuduktan sonra etiket bilgilerini aşağıdaki görseldeki gibi doğrudan PDF belgesi üzerinde görselleştirebiliriz.
Bu gönderiye aynı adımları içeren bir Jupyter not defteri eşlik ediyor. Bu konudaki adımları çalıştırırken takip etmekten çekinmeyin defter. ayarlamanız gerektiğini unutmayın. Amazon Adaçayı Yapıcı Amazon Comprehend'in okumasına izin verecek ortam Amazon Basit Depolama Hizmeti (Amazon S3), dizüstü bilgisayarın üst kısmında açıklandığı gibi.
PDF ek açıklamaları oluşturun
PDF belgeleri için ek açıklamalar oluşturmak için şunları kullanabilirsiniz: Amazon SageMaker Yer GerçeğiML için son derece doğru eğitim veri kümeleri oluşturmayı kolaylaştıran, tam olarak yönetilen bir veri etiketleme hizmeti.
Bu eğitim için, Temel Gerçeği kullanarak PDF'lere yerel formlarında (düz metne dönüştürmeden) açıklama ekledik. Ground Truth işi, özel Amazon Comprehend modelimizi eğitmek için ihtiyaç duyduğumuz üç yol oluşturur:
- kaynaklar – Giriş PDF'lerinin yolu.
- Açıklamalar – Etiketli varlık bilgilerini içeren ek açıklama JSON dosyalarının yolu.
- Apaçık – Ek açıklamaların ve kaynak PDF'lerin konumuna işaret eden dosya. Bu dosya, bir Amazon Comprehend özel varlık tanıma eğitimi işi oluşturmak ve özel bir model eğitmek için kullanılır.
Aşağıdaki ekran görüntüsü örnek bir açıklama göstermektedir.
Özel Temel Gerçeği işi, varlık hakkında blok düzeyinde bilgileri yakalayan bir PDF ek açıklaması oluşturur. Bu tür blok düzeyinde bilgiler, varlığın kesin konumsal koordinatlarını sağlar (varlık bloğu içindeki her bir kelimeyi temsil eden alt bloklarla birlikte). Bu, PDF'deki verilerin metin biçiminde düzleştirildiği ve açıklama sırasında yalnızca ofset bilgilerinin (kesin koordinat bilgilerinin değil) yakalandığı standart bir Temel Doğruluk işinden farklıdır. Bu özel açıklama paradigması ile elde ettiğimiz zengin konumsal bilgiler, daha doğru bir model yetiştirmemizi sağlar.
Bu tür bir işten oluşturulan bildirime, standart ek açıklamalar için kullanılan bir CSV'nin aksine, artırılmış bildirim adı verilir. Daha fazla bilgi için, bkz Açıklamalar.
Python API'sini kullanarak özel bir model eğitmek için PDF ek açıklamalarını kullanın
Genişletilmiş bir bildirim dosyası, JSON Lines biçiminde biçimlendirilmelidir. JSON Lines biçiminde, dosyadaki her satır, bir yeni satır ayırıcısının izlediği eksiksiz bir JSON nesnesidir.
Aşağıdaki kod, bu genişletilmiş bildirim dosyasındaki bir giriştir.
Dikkat edilmesi gereken birkaç nokta:
- Bu işle beş etiketleme türü ilişkilendirilmiştir:
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
, veInsuredMailingAddress
. - Bildirim dosyası, hem kaynak PDF konumuna hem de açıklama konumuna başvurur.
- Açıklama işiyle ilgili meta veriler (oluşturma tarihi gibi) yakalanır.
Use-textract-only
ayarlandıFalse
, yani açıklama aracı PDFPlumber'ın (yerel bir PDF için) veya Amazon Metin Yazısı (taranmış bir PDF için). olarak ayarlanırsatrue
, Amazon Textract her iki durumda da kullanılır (bu daha maliyetlidir ancak potansiyel olarak daha doğrudur).
Şimdi aşağıdaki örnek kodda gösterildiği gibi tanıyıcıyı eğitebiliriz.
Beş tür varlığın tümünü tanımak için bir tanıyıcı oluştururuz. İstersek bu varlıkların bir alt kümesini kullanabilirdik. En fazla 25 varlık kullanabilirsiniz.
Her parametrenin ayrıntıları için bkz. create_entity_recognizer.
Eğitim setinin boyutuna göre eğitim süresi değişebilir. Bu veri seti için eğitim yaklaşık 1 saat sürmektedir. Eğitim işinin durumunu izlemek için, describe_entity_recognizer
API.
Eğitimli modelden değerlendirme metrikleri alın
Amazon Comprehend, eğitilmiş bir model için, eğitimli modelin benzer girdileri kullanarak ne kadar iyi tahminlerde bulunmasının beklendiğini gösteren model performans ölçümleri sağlar. Hem küresel kesinlik hem de geri çağırma metriklerinin yanı sıra varlık başına metrikleri de elde edebiliriz. Doğru bir model, yüksek hassasiyete ve yüksek hatırlamaya sahiptir. Yüksek hassasiyet, belirli bir etiketi belirttiğinde modelin genellikle doğru olduğu anlamına gelir; yüksek hatırlama, modelin etiketlerin çoğunu bulduğu anlamına gelir. F1, bu ölçülerin bileşik bir metriğidir (harmonik ortalama) ve bu nedenle her iki bileşen de yüksek olduğunda yüksektir. Metriklerin ayrıntılı açıklaması için bkz. Özel Varlık Tanıyıcı Metrikleri.
Belgeleri eğitim işine sağladığınızda, Amazon Comprehend bunları otomatik olarak bir tren ve test setine ayırır. Model ulaştığında TRAINED
durumunu kullanabilirsiniz describe_entity_recognizer
Test setindeki değerlendirme metriklerini elde etmek için tekrar API.
Aşağıda küresel metriklere bir örnek verilmiştir.
Aşağıda varlık başına metriklere bir örnek verilmiştir.
Yüksek puanlar, modelin bu varlıkları nasıl tespit edeceğini iyi öğrendiğini gösterir.
Görünmeyen bir belge üzerinde çıkarım gerçekleştirin
Eğitim prosedürünün parçası olmayan bir belge üzerinde eğitimli modelimiz ile çıkarım yapalım. Bu asenkron API'yi standart veya özel NER için kullanabiliriz. Özel NER için kullanılıyorsa (bu gönderideki gibi), eğitilmiş modelin ARN'sini geçmeliyiz.
Gönderilen işi yanıtı yazdırarak gözden geçirebiliriz.
Pandalarla yapılan algılama işinin çıktısını bir tablo halinde biçimlendirebiliriz. bu Score
değer, modelin varlık hakkında sahip olduğu güven seviyesini gösterir.
Son olarak, bu yazının başında gösterildiği gibi sonucu veren görünmeyen belgelerdeki tahminleri bindirebiliriz.
Sonuç
Bu gönderide, Amazon Comprehend kullanarak özel varlıkları yerel PDF biçiminde nasıl çıkaracağınızı gördünüz. Sonraki adımlar olarak, daha derine dalmayı düşünün:
- Birlikte verilen not defterini kullanarak kendi tanıyıcınızı eğitin okuyun. Gelecekteki ücretlerden kaçınmak için bittiğinde tüm kaynakları silmeyi unutmayın.
- İlgilendiğiniz varlıklarınız için PDF ek açıklamaları toplamak için kendi özel açıklama işinizi kurun. Daha fazla bilgi için bkz. Amazon Comprehend kullanarak belgelerdeki adlandırılmış varlıkları ayıklamak için özel belge ek açıklaması.
- Amazon Comprehend konsolunda özel bir NER modeli eğitin. Daha fazla bilgi için, bkz Amazon Comprehend ile belgelerdeki özel varlıkları yerel formatlarında çıkarın.
Yazarlar Hakkında
Joshua Levy Amazon Makine Öğrenimi Çözümleri laboratuvarında Kıdemli Uygulamalı Bilim Adamıdır ve burada müşterilerin temel iş sorunlarını çözmek için AI/ML çözümleri tasarlamasına ve oluşturmasına yardımcı olur.
Andrew Ang Amazon Makine Öğrenimi Çözümleri Laboratuvarı'nda Makine Öğrenimi Mühendisidir ve burada çok çeşitli sektörlerden müşterilerin en acil iş sorunlarını çözmek için AI/ML çözümlerini tanımlamasına ve oluşturmasına yardımcı olur. İş dışında seyahat ve yemek vloglarını izlemeyi seviyor.
Alex Chirayath Amazon Makine Öğrenimi Çözümleri Laboratuvarı'nda, müşterilere gerçek dünyadaki iş sorunlarını çözmek için AWS AI/ML hizmetlerinin gücünden nasıl yararlanabileceklerini gösteren kullanım senaryosuna dayalı çözümler oluşturmaya odaklanan bir Yazılım Mühendisidir.
Jennifer Zhu Amazon AI Machine Learning Solutions Lab'den bir Uygulamalı Bilim Adamıdır. Yüksek öncelikli iş ihtiyaçları için AI/ML çözümleri oluşturan AWS müşterileriyle birlikte çalışır.
Niharika Jayanthi Amazon Machine Learning Çözümleri Laboratuvarı – Human in the Loop ekibinde Ön Uç Mühendisidir. Amazon SageMaker Ground Truth müşterileri için kullanıcı deneyimi çözümleri oluşturmaya yardımcı olur.
Boris Aronçik Amazon AI Makine Öğrenimi Çözümleri Laboratuvarı'nda bir Yöneticidir ve burada AWS müşterilerinin AI/ML çözümlerinden yararlanarak iş hedeflerini gerçekleştirmesine yardımcı olmak için ML Bilim İnsanları ve Mühendislerinden oluşan bir ekibi yönetmektedir.
- Akıllı para. Avrupa'nın En İyi Bitcoin ve Kripto Borsası.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. SERBEST ERİŞİM.
- KriptoHawk. Altcoin Radarı. Ücretsiz deneme.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/build-a-custom-entity-recognizer-for-pdf-documents-using-amazon-comprehend/
- "
- &
- 100
- Hakkımızda
- doğru
- karşısında
- adres
- AI
- Türkiye
- zaten
- Amazon
- api
- yaklaşım
- yaklaşık olarak
- öznitelikleri
- augmented
- otomatikleştirmek
- AWS
- Engellemek
- inşa etmek
- bina
- iş
- zor
- yükler
- çocuk
- iddia
- kod
- toplamak
- güven
- konsolos
- içeren
- koordinat
- olabilir
- oluşturma
- kritik
- görenek
- Müşteriler
- veri
- Tarih
- derin
- Dizayn
- Bulma
- direkt olarak
- evraklar
- mühendis
- Mühendisler
- kişiler
- çevre
- örnek
- beklenen
- deneyim
- esnek
- takip et
- takip etme
- Gıda
- Airdrop Formu
- biçim
- bulundu
- Ücretsiz
- gelecek
- Küresel
- Goller
- yardım et
- yardımcı olur
- Yüksek
- büyük ölçüde
- Ne kadar
- Nasıl Yapılır
- HTTPS
- insan
- belirlemek
- görüntü
- önemli
- Endüstri
- sanayi
- bilgi
- giriş
- sigorta
- faiz
- IT
- İş
- anahtar
- laboratuvar
- etiketleme
- Etiketler
- İlanlar
- öğrendim
- öğrenme
- seviye
- kaldıraç
- çizgi
- yer
- yerleri
- makine
- makine öğrenme
- YAPAR
- yönetilen
- müdür
- tavır
- el ile
- anlam
- Metrikleri
- ML
- model
- izlemek
- Daha
- çoğu
- isimleri
- defter
- ofset
- kendi
- paradigma
- performans
- güç kelimesini seçerim
- Tahminler
- sorunlar
- süreç
- sağlamak
- sağlar
- hızla
- Çiğ
- Okuma
- Gerçek dünya
- gerçekleştirmek
- tanımak
- Raporlar
- Kaynaklar
- yanıt
- yorum
- koşmak
- koşu
- tarama
- bilim adamı
- bilim adamları
- hizmet
- Hizmetler
- set
- benzer
- Basit
- beden
- Software
- Yazılım Mühendisi
- Çözümler
- ÇÖZMEK
- hız
- standart
- Durum
- hafızası
- yapılandırılmış
- gönderilen
- sistem
- takım
- test
- Kaynak
- İçinden
- zaman
- zaman tükeniyor
- araç
- üst
- Eğitim
- seyahat
- kilidini açmak
- us
- kullanım
- genellikle
- değer
- Ne
- olup olmadığını
- süre
- içinde
- olmadan
- İş
- çalışır
- Dünya