Amazon Comprehend'i Kullanarak PDF Belgeleri İçin Özel Bir Varlık Tanıyıcı Oluşturun

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Pek çok sektörde, belgelerden özel varlıkları zamanında çıkarmak çok önemlidir. Bu zorlayıcı olabilir. Örneğin sigorta talepleri, uzun ve yoğun belgelere serpiştirilmiş düzinelerce önemli özelliği (tarihler, adlar, konumlar ve raporlar gibi) içerir. Bu tür bilgilerin manuel olarak taranması ve çıkarılması, hataya açık ve zaman alıcı olabilir. Kural tabanlı yazılım yardımcı olabilir, ancak sonuçta birçok farklı belge türüne ve düzenine uyum sağlamak için çok katıdır.

Bu işlemi otomatikleştirmeye ve hızlandırmaya yardımcı olmak için şunları kullanabilirsiniz: Amazon Kavramak makine öğrenimini (ML) kullanarak özel varlıkları hızlı ve doğru bir şekilde algılamak için. Bu yaklaşım esnek ve doğrudur çünkü sistem geçmişte öğrendiklerini kullanarak yeni belgelere uyum sağlayabilir. Ancak yakın zamana kadar, bu yetenek yalnızca düz metin belgelerine uygulanabiliyordu; bu, belgeler yerel biçimlerinden dönüştürülürken konum bilgilerinin kaybolması anlamına geliyordu. Bunu ele almak için, geçenlerde açıkladı Amazon Comprehend'in PDF'lerde, resimlerde ve Word dosya biçimlerinde özel varlıkları ayıklayabileceği.

Bu gönderide, PDF ek açıklamalarını kullanarak özel bir tanıyıcıyı nasıl oluşturabileceğinize dair sigorta endüstrisinden somut bir örnek üzerinden ilerliyoruz.

Çözüme genel bakış

Aşağıdaki üst düzey adımlarda size yol gösteriyoruz:

PDF ek açıklamaları oluşturun.
Python API'sini kullanarak özel bir model eğitmek için PDF ek açıklamalarını kullanın.
Eğitimli modelden değerlendirme metrikleri edinin.
Görünmeyen bir belge üzerinde çıkarım gerçekleştirin.

Bu gönderinin sonunda, eğitilmiş modelimize ham bir PDF belgesi gönderebilmek ve ilgili etiketlerimizle ilgili bilgileri içeren yapılandırılmış bir dosya çıktısını almak istiyoruz. Modelimizi özellikle, sigorta talepleriyle alakaları nedeniyle seçtiğimiz aşağıdaki beş kuruluşu tespit edecek şekilde eğitiyoruz: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, ve InsuredMailingAddress. Yapılandırılmış çıktıyı okuduktan sonra etiket bilgilerini aşağıdaki görseldeki gibi doğrudan PDF belgesi üzerinde görselleştirebiliriz.

Bu gönderiye aynı adımları içeren bir Jupyter not defteri eşlik ediyor. Bu konudaki adımları çalıştırırken takip etmekten çekinmeyin defter. ayarlamanız gerektiğini unutmayın. Amazon Adaçayı Yapıcı Amazon Comprehend'in okumasına izin verecek ortam Amazon Basit Depolama Hizmeti (Amazon S3), dizüstü bilgisayarın üst kısmında açıklandığı gibi.

PDF ek açıklamaları oluşturun

PDF belgeleri için ek açıklamalar oluşturmak için şunları kullanabilirsiniz: Amazon SageMaker Yer GerçeğiML için son derece doğru eğitim veri kümeleri oluşturmayı kolaylaştıran, tam olarak yönetilen bir veri etiketleme hizmeti.

Bu eğitim için, Temel Gerçeği kullanarak PDF'lere yerel formlarında (düz metne dönüştürmeden) açıklama ekledik. Ground Truth işi, özel Amazon Comprehend modelimizi eğitmek için ihtiyaç duyduğumuz üç yol oluşturur:

kaynaklar – Giriş PDF'lerinin yolu.
Açıklamalar – Etiketli varlık bilgilerini içeren ek açıklama JSON dosyalarının yolu.
Apaçık – Ek açıklamaların ve kaynak PDF'lerin konumuna işaret eden dosya. Bu dosya, bir Amazon Comprehend özel varlık tanıma eğitimi işi oluşturmak ve özel bir model eğitmek için kullanılır.

Aşağıdaki ekran görüntüsü örnek bir açıklama göstermektedir.

Özel Temel Gerçeği işi, varlık hakkında blok düzeyinde bilgileri yakalayan bir PDF ek açıklaması oluşturur. Bu tür blok düzeyinde bilgiler, varlığın kesin konumsal koordinatlarını sağlar (varlık bloğu içindeki her bir kelimeyi temsil eden alt bloklarla birlikte). Bu, PDF'deki verilerin metin biçiminde düzleştirildiği ve açıklama sırasında yalnızca ofset bilgilerinin (kesin koordinat bilgilerinin değil) yakalandığı standart bir Temel Doğruluk işinden farklıdır. Bu özel açıklama paradigması ile elde ettiğimiz zengin konumsal bilgiler, daha doğru bir model yetiştirmemizi sağlar.

Bu tür bir işten oluşturulan bildirime, standart ek açıklamalar için kullanılan bir CSV'nin aksine, artırılmış bildirim adı verilir. Daha fazla bilgi için, bkz Açıklamalar.

Python API'sini kullanarak özel bir model eğitmek için PDF ek açıklamalarını kullanın

Genişletilmiş bir bildirim dosyası, JSON Lines biçiminde biçimlendirilmelidir. JSON Lines biçiminde, dosyadaki her satır, bir yeni satır ayırıcısının izlediği eksiksiz bir JSON nesnesidir.

Aşağıdaki kod, bu genişletilmiş bildirim dosyasındaki bir giriştir.

Dikkat edilmesi gereken birkaç nokta:

Bu işle beş etiketleme türü ilişkilendirilmiştir: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, ve InsuredMailingAddress.
Bildirim dosyası, hem kaynak PDF konumuna hem de açıklama konumuna başvurur.
Açıklama işiyle ilgili meta veriler (oluşturma tarihi gibi) yakalanır.
Use-textract-only ayarlandı False, yani açıklama aracı PDFPlumber'ın (yerel bir PDF için) veya Amazon Metin Yazısı (taranmış bir PDF için). olarak ayarlanırsa true, Amazon Textract her iki durumda da kullanılır (bu daha maliyetlidir ancak potansiyel olarak daha doğrudur).

Şimdi aşağıdaki örnek kodda gösterildiği gibi tanıyıcıyı eğitebiliriz.

Beş tür varlığın tümünü tanımak için bir tanıyıcı oluştururuz. İstersek bu varlıkların bir alt kümesini kullanabilirdik. En fazla 25 varlık kullanabilirsiniz.

Her parametrenin ayrıntıları için bkz. create_entity_recognizer.

Eğitim setinin boyutuna göre eğitim süresi değişebilir. Bu veri seti için eğitim yaklaşık 1 saat sürmektedir. Eğitim işinin durumunu izlemek için, describe_entity_recognizer API.

Eğitimli modelden değerlendirme metrikleri alın

Amazon Comprehend, eğitilmiş bir model için, eğitimli modelin benzer girdileri kullanarak ne kadar iyi tahminlerde bulunmasının beklendiğini gösteren model performans ölçümleri sağlar. Hem küresel kesinlik hem de geri çağırma metriklerinin yanı sıra varlık başına metrikleri de elde edebiliriz. Doğru bir model, yüksek hassasiyete ve yüksek hatırlamaya sahiptir. Yüksek hassasiyet, belirli bir etiketi belirttiğinde modelin genellikle doğru olduğu anlamına gelir; yüksek hatırlama, modelin etiketlerin çoğunu bulduğu anlamına gelir. F1, bu ölçülerin bileşik bir metriğidir (harmonik ortalama) ve bu nedenle her iki bileşen de yüksek olduğunda yüksektir. Metriklerin ayrıntılı açıklaması için bkz. Özel Varlık Tanıyıcı Metrikleri.

Belgeleri eğitim işine sağladığınızda, Amazon Comprehend bunları otomatik olarak bir tren ve test setine ayırır. Model ulaştığında TRAINED durumunu kullanabilirsiniz describe_entity_recognizer Test setindeki değerlendirme metriklerini elde etmek için tekrar API.

Aşağıda küresel metriklere bir örnek verilmiştir.

Aşağıda varlık başına metriklere bir örnek verilmiştir.

Yüksek puanlar, modelin bu varlıkları nasıl tespit edeceğini iyi öğrendiğini gösterir.

Görünmeyen bir belge üzerinde çıkarım gerçekleştirin

Eğitim prosedürünün parçası olmayan bir belge üzerinde eğitimli modelimiz ile çıkarım yapalım. Bu asenkron API'yi standart veya özel NER için kullanabiliriz. Özel NER için kullanılıyorsa (bu gönderideki gibi), eğitilmiş modelin ARN'sini geçmeliyiz.

Gönderilen işi yanıtı yazdırarak gözden geçirebiliriz.

Pandalarla yapılan algılama işinin çıktısını bir tablo halinde biçimlendirebiliriz. bu Score değer, modelin varlık hakkında sahip olduğu güven seviyesini gösterir.

Son olarak, bu yazının başında gösterildiği gibi sonucu veren görünmeyen belgelerdeki tahminleri bindirebiliriz.

Sonuç

Bu gönderide, Amazon Comprehend kullanarak özel varlıkları yerel PDF biçiminde nasıl çıkaracağınızı gördünüz. Sonraki adımlar olarak, daha derine dalmayı düşünün:

Birlikte verilen not defterini kullanarak kendi tanıyıcınızı eğitin okuyun. Gelecekteki ücretlerden kaçınmak için bittiğinde tüm kaynakları silmeyi unutmayın.
İlgilendiğiniz varlıklarınız için PDF ek açıklamaları toplamak için kendi özel açıklama işinizi kurun. Daha fazla bilgi için bkz. Amazon Comprehend kullanarak belgelerdeki adlandırılmış varlıkları ayıklamak için özel belge ek açıklaması.
Amazon Comprehend konsolunda özel bir NER modeli eğitin. Daha fazla bilgi için, bkz Amazon Comprehend ile belgelerdeki özel varlıkları yerel formatlarında çıkarın.

Yazarlar Hakkında

Joshua Levy Amazon Makine Öğrenimi Çözümleri laboratuvarında Kıdemli Uygulamalı Bilim Adamıdır ve burada müşterilerin temel iş sorunlarını çözmek için AI/ML çözümleri tasarlamasına ve oluşturmasına yardımcı olur.

Andrew Ang Amazon Makine Öğrenimi Çözümleri Laboratuvarı'nda Makine Öğrenimi Mühendisidir ve burada çok çeşitli sektörlerden müşterilerin en acil iş sorunlarını çözmek için AI/ML çözümlerini tanımlamasına ve oluşturmasına yardımcı olur. İş dışında seyahat ve yemek vloglarını izlemeyi seviyor.

Alex Chirayath Amazon Makine Öğrenimi Çözümleri Laboratuvarı'nda, müşterilere gerçek dünyadaki iş sorunlarını çözmek için AWS AI/ML hizmetlerinin gücünden nasıl yararlanabileceklerini gösteren kullanım senaryosuna dayalı çözümler oluşturmaya odaklanan bir Yazılım Mühendisidir.

Jennifer Zhu Amazon AI Machine Learning Solutions Lab'den bir Uygulamalı Bilim Adamıdır. Yüksek öncelikli iş ihtiyaçları için AI/ML çözümleri oluşturan AWS müşterileriyle birlikte çalışır.

Niharika Jayanthi Amazon Machine Learning Çözümleri Laboratuvarı – Human in the Loop ekibinde Ön Uç Mühendisidir. Amazon SageMaker Ground Truth müşterileri için kullanıcı deneyimi çözümleri oluşturmaya yardımcı olur.

Boris Aronçik Amazon AI Makine Öğrenimi Çözümleri Laboratuvarı'nda bir Yöneticidir ve burada AWS müşterilerinin AI/ML çözümlerinden yararlanarak iş hedeflerini gerçekleştirmesine yardımcı olmak için ML Bilim İnsanları ve Mühendislerinden oluşan bir ekibi yönetmektedir.

Zaman Damgası: 8 Nisan 2022

Zaman Damgası: Mar 29, 2022

Amazon Comprehend'i kullanarak PDF belgeleri için özel bir varlık tanıyıcı oluşturun

Plato tarafından yeniden yayınlandı

Çözüme genel bakış

PDF ek açıklamaları oluşturun

Python API'sini kullanarak özel bir model eğitmek için PDF ek açıklamalarını kullanın

Eğitimli modelden değerlendirme metrikleri alın

Görünmeyen bir belge üzerinde çıkarım gerçekleştirin

Sonuç

Yazarlar Hakkında

Den fazla AWS Makine Öğrenimi

Amazon SageMaker'da çoklu çerçeve modelleriyle uygun maliyetli makine öğrenimi çıkarımı

Amazon Rekognition, canlı video akışlarında gerçek zamanlı uyarılar sağlamak için Video Akışı Olaylarını sunar

AWS amaca yönelik hızlandırıcılarla makine öğrenimi iş yüklerinizin enerji tüketimini %90'a kadar azaltın | Amazon Web Hizmetleri

Chronomics, Amazon Rekognition Özel Etiketleri ile COVID-19 test sonuçlarını tespit ediyor

T-Mobile US, Inc., müşterilerinin tercih ettiği dilde sesli mesaj göndermek için Amazon Transcribe ve Amazon Translate aracılığıyla yapay zekayı kullanıyor | Amazon Web Hizmetleri

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap