Akıllı Belge İşleme için Amazon Comprehend ile Tek Adımlı Sınıflandırma ve Varlık Tanıma ile Tanışın

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

“Akıllı belge işleme (IDP) çözümleri, yüksek hacimli, tekrarlayan belge işleme görevlerinin otomasyonunu desteklemek ve analiz ve içgörü için verileri çıkarır. IDP, otomasyonu ve büyütmeyi desteklemek için yapılandırılmış ve yapılandırılmamış içerikten, özellikle belgelerden veri çıkarmak için doğal dil teknolojilerini ve bilgisayar görüşünü kullanıyor.” - Gartner

Amazon'un akıllı belge işlemenin (IDP) amacı, üretkenliği artırmak, insan emeğiyle ilişkili maliyetleri azaltmak ve sorunsuz bir kullanıcı deneyimi sağlamak için makine öğrenimi (ML) kullanarak büyük miktarda belgenin işlenmesini otomatik hale getirmektir. Müşteriler, çeşitli kullanım durumları için belgeleri tanımlamak ve onlardan kritik bilgileri çıkarmak için önemli miktarda zaman ve çaba harcar. Bugün, Amazon Kavramak yarı yapılandırılmış biçimlerdeki (taranmış, dijital PDF veya PNG, JPG, TIFF gibi görüntüler) belgeleri önceden işlemenizi ve ardından düz metin çıktısını kullanarak çıkarım yapmanızı gerektiren düz metin belgeleri için sınıflandırmayı destekler. özel sınıflandırma modeli. Benzer şekilde, için özel varlık tanıma gerçek zamanlı olarak, PDF ve görüntü dosyaları gibi yarı yapılandırılmış belgeler için metin ayıklamak üzere ön işleme gerekir. Bu iki aşamalı süreç, belge işleme iş akışlarında karmaşıklıklar ortaya çıkarır.

Geçen yıl, biz yerel belge formatları için desteği duyurdu özel adlandırılmış varlık tanıma (NER) ile eşzamansız işler. Bugün, Amazon Comprehend kullanarak yerel biçimlerdeki (PDF, TIFF, JPG, PNG) yarı yapılandırılmış belgeler için tek adımlı belge sınıflandırmasını ve NER için gerçek zamanlı analizi duyurmaktan heyecan duyuyoruz. Özellikle, aşağıdaki yetenekleri duyuruyoruz:

Özel sınıflandırma, gerçek zamanlı analiz ve eşzamansız işler için yerel biçimlerdeki belgeler için destek
Özel varlık tanıma gerçek zamanlı analizi için yerel biçimlerdeki belgeler için destek

Bu yeni sürümle birlikte Amazon Comprehend özel sınıflandırma ve özel varlık tanıma (NER), PDF, TIFF, PNG ve JPEG gibi formatlardaki belgeleri UTF8 kodlu düz metin çıkarmaya gerek kalmadan doğrudan destekler. Aşağıdaki şekil, önceki süreci yeni prosedür ve destekle karşılaştırır.

Bu özellik, belgelerden düz metin çıkarmak için gereken ön işleme adımlarını ortadan kaldırarak belge işleme iş akışlarını basitleştirir ve bunları işlemek için gereken toplam süreyi azaltır.

Bu gönderide, üst düzey bir IDP iş akışı çözümü tasarımını, birkaç endüstri kullanım durumunu, Amazon Comprehend'in yeni özelliklerini ve bunların nasıl kullanılacağını ele alıyoruz.

Çözüme genel bakış

Sigorta endüstrisinde yaygın bir kullanım durumunu keşfederek başlayalım. Tipik bir sigorta talep süreci, birden fazla belge içerebilen bir talep paketini içerir. Bir sigorta talebi dosyalandığında, sigorta talep formu, olay raporları, kimlik belgeleri ve üçüncü taraf hasar belgeleri gibi belgeleri içerir. Bir sigorta talebini işleyecek ve karara bağlayacak belgelerin hacmi, talebin türüne ve ilgili iş süreçlerine bağlı olarak yüzlerce ve hatta binlerce sayfaya kadar çıkabilir. Sigorta talep temsilcileri ve hakemler, yüzlerce hatta binlerce talep başvurusundan bilgileri manuel olarak elemek, sıralamak ve çıkarmak için genellikle yüzlerce saat harcarlar.

Sigorta sektörü kullanım örneğine benzer şekilde, ödeme sektörü de sınır ötesi ödeme anlaşmaları, faturalar ve döviz hesap özetleri için büyük hacimli yarı yapılandırılmış belgeleri işler. İş kullanıcıları, zamanlarının çoğunu, gerekli bilgileri belirleme, organize etme, doğrulama, çıkarma ve aşağı akış uygulamalarına iletme gibi manuel etkinliklere harcarlar. Bu manuel süreç sıkıcı, tekrarlanan, hataya açık, pahalı ve ölçeklenmesi zor. Benzer zorluklarla karşılaşan diğer sektörler arasında ipotek ve borç verme, sağlık ve yaşam bilimleri, hukuk, muhasebe ve vergi yönetimi yer alır. İşletmeler için bu kadar büyük hacimli belgeleri yüksek düzeyde doğrulukla ve nominal bir manuel çabayla zamanında işlemek son derece önemlidir.

Amazon Comprehend, belge sınıflandırmasını ve büyük hacimli belgelerden bilgi çıkarmayı yüksek doğrulukla, ölçeklenebilir ve uygun maliyetli bir şekilde otomatikleştirmek için temel yetenekler sağlar. Aşağıdaki şemada, Amazon Comprehend ile bir IDP mantıksal iş akışı gösterilmektedir. İş akışının özü, Amazon Comprehend özel modelleriyle NER kullanılarak belge sınıflandırması ve bilgi ayıklamadan oluşur. Diyagram ayrıca belgeler ve iş süreçleri geliştikçe daha yüksek doğruluk sağlamak için özel modellerin nasıl sürekli iyileştirilebileceğini de gösterir.

Özel belge sınıflandırması

Amazon Comprehend özel sınıflandırması ile belgelerinizi önceden tanımlanmış kategoriler (sınıflar) halinde düzenleyebilirsiniz. Yüksek düzeyde, özel bir belge sınıflandırıcı ayarlamak ve belge sınıflandırması gerçekleştirmek için aşağıdaki adımlar izlenir:

Özel bir belge sınıflandırıcıyı eğitmek için eğitim verilerini hazırlayın.
Eğitim verileriyle bir müşteri belge sınıflandırıcısı eğitin.
Model eğitildikten sonra isteğe bağlı olarak gerçek zamanlı bir uç nokta dağıtın.
Eşzamansız bir işle veya uç noktayı kullanarak gerçek zamanlı olarak belge sınıflandırması gerçekleştirin.

1. ve 2. adımlar, tipik olarak bir IDP projesinin başlangıcında, iş süreciyle ilgili belge sınıfları tanımlandıktan sonra yapılır. Daha sonra özel bir sınıflandırıcı modeli, doğruluğu artırmak ve yeni belge sınıfları sunmak için periyodik olarak yeniden eğitilebilir. Özel bir sınıflandırma modelini şu şekilde eğitebilirsiniz: çok sınıflı mod or çoklu etiket modu. Eğitim, her biri için iki yoldan biriyle yapılabilir: bir CSV dosyası kullanılarak veya artırılmış bir bildirim dosyası kullanılarak. bakın Eğitim verilerinin hazırlanması özel bir sınıflandırma modelinin eğitimi hakkında daha fazla ayrıntı için. Özel bir sınıflandırıcı modeli eğitildikten sonra, bir belge şu şekilde sınıflandırılabilir: gerçek zamanlı analiz ya da eşzamansız iş. Gerçek zamanlı analiz, bir dağıtılacak uç nokta eğitimli model ile uyumludur ve kullanım durumuna bağlı olarak küçük belgeler için en uygunudur. Çok sayıda belge için eşzamansız bir sınıflandırma işi en uygunudur.

Özel bir belge sınıflandırma modeli eğitin

Yeni özelliği göstermek için, sigorta belgelerini yedi farklı sınıftan birinde sınıflandırabilen çok etiketli modda özel bir sınıflandırma modeli eğittik. sınıflar INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY, ve CMS1500. Yerel PDF, PNG ve JPEG formatındaki örnek belgeleri sınıflandırmak istiyoruz. Amazon Basit Depolama Hizmeti (Amazon S3) grubu, sınıflandırma modelini kullanıyor. Eşzamansız bir sınıflandırma işini başlatmak için aşağıdaki adımları tamamlayın:

Amazon Comprehend konsolunda şunu seçin: Analiz işleri Gezinti bölmesinde.
Klinik İş oluştur.
İçin Name, sınıflandırma işiniz için bir ad girin.
İçin Analiz türüSeç Özel sınıflandırma.
İçin sınıflandırıcı modeli, uygun eğitimli sınıflandırma modelini seçin.
İçin Sürümü, uygun model sürümünü seçin.

içinde Veri girişi bölümünde, belgelerimizin saklandığı yeri sağlıyoruz.

İçin Girdi biçimi, seçmek Dosya başına bir belge.
İçin Belge okuma moduSeç Belge okuma eylemini zorla.
İçin Belge okuma eylemi, seçmek Textract belge metnini algılar.

Bu, Amazon Comprehend'in Amazon Metin Yazısı DetectDocumentMetin Sınıflandırmayı çalıştırmadan önce belgeleri okumak için API. bu DetectDocumentText API, belgelerden metin satırları ve sözcükleri çıkarmaya yardımcı olur. Ayrıca seçebilirsiniz Textract analiz belgesi için Belge okuma eylemi, bu durumda Amazon Comprehend, Amazon Textract'ı kullanır Analiz etBelge Belgeleri okumak için API. İle AnalyzeDocument API, ayıklamayı seçebilirsiniz tablolar, Formlar, ya da her ikisi de. Belge okuma modu seçeneği, Amazon Comprehend'in sahne arkasındaki belgelerden metin çıkarmasını sağlar; bu da, belge işleme iş akışımızda gerekli olan, belgeden metin ayıklamak için gereken ekstra adımı azaltmaya yardımcı olur.

Amazon Comprehend özel sınıflandırıcı, tarafından oluşturulan ham JSON yanıtlarını da işleyebilir. DetectDocumentText ve AnalyzeDocument API'ler, herhangi bir değişiklik veya ön işleme olmaksızın. Bu, Amazon Textract'ın zaten belgelerden metin çıkarmaya dahil olduğu mevcut iş akışları için kullanışlıdır. Bu durumda, Amazon Textract'tan JSON çıktısı, doğrudan Amazon Comprehend belge sınıflandırma API'lerine beslenebilir.

içinde Çıktı verileri bölümü S3 konumu, eşzamansız işin çıkarım sonuçlarını yazmasını istediğiniz bir Amazon S3 konumu belirtin.
Kalan seçenekleri varsayılan olarak bırakın.
Klinik İş oluştur işe başlamak için.

İşin durumunu ekranda görüntüleyebilirsiniz. Analiz işleri gidin.

İş tamamlandığında, iş yapılandırması sırasında sağlanan Amazon S3 konumunda depolanan analiz işinin çıktısını görebiliriz. Tek sayfalık PDF örnek CMS1500 belgemiz için sınıflandırma çıktısı aşağıdaki gibidir. Çıktı, okunabilirliği artırmak için biçimlendirilmiş JSON satırları biçiminde bir dosyadır.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

Önceki örnek, tek sayfalık bir PDF belgesidir; ancak, özel sınıflandırma çok sayfalı PDF belgelerini de işleyebilir. Çok sayfalı belgeler söz konusu olduğunda, çıktı birden çok JSON satırı içerir; burada her satır, bir belgedeki sayfaların her birinin sınıflandırma sonucudur. Aşağıda örnek bir çok sayfalı sınıflandırma çıktısı verilmiştir:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Özel varlık tanıma

Bir Amazon Comprehend özel varlık tanıyıcı ile belgeleri analiz edebilir ve ürün kodları veya işletmeye özgü varlıklar gibi özel ihtiyaçlarınıza uyan varlıkları ayıklayabilirsiniz. Yüksek düzeyde, aşağıda özel bir varlık tanıyıcı ayarlamak ve varlık algılama gerçekleştirmek için adımlar yer almaktadır:

Özel bir varlık tanıyıcıyı eğitmek için eğitim verilerini hazırlayın.
Eğitim verileriyle özel bir varlık tanıyıcı eğitin.
Model eğitildikten sonra isteğe bağlı olarak gerçek zamanlı bir uç nokta dağıtın.
Eşzamansız bir işle veya uç noktayı kullanarak gerçek zamanlı olarak varlık algılama gerçekleştirin.

Özel bir varlık tanıyıcı modeli, doğruluğu artırmak ve yeni varlık türlerini tanıtmak için periyodik olarak yeniden eğitilebilir. Özel bir varlık tanıyıcı modelini ikisinden biriyle eğitebilirsiniz. varlık listeleri or ek açıklamalar. Her iki durumda da Amazon Comprehend, yeni varlıkları algılamak üzere genelleştirilebilen bir varlık tanıyıcı modeli oluşturmak için belgelerin türü ve varlıkların oluştuğu bağlam hakkında bilgi edinir. bakın Eğitim verilerinin hazırlanması eğitim verilerini özel varlık tanıyıcı için hazırlama hakkında daha fazla bilgi edinmek için.

Özel bir varlık tanıyıcı modeli eğitildikten sonra, varlık algılama şu şekilde yapılabilir: gerçek zamanlı analiz ya da eşzamansız iş. Gerçek zamanlı analiz, bir dağıtılacak uç nokta eğitimli model ile uyumludur ve kullanım durumuna bağlı olarak küçük belgeler için en uygunudur. Çok sayıda belge için eşzamansız bir sınıflandırma işi en uygunudur.

Özel bir varlık tanıma modeli eğitin

Varlık algılamayı gerçek zamanlı olarak göstermek için sigorta belgeleri ve özel açıklamaları kullanarak artırılmış bildirim dosyalarıyla özel bir varlık tanıyıcı modeli eğittik ve eğitilen modeli kullanarak uç noktayı konuşlandırdık. Varlık türleri şunlardır: Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action, ve Sender. Tanıyıcı modeli kullanarak bir S3 klasöründe saklanan yerel PDF, PNG ve JPEG biçimindeki örnek belgelerdeki varlıkları algılamak istiyoruz.

PDF, TIFF, görüntü, Word ve düz metin belgelerinden özel varlıkları ayıklamak için PDF belgeleriyle eğitilmiş bir özel varlık tanıma modeli kullanabileceğinizi unutmayın. Modeliniz metin belgeleri ve bir varlık listesi kullanılarak eğitildiyse, varlıkları ayıklamak için yalnızca düz metin belgelerini kullanabilirsiniz.

Tanıyıcı modeli kullanarak herhangi bir yerel PDF, PNG ve JPEG formatındaki örnek bir belgedeki varlıkları algılamamız gerekir. Eşzamanlı bir varlık algılama işini başlatmak için aşağıdaki adımları tamamlayın:

Amazon Comprehend konsolunda şunu seçin: Gerçek zamanlı analiz Gezinti bölmesinde.
Altında Analiz türüseçin görenek.
İçin Özel varlık tanıma, özel model tipini seçin.
İçin Son nokta, varlık tanıyıcı modeliniz için oluşturduğunuz gerçek zamanlı uç noktayı seçin.
seç Dosya yükleme Ve seç Dosya seçin çıkarım için PDF veya görüntü dosyasını yüklemek için.
genişletmek Gelişmiş belge girişi bölüm ve için Belge okuma modu, seçmek Hizmet varsayılanı.
İçin Belge okuma eylemi, seçmek Textract belge metnini algılar.
Klinik Çözümlemek belgeyi gerçek zamanlı olarak analiz etmek için.

Tanınan varlıklar, Trendleri bölüm. Her varlık, varlık değerini (metin), eğitim sürecinde tanımladığınız varlık türünü ve karşılık gelen güven puanını içerir.

Özel bir varlık tanıyıcı modelinin nasıl eğitileceğine ve eşzamansız analiz işlerini kullanarak eşzamansız çıkarım gerçekleştirmek için nasıl kullanılacağına ilişkin daha fazla ayrıntı ve tam bir izlenecek yol için bkz. Amazon Comprehend ile belgelerdeki özel varlıkları yerel formatlarında çıkarın.

Sonuç

Bu gönderi, yarı yapılandırılmış belgeleri yerel biçimlerinde nasıl sınıflandırıp kategorize edebileceğinizi ve Amazon Comprehend kullanarak bunlardan işletmeye özgü varlıkları nasıl tespit edebileceğinizi gösterdi. Düşük gecikmeli kullanım durumları için gerçek zamanlı API'leri kullanabilir veya toplu belge işleme için eşzamansız analiz işlerini kullanabilirsiniz.

Bir sonraki adım olarak, Amazon Comprehend'i ziyaret etmenizi öneririz. GitHub deposu bu yeni özellikleri denemek için tam kod örnekleri için. Ayrıca ziyaret edebilirsiniz Amazon Anlamak Geliştirici Kılavuzu ve Amazon Comprehend geliştirici kaynakları videolar, öğreticiler, bloglar ve daha fazlası için.

yazarlar hakkında

Wrick Talukdar Amazon Comprehend Service ekibinde Kıdemli Mimardır. Makine öğrenimini geniş ölçekte benimsemelerine yardımcı olmak için AWS müşterileriyle birlikte çalışıyor. İş dışında kitap okumaktan ve fotoğraf çekmekten hoşlanıyor.

Anjan Biswas AI/ML ve Veri Analitiğine odaklanan bir Kıdemli AI Hizmetleri Çözümleri Mimarıdır. Anjan, dünya çapındaki AI hizmetleri ekibinin bir parçasıdır ve AI ve ML ile iş sorunlarını anlamalarına ve bunlara çözümler geliştirmelerine yardımcı olmak için müşterilerle birlikte çalışır. Anjan, küresel tedarik zinciri, üretim ve perakende kuruluşlarıyla çalışma konusunda 14 yılı aşkın deneyime sahiptir ve müşterilerin AWS AI hizmetlerini kullanmaya başlamasına ve bunları ölçeklendirmesine aktif olarak yardımcı olmaktadır.

Godwin Sahayaraj Vincent AWS'de makine öğrenimi konusunda tutkulu olan ve müşterilere AWS iş yüklerini ve mimarilerini tasarlamaları, dağıtmaları ve yönetmeleri için rehberlik sağlayan bir Kurumsal Çözümler Mimarıdır. Boş zamanlarında arkadaşlarıyla kriket oynamayı ve üç çocuğuyla tenis oynamayı seviyor.

Zaman Damgası: 2 Aralık 20222 Aralık 2022

Den fazla AWS Makine Öğrenimi

Amazon SageMaker Özellik Mağazası artık hesaplar arası paylaşımı, keşfi ve erişimi destekliyor | Amazon Web Hizmetleri

Kaynak Küme:

AWS Makine Öğrenimi

Kaynak Düğüm: 1947390

Zaman Damgası: Şubat 13, 2024

AWS, büyük bir oyun şirketi için zehirli konuşmayı sınıflandırmak üzere Büyük Dil Modeli'nde (LLM) ince ayar yapıyor | Amazon Web Hizmetleri

AWS Makine Öğrenimi

Kaynak Düğüm: 1822975

Zaman Damgası: Nisan 7, 2023

Akıllı belge işleme için Amazon Comprehend ile tek adımlı sınıflandırma ve varlık tanıma ile tanışın

Plato tarafından yeniden yayınlandı

Çözüme genel bakış

Özel belge sınıflandırması

Özel bir belge sınıflandırma modeli eğitin

Özel varlık tanıma

Özel bir varlık tanıma modeli eğitin

Sonuç

yazarlar hakkında

Den fazla AWS Makine Öğrenimi

AWS Hızlandırıcıları genelindeki start-up'lar, görev açısından kritik müşteri zorluklarını çözmek için AI ve ML'yi kullanıyor

Amazon Rekognition Özel Etiketleri ile tarımsal verimi ölçmek için bilgisayar görüşünü kullanın

AutoGluon-TimeSeries ile kolay ve doğru tahmin

Amazon SageMaker'ı kullanarak bir e-posta istenmeyen posta dedektörü oluşturun | Amazon Web Hizmetleri

Amazon SageMaker'ın coğrafi yeteneklerini kullanarak metan emisyon noktası kaynaklarının tespiti ve yüksek frekanslı izlenmesi | Amazon Web Hizmetleri

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap