İnsan incelemesi ve BI görselleştirmesi ile akıllı belge işlemeye yönelik iş kurallarını özelleştirin PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

İnsan incelemesi ve BI görselleştirmesi ile akıllı belge işleme için iş kurallarını özelleştirin

Endüstriler arasında günlük olarak çok sayıda iş belgesi işlenir. Bu belgelerin çoğu kağıt tabanlıdır, sisteminize görüntü olarak veya PDF gibi yapılandırılmamış bir biçimde taranır. Her şirket, bu belgeleri işlerken iş geçmişi ile ilgili benzersiz kurallar uygulayabilir. Bilginin doğru bir şekilde nasıl çıkarılacağı ve esnek bir şekilde nasıl işleneceği birçok şirketin karşılaştığı bir zorluktur.

Amazon Intelligent Document Processing (IDP), daha önce ML deneyimi olmadan sektör lideri makine öğrenimi (ML) teknolojisinden yararlanmanıza olanak tanır. Bu gönderi, aşağıdakilere dahil olan bir çözümü tanıtır: Amazon IDP atölyesi Amazon AI hizmetlerini kullanarak esnek iş kurallarına hizmet etmek için belgelerin nasıl işleneceğini gösteriyor. Aşağıdaki adım adım kullanabilirsiniz Jupyter dizüstü bilgisayar Laboratuvarı tamamlamak için.

Amazon Metin Yazısı çeşitli belgelerden kolayca metin çıkarmanıza yardımcı olur ve Amazon Artırılmış AI (Amazon A2I), makine öğrenimi tahminlerinin insan incelemesini uygulamanıza olanak tanır. Varsayılan Amazon A2I şablonu, çıkarma güven puanının önceden tanımlanmış bir eşiğin altında olması veya gerekli anahtarların eksik olması gibi kurallara dayalı olarak bir insan incelemesi ardışık düzeni oluşturmanıza olanak tanır. Ancak bir üretim ortamında, dize biçimini doğrulama, veri türünü ve aralığını doğrulama ve belgeler arasında alanları doğrulama gibi esnek iş kurallarını desteklemek için belge işleme hattına ihtiyacınız vardır. Bu gönderi, esnek iş kurallarını destekleyen genel bir belge işleme hattını özelleştirmek için Amazon Textract ve Amazon A2I'yi nasıl kullanabileceğinizi gösterir.

Çözüme genel bakış

Örnek çözümümüz için, Vergi Formu 990, halka kar amacı gütmeyen bir kuruluş hakkında finansal bilgi sağlayan bir ABD IRS (Dahili Gelir Servisi) formu. Bu örnekte sadece formun ilk sayfasındaki bazı alanlar için çıkarma mantığını ele alıyoruz. Daha fazla örnek belgeyi adresinde bulabilirsiniz. IRS web sitesi.

Aşağıdaki şema, insan incelemesiyle özelleştirilmiş iş kurallarını destekleyen IDP işlem hattını göstermektedir.

Mimari üç mantıksal aşamadan oluşur:

  • Çıkarma – 990 Vergi Formundan veri ayıklayın (örnek olarak 1. sayfayı kullanıyoruz).
    • içinde saklanan örnek bir görüntüyü alın. Amazon Basit Depolama Hizmeti (Amazon S3) kovası.
    • kullanarak Amazon Textract analyze_document API'sini çağırın. Sorguları sayfadan metin çıkarma özelliği.
  • Onaylama – Döngüdeki insan incelemesiyle esnek iş kuralları uygulayın.
    • Bir kimlik alanının uzunluğunu doğrulamak gibi iş kurallarına göre ayıklanan verileri doğrulayın.
    • Herhangi bir iş kuralının başarısız olup olmadığını incelemesi için belgeyi Amazon A2I'ye gönderin.
    • İncelemeciler, çıkarma sonucunu doğrulamak için Amazon A2I kullanıcı arayüzünü (özelleştirilebilir bir web sitesi) kullanır.
  • BI görselleştirme - Kullanırız Amazon QuickSight süreç öngörülerini gösteren bir iş zekası (BI) panosu oluşturmak için.

İş kurallarını özelleştirin

Aşağıdaki JSON biçiminde genel bir iş kuralı tanımlayabilirsiniz. Örnek kodda üç kural tanımlıyoruz:

  • İlk kural işveren kimliği alanı içindir. Amazon Textract güven puanı %99'dan düşükse kural başarısız olur. Bu gönderi için, tasarım gereği kırılacak olan güven puanı eşiğini yüksek olarak belirledik. %90 gibi gerçek dünya ortamında gereksiz insan çabasını azaltmak için eşiği daha makul bir değere ayarlayabilirsiniz.
  • İkinci kural, aşağı akış işleme mantığı için gerekli olan DLN alanı (vergi formunun benzersiz tanımlayıcısı) içindir. DLN alanı eksikse veya boş bir değere sahipse bu kural başarısız olur.
  • Üçüncü kural da DLN alanı içindir ancak farklı bir koşul tipine sahiptir: UzunlukKontrol. DLN uzunluğu 16 karakter değilse kural bozulur.

Aşağıdaki kod, iş kurallarımızı JSON biçiminde gösterir:

rules = [
    {
        "description": "Employee Id confidence score should greater than 99",
        "field_name": "d.employer_id",
        "field_name_regex": None, # support Regex: "_confidence$",
        "condition_category": "Confidence",
        "condition_type": "ConfidenceThreshold",
        "condition_setting": "99",
    },
    {
        "description": "dln is required",
        "field_name": "dln",
        "condition_category": "Required",
        "condition_type": "Required",
        "condition_setting": None,
    },
    {
        "description": "dln length should be 16",
        "field_name": "dln",
        "condition_category": "LengthCheck",
        "condition_type": "ValueRegex",
        "condition_setting": "^[0-9a-zA-Z]{16}$",
    }
]

Aynı yapıyı takip ederek daha fazla iş kuralı ekleyerek çözümü genişletebilirsiniz.

Amazon Textract sorgusu kullanarak metni ayıklayın

Örnek çözümde Amazon Textract analyze_document API'sini çağırıyoruz sorgu belirli sorular sorarak alanları çıkarma özelliği. Belgedeki verilerin yapısını (tablo, form, ima edilen alan, iç içe geçmiş veriler) bilmenize veya belge sürümleri ve biçimleri arasındaki farklılıklar hakkında endişelenmenize gerek yoktur. Sorgular, aradığınız bilgileri yüksek doğrulukla çıkarmak için görsel, uzamsal ve dil ipuçlarının bir kombinasyonunu kullanır.

DLN alanı için değer çıkarmak için “DLN nedir?” gibi doğal dillerde sorular içeren bir istek gönderebilirsiniz. Amazon Textract, görüntü veya belgede ilgili bilgileri bulursa metni, güveni ve diğer meta verileri döndürür. Aşağıda bir Amazon Textract sorgu isteği örneği verilmiştir:

textract.analyze_document(
        Document={'S3Object': {'Bucket': data_bucket, 'Name': s3_key}},
        FeatureTypes=["QUERIES"],
        QueriesConfig={
                'Queries': [
                    {
                        'Text': 'What is the DLN?',
                       'Alias': 'The DLN number - unique identifier of the form'
                    }
               ]
        }
)

Veri modelini tanımlayın

Örnek çözüm, genel iş kuralı değerlendirmesine hizmet etmek için verileri yapılandırılmış bir biçimde oluşturur. Çıkarılan değerleri tutmak için her belge sayfası için bir veri modeli tanımlayabilirsiniz. Aşağıdaki resim, 1. sayfadaki metnin JSON alanlarıyla nasıl eşleştiğini gösterir.Özel veri modeli

Her alan, bir belgenin metnini, onay kutusunu veya sayfadaki tablo/form hücresini temsil eder. JSON nesnesi aşağıdaki koda benzer:

{
    "dln": {
        "value": "93493319020929",
        "confidence": 0.9765, 
        "block": {} 
    },
    "omb_no": {
        "value": "1545-0047",
        "confidence": 0.9435,
        "block": {}
    },
    ...
}

Ayrıntılı JSON yapısı tanımını şurada bulabilirsiniz: GitHub repo.

Verileri iş kurallarına göre değerlendirin

Örnek çözüm, bir Koşul sınıfıyla birlikte gelir— ayıklanan verileri (veri modelinde tanımlandığı gibi) ve kuralları (özelleştirilmiş iş kurallarında tanımlandığı gibi) alan genel bir kural motoru. Başarısız ve tatmin edici koşullara sahip iki liste döndürür. Belgeyi insan incelemesi için Amazon A2I'ye göndermemiz gerekip gerekmediğine karar vermek için sonucu kullanabiliriz.

Koşul sınıfı kaynak kodu örnektedir GitHub repo. Bir dizenin uzunluğunu, değer aralığını ve güven puanı eşiğini doğrulama gibi temel doğrulama mantığını destekler. Daha fazla koşul türünü ve karmaşık doğrulama mantığını desteklemek için kodu değiştirebilirsiniz.

Özelleştirilmiş bir Amazon A2I web kullanıcı arayüzü oluşturun

Amazon A2I, bir alt görev şablonu. Şablon, HTML ve JavaScript'te statik bir web sayfasıdır. kullanarak özelleştirilmiş gözden geçiren sayfasına veri iletebilirsiniz. Sıvı sözdizimi.

Örnek çözümde, özel Amazon A2I kullanıcı arayüzü şablonu soldaki sayfayı ve sağdaki arıza koşullarını görüntüler. Gözden geçirenler, çıkarma değerini düzeltmek ve yorumlarını eklemek için bunu kullanabilir.

Aşağıdaki ekran görüntüsü, özelleştirilmiş Amazon A2I kullanıcı arabirimimizi göstermektedir. Orijinal görüntü belgesini solda ve aşağıdaki başarısız koşulları sağda gösterir:

  • DLN numaraları 16 karakter uzunluğunda olmalıdır. Gerçek DLN'nin 15 karakteri vardır.
  • İşveren_kimliğinin güven puanı %99'un altındadır. Gerçek güven puanı %98 civarındadır.

Gözden geçirenler bu sonuçları manuel olarak doğrulayabilir ve DEĞİŞİM NEDENİ Metin kutuları.Özelleştirilmiş A2I inceleme kullanıcı arayüzü

Amazon A2I'yi herhangi bir özel makine öğrenimi iş akışına entegre etme hakkında daha fazla bilgi için 60'tan fazla önceden oluşturulmuş çalışan şablonları GitHub deposunda ve Özel Görev Türleriyle Amazon Artırılmış AI'yı kullanma.

Amazon A2I çıktısını işleyin

Amazon A2I özelleştirilmiş kullanıcı arabirimini kullanan gözden geçiren, sonucu doğruladıktan ve Gönder, Amazon A2I, S3 kova klasöründe bir JSON dosyası depolar. JSON dosyası, kök düzeyinde aşağıdaki bilgileri içerir:

  • Amazon A2I akış tanımı ARN ve insan döngü adı
  • İnsan yanıtları (özelleştirilmiş Amazon A2I kullanıcı arayüzü tarafından toplanan gözden geçirenin girdisi)
  • Giriş içeriği (insan döngüsü görevi başlatılırken Amazon A2I'ye gönderilen orijinal veriler)

Aşağıdakiler, Amazon A2I tarafından oluşturulan örnek bir JSON'dur:

{
  "flowDefinitionArn": "arn:aws:sagemaker:us-east-1:711334203977:flow-definition/a2i-custom-ui-demo-workflow",
  "humanAnswers": [
    {
      "acceptanceTime": "2022-08-23T15:23:53.488Z",
      "answerContent": {
        "Change Reason 1": "Missing X at the end.",
        "True Value 1": "93493319020929X",
        "True Value 2": "04-3018996"
      },
      "submissionTime": "2022-08-23T15:24:47.991Z",
      "timeSpentInSeconds": 54.503,
      "workerId": "94de99f1bc6324b8",
      "workerMetadata": {
        "identityData": {
          "identityProviderType": "Cognito",
          "issuer": "https://cognito-idp.us-east-1.amazonaws.com/us-east-1_URd6f6sie",
          "sub": "cef8d484-c640-44ea-8369-570cdc132d2d"
        }
      }
    }
  ],
  "humanLoopName": "custom-loop-9b4e67ff-2c9f-40f9-aae5-0e26316c905c",
  "inputContent": {...} # the original input send to A2I when starting the human review task
}

Amazon A2I çıktısı JSON'daki bilgileri ayrıştırmak ve bir dosyada veya veritabanında depolamak için ayıklama, dönüştürme ve yükleme (ETL) mantığını uygulayabilirsiniz. Örnek çözüm bir CSV dosyası işlenmiş verilerle. Bir sonraki bölümdeki talimatları izleyerek bir BI panosu oluşturmak için kullanabilirsiniz.

Amazon QuickSight'ta bir pano oluşturun

Örnek çözüm, Amazon QuickSight tarafından sunulan bir görselleştirme panosuna sahip bir raporlama aşaması içerir. BI panosu, otomatik veya manuel olarak işlenen belge sayısı, insan incelemesi gerektiren en popüler alanlar ve diğer içgörüler gibi temel ölçümleri gösterir. Bu pano, belge işleme hattını gözden geçirmenize ve insan incelemesine neden olan yaygın nedenleri analiz etmenize yardımcı olabilir. İnsan girdisini daha da azaltarak iş akışını optimize edebilirsiniz.

Örnek pano, temel metrikleri içerir. Verilere ilişkin daha fazla içgörü göstermek için Amazon QuickSight'ı kullanarak çözümü genişletebilirsiniz.BI kontrol paneli

Daha fazla belge ve iş kuralı desteklemek için çözümü genişletin

Çözümü, ilgili iş kurallarına sahip daha fazla belge sayfasını destekleyecek şekilde genişletmek için aşağıdaki değişiklikleri yapmanız gerekir:

  • Sayfalardan çıkarmak istediğiniz tüm değerleri temsil eden JSON yapısında yeni sayfa için bir veri modeli oluşturun. Bakın Veri modelini tanımlayın ayrıntılı bir format için bölüm.
  • Belgeden metin çıkarmak ve değerleri veri modeline yerleştirmek için Amazon Textract'ı kullanın.
  • JSON formatında sayfaya karşılık gelen iş kurallarını ekleyin. Bakın İş kurallarını özelleştirin ayrıntılı biçim için bölüm.

Çözümdeki özel Amazon A2I kullanıcı arayüzü geneldir ve yeni iş kurallarını desteklemek için bir değişiklik gerektirmez.

Sonuç

Akıllı belge işleme yüksek talep görüyor ve şirketlerin benzersiz iş mantıklarını desteklemek için özelleştirilmiş bir boru hattına ihtiyaçları var. Amazon A2I, insan incelemesi kullanım senaryolarınızı uygulamak için Amazon Textract ile entegre yerleşik bir şablon da sunar. Ayrıca, gözden geçiren sayfasını esnek gereksinimlere hizmet edecek şekilde özelleştirmenize olanak tanır.

Bu gönderi, esnek iş kurallarını destekleyen bir IDP ardışık düzeni oluşturmak için Amazon Textract ve Amazon A2I kullanan bir referans çözümünde size rehberlik etti. kullanarak deneyebilirsiniz Jupyter dizüstü bilgisayar GitHub IDP atölye deposunda.


yazarlar hakkında

İnsan incelemesi ve BI görselleştirmesi ile akıllı belge işlemeye yönelik iş kurallarını özelleştirin PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Lana Çang AWS WWSO Yapay Zeka Hizmetleri ekibinde, akıllı belge işleme ve içerik denetimi için yapay zeka ve makine öğrenimi konusunda uzmanlığa sahip bir Kıdemli Çözüm Mimarıdır. AWS AI hizmetlerini tanıtma ve müşterilerin iş çözümlerini dönüştürmesine yardımcı olma konusunda tutkulu.

İnsan incelemesi ve BI görselleştirmesi ile akıllı belge işlemeye yönelik iş kurallarını özelleştirin PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
Sonali Sahu Amazon Web Services'de Akıllı Belge İşleme AI/ML Çözümleri Mimarı ekibine liderlik ediyor. Tutkulu bir teknoloji tutkunu ve inovasyonu kullanarak karmaşık sorunları çözmek için müşterilerle çalışmaktan keyif alıyor. Temel odak alanı, Akıllı Belge İşleme için Yapay Zeka ve Makine Öğrenimidir.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi