Amazon Textract ve Amazon Comprehend Kullanarak Akıllı Belge İşleme ile İpotek Belgelerini İşleyin

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Borç verme ve ipotek sektöründeki kuruluşlar, günlük olarak binlerce belgeyi işler. Yeni bir ipotek başvurusundan ipotek yeniden finansmanına kadar, bu iş süreçleri başvuru başına yüzlerce belge içerir. Özellikle değişen formatlar ve düzenler nedeniyle, tüm belgelerden bilgi almak ve işlemek için günümüzde sınırlı otomasyon mevcuttur. Yüksek hacimli uygulamalar nedeniyle, stratejik içgörüleri yakalamak ve içeriklerden temel bilgileri almak zaman alan, manuel, hataya açık ve pahalı bir süreçtir. Eski optik karakter tanıma (OCR) araçları düşük maliyetlidir, hataya açıktır, çok fazla yapılandırma gerektirir ve ölçeklendirilmesi zordur. AWS yapay zeka (AI) hizmetleriyle birlikte akıllı belge işleme (IDP), daha hızlı ve kaliteli kararlar alma hedefleriyle ipotek başvurusu işleme sürecini otomatikleştirmeye ve hızlandırmaya yardımcı olurken, genel maliyetleri düşürür.

Bu gönderide, makine öğrenimi (ML) yeteneklerinden nasıl yararlanabileceğinizi gösteriyoruz. Amazon Metin Yazısı, ve Amazon Kavramak ML becerilerine ihtiyaç duymadan belgeleri yeni bir ipotek başvurusunda işlemek için. Aşağıdaki şekilde gösterildiği gibi IDP'nin çeşitli aşamalarını ve bunların bir ipotek başvuru sürecinde yer alan, örneğin başvuru gönderme, sigortalama, doğrulama ve kapatma gibi adımlara nasıl bağlandıklarını araştırıyoruz.

Her ipotek başvurusu benzersiz olsa da, Birleşik Konut Kredisi Başvurusu (URLA-1003) formu, 1099 formları ve ipotek notu gibi bir ipotek başvurusunda bulunan en yaygın belgelerden bazılarını dikkate aldık.

Çözüme genel bakış

Amazon Textract, önceden eğitilmiş makine öğrenimi modellerini kullanarak taranan belgelerden metin, el yazısı ve verileri otomatik olarak ayıklayan bir makine öğrenimi hizmetidir. Amazon Comprehend, metindeki değerli öngörüleri ve bağlantıları ortaya çıkarmak için makine öğrenimi kullanan ve belge sınıflandırma, ad varlığı tanıma (NER), konu modelleme ve daha fazlasını gerçekleştirebilen bir doğal dil işleme (NLP) hizmetidir.

Aşağıdaki şekil, bir ipotek başvuru sürecinin aşamalarıyla ilgili olduğu için IDP'nin aşamalarını göstermektedir.

Resim, bir ipotek başvurusunun aşamalarıyla ilgili olduğu için akıllı belge işlemenin (IDP) aşamaları için üst düzey bir çözüm mimarisini göstermektedir.

Sürecin başlangıcında, belgeler bir bilgisayara yüklenir. Amazon Basit Depolama Hizmeti (Amazon S3) kova. Bu, belgeleri bilinen kategorilere ayırmak için bir belge sınıflandırma sürecini başlatır. Belgeler kategorilere ayrıldıktan sonraki adım, onlardan önemli bilgileri çıkarmaktır. Ardından, kişisel olarak tanımlanabilir bilgiler (PII) redaksiyonu, belge etiketleme, meta veri güncellemeleri ve daha fazlası gibi şeyler olabilen belirli belgeler için zenginleştirme gerçekleştiririz. Bir sonraki adım, bir ipotek başvurusunun eksiksizliğini sağlamak için önceki aşamalarda çıkarılan verilerin doğrulanmasını içerir. Doğrulama, iş doğrulama kuralları ve belgeler arası doğrulama kuralları aracılığıyla yapılabilir. Ayıklanan bilgilerin güven puanları da belirli bir eşik ile karşılaştırılabilir ve otomatik olarak bir insan gözden geçirene yönlendirilebilir. Amazon Artırılmış AI (Amazon A2I) eşik karşılanmazsa. Sürecin son aşamasında, ayıklanan ve doğrulanan veriler, daha fazla depolama, işleme veya veri analitiği için aşağı akış sistemlerine gönderilir.

Aşağıdaki bölümlerde, bir ipotek başvurusunun aşamalarıyla ilgili olduğu için IDP'nin aşamalarını ayrıntılı olarak tartışacağız. IDP'nin aşamalarını inceliyoruz ve belge türlerini tartışıyoruz; bilgileri nasıl sakladığımız, sınıflandırdığımız ve ayıkladığımız ve makine öğrenimini kullanarak belgeleri nasıl zenginleştirdiğimiz.

Belge saklama

Amazon S3, sektör lideri ölçeklenebilirlik, veri kullanılabilirliği, güvenlik ve performans sunan bir nesne depolama hizmetidir. Mortgage başvuru süreci sırasında ve sonrasında ipotek belgelerini güvenli bir şekilde saklamak için Amazon S3 kullanıyoruz. A ipotek başvuru paketi URLA-1003, 1099-INT/DIV/RR/MISC, W2, maaş bordroları, banka hesap özetleri, kredi kartı hesap özetleri ve daha fazlası gibi çeşitli form ve belge türleri içerebilir. Bu belgeler ipotek başvuru aşamasında başvuru sahibi tarafından sunulur. El ile bakmadan, pakete hangi belgelerin dahil olduğu hemen anlaşılmayabilir. Bu manuel işlem zaman alıcı ve pahalı olabilir. Bir sonraki aşamada, belgeleri yüksek doğrulukla ilgili kategorilerine göre sınıflandırmak için Amazon Comprehend'i kullanarak bu süreci otomatikleştiriyoruz.

Belge sınıflandırması

Belge sınıflandırma, çok sayıda kimliği belirsiz belgenin kategorize edilip etiketlenebildiği bir yöntemdir. Bu belge sınıflandırmasını bir Amazon Anlayış kullanarak gerçekleştiriyoruz özel sınıflandırıcı. Özel sınıflandırıcı, ilginizi çeken sınıfları tanımak için bir dizi etiketli belgeyle eğitilebilen bir ML modelidir. Model, barındırılan bir uç noktanın arkasında eğitilip dağıtıldıktan sonra, belirli bir belgenin ait olduğu kategoriyi (veya sınıfı) belirlemek için sınıflandırıcıyı kullanabiliriz. Bu durumda, özel bir sınıflandırıcıyı şu şekilde eğitiriz: çok sınıflı mod, bir CSV dosyası veya artırılmış bir bildirim dosyası ile yapılabilir. Bu gösterimin amaçları doğrultusunda, sınıflandırıcıyı eğitmek için bir CSV dosyası kullanıyoruz. bize bakın GitHub deposu tam kod örneği için. Aşağıda, ilgili adımlara ilişkin üst düzey bir genel bakış sunulmaktadır:

Amazon Textract'ı kullanarak UTF-8 kodlu düz metni görüntü veya PDF dosyalarından çıkarın DetectDocumentMetin API.
Özel bir sınıflandırıcıyı CSV formatında eğitmek için eğitim verilerini hazırlayın.
CSV dosyasını kullanarak özel bir sınıflandırıcı eğitin.
Gerçek zamanlı belge sınıflandırması için bir uç nokta ile eğitilmiş modeli dağıtın veya hem gerçek zamanlı hem de zaman uyumsuz işlemleri destekleyen çok sınıflı modu kullanın.

Aşağıdaki diyagram bu işlemi göstermektedir.

Resim, Amazon Comprehend özel sınıflandırıcı eğitim sürecini ve eğitilmiş ve dağıtılmış sınıflandırıcı modeli (gerçek zamanlı veya toplu) kullanılarak belge sınıflandırmasını gösterir.

Belgeleri belirlemek ve kategorilere ayırmak için dağıtılan uç noktayı kullanarak belge sınıflandırmasını otomatikleştirebilirsiniz. Bu otomasyon, bir ipotek paketinde gerekli tüm belgelerin mevcut olup olmadığını doğrulamak için kullanışlıdır. Eksik bir belge, manuel müdahaleye gerek kalmadan hızlı bir şekilde tespit edilebilir ve başvuru sahibine süreçte çok daha erken bildirilebilir.

Belge çıkarma

Bu aşamada Amazon Textract ve Amazon Comprehend kullanarak belgeden veri çıkarıyoruz. Formlar ve tablolar içeren yapılandırılmış ve yarı yapılandırılmış belgeler için Amazon Textract kullanıyoruz Analiz etBelge API. Kimlik belgeleri gibi özel belgeler için Amazon Textract, Analiz Kimliği API. Bazı belgeler ayrıca yoğun metin içerebilir ve bunlardan işletmeye özel anahtar terimleri çıkarmanız gerekebilir. kişiler. Kullanıyoruz özel varlık tanıma Amazon Comprehend'in bu tür varlıkları yoğun metinden tanımlayabilen özel bir varlık tanıyıcı eğitme yeteneği.

Aşağıdaki bölümlerde, bir ipotek başvuru paketinde bulunan örnek belgeleri inceleyeceğiz ve bunlardan bilgi çıkarmak için kullanılan yöntemleri tartışacağız. Bu örneklerin her biri için bir kod parçacığı ve kısa bir örnek çıktı dahildir.

Birleşik Konut Kredisi Başvurusu URLA-1003'ten veri ayıklayın

Birleşik Konut Kredisi Başvurusu (URLA-1003), endüstri standardı bir ipotek kredisi başvuru formudur. İpotek başvurusunda bulunan kişi, satın alınan mülkün türü, finanse edilen tutar ve mülk satın alımının niteliğine ilişkin diğer ayrıntıları içeren oldukça karmaşık bir belgedir. Aşağıdaki örnek bir URLA-1003'tür ve amacımız bu yapılandırılmış belgeden bilgi çıkarmaktır. Bu bir form olduğundan, AnalyzeDocument API'sini şu özellik türüyle kullanıyoruz: FORMU.

FORM özellik türü, belgeden form bilgilerini alır ve ardından anahtar/değer çifti biçiminde döndürülür. Aşağıdaki kod parçacığını kullanır amazon-textract-textractor Yalnızca birkaç satır kodla form bilgilerini çıkarmak için Python kitaplığı. kolaylık yöntemi call_textract() çağırır AnalyzeDocument API dahili olarak ve yönteme iletilen parametreler, API'nin çıkarma görevini yürütmek için ihtiyaç duyduğu bazı yapılandırmaları özetler. Document API'den JSON yanıtını ayrıştırmaya yardımcı olmak için kullanılan bir kolaylık yöntemidir. Üst düzey bir soyutlama sağlar ve API çıktısını yinelenebilir ve bilgi alınmasını kolaylaştırır. Daha fazla bilgi için bkz. Textract Yanıt Ayrıştırıcı ve tekstüreci.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

Çıktının, formda bulunan onay kutuları veya radyo düğmeleri için değerler içerdiğini unutmayın. Örneğin, örnek URLA-1003 belgesinde, Satın alma seçeneği seçilmiştir. Radyo düğmesi için karşılık gelen çıktı “ olarak çıkarılır.Purchase” (anahtar) ve “SELECTED” (değer), radyo düğmesinin seçildiğini gösterir.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

1099 formdan veri ayıklayın

Bir ipotek başvuru paketi ayrıca 1099-DIV, 1099-INT, 1099-MISC ve 1099-R gibi bir dizi IRS belgesi içerebilir. Bu belgeler, başvuranın faizler, temettüler ve karar vermek için yüklenim sırasında faydalı olan diğer çeşitli gelir bileşenleri yoluyla kazançlarını gösterir. Aşağıdaki resim, yapı olarak benzer olan bu belgelerin bir koleksiyonunu göstermektedir. Ancak bazı durumlarda, belgeler form bilgilerini (kırmızı ve yeşil sınırlayıcı kutular kullanılarak işaretlenmiştir) ve tablo bilgilerini (sarı sınırlayıcı kutularla işaretlenmiştir) içerir.

Form bilgilerini çıkarmak için, daha önce açıklandığı gibi benzer kodu kullanırız. AnalyzeDocument API. Ek bir özelliği geçiyoruz TABLO API'ye, belgeden çıkarılan hem form hem de tablo verilerine ihtiyacımız olduğunu belirtmek için. Aşağıdaki kod parçacığını kullanır AnalyzeDocument 1099-INT belgesindeki FORMLAR ve TABLOLAR özelliklerine sahip API:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

Belge tek bir tablo içerdiğinden kodun çıktısı aşağıdaki gibidir:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

Tablo bilgileri, hücre konumunu (satır 0, sütun 0 vb.) ve her hücre içindeki ilgili metni içerir. Bu tablo verilerini okunması kolay ızgara görünümüne dönüştürebilen bir kolaylık yöntemi kullanıyoruz:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

Aşağıdaki çıktıyı alıyoruz:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

Çıktıyı tüketmesi kolay bir CSV biçiminde almak için, biçim türü Pretty_Print_Table_Format.csv içine geçirilebilir table_format parametre. TSV (sekmeyle ayrılmış değerler), HTML ve Latex gibi diğer biçimler de desteklenir. Daha fazla bilgi için bkz. Texttract-PrettyPrinter.

Bir ipotek notundan veri ayıklayın

Bir ipotek başvuru paketi, yoğun metin içeren yapılandırılmamış belgeler içerebilir. Yoğun metin belgelerine bazı örnekler sözleşmeler ve anlaşmalardır. Bir ipotek notu, ipotek başvurusunda bulunan kişi ile borç veren veya ipotek şirketi arasındaki bir anlaşmadır ve yoğun metin paragraflarında bilgi içerir. Bu gibi durumlarda, yapı eksikliği, ipotek başvuru sürecinde önemli olan temel işletme bilgilerinin bulunmasını zorlaştırır. Bu sorunu çözmek için iki yaklaşım vardır:

Aşağıdaki örnek ipotek dekontunda, özellikle aylık ödeme tutarını ve anapara tutarını bulmakla ilgileniyoruz.

İlk yaklaşım için, Query ve QueriesConfig Amazon Textract'a iletilen bir dizi soruyu yapılandırmak için kolaylık yöntemleri AnalyzeDocument API çağrısı. Belgenin çok sayfalı olması durumunda (PDF veya TIFF), Amazon Textract'in sorunun yanıtını araması gereken sayfa numaralarını da belirtebiliriz. Aşağıdaki kod parçacığı, sorgu yapılandırmasının nasıl oluşturulacağını, bir API çağrısının nasıl yapılacağını ve ardından yanıttan yanıtları almak için yanıtın nasıl ayrıştırılacağını gösterir:

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

Aşağıdaki çıktıyı alıyoruz:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

İkinci yaklaşım için Amazon Anlamak Varlıkları Algıla Metin içinde algıladığı varlıkları bir önceden tanımlanmış varlık kümesi. Bunlar, Amazon Comprehend varlık tanıyıcısının önceden eğitildiği varlıklardır. Ancak, gereksinimimiz belirli varlıkları tespit etmek olduğundan, bir Amazon Comprehend özel varlık tanıyıcı, bir dizi örnek ipotek dekontu belgesi ve bir varlık listesi ile eğitilir. Varlık adlarını şu şekilde tanımlarız: PRINCIPAL_AMOUNT ve MONTHLY_AMOUNT. Eğitim verileri, Amazon Anlamak eğitiminin ardından hazırlanır veri hazırlama yönergeleri özel varlık tanıma için. Varlık tanıyıcı ile eğitilebilir belge açıklamaları veya varlık listeleri. Bu örneğin amaçları doğrultusunda, modeli eğitmek için varlık listelerini kullanıyoruz. Modeli eğittikten sonra, onu bir gerçek zamanlı uç nokta ya da toplu modu belge içeriğinden iki varlığı algılamak için. Aşağıdakiler, özel bir varlık tanıyıcıyı eğitmek ve dağıtmak için gerekli adımlardır. Tam kod kılavuzu için GitHub depomuza bakın.

Eğitim verilerini (varlık listesi ve (UTF-8 kodlu) düz metin formatındaki belgeler) hazırlayın.
kullanarak varlık tanıyıcı eğitimini başlatın. Varlık Tanıyıcı Oluştur Eğitim verilerini kullanan API.
Aşağıdakileri kullanarak eğitilmiş modeli gerçek zamanlı bir uç nokta ile dağıtın. Bitiş noktası oluştur API.

ABD pasaportundan veri ayıklayın

Amazon Textract kimlik belgelerini analiz et yeteneği, ehliyet ve pasaport gibi ABD merkezli kimlik belgelerini algılayabilir ve bunlardan bilgi alabilir. bu AnalyzeID API, kimlik belgelerindeki ima edilen alanları algılama ve yorumlama yeteneğine sahiptir, bu da belgeden belirli bilgilerin çıkarılmasını kolaylaştırır. Kimlik belgeleri neredeyse her zaman ipotek başvuru paketinin bir parçasıdır, çünkü sigortalama işlemi sırasında borçlunun kimliğini doğrulamak ve borçlunun biyografik verilerinin doğruluğunu doğrulamak için kullanılır.

adlı bir kolaylık yöntemi kullanıyoruz. call_textract_analyzeid, hangi çağırır AnalyzeID API dahili olarak. Ardından, kimlik belgesinden algılanan anahtar/değer çiftlerini elde etmek için yanıt üzerinde yineleniriz. Aşağıdaki koda bakın:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID adı verilen bir yapıdaki bilgileri döndürür IdentityDocumentFieldsnormalleştirilmiş anahtarları ve bunlara karşılık gelen değerleri içeren . Örneğin, aşağıdaki çıktıda, FIRST_NAME normalleştirilmiş bir anahtardır ve değer ALEJANDRO. Örnek pasaport görüntüsünde, ilk ad için alan “Verilen İsimler / Prénoms / Nombre” olarak etiketlenmiştir, ancak AnalyzeID bunu anahtar adına normalleştirebildi FIRST_NAME. Desteklenen normalleştirilmiş alanların listesi için bkz. Kimlik Belgeleri Yanıt Nesneleri.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

Bir ipotek paketi, ödeme belgesi, W2 formu, banka ekstresi, kredi kartı ekstresi ve istihdam doğrulama mektubu gibi birkaç başka belge içerebilir. Bu belgelerin her biri için, onlardan veri çıkarmak için gereken kodla birlikte örneklerimiz var. Eksiksiz kod tabanı için, sayfamızdaki not defterlerine göz atın. GitHub deposu.

Belge zenginleştirme

Belge zenginleştirmenin en yaygın biçimlerinden biri, gizlilik yasaları veya düzenlemeleri nedeniyle zorunlu olabilecek, belgeler üzerinde hassas veya gizli bilgi redaksiyonudur. Örneğin, bir ipotek başvuru sahibinin ödeme belgesi, ad, adres ve SSN gibi, genişletilmiş depolama için redaksiyonu gerektirebilecek hassas PII verileri içerebilir.

Önceki örnek ödeme belgesi belgesinde, SSN, ad, banka hesap numarası ve tarihler gibi PII verilerinin redaksiyonunu gerçekleştiriyoruz. Bir belgedeki PII verilerini tanımlamak için Amazon Comprehend'i kullanırız. PII algılama aracılığıyla yeteneği PIIE Varlıkları Algıla API. Bu API, PII bilgilerinin varlığını belirlemek için belgenin içeriğini inceler. Bu API, UTF-8 kodlu düz metin biçiminde giriş gerektirdiğinden, metni önce Amazon Textract kullanarak belgeden çıkarırız. DetectDocumentMetin Belgeden metni döndüren ve ayrıca sınırlayıcı kutu boyutları ve koordinatları gibi geometri bilgilerini döndüren API. Daha sonra, zenginleştirme sürecinin bir parçası olarak belge üzerinde redaksiyonlar çizmek için her iki çıktının bir kombinasyonu kullanılır.

Verileri gözden geçirin, doğrulayın ve entegre edin

Belge çıkarma aşamasından çıkarılan verilerin belirli iş kurallarına göre doğrulanması gerekebilir. Belirli bilgiler, aynı zamanda olarak da bilinen çeşitli belgelerde doğrulanabilir. belgeler arası doğrulama. Belgeler arası doğrulamaya bir örnek, başvuru sahibinin kimlik belgesindeki adını ipotek başvuru belgesindeki adla karşılaştırmak olabilir. Bu aşamada mülk değeri tahminleri ve koşullu yüklenim kararları gibi diğer doğrulamaları da yapabilirsiniz.

Üçüncü bir doğrulama türü, belge çıkarma aşamasında çıkarılan verilerin güven puanı ile ilgilidir. Amazon Textract ve Amazon Comprehend, algılanan formlar, tablolar, metin verileri ve varlıklar için bir güven puanı döndürür. Yalnızca doğru değerlerin aşağı yönde gönderilmesini sağlamak için bir güven puanı eşiği yapılandırabilirsiniz. Bu, algılanan verilerin güven puanlarını önceden tanımlanmış bir güven eşiğiyle karşılaştıran Amazon A2I aracılığıyla gerçekleştirilir. Eşik karşılanmazsa, belge ve çıkarılan çıktı, sezgisel bir kullanıcı arayüzü aracılığıyla incelenmek üzere bir insana yönlendirilir. Gözden geçiren, veriler üzerinde düzeltici eylemi gerçekleştirir ve daha sonraki işlemler için kaydeder. Daha fazla bilgi için bkz. Amazon A2I'nin Temel Kavramları.

Sonuç

Bu yazıda, bir ipotek başvurusunun aşamalarıyla ilgili olduğu için akıllı belge işlemenin aşamalarını tartıştık. Bir ipotek başvuru paketinde bulunabilecek birkaç yaygın belge örneğine baktık. Ayrıca, bu belgelerden yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış içeriği çıkarmanın ve işlemenin yollarını tartıştık. IDP, milyonlarca belgeye ölçeklenebilen, başvuru kararlarının kalitesini artıran, maliyetleri azaltan ve müşterilere daha hızlı hizmet veren uçtan uca ipotek belgesi işlemeyi otomatikleştirmenin bir yolunu sunar.

Bir sonraki adım olarak, aşağıdaki kod örneklerini ve not defterlerini deneyebilirsiniz. GitHub deposu. IDP'nin belge işleme iş yüklerinize nasıl yardımcı olabileceği hakkında daha fazla bilgi edinmek için şu adresi ziyaret edin: Belgelerden veri işlemeyi otomatikleştirin.

yazarlar hakkında

Anjan Biswas AI/ML ve Veri Analitiğine odaklanan Kıdemli AI Hizmetleri Çözümleri Mimarıdır. Anjan, dünya çapındaki AI hizmetleri ekibinin bir parçasıdır ve AI ve ML ile iş sorunlarını anlamalarına ve bunlara çözümler geliştirmelerine yardımcı olmak için müşterilerle birlikte çalışır. Anjan, küresel tedarik zinciri, üretim ve perakende kuruluşlarıyla 14 yılı aşkın deneyime sahiptir ve müşterilerin AWS AI hizmetlerini başlatmasına ve ölçeklendirmesine aktif olarak yardımcı olmaktadır.

Dwiti Pathak San Diego merkezli bir Kıdemli Teknik Hesap Yöneticisidir. Yarı İletken endüstrisinin AWS'ye dahil olmasına yardımcı olmaya odaklanmıştır. Boş zamanlarında yeni teknolojiler hakkında okumayı ve masa oyunları oynamayı sever.

Balaji Puli Bay Area, CA merkezli bir Çözüm Mimarıdır. Şu anda, belirli Kuzeybatı ABD sağlık yaşam bilimleri müşterilerinin AWS bulutunu benimsemelerini hızlandırmasına yardımcı oluyor. Balaji seyahat etmeyi ve farklı mutfakları keşfetmeyi sever.

Zaman Damgası: Ağustos 26, 2022Ağustos 26, 2022

Den fazla AWS Makine Öğrenimi

Konuşma tanımayı geliştirmek için Amazon Lex'teki özel sözcükleri kullanın PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Konuşma tanımayı geliştirmek için Amazon Lex'te özel kelime dağarcığı kullanın

Kaynak Küme:

AWS Makine Öğrenimi

Kaynak Düğüm: 1294623

Zaman Damgası: Mayıs 5, 2022

AWS PlatoBlockchain Veri Zekası üzerinde bilgisayarlı görüntü işlem hatları için sentetik veriler oluşturun. Dikey Arama. Ai.

AWS'de bilgisayarla görme ardışık düzenleri için sentetik veriler oluşturun

AWS Makine Öğrenimi

Kaynak Düğüm: 1848251

Zaman Damgası: Haziran 13, 2023

Amazon Textract ve Amazon Comprehend kullanarak akıllı belge işleme ile ipotek belgelerini işleyin

Plato tarafından yeniden yayınlandı

Çözüme genel bakış

Belge saklama

Belge sınıflandırması

Belge çıkarma

Birleşik Konut Kredisi Başvurusu URLA-1003'ten veri ayıklayın

1099 formdan veri ayıklayın

Bir ipotek notundan veri ayıklayın

ABD pasaportundan veri ayıklayın

Belge zenginleştirme

Verileri gözden geçirin, doğrulayın ve entegre edin

Sonuç

yazarlar hakkında

Den fazla AWS Makine Öğrenimi

AWS'de bilgisayarla görme ardışık düzenleri için sentetik veriler oluşturun

Amazon SageMaker'da TensorFlow metin sınıflandırma modelleri için öğrenimi aktarın

Giyilebilir cihazlardan alınan verileri kullanarak neredeyse gerçek zamanlı kardiyak anomali tespiti için AWS Cloud teknolojisi

GPU kullanmadan uçta Amazon Lookout for Vision kullanarak anormalliklerin konumunu belirleyin

United Airlines uygun maliyetli bir Optik Karakter Tanıma aktif öğrenme hattını nasıl oluşturdu? Amazon Web Hizmetleri

Amazon Personalize'da Benzer Öğeler için popülerlik ayarıyla tanışın | Amazon Web Hizmetleri

Windows Dosya Sunucusu için Amazon FSx için Amazon Kendra bağlayıcısı ile Windows dosya sistemlerinde yapılandırılmamış verileri güvenle arayın

GrabDefence cihaz zekası ve Amazon Fraud Detector kullanarak mobil odaklı işletmelerde dolandırıcılığı tespit edin

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap