Amazon Textract 및 Amazon Comprehend를 사용한 지능형 문서 처리로 모기지 문서 처리

플라톤에 의해 재발행

팔로워 : 0

대출 및 모기지 산업의 조직은 매일 수천 개의 문서를 처리합니다. 새로운 모기지 신청에서 모기지 재융자에 이르기까지 이러한 비즈니스 프로세스에는 애플리케이션당 수백 개의 문서가 포함됩니다. 오늘날 특히 다양한 형식과 레이아웃으로 인해 모든 문서에서 정보를 처리하고 추출하는 데 사용할 수 있는 자동화가 제한적입니다. 많은 양의 응용 프로그램으로 인해 전략적 통찰력을 캡처하고 콘텐츠에서 핵심 정보를 얻는 것은 시간이 많이 걸리고 수작업이 많으며 오류가 발생하기 쉽고 비용이 많이 드는 프로세스입니다. 기존 OCR(광학 문자 인식) 도구는 비용이 많이 들고 오류가 발생하기 쉬우며 많은 구성이 필요하고 확장하기 어렵습니다. AWS 인공 지능(AI) 서비스가 포함된 지능형 문서 처리(IDP)는 전체 비용을 절감하면서 더 빠르고 양질의 결정을 목표로 모기지 신청 처리를 자동화 및 가속화하는 데 도움이 됩니다.

이 게시물에서는 기계 학습(ML) 기능을 활용하는 방법을 보여줍니다. 아마존 텍사스및 아마존 이해 ML 기술 없이도 새로운 모기지 신청서에서 문서를 처리할 수 있습니다. 다음 그림과 같이 IDP의 다양한 단계와 신청서 제출, 인수, 확인 및 마감과 같은 모기지 신청 프로세스와 관련된 단계에 연결하는 방법을 살펴봅니다.

각 모기지 신청서는 고유할 수 있지만 통합 주거 대출 신청서(URLA-1003) 양식, 1099 양식 및 모기지 메모와 같이 모기지 신청서에 포함된 가장 일반적인 문서 중 일부를 고려했습니다.

솔루션 개요

Amazon Textract는 사전 훈련된 ML 모델을 사용하여 스캔한 문서에서 텍스트, 필기 및 데이터를 자동으로 추출하는 ML 서비스입니다. Amazon Comprehend는 ML을 사용하여 텍스트에서 귀중한 통찰력과 연결을 발견하고 문서 분류, 이름 개체 인식(NER), 주제 모델링 등을 수행할 수 있는 자연어 처리(NLP) 서비스입니다.

다음 그림은 모기지 신청 프로세스의 단계와 관련된 IDP의 단계를 보여줍니다.

이 이미지는 모기지 신청 단계와 관련된 지능형 문서 처리(IDP) 단계에 대한 고급 솔루션 아키텍처를 보여줍니다.

프로세스 시작 시 문서가 업로드됩니다. 아마존 단순 스토리지 서비스 (Amazon S3) 버킷. 이렇게 하면 문서를 알려진 범주로 분류하는 문서 분류 프로세스가 시작됩니다. 문서를 분류한 후 다음 단계는 문서에서 핵심 정보를 추출하는 것입니다. 그런 다음 PII(개인 식별 정보) 수정, 문서 태깅, 메타데이터 업데이트 등과 같은 일부 문서에 대한 보강을 수행합니다. 다음 단계는 모기지 신청의 완전성을 보장하기 위해 이전 단계에서 추출된 데이터를 검증하는 것입니다. 유효성 검사는 비즈니스 유효성 검사 규칙 및 문서 간 유효성 검사 규칙을 통해 수행할 수 있습니다. 추출된 정보의 신뢰도 점수는 설정된 임계값과 비교할 수도 있으며, 자동으로 검토자를 통해 검토자에게 전달됩니다. 아마존 증강 AI (Amazon A2I) 임계값이 충족되지 않은 경우. 프로세스의 마지막 단계에서 추출 및 검증된 데이터는 추가 저장, 처리 또는 데이터 분석을 위해 다운스트림 시스템으로 전송됩니다.

다음 섹션에서는 모기지 신청 단계와 관련된 IDP 단계에 대해 자세히 설명합니다. IDP의 단계를 살펴보고 문서 유형에 대해 논의합니다. 정보를 저장, 분류 및 추출하는 방법과 기계 학습을 사용하여 문서를 강화하는 방법.

문서 보관

Amazon S3는 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 객체 스토리지 서비스입니다. 우리는 Amazon S3를 사용하여 모기지 신청 프로세스 중과 이후에 모기지 문서를 안전하게 저장합니다. ㅏ 모기지 신청서 패킷 URLA-1003, 1099-INT/DIV/RR/MISC, W2, 급여 명세서, 은행 거래 명세서, 신용 카드 명세서 등과 같은 여러 유형의 양식과 문서가 포함될 수 있습니다. 이 서류는 모기지 신청 단계에서 신청자가 제출합니다. 수동으로 살펴보지 않으면 패킷에 어떤 문서가 포함되어 있는지 즉시 명확하지 않을 수 있습니다. 이 수동 프로세스는 시간과 비용이 많이 소요될 수 있습니다. 다음 단계에서는 Amazon Comprehend를 사용하여 이 프로세스를 자동화하여 문서를 높은 정확도로 해당 범주로 분류합니다.

문서 분류

문서 분류는 식별되지 않은 많은 문서를 분류하고 레이블을 지정할 수 있는 방법입니다. Amazon Comprehend를 사용하여 이 문서 분류를 수행합니다. 맞춤 분류 자. 사용자 지정 분류기는 레이블이 지정된 문서 세트로 학습하여 관심 있는 클래스를 인식할 수 있는 ML 모델입니다. 모델이 호스팅된 엔드포인트 뒤에서 훈련되고 배포된 후에는 분류기를 사용하여 특정 문서가 속한 범주(또는 클래스)를 결정할 수 있습니다. 이 경우 커스텀 분류기를 훈련시킵니다. 멀티 클래스 모드, CSV 파일 또는 증강 매니페스트 파일로 수행할 수 있습니다. 이 데모에서는 CSV 파일을 사용하여 분류기를 훈련시킵니다. 우리의 GitHub 저장소 전체 코드 샘플의 경우. 다음은 관련된 단계에 대한 높은 수준의 개요입니다.

Amazon Textract를 사용하여 이미지 또는 PDF 파일에서 UTF-8로 인코딩된 일반 텍스트 추출 문서 텍스트 감지 API.
CSV 형식으로 사용자 지정 분류자를 훈련하기 위한 훈련 데이터를 준비합니다.
CSV 파일을 사용하여 사용자 지정 분류기를 훈련시킵니다.
실시간 문서 분류를 위해 엔드포인트가 있는 훈련된 모델을 배포하거나 실시간 및 비동기 작업을 모두 지원하는 다중 클래스 모드를 사용하십시오.

다음 다이어그램은 이 프로세스를 보여줍니다.

이 이미지는 훈련 및 배포된 분류기 모델(실시간 또는 배치)을 사용한 Amazon Comprehend 사용자 지정 분류기 훈련 프로세스 및 문서 분류를 보여줍니다.

배포된 끝점을 사용하여 문서 분류를 자동화하여 문서를 식별하고 분류할 수 있습니다. 이 자동화는 필요한 모든 문서가 모기지 패킷에 있는지 여부를 확인하는 데 유용합니다. 누락된 문서는 수동 개입 없이 신속하게 식별하고 프로세스 초기에 신청자에게 알릴 수 있습니다.

문서 추출

이 단계에서는 Amazon Textract 및 Amazon Comprehend를 사용하여 문서에서 데이터를 추출합니다. 양식 및 테이블이 포함된 구조화 및 반구조화 문서의 경우 Amazon Textract를 사용합니다. 문서 분석 API. ID 문서와 같은 특수 문서의 경우 Amazon Textract는 다음을 제공합니다. 분석 ID API. 일부 문서에는 빽빽한 텍스트가 포함될 수도 있으며 여기에서 비즈니스 관련 핵심 용어를 추출해야 할 수도 있습니다. 엔티티. 우리는 사용자 지정 엔터티 인식 고밀도 텍스트에서 이러한 엔터티를 식별할 수 있는 사용자 지정 엔터티 인식기를 훈련하는 Amazon Comprehend의 기능.

다음 섹션에서는 모기지 신청서 패킷에 있는 샘플 문서를 살펴보고 정보를 추출하는 데 사용되는 방법에 대해 설명합니다. 이러한 각 예에 대해 코드 스니펫과 짧은 샘플 출력이 포함되어 있습니다.

통합 주택 대출 신청서 URLA-1003에서 데이터 추출

통합 주거 대출 신청서(URLA-1003)는 업계 표준 모기지 대출 신청서입니다. 그것은 모기지 신청자, 구매하려는 부동산 유형, 자금 조달 금액 및 부동산 구매의 성격에 대한 기타 세부 정보를 포함하는 상당히 복잡한 문서입니다. 다음은 샘플 URLA-1003이며 우리의 의도는 이 구조화된 문서에서 정보를 추출하는 것입니다. 이것은 양식이기 때문에 기능 유형이 다음과 같은 AnalyzeDocument API를 사용합니다. FORM.

FORM 기능 유형은 문서에서 양식 정보를 추출한 다음 키-값 쌍 형식으로 반환됩니다. 다음 코드 스니펫은 amazon-textract-textractor 몇 줄의 코드로 양식 정보를 추출하는 Python 라이브러리. 편리한 방법 call_textract() 전화 AnalyzeDocument 내부적으로 API와 메서드에 전달된 매개변수는 API가 추출 작업을 실행하는 데 필요한 일부 구성을 추상화합니다. Document API에서 JSON 응답을 구문 분석하는 데 사용되는 편리한 방법입니다. 높은 수준의 추상화를 제공하고 API 출력을 반복 가능하고 쉽게 정보를 얻을 수 있도록 합니다. 자세한 내용은 Textract 응답 파서 과 텍스트렉터.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

출력에는 양식에 있는 확인란 또는 라디오 버튼에 대한 값이 포함됩니다. 예를 들어 샘플 URLA-1003 문서에서 매수 옵션이 선택되었습니다. 라디오 버튼에 대한 해당 출력은 "Purchase"(키) 및 "SELECTED"(값), 라디오 버튼이 선택되었음을 나타냅니다.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

1099 양식에서 데이터 추출

모기지 신청서 패킷에는 1099-DIV, 1099-INT, 1099-MISC 및 1099-R과 같은 여러 IRS 문서가 포함될 수도 있습니다. 이 문서는 이자, 배당금 및 결정을 내리기 위해 언더라이팅 중에 유용한 기타 소득 구성요소를 통한 신청자의 소득을 보여줍니다. 다음 이미지는 구조가 유사한 이러한 문서 모음을 보여줍니다. 그러나 경우에 따라 문서에 양식 정보(빨간색 및 녹색 경계 상자로 표시)와 표 형식 정보(노란색 경계 상자로 표시)가 포함되어 있습니다.

양식 정보를 추출하기 위해 앞에서 설명한 것과 유사한 코드를 사용합니다. AnalyzeDocument API. 우리는 추가 기능을 전달합니다 표 문서에서 추출한 양식 및 테이블 데이터가 모두 필요함을 나타내기 위해 API에 추가합니다. 다음 코드 스니펫은 AnalyzeDocument 1099-INT 문서의 FORMS 및 TABLES 기능이 있는 API:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

문서에 단일 테이블이 포함되어 있으므로 코드 출력은 다음과 같습니다.

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

테이블 정보에는 셀 위치(행 0, 열 0 등)와 각 셀 내의 해당 텍스트가 포함됩니다. 이 테이블 데이터를 읽기 쉬운 그리드 보기로 변환할 수 있는 편리한 방법을 사용합니다.

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

다음 출력을 얻습니다.

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

사용하기 쉬운 CSV 형식으로 출력을 얻으려면 형식 유형 Pretty_Print_Table_Format.csv 에 전달할 수 있습니다. table_format 매개변수. TSV(탭으로 구분된 값), HTML 및 Latex와 같은 다른 형식도 지원됩니다. 자세한 내용은 Textract-PrettyPrinter.

모기지 메모에서 데이터 추출

모기지 신청 패킷에는 조밀한 텍스트가 포함된 구조화되지 않은 문서가 포함될 수 있습니다. 조밀한 텍스트 문서의 몇 가지 예는 계약서 및 계약서입니다. 모기지 메모는 모기지 신청자와 대출 기관 또는 모기지 회사 간의 계약이며 밀도가 높은 텍스트 단락에 정보가 포함되어 있습니다. 이러한 경우 구조가 미비하여 모기지 신청 과정에서 중요한 비즈니스 정보를 찾기가 어렵습니다. 이 문제를 해결하는 방법에는 두 가지가 있습니다.

다음 샘플 모기지 메모에서 월별 지불 금액과 원금 금액을 찾는 데 특히 관심이 있습니다.

첫 번째 접근 방식의 경우 다음을 사용합니다. Query 과 QueriesConfig Amazon Textract에 전달되는 일련의 질문을 구성하는 편리한 방법 AnalyzeDocument API 호출. 문서가 여러 페이지(PDF 또는 TIFF)인 경우 Amazon Textract가 질문에 대한 답변을 찾아야 하는 페이지 번호를 지정할 수도 있습니다. 다음 코드 스니펫은 쿼리 구성을 만들고 API를 호출한 후 응답에서 응답을 얻기 위해 응답을 구문 분석하는 방법을 보여줍니다.

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

다음 출력을 얻습니다.

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

두 번째 접근 방식의 경우 Amazon Comprehend를 사용합니다. 엔티티 감지 모기지 메모가 포함된 API로, 텍스트 내에서 감지한 엔터티를 반환합니다. 사전 정의된 엔티티 세트. 이는 Amazon Comprehend 엔터티 인식기가 사전 훈련된 엔터티입니다. 그러나 우리의 요구 사항은 특정 엔터티를 감지하는 것이므로 Amazon Comprehend 사용자 지정 엔터티 인식기는 샘플 모기지 메모 문서 세트와 엔터티 목록으로 훈련됩니다. 엔티티 이름을 다음과 같이 정의합니다. PRINCIPAL_AMOUNT 과 MONTHLY_AMOUNT. Amazon Comprehend 교육에 따라 교육 데이터가 준비됩니다. 데이터 준비 지침 사용자 지정 엔터티 인식을 위한 것입니다. 엔티티 인식기는 다음으로 훈련될 수 있습니다. 문서 주석 또는 엔터티 목록. 이 예에서는 엔터티 목록을 사용하여 모델을 훈련합니다. 모델을 학습한 후 다음을 사용하여 배포할 수 있습니다. 실시간 끝점 또는 배치 모드 문서 내용에서 두 엔티티를 감지합니다. 다음은 사용자 지정 엔터티 인식기를 교육하고 배포하는 데 관련된 단계입니다. 전체 코드 연습은 GitHub 리포지토리를 참조하세요.

훈련 데이터(엔티티 목록 및 (UTF-8 인코딩) 일반 텍스트 형식의 문서)를 준비합니다.
다음을 사용하여 엔터티 인식기 교육을 시작합니다. CreateEntityRecognizer 학습 데이터를 사용하는 API.
다음을 사용하여 실시간 엔드포인트로 훈련된 모델을 배포합니다. 끝점 만들기 API.

미국 여권에서 데이터 추출

아마존 텍스트트랙트 신분 증명서를 분석하다 운전 면허증 및 여권과 같은 미국 기반 ID 문서에서 정보를 감지하고 추출할 수 있습니다. 그만큼 AnalyzeID API는 ID 문서의 함축된 필드를 감지하고 해석할 수 있으므로 문서에서 특정 정보를 쉽게 추출할 수 있습니다. 신원 문서는 인수 과정에서 차용인의 신원을 확인하고 차용인의 전기 데이터가 정확한지 확인하는 데 사용되기 때문에 거의 항상 모기지 신청 패킷의 일부입니다.

우리는 이라는 편리한 방법을 사용합니다. call_textract_analyzeid, AnalyzeID API 내부. 그런 다음 응답을 반복하여 ID 문서에서 감지된 키-값 쌍을 얻습니다. 다음 코드를 참조하십시오.

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID 라는 구조의 정보를 반환합니다. IdentityDocumentFields, 정규화된 키와 해당 값을 포함합니다. 예를 들어 다음 출력에서 FIRST_NAME 는 정규화된 키이고 값은 ALEJANDRO. 여권 이미지의 예에서 이름 필드는 "Given Names / Prénoms / Nombre"로 표시되지만 AnalyzeID 키 이름으로 정규화할 수 있었습니다. FIRST_NAME. 지원되는 정규화 필드 목록은 다음을 참조하십시오. ID 문서 응답 개체.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

모기지 패킷에는 급여 명세서, W2 양식, 은행 거래 내역서, 신용 카드 명세서 및 고용 확인서와 같은 여러 다른 문서가 포함될 수 있습니다. 우리는 각 문서에 대한 샘플과 함께 데이터를 추출하는 데 필요한 코드를 가지고 있습니다. 전체 코드 기반을 보려면 당사의 노트북을 확인하십시오. GitHub 저장소.

문서 보강

문서 강화의 가장 일반적인 형태 중 하나는 개인 정보 보호 법률 또는 규정으로 인해 의무화될 수 있는 문서에 대한 민감하거나 기밀 정보 수정입니다. 예를 들어, 모기지 신청자의 급여 명세서에는 이름, 주소, SSN과 같은 민감한 PII 데이터가 포함될 수 있으며, 이러한 데이터는 확장 저장을 위해 수정이 필요할 수 있습니다.

앞의 샘플 급여 명세서 문서에서 SSN, 이름, 은행 계좌 번호 및 날짜와 같은 PII 데이터 수정을 수행합니다. 문서에서 PII 데이터를 식별하기 위해 Amazon Comprehend를 사용합니다. 개인 식별 정보 감지 기능을 통해 DetectPII엔티티 API. 이 API는 문서의 내용을 검사하여 PII 정보의 존재를 식별합니다. 이 API에는 UTF-8로 인코딩된 일반 텍스트 형식의 입력이 필요하므로 먼저 Amazon Textract를 사용하여 문서에서 텍스트를 추출합니다. 문서 텍스트 감지 문서에서 텍스트를 반환하고 경계 상자 치수 및 좌표와 같은 지오메트리 정보도 반환하는 API입니다. 그런 다음 두 출력의 조합을 사용하여 강화 프로세스의 일부로 문서에 수정 사항을 그립니다.

데이터 검토, 검증 및 통합

문서 추출 단계에서 추출된 데이터는 특정 비즈니스 규칙에 대한 유효성 검사가 필요할 수 있습니다. 특정 정보는 다음과 같은 여러 문서에서 검증될 수도 있습니다. 문서 간 유효성 검사. 문서 간 검증의 예는 ID 문서에 있는 신청자의 이름을 모기지 신청 문서에 있는 이름과 비교할 수 있습니다. 이 단계에서 자산 가치 추정 및 조건부 인수 결정과 같은 다른 검증도 수행할 수 있습니다.

세 번째 유형의 유효성 검사는 문서 추출 단계에서 추출된 데이터의 신뢰도 점수와 관련이 있습니다. Amazon Textract 및 Amazon Comprehend는 감지된 양식, 테이블, 텍스트 데이터 및 엔터티에 대한 신뢰도 점수를 반환합니다. 올바른 값만 다운스트림으로 전송되도록 신뢰도 점수 임계값을 구성할 수 있습니다. 이는 감지된 데이터의 신뢰도 점수를 사전 정의된 신뢰도 임계값과 비교하는 Amazon A2I를 통해 달성됩니다. 임계값이 충족되지 않으면 문서와 추출된 출력이 직관적인 UI를 통해 검토를 위해 사람에게 라우팅됩니다. 검토자는 데이터에 대한 수정 조치를 취하고 추가 처리를 위해 저장합니다. 자세한 내용은 Amazon A2I의 핵심 개념.

결론

이 게시물에서 우리는 모기지 신청 단계와 관련된 지능형 문서 처리 단계에 대해 논의했습니다. 모기지 신청서 패킷에서 찾을 수 있는 문서의 몇 가지 일반적인 예를 살펴보았습니다. 또한 이러한 문서에서 정형, 반정형 및 비정형 콘텐츠를 추출하고 처리하는 방법에 대해 논의했습니다. IDP는 수백만 개의 문서로 확장할 수 있는 종단 간 모기지 문서 처리를 자동화하는 방법을 제공하여 애플리케이션 결정의 품질을 향상시키고 비용을 절감하며 고객에게 더 빠르게 서비스를 제공합니다.

다음 단계로 당사의 코드 샘플과 노트북을 사용해 볼 수 있습니다. GitHub 저장소. IDP가 문서 처리 워크로드를 어떻게 도울 수 있는지 자세히 알아보려면 다음을 방문하십시오. 문서에서 데이터 처리 자동화.

저자 소개

안잔 비스와스 AI/ML 및 데이터 분석에 중점을 둔 수석 AI 서비스 솔루션 설계자입니다. Anjan은 전 세계 AI 서비스 팀의 일원이며 고객과 협력하여 AI 및 ML을 사용하여 비즈니스 문제를 이해하고 솔루션을 개발할 수 있도록 지원합니다. Anjan은 글로벌 공급망, 제조 및 소매 조직과 협력한 14년 이상의 경험을 가지고 있으며 고객이 AWS AI 서비스를 시작하고 확장하도록 적극적으로 돕고 있습니다.

드위티 파탁 샌디에고에 거주하는 수석 기술 계정 관리자입니다. 그녀는 반도체 업계가 AWS에 참여하도록 돕는 데 중점을 두고 있습니다. 여가 시간에는 새로운 기술에 대해 읽고 보드 게임을 하는 것을 좋아합니다.

발라지 풀리 캘리포니아 주 베이 지역에 거주하는 솔루션 아키텍트입니다. 현재 일부 미국 북서부 의료 생명 과학 고객이 AWS 클라우드 채택을 가속화하도록 돕고 있습니다. Balaji는 여행을 즐기고 다양한 요리를 탐구하는 것을 좋아합니다.

타임 스탬프 : 2022 년 8 월 26 일2022 년 8 월 26 일

Amazon Lex에서 사용자 지정 어휘를 사용하여 음성 인식 향상

소스 클러스터 :

AWS 기계 학습

소스 노드 : 1294623

타임 스탬프 : 2022 년 5 월 5 일

AWS PlatoBlockchain Data Intelligence에서 컴퓨터 비전 파이프라인을 위한 합성 데이터를 생성합니다. 수직 검색. 일체 포함.

AWS에서 컴퓨터 비전 파이프라인을 위한 합성 데이터 생성

AWS 기계 학습

소스 노드 : 1848251

타임 스탬프 : 13년 2023월 XNUMX일

Amazon Textract 및 Amazon Comprehend를 사용한 지능형 문서 처리로 모기지 문서 처리

플라톤에 의해 재발행

솔루션 개요

문서 보관

문서 분류

문서 추출

통합 주택 대출 신청서 URLA-1003에서 데이터 추출

1099 양식에서 데이터 추출

모기지 메모에서 데이터 추출

미국 여권에서 데이터 추출

문서 보강

데이터 검토, 검증 및 통합

결론

저자 소개

더보기 AWS 기계 학습

AWS에서 컴퓨터 비전 파이프라인을 위한 합성 데이터 생성

Amazon SageMaker의 TensorFlow 텍스트 분류 모델에 대한 전이 학습

웨어러블 장치의 데이터를 사용하여 거의 실시간으로 심장 이상을 감지하는 AWS 클라우드 기술

GPU를 사용하지 않고 엣지에서 Amazon Lookout for Vision을 사용하여 이상 위치 식별

United Airlines가 비용 효율적인 광학 문자 인식 활성 학습 파이프라인을 구축한 방법 | 아마존 웹 서비스

Amazon Personalize에서 유사 항목에 대한 인기 조정 소개 | 아마존 웹 서비스

Windows 파일 서버용 Amazon FSx용 Amazon Kendra 커넥터를 사용하여 Windows 파일 시스템에서 구조화되지 않은 데이터를 안전하게 검색

GrabDefence 장치 인텔리전스와 Amazon Fraud Detector를 사용하여 모바일 중심 비즈니스에서 사기를 감지합니다.

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정