평균적인 사람이 일주일에 최소 10개의 청구서를 보내고/받는다고 해도 과언이 아닙니다. 디지털화가 증가함에 따라 기업은 매일 엄청난 양의 인보이스를 처리하고 있습니다. 전통적으로 인보이스 처리는 많은 리소스가 필요하고 오류가 발생하기 쉬운 수동적이고 시간 소모적인 프로세스였습니다.
AI 및 자연어 처리의 출현으로 인보이스 처리가 자동화되고 간소화되어 효율성과 정확성이 향상되었습니다. GPT는 "Generative Pre-trained Transformer"의 약자로 에 의해 개발된 강력한 언어 처리 모델 제품군을 나타냅니다. OpenAI. GPT 모델은 대량의 텍스트 데이터에 대해 사전 교육을 받은 후 송장 처리를 비롯한 특정 작업에 맞게 미세 조정할 수 있습니다.
서점의 주문에 대한 인보이스 처리의 경우를 예로 들면 아래 이미지에 샘플 인보이스가 나와 있습니다. 이 송장에는 배송, 청구, 항목 및 가격에 대한 정보가 있습니다. 수천 개의 인보이스에서 수동으로 데이터를 수집해야 한다고 상상해 보십시오! 운 좋게도 프로세스 속도를 높이는 AI 도구가 있습니다.
이 블로그에서는 GPT-4 및 Nanonets를 사용하여 인보이스를 처리하는 단계를 안내합니다. 커피 한 잔을 들고 준비하십시오!
1단계: Nanonets 계정 생성 및 이미지 업로드
첫 번째 단계는 인보이스 이미지에서 텍스트 데이터를 추출하는 것입니다. OCR(광학 문자 인식) 기술은 패턴 인식 알고리즘을 사용하여 이미지나 스캔한 문서에서 문자를 식별하고 텍스트로 변환합니다. Nanonets가 제공하는 클라우드 기반 인공 지능(AI) 플랫폼은 인보이스 OCR을 포함하여 특정 작업에 대해 선별된 OCR 도구를 제공합니다. 간단하게 가입할 수 있습니다 여기에서 지금 확인해 보세요. 인보이스 OCR 도구에 무료로 액세스할 수 있습니다.
로그인하고 송장 OCR을 클릭하면 "파일 업로드" 옵션을 찾을 수 있습니다. Nanonets는 매우 사용자 친화적이며 6개 이상의 앱에서 파일을 업로드할 수 있습니다.
Agatha Book Store의 샘플 송장을 여기에 업로드했습니다. 추출은 몇 분 안에 완료되며 그림과 같이 스크랩된 결과를 얻을 수 있습니다. 여기서 사전 훈련된 딥 러닝 모델은 엔터티와 해당 값을 추출하는 데 사용됩니다.
Nanonets로 식별되는 모든 텍스트 필드는 별도의 상자로 둘러싸여 있습니다. 이 필드에 대해 추출된 값은 오른쪽의 '최종 결과' 탭에서 볼 수 있습니다. Nanonets에서 수행한 이 엔티티 추출은 GPT-4를 사용하여 향상될 수 있습니다. Nanonets는 또한 필드 이름을 추가하거나 수정하는 옵션을 제공하여 고객을 위한 사용자 지정 및 사용자 경험을 향상시킵니다.
수동 AP 프로세스를 자동화하고 싶으십니까? 30분 라이브 데모를 예약하여 팀이 엔드 투 엔드를 구현하는 데 Nanonet이 어떻게 도움이 되는지 알아보십시오. AP 자동화.
2단계: OCR 텍스트 데이터 다운로드
추출된 OCR 텍스트 데이터는 다양한 형태로 다운로드 받을 수 있습니다. 송장 데이터를 Excel 또는 CSV 파일로 다운로드하는 데모를 보려면 아래 GIF를 확인하십시오. CSV 파일에서 모든 엔터티/데이터 필드 이름은 열로 저장되며 해당 값은 해당 행에 있습니다.
다운로드한 CSV에서 데이터를 복사하여 붙여넣고 OCR 생성 텍스트를 얻습니다. 다음은 Nanonets의 샘플 청구서에서 다운로드한 텍스트입니다.
OCR로 생성된 텍스트는 다음 단계에서 Chat GPT3를 사용하여 향상할 수 있습니다.
Nanonets 처리 텍스트 위에 GPT4 모델을 사용하는 경우 다른 쿼리를 지원하도록 엔터티 추출을 확장할 수 있습니다. 다음에서 Open AI 계정에 가입할 수 있습니다. 여기에서 지금 확인해 보세요. 대규모 언어 모델에 액세스할 수 있습니다. 계정을 설정하면 고유한 API 키를 받게 됩니다. OpenAI의 서버에 대한 요청을 인증하고 권한을 부여하는 것은 보안 조치를 위한 것입니다. OpenAI 패키지를 가져오고 API 키 값을 설정합니다.
명확하고 구조화된 방식으로 프롬프트를 설계하는 것이 대규모 언어 모델의 힘을 여는 비결입니다. 데이터 필드 또는 엔터티 및 해당 값을 추출하기 위해 아래 프롬프트를 사용할 수 있습니다.
#프롬프트 정의
prompt_text= 이것은 서점 주문에 대한 송장의 OCR 생성 텍스트입니다.” +ocr_generated_text” + “제공된 OCR 텍스트에서 키-값 쌍으로 엔터티 및 해당 값을 추출하고 key: value 형식으로 출력합니다.”
프롬프트가 있으면 이를 사전 훈련된 OpenAI 모델에 전달하고 " openai.Completion.create()” 함수. 최상의 출력을 얻기 위해 선택할 수 있는 몇 가지 매개변수가 있습니다.
GPT 매개변수:
- 엔진: 이 매개변수를 사용하면 텍스트 생성에 사용할 사전 학습된 특정 LLM(대형 언어 모델)을 선택할 수 있습니다. 사전 학습된 모델 또는 사용자 지정 미세 조정 모델로 설정할 수 있습니다. Text Davinci는 강력하고 효율적인 선택입니다.
- 프롬프트 : 텍스트 생성을 시작하기 위해 모델에 제공하는 초기 텍스트 프롬프트입니다. 이 경우에는 이전에 정의한 "prompt_text" 변수입니다.
- 최대 토큰: 주어진 프롬프트에 대해 모델이 생성할 수 있는 최대 토큰 수를 나타냅니다. 이를 통해 생성되는 텍스트의 길이를 조절할 수 있습니다.
- 온도 : 생성된 텍스트에서 임의성 또는 창의성의 정도를 제어하는 데 사용합니다. 낮은 온도 값은 보다 보수적이고 예측 가능한 출력을 생성하는 반면 높은 온도 값은 보다 창의적이고 다양한 출력을 생성합니다. 온도 값의 범위는 0에서 1까지이며 1이 가장 창의적입니다.
이제 GPT 매개변수에 익숙해졌으므로 다른 매개변수와 함께 프롬프트 텍스트를 전달하여 출력을 생성하는 코드를 작성해 보겠습니다.
결과는 다음과 같습니다.
엔터티와 해당 값은 단 몇 단계만으로 빠르게 추출되었습니다!
4단계: 데이터 수정 개선
모든 비즈니스에서 유통되는 수천 개의 송장 중에서 고객 데이터의 불일치 및 사소한 오류는 피할 수 없습니다. 예를 들어 일부 고객이 잘못된 이메일 형식이나 연락처 번호를 제공했거나 날짜가 다른 형식일 수 있습니다. Nanonets 및 GPT-4를 사용하면 이러한 문제를 쉽게 식별하고 데이터 수정을 수행할 수 있습니다. 정확성과 형식을 확인하고 불일치를 확인하기 위해 규칙 기반 유효성 검사를 구현할 수 있습니다.
GPT에 날짜 및 이메일 확인을 수행하라는 메시지를 표시합니다.
prompt_text= “위에서 추출한 엔터티 데이터에서 날짜(DD/MM/YYYY) 및 이메일 형식이 올바른지 확인하시겠습니까?”
LLM은 아래 이미지와 같이 정규식을 사용하여 형식을 확인하는 Python 코드를 제공합니다. 정규식에서는 특정 패턴을 검색하고 일치시킵니다. 추출된 엔터티는 사전에 저장되며 인보이스의 이메일과 날짜를 확인하는 기능이 별도로 정의됩니다.
정의 후 결과를 얻기 위해 이러한 함수에 판매자 또는 구매자 이메일 ID와 같은 날짜('인보이스 날짜')를 전달할 수 있습니다.
GPT는 빠르고 편리한 방법으로 데이터를 수정하고 변경할 수 있도록 도와줍니다. 인보이스의 날짜는 '02/05/2023'입니다. 날짜를 "MM/DD/YY" 형식으로 변환하라는 메시지가 아래에 표시됩니다.
prompt=” 추출된 엔터티의 데이터 형식을 'MM/DD/YY'로 변경합니다. 연도의 마지막 두 자리만 유지하십시오.”
출력에서 데이터가 원하는 대로 수정되었습니다. 연락처 번호가 10자리인지, 주소가 원하는 형식인지, 누락된 데이터 값이 있는지 확인하는 유사한 프롬프트를 제공할 수 있습니다.
비접촉 AP 워크플로 설정 및 미지급금 프로세스 간소화 몇 초 안에. 지금 30분 라이브 데모를 예약하세요.
5단계: 데이터 문제 확인
데이터의 불일치는 GPT-4로 쉽게 식별할 수 있습니다. 이 예에서는 총 결제 금액이 개별 항목 가격의 합계와 일치하지 않는지 확인할 수 있습니다. 그것에 대한 프롬프트를 제공합시다.
prompt=" 송장의 총 잔액이 송장의 수량 및 품목 가격과 일치하는지 확인하십시오."
GPT-4는 수량과 개별 항목 가격을 곱하여 모든 주문의 가격 합계를 계산하는 함수를 Python으로 출력합니다. 총 잔액이 인보이스에 기재된 금액과 일치하지 않는 경우 특정 인보이스에 플래그가 지정되고 조사됩니다. 이를 통해 기업은 오류, 불일치를 방지하고 재무 데이터를 검증할 수 있습니다.
인보이스 데이터 세트가 큰 경우 여러 인보이스에서 일관성을 확인할 수도 있습니다. 예를 들어 여러 송장에서 판매자 및 구매자 정보를 비교하여 불일치 또는 이상을 식별할 수 있습니다.
6단계: GPT로 쿼리
엔터티를 추출하면 GPT를 사용하여 전체 정보에서 특정 쿼리에 대한 답변도 얻을 수 있습니다. 예를 들어 특정 송장 번호의 배송 세부 정보에 대한 정보를 알고 싶다면 어떻게 해야 할까요?
이에 대한 프롬프트를 만들어 보겠습니다.
#프롬프트 정의
prompt_text= "엔티티 키-값 쌍에서 배송에 대한 세부 정보 추출"
이 프롬프트에 대해 생성된 완료는 다음과 같습니다.
>> 물론입니다! 제공된 OCR 데이터를 기반으로 배송 정보와 청구 정보를 다음과 같이 두 그룹으로 추출할 수 있습니다.
배송 정보:
"invoice_number": "3522"
ship_to_name: 가야트리 나타라잔
배송 주소: 600053 No.22B , Chetpet , Chennai , Tamil Nadu , India: Tanaya Pakahale
판매자 세부 정보를 얻기 위해 유사한 쿼리를 수행할 수도 있습니다. 제공된 데이터에서 추출된 판매자 정보는 다음과 같습니다.
- 판매자_이름: AGATHA BOOK HOUSE
- 판매자 주소: No.13 , 2nd avenue , Indiranagar, Bangalore , Karnataka , India , 721302
- 판매자_전화: 6783456723
여러 문서로 작업할 때 총 잔액이 Rs.5000 이상인 송장을 검색하고 필터링하여 대량 주문을 분석할 수도 있습니다. GPT는 과거 프롬프트를 메모리에 유지하는 기능이 있으므로 사용이 가장 간편합니다.
수동 AP 프로세스를 자동화하고 싶으십니까? 30분 라이브 데모를 예약하여 팀이 엔드 투 엔드를 구현하는 데 Nanonet이 어떻게 도움이 되는지 알아보십시오. AP 자동화.
송장 처리를 위해 Nanonets + Chat GPT를 선택하는 이유는 무엇입니까?
- GPT는 인보이스의 텍스트를 분석하고 다른 형식으로 작성되었거나 철자 또는 문구가 변형된 경우에도 관련 항목을 정확하게 식별하고 추출할 수 있습니다. 이를 통해 오류를 줄이고 정확성을 높일 수 있습니다.
- Automate 비즈니스를 위한 데이터 파이프라인 확장
- 대량의 인보이스를 처리하는 가장 효율적인 방법입니다. 데이터 입력 및 처리에 필요한 시간을 크게 줄입니다.
- 이 도구는 유연성과 적응성을 제공합니다. 이러한 도구는 쉽게 통합 기존 시스템에 통합하고 특정 비즈니스 요구 사항에 맞게 사용자 정의할 수 있습니다.
- 나노넷의 인보이스 OCR 솔루션의 장점 중 하나는 실수로부터 배우십시오. 이 시스템은 머신 러닝을 사용하여 시간이 지남에 따라 정확성을 개선하여 새로운 인보이스가 처리될 때마다 더욱 정확해집니다. 또한 이 플랫폼을 통해 사용자는 오류를 수동으로 검토하고 수정할 수 있으므로 추출된 데이터가 정확하고 신뢰할 수 있습니다.
많은 장점이 있지만 이 방법의 한계도 이해해야 합니다. 이미지/PDF 품질이 낮은 상황에서는 정확도가 떨어집니다. AI 기반 도구는 훈련 데이터에 내재된 편향 또는 오류의 영향을 받기도 합니다.
전반적으로 인보이스 처리에서 엔터티 추출에 GPT를 활용하면 기업이 운영을 간소화하고 수작업을 줄이며 정확성을 개선하여 재무 관리 및 의사 결정을 개선할 수 있습니다.
비접촉 AP 워크플로 설정 및 미지급금 프로세스 간소화 몇 초 안에. 지금 30분 라이브 데모를 예약하세요.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- EVM 금융. 탈중앙화 금융을 위한 통합 인터페이스. 여기에서 액세스하십시오.
- 퀀텀미디어그룹. IR/PR 증폭. 여기에서 액세스하십시오.
- PlatoAiStream. Web3 데이터 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://nanonets.com/blog/improving-invoice-processing-accuracy-nanonets-chat-gpt-4/
- :있다
- :이다
- :아니
- :어디
- $UP
- 1
- 10
- 13
- 5000
- 7
- 72
- a
- 능력
- 소개
- ACCESS
- 계정
- 계정
- 미지급금
- 정확한
- 정확히
- 가로질러
- 더하다
- 주소
- 장점
- 출현
- AI
- 알고리즘
- All
- 수
- 따라
- 또한
- 양
- 금액
- an
- 분석하다
- 및
- 답변
- 어떤
- API를
- 앱
- 있군요
- 인조의
- 인공 지능
- 인공 지능(AI)
- AS
- At
- 인증
- 권한을 부여하다
- 자동화
- 자동화
- 가로수 길
- 평균
- 피하기
- 잔액
- 기반으로
- BE
- 된
- 존재
- 이하
- BEST
- 더 나은
- 편견
- 청구
- 블로그
- 책
- 박스
- 사업
- 사업
- 사는 사람..
- by
- CAN
- 케이스
- 이전 단계로 돌아가기
- 변경
- 문자
- 문자 인식
- 문자
- ChatGPT
- 검사
- 첸나이
- 선택
- 왼쪽 메뉴에서
- 선명한
- 클릭
- 암호
- 커피
- 수집
- 열
- COM
- 비교
- 진행완료
- 완성
- 보수적인
- 일관된
- CONTACT
- 제어
- 편리한
- 변하게 하다
- 수정
- 수정
- 수정
- 동
- 수
- 만들
- 창조적 인
- 창의력
- 컵
- 기획
- 관습
- 고객
- 고객 데이터
- 고객
- 사용자 정의
- 사용자 정의
- 데이터
- 데이터 입력
- 날짜
- 날짜
- 일
- 취급
- 의사 결정
- 깊은
- 깊은 학습
- 한정된
- 정의
- 도
- 데모
- 원하는
- 세부설명
- 개발
- 다른
- 디지털화
- 숫자
- 서류
- 하지
- 한
- 다운로드
- 두
- 마다
- 이전
- 완화
- 사용의 용이성
- 용이하게
- 효율성
- 효율적인
- 이메일
- 끝으로 종료
- 강화
- 강화
- 보장
- 전체의
- 엔티티
- 실재
- 항목
- 오류
- 조차
- 모든
- 매일
- 예
- 뛰어나다
- 현존하는
- 경험
- 표현
- 표현
- 추출물
- 익숙한
- 가족
- FAST
- 를
- 들
- Fields
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 파일
- 필터링
- 금융
- 재무 데이터
- Find
- 먼저,
- 맞게
- 신고 된
- 유연성
- 다음
- 럭셔리
- 체재
- 양식
- 무료
- 에
- 기능
- 기능
- 기어
- 생성
- 생성
- 생성
- 생성적인
- 얻을
- 지프
- 주기
- 주어진
- 잡아요
- 여러 떼
- 성장하는
- 있다
- 데
- 도움
- 도움이
- 여기에서 지금 확인해 보세요.
- 방법
- HTTPS
- i
- 악
- ID
- 확인
- 확인
- if
- 영상
- 형상
- 그림
- 구현
- import
- 개선
- 개선하는
- 개선
- in
- 포함
- 증가
- 인도
- 개인
- 정보
- 고유의
- 처음에는
- 인텔리전스
- 으로
- 송장 ocr
- 송장 처리
- 문제
- IT
- 항목
- 그
- 다만
- 유지
- 키
- 알아
- 언어
- 넓은
- 성
- 지도
- 오퍼
- 배우다
- 배우기
- 가장 작은
- 길이
- 수
- 레버리지
- 한계
- 살고있다
- LLM
- 기록
- 롯
- 낮은
- 기계
- 기계 학습
- 만든
- 확인
- 유튜브 영상을 만드는 것은
- 구축
- 조작
- 수작업
- 수동으로
- 거대한
- 경기
- 최고
- XNUMX월..
- 조치들
- 메모리
- 방법
- 수도
- 미성년자
- 회의록
- 누락
- 실수
- 모델
- 모델
- 수정
- 배우기
- 가장
- 여러
- 곱하기
- 이름
- 자연의
- 자연 언어 처리
- 필요
- 필요
- 요구
- 신제품
- 다음 것
- 아니
- 지금
- 번호
- 숫자
- 획득
- 획득
- OCR
- OCR 솔루션
- OCR 도구
- of
- 제공
- on
- 일단
- ONE
- 만
- 열 수
- OpenAI
- 행정부
- 광학 문자 인식
- 선택권
- 옵션
- or
- 주문
- 명령
- 기타
- 우리의
- 출력
- 위에
- 꾸러미
- 쌍
- 매개 변수
- 매개 변수
- 특별한
- 패스
- 통과
- 과거
- 무늬
- 수행
- 수행
- 사람
- 관로
- 플랫폼
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 가난한
- 힘
- 강한
- 정확한
- 예측 가능
- 가격
- 학비 안내
- 방법
- 처리됨
- 프로세스
- 처리
- 생산하다
- 제공
- 제공
- 제공
- Python
- 품질
- 양
- 쿼리
- 빨리
- 무작위성
- 받다
- 인식
- 감소
- 감소
- 의미
- 정규병
- 관련된
- 신뢰할 수있는
- 요청
- 제품 자료
- 응답
- 결과
- 결과
- 유지
- 리뷰
- 연락해주세요
- s
- 말했다
- 규모
- 검색
- 초
- 비밀
- 보안
- 보안 조치
- 참조
- 본
- 판매자
- 별도의
- 서버
- 세트
- 배송
- 가게
- 표시
- 기호
- 상당한
- 크게
- 비슷한
- 간단히
- 이후
- 상황
- 해결책
- 일부
- 구체적인
- 속도
- 서
- 스타트
- 단계
- 단계
- 저장
- 저장
- 유선
- 간소화 된
- 구조화
- 제목
- 이러한
- SUPPORT
- 체계
- 시스템은
- 받아
- 작업
- 팀
- 기법
- 보다
- 그
- XNUMXD덴탈의
- 정보
- 그들의
- 그때
- 그곳에.
- Bowman의
- 그들
- 이
- 수천
- 을 통하여
- 시간
- 시간이 많이 걸리는
- 에
- 토큰
- 너무
- 수단
- 검색을
- 상단
- 금액
- 터치리스
- 전통적으로
- 트레이닝
- 변압기
- 두
- 이해
- 유일한
- 잠금 해제
- 업로드
- us
- 사용
- 익숙한
- 사용자
- 사용자 경험
- 사용하기 쉬운
- 사용자
- 사용
- 사용
- 유효 기간
- 확인
- 가치
- 마케팅은:
- 확인
- 대단히
- 볼륨
- 필요
- 였다
- 방법..
- we
- 주
- 뭐
- 언제
- 어느
- 동안
- 의지
- 과
- 말씨
- 작업
- 워크 플로우
- 일하는
- 겠지
- 쓰다
- 쓴
- 자신의
- 너의
- 제퍼 넷