OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

OCR을 위한 이미지 처리 및 경계 상자

기술은 계속 발전하고 우리도 발전하고 있습니다. 인공 지능과 머신 러닝의 등장으로 초점은 자동화로 이동했습니다. 즉, 이러한 새로운 추세의 응용 프로그램을 연구하고 탐구하기 위해 다양한 컴퓨터 과학 분야가 도입됩니다.

그러한 예 중 하나는 화상 처리. 간단한 언어로 의미 있는 정보를 그리기 위해 이미지를 탐색하는 것을 말합니다. 이를 달성하기 위해 여러 기술을 사용할 수 있지만 가장 일반적으로 사용되는 기술은 다음과 같습니다. 경계 상자.

이 블로그는 경계 상자의 다양한 측면을 다룹니다. 여기에는 정의가 무엇인지, 이미지 처리에서 작동하는 방식, 이를 정의하는 매개변수, 이를 지정하는 규칙, 일반적인 사용 사례, 예방 조치 및 모범 사례 등이 포함됩니다.

들어가자.

이미지 처리는 이미지를 향상시키거나 이미지와 관련된 기능이나 속성에서 가치 있는 통찰력을 추출하기 위해 이미지에 대해 특정 작업을 수행하는 것을 말합니다. 오늘날 이미지 처리는 엔지니어링 및 컴퓨터 기술 연구의 주요 연구 영역입니다.

이미지 처리는 아날로그 이미지 처리와 디지털 이미지 처리의 두 가지 방법을 사용하여 수행할 수 있습니다.

아날로그 이미지 처리에는 인쇄물과 사진의 하드 카피를 사용하여 이미지를 분석하고 조작하는 작업이 포함됩니다. 이미지 분석가는 다양한 방법을 사용하여 이러한 이미지 사본을 해석하고 의미 있는 결과를 추출합니다.

디지털 이미지 처리는 디지털 이미지를 사용하고 컴퓨터를 사용하여 해석합니다. 디지털 신호 처리의 하위 범주이며 알고리즘을 사용하여 디지털 이미지를 처리합니다. 처리 시 노이즈 및 왜곡을 방지하는 알고리즘과 같은 아날로그 이미지 처리에 비해 이점을 제공합니다.

디지털 이미지 처리는 의학, 제조, 전자 상거래 등의 분야에서 여러 응용 프로그램을 가지고 있습니다.


이미지 처리의 경계 상자

처음에 경계 상자는 개체와 데이터 요소 집합을 포함하는 가상의 직사각형 상자입니다. 디지털 이미지 처리의 맥락에서 경계 상자는 이미지를 둘러싸는 X 및 Y축의 경계 좌표를 나타냅니다. 목표를 식별하고 물체 감지를 위한 참조 역할을 하고 물체에 대한 충돌 상자를 생성하는 데 사용됩니다.

경계 상자란 무엇입니까?

경계 상자는 비디오 주석 프로젝트의 핵심 요소이자 주요 이미지 처리 도구 중 하나입니다. 본질적으로 경계 상자는 기계 학습 프로젝트 요구 사항의 일부로 이미지의 개체를 설명하는 가상의 직사각형입니다. 가상의 직사각형 프레임이 이미지의 개체를 둘러쌉니다.

경계 상자는 개체의 위치, 해당 클래스 및 개체가 실제로 경계 상자에 존재할 확률을 나타내는 신뢰도를 지정합니다.

컴퓨터 비전은 자율 주행 자동차에서 얼굴 인식 등에 이르기까지 놀라운 응용 프로그램을 제공합니다. 그리고 이것은 차례로 이미지 처리로 가능합니다.

그렇다면 이미지 처리는 물체 주위에 직사각형이나 패턴을 그리는 것처럼 간단합니까? 아니요. 즉, 경계 상자는 무엇을 합니까?

이해합시다.

경계 상자는 이미지 처리에서 어떻게 작동합니까?

언급한 바와 같이 경계 상자는 물체 감지를 위한 기준점 역할을 하고 물체에 대한 충돌 상자를 개발하는 가상의 직사각형입니다.

그렇다면 데이터 주석가에게 어떻게 도움이 될까요? 글쎄, 전문가들은 경계 상자의 아이디어를 사용하여 이미지 위에 가상의 직사각형을 그립니다. 각 이미지 내에서 해당 개체의 윤곽을 만들고 X 및 Y 좌표를 정의합니다. 이것은 기계 학습 알고리즘의 작업을 더 간단하게 만들어 충돌 경로 등을 찾는 데 도움을 주어 컴퓨팅 리소스를 절약합니다.

예를 들어, 아래 이미지에서 각 차량은 기계 학습 모델을 훈련하는 데 위치와 위치가 필수적인 핵심 객체입니다. 데이터 주석자는 경계 상자 기술을 사용하여 이러한 각 개체(이 경우 차량) 주위에 직사각형을 그립니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: 키메이커

그런 다음 좌표를 사용하여 각 객체의 위치와 위치를 이해하므로 기계 학습 모델을 학습하는 데 유용합니다. 단일 경계 상자는 좋은 예측률을 제공하지 않습니다. 향상된 객체 감지를 위해 데이터 증대 방법과 함께 여러 경계 상자를 사용해야 합니다.

경계 상자는 비용을 상당히 줄이는 매우 효율적이고 강력한 이미지 주석 기술입니다.

경계 상자를 정의하는 매개변수

매개변수는 경계 상자를 지정하는 데 사용되는 규칙을 기반으로 합니다. 사용된 주요 매개변수는 다음과 같습니다.

  • 클래스: 경계 상자 내부의 개체를 나타냅니다(예: 자동차, 집, 건물 등).
  • (X1, Y1): 직사각형의 왼쪽 상단 모서리의 X 및 Y 좌표를 나타냅니다.
  • (X2, Y2): 직사각형의 오른쪽 하단 모서리의 X 및 Y 좌표를 나타냅니다.
  • (Xc, Yc): 경계 상자 중심의 X 및 Y 좌표를 나타냅니다.
  • 너비: 경계 상자의 너비를 나타냅니다.
  • 높이: 경계 상자의 높이를 나타냅니다.
  • Confidence: 이것은 물건이 상자 안에 있을 가능성을 나타냅니다. 신뢰가 0.9라고 가정합니다. 이것은 물체가 실제로 상자 안에 존재할 확률이 90%임을 의미합니다.

경계 상자를 지정하는 규칙

경계 상자를 지정할 때 일반적으로 두 가지 주요 규칙을 포함해야 합니다. 이것들은:

  • 사각형의 왼쪽 위 및 오른쪽 아래 점의 X 및 Y 좌표입니다.
  • 너비 및 높이와 함께 경계 상자 중심의 X 및 Y 좌표입니다.

자동차를 예로 들어 설명하겠습니다.

ㅏ. 첫 번째 규칙과 관련하여 경계 상자는 왼쪽 위 및 오른쪽 아래 점의 좌표에 따라 지정됩니다.

출처: 애널리틱스Vidhya

비. 두 번째 규칙과 관련하여 경계 상자는 중심 좌표, 너비 및 높이에 따라 설명됩니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: 애널리틱스Vidhya

사용 사례에 따라 다른 규칙 유형 간에 변환할 수 있습니다.

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • 너비 = (X2 – X1)
  • 높이 = (Y2 – Y1)

프로그래밍 코드로 설명하는 경계 상자

코드 조각이 있는 개체의 위치 또는 위치에 대한 다른 예를 살펴보겠습니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: d2i

이 그림에 사용할 이미지를 로드합니다. 그림의 왼쪽에는 강아지가 오른쪽에는 고양이가 있습니다. 이미지에는 개와 고양이의 두 개체가 있습니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: d2i

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: d2i

경계 상자의 왼쪽 위 모서리와 오른쪽 아래 모서리에 대한 좌표로 x와 y를 사용하겠습니다. (x1,y1) 및 (x2,y2)라고 말하십시오. 마찬가지로 (x,y) – 너비 및 높이와 함께 경계 상자의 중심에 대한 축 좌표를 고려해 보겠습니다.

다음으로 이러한 형식을 변환하는 두 가지 함수를 정의합니다. box_corner_to_center는 두 모서리 표현을 중심 높이 너비 표현으로 변환하고 box_center_to_corner는 그 반대로 변환합니다.

입력 인수 상자는 모양 (n,4)의 XNUMX차원 텐서여야 합니다. 여기서 n은 경계 상자의 수입니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: d2i

다음으로 좌표 데이터를 기반으로 이미지에 강아지와 고양이의 경계 상자를 정의해 보겠습니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: d2i

두 개의 경계 상자 변환 함수의 정확성을 확인하기 위해 두 번 변환할 수 있습니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: d2i

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: d2i

다음으로, 이미지에 개체의 경계 상자를 그려 정확한지 확인할 수 있습니다. 그 전에 matplotlib 패키지의 해당 형식으로 경계 상자를 나타내는 함수 bbox_t_rect를 정의합니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: d2i

이제 강아지와 고양이 개체의 경계 상자를 이미지에 추가한 후 이러한 개체의 기본 윤곽이 두 상자 안에 있음을 알 수 있습니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: d2i

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: d2i


반복적인 수동 작업을 자동화하고 싶으십니까? Nanonets 워크플로 기반 문서 처리 소프트웨어를 확인하십시오. 송장, 신분증 또는 자동 조종 장치의 모든 문서에서 데이터를 추출하십시오!


경계 상자의 일반적인 사용 사례

자율주행차의 객체 현지화

경계 상자는 건물, 교통 신호, 장애물 등과 같은 도로의 물체를 식별하기 위해 자율 주행 또는 자율 차량을 훈련하는 데 필수적입니다. 장애물에 주석을 달고 로봇이 차량을 안전하게 운전하고 혼잡한 경우에도 사고를 예방할 수 있도록 도와줍니다.

로봇 공학 이미지

경계 상자와 같은 이미지 주석 기술은 로봇 및 드론의 시점을 표시하는 데 널리 사용됩니다. 이 자동 차량은 이 주석 방법에서 얻은 사진을 사용하여 지구상의 물체를 분류하는 데 도움이 됩니다.

전자 상거래 및 소매용 이미지 태깅

경계 상자 주석은 전자 상거래 및 소매업에서 큰 장점인 제품 시각화를 개선하는 데 도움이 됩니다. 유사한 항목에 대해 훈련된 모델은 적절하게 레이블이 지정되면 패션 의류, 액세서리, 가구, 화장품 등과 같은 개체에 더 정확하게 주석을 달 수 있습니다. 다음은 소매업에서 경계 상자 주석으로 해결되는 몇 가지 문제입니다.

  • 잘못된 검색 결과

검색이 고객이 전자 상거래 사이트를 우연히 발견할 수 있는 유일한 방법인 경우 잘못된 카탈로그 데이터로 인해 검색 결과가 정확하지 않아 고객 트래픽이 사이트로 유입되지 않을 수 있습니다.

  • 조직화되지 않은 공급망

연간 수백만 개의 제품을 배송할 수 있도록 소매 비즈니스를 확장하려는 사람들에게는 오프라인 데이터와 온라인 데이터를 동기화하는 것이 필수적입니다.

  • 지속적인 디지털화

고객이 새로운 기회를 놓치지 않도록 모든 제품을 체계적이고 신속하게 디지털화하고 태그를 지정하는 것이 중요합니다. 또한 태그는 컨텍스트에 있어야 하며 소매 비즈니스가 확장되고 더 많은 제품이 추가됨에 따라 이를 준수하기가 어려워집니다.

보험 청구를 위한 자동차 손실 감지

경계 상자 기술은 사고로 손상된 자동차, 자전거 또는 기타 차량을 추적하는 데 도움이 됩니다. 기계 학습 모델은 경계 상자의 이러한 이미지를 사용하여 손실의 위치와 강도를 이해합니다. 이는 고객이 소송을 제기하기 전에 추정치를 제시할 수 있는 근거로 발생한 손실 비용을 예측하는 데 도움이 됩니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: 주석 달기

실내 물품 감지

경계 상자는 컴퓨터가 침대, 소파, 책상, 캐비닛 또는 전기 제품과 같은 실내 항목을 감지하는 데 도움이 됩니다. 이를 통해 컴퓨터는 크기와 위치와 함께 존재하는 물체의 유형과 공간 감각을 얻을 수 있습니다. 이는 기계 학습 모델이 실제 상황에서 이러한 항목을 식별하는 데 도움이 됩니다.

경계 상자는 다양한 종류의 사물을 이해하고 해석하기 위한 딥 러닝 도구로 사진에서 널리 사용됩니다.

농업에서 질병 및 식물 성장 식별

식물 질병의 조기 발견은 농부들이 심각한 손실을 예방하는 데 도움이 됩니다. 스마트 농업의 출현으로 인해 머신 러닝 모델이 식물 질병을 감지하도록 가르치는 데이터 훈련이 과제가 되었습니다. 경계 상자는 기계에 필요한 비전을 제공하는 주요 동인입니다.

제조업

산업에서 물체 감지 및 품목 식별은 제조의 필수 측면입니다. AI 지원 로봇과 컴퓨터를 사용하면 수동 개입의 역할이 줄어듭니다. 즉, 경계 상자는 기계 학습 모델이 산업 구성 요소를 찾고 감지하도록 훈련하는 데 도움이 되는 중요한 역할을 합니다. 또한 품질 관리의 일부인 품질 관리, 분류 및 조립 라인 작업과 같은 프로세스에는 물체 감지가 필요합니다.

의료 이미징

경계 상자는 의료 영상과 같은 의료 산업에서도 응용 프로그램을 찾습니다. 의료 영상 기술은 심장과 같은 해부학적 물체를 감지하는 기술로 빠르고 정확한 분석이 필요합니다. 경계 상자를 사용하여 기계 학습 모델을 훈련하면 심장이나 기타 장기를 빠르고 정확하게 감지할 수 있습니다.

자동화된 CCTV

자동화된 CCTV는 대부분의 주거, 상업 및 기타 시설에서 의무 사항입니다. 캡처한 CCTV 영상을 장기간 보관하려면 대용량 메모리 스토리지가 필요한 경우가 많습니다. 경계 상자와 같은 객체 감지 기술을 사용하면 특정 객체가 식별될 때만 푸티지가 기록되도록 할 수 있습니다. 경계 상자는 기계 학습 모델을 훈련할 수 있으며, 이 모델은 해당 개체만 감지하고 그 순간에 푸티지를 캡처할 수 있습니다. 이것은 또한 CCTV에 필요한 저장 공간을 최소화하고 비용을 줄이는 데 도움이 될 것입니다.

얼굴 인식 및 감지

얼굴 인식은 생체 인식 감시에 사용되는 것과 같이 여러 응용 프로그램을 제공합니다. 또한 은행, 공항, 소매점, 경기장 및 기타 기관과 같은 다양한 기관에서는 범죄와 폭력을 예방하기 위해 얼굴 인식을 사용합니다. 즉, 얼굴 감지는 이미지 처리와 관련된 컴퓨터 비전의 중요한 요소입니다. 그리고 여기에서도 경계 상자는 문자 인식을 위한 효과적인 도구로 사용될 수 있습니다.


로봇 프로세스 자동화를 사용하고 싶으십니까? Nanonets 워크플로 기반 문서 처리 소프트웨어를 확인하십시오. 코드가 없습니다. 번거로운 플랫폼이 없습니다.


문자 인식을 위한 경계 상자

물체 감지는 이미지 분류 및 물체 위치 파악으로 구성됩니다. 이것은 컴퓨터가 물체를 감지하기 위해서는 문제의 물체가 무엇인지, 물체가 어디에 있는지 알아야 한다는 것을 의미합니다. 이미지 분류는 이미지에 클래스 레이블을 할당합니다. 개체 현지화는 이미지에서 해당 개체 주위에 경계 상자를 그리는 것과 관련이 있습니다.

이 프로세스에는 주석자가 객체 주위에 경계 상자를 그리고 레이블을 지정하는 작업이 포함됩니다. 이것은 알고리즘을 훈련하는 데 도움이 되며 객체가 어떻게 생겼는지 이해할 수 있도록 합니다. 객체 감지의 첫 번째 단계로 이미지 데이터 세트에 레이블이 있어야 합니다.

이미지에 레이블을 지정하려면 다음 단계를 따르세요.

  • 학습 및 테스트할 데이터세트를 선택합니다. 폴더를 만드십시오.
  • BTS, Avenger 등과 같은 얼굴 감지 프로젝트의 예를 들어 보겠습니다.
  • 폴더명 데이터를 만듭니다.
  • Google 드라이브에서 FaceDetection이라는 이름의 폴더를 만듭니다.
  • FaceDetection 폴더에서 이미지의 폴더를 만듭니다.
  • 이미지 폴더에 테스트 이미지, 테스트 XML, 학습 이미지, 학습 XML 폴더를 만듭니다.
OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처:산업적인

이제 기차 이미지 폴더에 방탄소년단과 어벤져스의 이미지를 JPEG 형식으로 10~15장 다운로드하여 업로드합니다. 마찬가지로 테스트 이미지 폴더에서 5-6개의 이미지에 대해 동일한 작업을 수행합니다. 정확한 결과를 위해 데이터세트에 더 많은 이미지를 포함하는 것이 좋습니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: 산업적인

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: 산업적인

다음으로 테스트 이미지 및 학습 이미지 폴더의 각 이미지에 대한 XML 파일을 생성합니다.

Windows v_1.8.0을 다운로드하고 클릭합니다. GitHub에서 .exe 파일을 클릭하고 실행을 누릅니다.

그런 다음 열려 있는 디렉터리를 클릭하여 이미지의 폴더를 선택합니다. 레이블이 지정되어야 하는 이미지가 표시됩니다. 레이블을 지정하려면 키보드에서 W 키를 누르고 커서를 마우스 오른쪽 버튼으로 클릭하고 끌어 개체 주위에 상자를 그립니다. 이름을 지정하고 확인을 클릭합니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: 산업적인

다음으로 이미지를 저장하여 아래와 같이 이미지 폴더에 이미지의 XML 파일을 생성합니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: 산업적인

좌표를 보려면 XML 파일을 엽니다.

OCR PlatoBlockchain 데이터 인텔리전스를 위한 이미지 처리 및 경계 상자. 수직 검색. 일체 포함.

출처: 산업적인

모든 이미지에 대해 절차를 반복하여 XML 파일을 생성하고 좌표를 찾습니다.


인보이스, 영수증으로 작업하시거나 본인인증이 걱정된다면 나노넷을 확인해보세요 온라인 OCR or PDF 텍스트 추출기 PDF 문서에서 텍스트를 추출하려면 무료로. 자세히 알아 보려면 아래를 클릭하세요. 나노넷 엔터프라이즈 자동화 솔루션.


경계 상자에 사용되는 다양한 주석 형식

기본적으로 경계 상자에는 모서리를 나타내는 (x,y) 축에 4개의 점이 있습니다.

왼쪽 상단: (x_min, y_min)

오른쪽 상단: (x_max, y_min)

왼쪽 하단:(x_min, y_max)

오른쪽 하단: (x_max, y_max)

경계 상자의 좌표는 이미지의 왼쪽 위 모서리를 기준으로 계산됩니다.

몇 가지 경계 상자 주석 형식이 있으며, 각각은 경계 상자 좌표의 고유한 표현을 사용합니다.

ㅏ. 앨범

네 가지 값을 사용하여 경계 상자([x_min, y_min, x_max, y_max])를 나타냅니다. 이 상자는 x축의 좌표를 픽셀 단위로 너비로 나누고 y축을 이미지 높이로 나누어 정규화합니다.

경계 상자의 좌표는 다음과 같습니다. x1 = 678, y1 = 24; x2 = 543, y2 = 213.

너비 = 870, 높이 = 789

그러면 [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Albummentations는 이러한 값을 경계 상자와 함께 내부적으로 사용 및 해석하고 향상시킵니다.

비. 머리

이것은 컨텍스트 COCO 데이터 세트의 공통 개체에서 사용하는 형식입니다. COCO 형식에서 경계 상자는 (x_min, y_min, 너비, 높이)의 네 가지 값으로 표시됩니다. 기본적으로 왼쪽 상단 모서리와 경계 상자의 너비와 높이를 나타냅니다.

씨. 욜로

이 형식에서 경계 상자는 XNUMX가지 값(x_center, y_center, width, height)으로 표시됩니다. 여기서 x_center 및 y_center는 바운딩 박스 중심의 정규화된 x 및 y 좌표를 나타냅니다. 정규화하려면 중심의 x 좌표를 이미지 너비로, 중심의 y 좌표를 이미지 높이로 지정합니다. 너비와 높이 값도 정규화됩니다.

디. 파스칼

Pascal 형식에서 경계 상자는 왼쪽 위 및 오른쪽 아래 좌표로 표시됩니다. 따라서 픽셀로 인코딩된 값은 [x_min, y_min, x_max, y_max]입니다. 여기서 [x_min, y_min]은 왼쪽 상단 모서리의 값이고 [x_max, y_max]는 경계 상자의 오른쪽 하단 모서리를 나타냅니다.


반복적인 수동 작업을 자동화하고 싶으십니까? 효율성을 높이면서 시간, 노력 및 돈을 절약하십시오!


경계 상자 사용 시 주의 사항 및 모범 사례

이미지 처리에서 경계 상자를 최적으로 사용하려면 몇 가지 예방 조치와 모범 사례가 권장됩니다. 여기에는 다음이 포함됩니다.

상자 크기 변형

동일한 크기의 모든 경계 상자를 사용하면 정확한 결과가 렌더링되지 않습니다. 동일한 크기의 경계 상자에서 모델을 훈련하면 모델의 성능이 저하됩니다. 예를 들어, 동일한 개체의 크기가 더 작게 나타나는 경우 모델이 이를 감지하지 못할 수 있습니다. 개체가 예상보다 크게 나타나는 경우 더 많은 픽셀을 차지하여 개체의 정확한 위치와 위치를 제공하지 못할 수 있습니다. 요점은 원하는 결과를 얻기 위해 물체의 크기와 부피의 변화를 염두에 두는 것입니다.

픽셀 완벽한 견고성

견고함은 중요한 요소입니다. 즉, 정확한 결과를 얻으려면 경계 상자의 가장자리가 해당 개체에 최대한 가까워야 합니다. 일관된 간격은 모델의 예측과 실제 객체 간의 중첩 영역을 결정할 때 정확도에 영향을 미치므로 문제가 발생할 수 있습니다.

경계 상자에 배치된 대각선 항목

경계 상자 안에 대각선으로 배치된 항목이 직면한 문제는 배경에 비해 상자 내부 공간을 상당히 적게 차지한다는 것입니다. 그러나 더 오래 노출되면 더 많은 공간을 사용하므로 모델에서 대상을 배경으로 가정할 수 있습니다. 따라서 모범 사례로 대각선 개체에 대해 다각형 및 인스턴스 분할을 사용하는 것이 좋습니다. 그러나 많은 양의 훈련 데이터가 있는 경계 상자를 사용하여 모델을 가르치는 것은 가능합니다.

상자 겹침 줄이기

모든 시나리오에서 주석 겹침을 피하는 것이 항상 안전합니다. 때로는 이것이 너무 복잡하여 일부 겹치는 상자만 마침내 보일 수 있습니다. 레이블이 다른 엔터티와 겹치는 개체는 상대적으로 더 나쁜 결과를 생성합니다. 모델은 과도한 중첩으로 인해 대상 개체와 다른 항목을 구별하지 못합니다. 이러한 경우 더 높은 정확도를 위해 다각형을 사용할 수 있습니다.

결론

이미지 처리는 광범위한 범위를 제공하는 새로운 기술 영역입니다. 즉, 경계 상자는 가장 일반적으로 적용되는 이미지 처리 기술을 형성합니다.

요약하면 경계 상자는 AI 기반 기계 학습 모델을 훈련하기 위한 이미지 주석 방법입니다. 로봇, 드론, 자율주행 차량, 감시 카메라 및 기타 머신 비전 장치를 포함한 광범위한 응용 분야에서 물체 감지 및 표적 인식에 사용됩니다.

추천 리소스:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


나노 넷 온라인 OCR 및 OCR API 많은 흥미가있다 사용 사례 t모자는 비즈니스 성과를 최적화하고 비용을 절감하며 성장을 촉진 할 수 있습니다. 찾아 Nanonets의 사용 사례를 제품에 적용하는 방법


타임 스탬프 :

더보기 AI 및 머신 러닝