Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Xử lý hình ảnh và hộp biên cho OCR

Công nghệ không ngừng phát triển và chúng ta cũng vậy. Với sự xuất hiện của trí tuệ nhân tạo và máy học, trọng tâm đã chuyển sang hướng tự động hóa. Điều đó nói lên rằng, các ngành khoa học máy tính khác nhau được giới thiệu để nghiên cứu và khám phá các ứng dụng của những xu hướng mới nổi này.

Một ví dụ như vậy là đang xử lý hình ảnh. Nói một cách đơn giản, nó ám chỉ việc khám phá hình ảnh để rút ra những thông tin có ý nghĩa. Mặc dù có sẵn một số kỹ thuật để đạt được điều này, nhưng kỹ thuật được sử dụng phổ biến nhất là - hộp giới hạn.

Blog này đi sâu vào các khía cạnh khác nhau của các hộp giới hạn. Nó bao gồm chúng là gì, cách chúng hoạt động trong xử lý hình ảnh, các tham số xác định chúng, các quy ước chỉ định chúng, các trường hợp sử dụng phổ biến, các biện pháp phòng ngừa và thực tiễn tốt nhất, v.v.

Hãy lặn xuống.

Xử lý hình ảnh đề cập đến việc thực hiện các thao tác nhất định trên hình ảnh để nâng cao hình ảnh hoặc trích xuất một số thông tin chi tiết có giá trị từ các tính năng hoặc thuộc tính liên quan đến hình ảnh đó. Ngày nay, xử lý hình ảnh là một lĩnh vực nghiên cứu chính trong các nghiên cứu về kỹ thuật và công nghệ máy tính.

Xử lý hình ảnh có thể được thực hiện bằng hai phương pháp - xử lý hình ảnh tương tự và xử lý hình ảnh kỹ thuật số.

Xử lý hình ảnh tương tự bao gồm việc sử dụng bản in ra giấy và ảnh để phân tích và xử lý hình ảnh. Các nhà phân tích hình ảnh sử dụng nhiều phương pháp khác nhau để giải thích các bản sao hình ảnh này và trích xuất các kết quả có ý nghĩa.

Xử lý hình ảnh kỹ thuật số sử dụng hình ảnh kỹ thuật số và diễn giải chúng bằng máy tính. Nó là một danh mục phụ của xử lý tín hiệu kỹ thuật số và sử dụng các thuật toán để xử lý hình ảnh kỹ thuật số. Nó cung cấp các lợi thế so với xử lý hình ảnh tương tự, chẳng hạn như các thuật toán để ngăn chặn nhiễu và biến dạng trong quá trình xử lý.

Xử lý hình ảnh kỹ thuật số có một số ứng dụng trong các lĩnh vực y học, sản xuất, Thương mại điện tử, v.v.


Các hộp giới hạn trong xử lý hình ảnh

Lúc đầu, hộp giới hạn là một hình hộp chữ nhật tưởng tượng bao gồm một đối tượng và một tập hợp các điểm dữ liệu. Trong bối cảnh xử lý hình ảnh kỹ thuật số, hộp giới hạn biểu thị tọa độ của đường viền trên trục X và Y bao quanh hình ảnh. Chúng được sử dụng để xác định mục tiêu và dùng làm tham chiếu để phát hiện đối tượng và tạo hộp va chạm cho đối tượng.

Hộp giới hạn là gì?

Các hộp biên là yếu tố chính và là một trong những công cụ xử lý hình ảnh chính cho các dự án chú thích video. Về bản chất, hộp giới hạn là một hình chữ nhật tưởng tượng phác thảo đối tượng trong một hình ảnh như một phần của yêu cầu dự án học máy. Khung hình chữ nhật tưởng tượng bao quanh đối tượng trong ảnh.

Các hộp giới hạn chỉ định vị trí của đối tượng, lớp của nó và độ tin cậy cho biết mức độ xác suất mà đối tượng thực sự có mặt trong hộp giới hạn.

Thị giác máy tính cung cấp các ứng dụng tuyệt vời - từ ô tô tự lái đến nhận dạng khuôn mặt và hơn thế nữa. Và điều này, đến lượt nó, được thực hiện với xử lý hình ảnh.

Vì vậy, việc xử lý hình ảnh có đơn giản như vẽ các hình chữ nhật hoặc các mô hình xung quanh các đối tượng không? Không. Điều đó đang được nói, các hộp giới hạn làm gì?

Hãy hiểu.

Làm thế nào để các hộp ranh giới hoạt động trong xử lý hình ảnh?

Như đã đề cập, hộp giới hạn là một hình chữ nhật tưởng tượng hoạt động như một điểm tham chiếu để phát hiện đối tượng và phát triển hộp va chạm cho đối tượng.

Vì vậy, nó giúp ích như thế nào đối với các trình chú giải dữ liệu? Chà, các chuyên gia sử dụng ý tưởng về các hộp giới hạn để vẽ các hình chữ nhật tưởng tượng trên các hình ảnh. Họ tạo ra các đường viền của các đối tượng được đề cập trong mỗi hình ảnh và xác định các tọa độ X và Y của nó. Điều này làm cho công việc của các thuật toán học máy trở nên đơn giản hơn, giúp chúng tìm ra các đường dẫn va chạm và như vậy, từ đó tiết kiệm tài nguyên máy tính.

Ví dụ, trong hình ảnh dưới đây, mỗi chiếc xe là một đối tượng quan trọng có vị trí và vị trí cần thiết để đào tạo các mô hình học máy. Trình chú thích dữ liệu sử dụng kỹ thuật hộp giới hạn để vẽ các hình chữ nhật xung quanh mỗi đối tượng - xe cộ, trong trường hợp này.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: bàn phím

Sau đó, họ sử dụng các tọa độ để hiểu vị trí và vị trí của từng đối tượng, điều này rất hữu ích để đào tạo các mô hình học máy. Một hộp giới hạn duy nhất không cung cấp tỷ lệ dự đoán tốt. Để phát hiện đối tượng nâng cao, nhiều hộp giới hạn phải được sử dụng kết hợp với các phương pháp tăng dữ liệu.

Hộp biên là kỹ thuật chú thích hình ảnh mạnh mẽ và hiệu quả cao giúp giảm chi phí đáng kể.

Các thông số xác định một hộp giới hạn

Các tham số dựa trên các quy ước được sử dụng để chỉ định hộp giới hạn. Các thông số chính được sử dụng bao gồm:

  • Lớp: Nó biểu thị đối tượng bên trong hộp giới hạn - ví dụ: ô tô, nhà cửa, tòa nhà, v.v.
  • (X1, Y1): Điều này đề cập đến tọa độ X và Y của góc trên cùng bên trái của hình chữ nhật.
  • (X2, Y2): Điều này đề cập đến tọa độ X và Y của góc dưới cùng bên phải của hình chữ nhật.
  • (Xc, Yc): Điều này đề cập đến tọa độ X và Y của tâm của hộp giới hạn.
  • Chiều rộng: Điều này biểu thị chiều rộng của hộp giới hạn.
  • Chiều cao: Điều này biểu thị chiều cao của hộp giới hạn.
  • Độ tin cậy: Điều này thể hiện khả năng đối tượng có trong hộp. Giả sử, độ tin cậy là 0.9. Điều này có nghĩa là có 90% xác suất rằng vật thể sẽ thực sự hiện diện bên trong hộp.

Các quy ước chỉ định một hộp giới hạn

Khi chỉ định hộp giới hạn, thông thường, cần bao gồm hai quy ước chính. Đó là:

  • Tọa độ X và Y của các điểm trên cùng bên trái và dưới cùng bên phải của hình chữ nhật.
  • Tọa độ X và Y của tâm của hộp giới hạn, cùng với chiều rộng và chiều cao của nó.

Hãy minh họa điều này bằng ví dụ về một chiếc xe hơi.

một. Đối với quy ước đầu tiên, hộp giới hạn được chỉ định theo tọa độ của các điểm trên cùng bên trái và dưới cùng bên phải.

nguồn: Phân tíchVidhya

b. Đối với quy ước thứ hai, hộp giới hạn được mô tả theo tọa độ tâm, chiều rộng và chiều cao.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: Phân tíchVidhya

Tùy từng trường hợp sử dụng mà có thể chuyển đổi giữa các kiểu quy ước khác nhau.

  • Xc = (X1 + X2) / 2
  • Yc = (Y1 + Y2) / 2
  • Chiều rộng = (X2 – X1)
  • Chiều cao = (Y2 – Y1)

Giải thích các hộp giới hạn bằng mã lập trình

Hãy xem một ví dụ khác về vị trí hoặc vị trí của một đối tượng với các đoạn mã.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: d2i

Chúng tôi tải hình ảnh sẽ được sử dụng cho hình minh họa này. Hình ảnh có một con chó ở bên trái và một con mèo ở bên phải. Có hai đối tượng – một con chó và một con mèo trong hình ảnh.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: d2i

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: d2i

Hãy lấy x và y làm tọa độ cho góc trên bên trái và góc dưới bên phải của hộp giới hạn. Giả sử (x1,y1) và (x2,y2). Tương tự, hãy xem xét tọa độ trục (x,y) – cho tâm của hộp giới hạn, cùng với chiều rộng và chiều cao của nó.

Tiếp theo, chúng tôi xác định hai hàm để chuyển đổi các dạng này: box_corner_to_center chuyển đổi biểu diễn hai góc thành biểu diễn chiều cao trung tâm và chiều rộng trung tâm và box_center_to_corner làm điều đó ngược lại.

Các hộp đối số đầu vào cần phải là một tensor hai chiều có hình dạng (n, 4), trong đó n là số hộp giới hạn.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: d2i

Tiếp theo, hãy xác định các hộp giới hạn của con chó và con mèo trên hình ảnh dựa trên dữ liệu tọa độ.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: d2i

Để xác minh tính đúng đắn của hai hàm chuyển đổi hộp giới hạn, chúng ta có thể chuyển đổi hai lần.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: d2i

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: d2i

Tiếp theo, chúng ta có thể vẽ các hộp giới hạn của các đối tượng trên hình ảnh để kiểm tra xem chúng có chính xác hay không. Trước đó, chúng tôi xác định một hàm bbox_t_rect đại diện cho hộp giới hạn ở định dạng có liên quan của gói matplotlib.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: d2i

Bây giờ, sau khi thêm các hộp giới hạn của các đối tượng chó và mèo vào hình ảnh, chúng ta thấy rằng đường viền chính của các đối tượng này nằm trong hai hộp.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: d2i

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: d2i


Bạn muốn tự động hóa các công việc thủ công lặp đi lặp lại? Kiểm tra phần mềm xử lý tài liệu dựa trên quy trình làm việc Nanonets của chúng tôi. Trích xuất dữ liệu từ hóa đơn, chứng minh thư hoặc bất kỳ tài liệu nào trên chế độ lái tự động!


Các trường hợp sử dụng phổ biến của hộp biên

Bản địa hóa đối tượng của xe tự lái

Hộp giới hạn không thể thiếu trong việc đào tạo các phương tiện tự lái hoặc tự lái để xác định các đối tượng trên đường như tòa nhà, tín hiệu giao thông, bất kỳ vật cản nào, v.v. Chúng giúp chú thích bất kỳ chướng ngại vật nào và cho phép robot điều khiển phương tiện an toàn và ngăn ngừa tai nạn, ngay cả trong trường hợp tắc nghẽn.

Hình ảnh người máy

Các kỹ thuật chú thích hình ảnh như hộp giới hạn được sử dụng rộng rãi để đánh dấu điểm nhìn của rô bốt và máy bay không người lái. Các phương tiện tự hành này giúp phân loại các vật thể trên trái đất bằng cách sử dụng các bức ảnh thu được từ phương pháp chú thích này.

Gắn thẻ hình ảnh cho Thương mại điện tử và Bán lẻ

Chú thích hộp có giới hạn giúp cải thiện hình ảnh hóa sản phẩm, đây là một điểm cộng lớn trong Thương mại điện tử và bán lẻ. Những người mẫu được đào tạo về các mặt hàng tương tự có thể chú thích các đối tượng như quần áo thời trang, phụ kiện, đồ nội thất, mỹ phẩm, v.v., chính xác hơn khi được dán nhãn thích hợp. Dưới đây là một số thách thức được giải quyết bằng chú thích hộp giới hạn trong bán lẻ:

  • Kết quả tìm kiếm không chính xác

Nếu tìm kiếm là cách duy nhất mà khách hàng có thể tình cờ gặp trang Thương mại điện tử, thì dữ liệu danh mục không chính xác có thể dẫn đến kết quả tìm kiếm không chính xác, do đó không thúc đẩy lưu lượng truy cập của khách hàng đến trang web.

  • Chuỗi cung ứng không có tổ chức

Đối với những người muốn mở rộng kinh doanh bán lẻ của mình để hàng triệu sản phẩm có thể được vận chuyển hàng năm, thì việc đồng bộ dữ liệu ngoại tuyến và trực tuyến trở nên cấp thiết.

  • Số hóa liên tục

Điều quan trọng là phải số hóa và gắn thẻ tất cả các sản phẩm một cách có hệ thống và kịp thời để đảm bảo khách hàng không bỏ lỡ bất kỳ cơ hội mới nào. Ngoài ra, các thẻ phải phù hợp với ngữ cảnh, việc tuân thủ sẽ trở nên khó khăn khi hoạt động kinh doanh bán lẻ mở rộng và nhiều sản phẩm được thêm vào.

Phát hiện tổn thất ô tô để yêu cầu bảo hiểm

Kỹ thuật của hộp giới hạn giúp theo dõi ô tô, xe đạp hoặc các phương tiện khác bị hư hỏng trong một vụ tai nạn. Mô hình học máy sử dụng những hình ảnh này từ các hộp giới hạn để hiểu vị trí và cường độ của tổn thất. Điều này giúp dự đoán chi phí tổn thất phát sinh, dựa vào đó khách hàng có thể trình bày ước tính của mình trước khi khởi kiện.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: siêu chú thích

Phát hiện các vật dụng trong nhà

Các hộp giới hạn giúp máy tính phát hiện các vật dụng trong nhà như giường, ghế sofa, bàn làm việc, tủ hoặc thiết bị điện. Điều này cho phép máy tính có được cảm giác về không gian và các loại đối tượng hiện có, với kích thước và vị trí của chúng. Điều này sẽ giúp các mô hình học máy xác định các mục này trong tình huống thực tế.

Hộp giới hạn được sử dụng rộng rãi trong ảnh như một công cụ học sâu để hiểu và diễn giải các loại đối tượng khác nhau.

Nhận dạng bệnh tật và sự phát triển của cây trồng trong nông nghiệp

Việc phát hiện sớm bệnh hại cây trồng giúp nông dân phòng tránh được những vụ thua lỗ nặng. Với sự xuất hiện của canh tác thông minh, thách thức nằm ở việc đào tạo dữ liệu để dạy các mô hình học máy để phát hiện bệnh cây trồng. Các hộp biên là động lực chính cung cấp tầm nhìn cần thiết cho máy móc.

Công nghiệp sản xuất

Phát hiện đối tượng và xác định các mặt hàng trong các ngành công nghiệp là một khía cạnh thiết yếu của sản xuất. Với robot và máy tính hỗ trợ AI, vai trò của sự can thiệp thủ công sẽ giảm xuống. Điều đó nói rằng, các hộp giới hạn đóng một vai trò quan trọng bằng cách giúp đào tạo các mô hình học máy để xác định vị trí và phát hiện các thành phần công nghiệp. Ngoài ra, các quy trình như kiểm soát chất lượng, phân loại và vận hành dây chuyền lắp ráp, tất cả đều là một phần của quản lý chất lượng, cần phát hiện đối tượng.

Xạ hình Y tế

Các hộp có giới hạn cũng tìm thấy các ứng dụng trong ngành chăm sóc sức khỏe, chẳng hạn như trong hình ảnh y tế. Kỹ thuật hình ảnh y học liên quan đến việc phát hiện các vật thể giải phẫu như tim và yêu cầu phân tích nhanh chóng và chính xác. Các hộp giới hạn có thể được sử dụng để đào tạo các mô hình học máy, sau đó sẽ có thể phát hiện tim hoặc các cơ quan khác một cách nhanh chóng và chính xác.

Camera quan sát tự động

Camera quan sát tự động là một nhiệm vụ trong hầu hết các khu dân cư, thương mại và các cơ sở khác. Thông thường, bộ nhớ lưu trữ cao là cần thiết để giữ các cảnh quay CCTV được lâu. Với các kỹ thuật phát hiện đối tượng như hộp giới hạn, có thể đảm bảo rằng cảnh quay chỉ được ghi khi xác định được một số đối tượng nhất định. Các hộp giới hạn có thể đào tạo các mô hình học máy, mô hình này sẽ chỉ phát hiện những đối tượng đó và ngay lập tức, cảnh quay có thể được ghi lại. Điều này cũng sẽ giúp giảm thiểu phạm vi lưu trữ cần thiết cho camera quan sát và giảm chi phí.

Nhận dạng và phát hiện khuôn mặt

Nhận dạng khuôn mặt cung cấp nhiều ứng dụng, chẳng hạn như nó được sử dụng trong giám sát sinh trắc học. Bên cạnh đó, nhiều cơ quan khác nhau như ngân hàng, sân bay, cửa hàng bán lẻ, sân vận động và các tổ chức khác sử dụng nhận dạng khuôn mặt để ngăn chặn tội phạm và bạo lực. Điều đó nói rằng, nhận diện khuôn mặt là một yếu tố quan trọng của thị giác máy tính liên quan đến việc xử lý hình ảnh. Và đây một lần nữa, các hộp giới hạn có thể được sử dụng như một công cụ hiệu quả để nhận dạng ký tự.


Bạn muốn sử dụng tự động hóa quy trình bằng robot? Kiểm tra phần mềm xử lý tài liệu dựa trên quy trình làm việc Nanonets. Không có mã. Không có nền tảng phức tạp.


Hộp giới hạn để nhận dạng ký tự

Phát hiện đối tượng bao gồm – phân loại hình ảnh và định vị đối tượng. Điều này có nghĩa là để máy tính phát hiện được một đối tượng, nó cần biết đối tượng đó là gì và nó nằm ở đâu. Phân loại hình ảnh gán nhãn lớp cho hình ảnh. Bản địa hóa đối tượng có liên quan đến việc vẽ hộp giới hạn xung quanh đối tượng được đề cập trong ảnh.

Quá trình này liên quan đến việc một người chú thích vẽ các hộp giới hạn xung quanh các đối tượng và dán nhãn cho chúng. Điều này giúp đào tạo thuật toán và cho phép nó hiểu đối tượng trông như thế nào. Là bước đầu tiên để phát hiện đối tượng, tập dữ liệu hình ảnh phải có nhãn.

Để gắn nhãn hình ảnh, hãy làm theo các bước sau:

  • Chọn tập dữ liệu mà bạn muốn đào tạo và kiểm tra. Tạo một thư mục của nó.
  • Hãy lấy ví dụ về một dự án nhận diện khuôn mặt như: BTS, Avenger, v.v.
  • Tạo dữ liệu tên thư mục.
  • Trong Google Drive, tạo một thư mục với tên FaceDetection.
  • Trong thư mục FaceDetection, hãy tạo một thư mục hình ảnh.
  • Trong thư mục hình ảnh, hãy tạo các thư mục của hình ảnh thử nghiệm, thử nghiệm XML, hình ảnh huấn luyện và huấn luyện XML.
Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn:say mê

Bây giờ, trong thư mục hình ảnh đoàn tàu, hãy tải xuống và tải lên 10-15 hình ảnh của BTS và Avengers ở định dạng JPEG. Tương tự, trong thư mục ảnh thử nghiệm, làm tương tự cho 5-6 ảnh. Bạn nên có nhiều hình ảnh hơn trong tập dữ liệu để có kết quả chính xác.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: say mê

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: say mê

Tiếp theo, tạo một tệp XML cho mỗi hình ảnh của hình ảnh thử nghiệm và huấn luyện các thư mục hình ảnh

Tải xuống và nhấp vào windows v_1.8.0. Nhấp vào tệp .exe từ GitHub và nhấn Run.

Tiếp theo, nhấp vào thư mục đang mở để chọn thư mục của hình ảnh. Bạn sẽ thấy hình ảnh phải được gắn nhãn. Để gắn nhãn, hãy nhấn W trên bàn phím và nhấp chuột phải và kéo con trỏ để vẽ hộp xung quanh đối tượng. Đặt tên cho nó và bấm OK.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: say mê

Tiếp theo, lưu hình ảnh để tạo tệp XML của hình ảnh trong thư mục hình ảnh, như được hiển thị bên dưới.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: say mê

Mở tệp XML để xem tọa độ.

Hộp xử lý và đóng khung hình ảnh cho OCR PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

nguồn: say mê

Lặp lại quy trình cho tất cả các hình ảnh để tạo tệp XML và tìm kiếm tọa độ.


Nếu bạn làm việc với hóa đơn và biên lai hoặc lo lắng về xác minh ID, hãy xem Nanonets OCR trực tuyến or Công cụ giải nén văn bản PDF để trích xuất văn bản từ tài liệu PDF miễn phí. Nhấp vào bên dưới để tìm hiểu thêm về Giải pháp tự động hóa doanh nghiệp Nanonets.


Các định dạng chú thích khác nhau được sử dụng trong hộp biên

Về cơ bản, một hộp giới hạn có 4 điểm theo trục (x, y) đại diện cho các góc:

Trên cùng bên trái: (x_min, y_min)

Trên cùng bên phải: (x_max, y_min)

Dưới cùng bên trái: (x_min, y_max)

Dưới cùng bên phải: (x_max, y_max)

Tọa độ của hộp giới hạn được tính toán đối với góc trên cùng bên trái của hình ảnh.

Có một số định dạng chú thích hộp giới hạn, mỗi định dạng sử dụng cách biểu diễn tọa độ hộp giới hạn riêng của nó.

một. Cáo buộc

Họ sử dụng bốn giá trị để biểu thị hộp giới hạn – [x_min, y_min, x_max, y_max] – được chuẩn hóa bằng cách chia tọa độ theo pixel cho trục x cho chiều rộng và trục y cho chiều cao của hình ảnh.

Cho biết tọa độ của hộp giới hạn là: x1 = 678, y1 = 24; x2 = 543, y2 = 213.

Cho chiều rộng = 870, chiều cao = 789

Sau đó, [678/870, 24/789, 543/870, 213/789] = [0.779310, 0.030418, 0.624137, 0.269961]

Albumentations sử dụng và diễn giải các giá trị này bên trong với các hộp giới hạn và nâng cao chúng.

b. COCO

Đây là định dạng được sử dụng bởi các Đối tượng chung trong tập dữ liệu COCO theo ngữ cảnh. Ở định dạng COCO, một hộp giới hạn được biểu diễn bằng bốn giá trị: (x_min, y_min, width, height). Về cơ bản, chúng đề cập đến góc trên cùng bên trái và chiều rộng và chiều cao của hộp giới hạn.

c. YOLO

Ở định dạng này, một hộp giới hạn được trình bày với bốn giá trị: (x_center, y_center, width, height). Ở đây, x_center và y_center biểu thị các tọa độ x và y chuẩn hóa của tâm của hộp giới hạn. Để chuẩn hóa, tọa độ x của tâm bằng chiều rộng của hình ảnh và tọa độ y của tâm bằng chiều cao của hình ảnh. Các giá trị của chiều rộng và chiều cao cũng được chuẩn hóa.

d. PASCAL

Trong định dạng Pascal, hộp giới hạn được biểu diễn bằng các tọa độ trên cùng bên trái và dưới cùng bên phải. Vì vậy, các giá trị được mã hóa theo pixel là: [x_min, y_min, x_max, y_max]. Ở đây, [x_min, y_min] là góc trên cùng bên trái, trong khi [x_max, y_max] biểu thị góc dưới cùng bên phải của hộp giới hạn.


Bạn muốn tự động hóa các công việc thủ công lặp đi lặp lại? Tiết kiệm thời gian, công sức và tiền bạc đồng thời nâng cao hiệu quả!


Các biện pháp phòng ngừa và các phương pháp hay nhất trong việc sử dụng hộp có giới hạn

Một số biện pháp phòng ngừa và thực tiễn tốt nhất được khuyến nghị để sử dụng tối ưu các hộp giới hạn trong xử lý hình ảnh. Chúng bao gồm:

Các biến thể về kích thước hộp

Sử dụng tất cả các hộp giới hạn có cùng kích thước sẽ không hiển thị kết quả chính xác. Đào tạo mô hình của bạn trên các hộp giới hạn có cùng kích thước sẽ làm cho mô hình hoạt động kém hơn. Ví dụ: nếu cùng một đối tượng có kích thước nhỏ hơn, mô hình có thể không phát hiện ra nó. Trong trường hợp các đối tượng xuất hiện lớn hơn mong đợi, nó có thể chiếm nhiều pixel hơn và không cung cấp vị trí và vị trí chính xác của đối tượng. Điểm mấu chốt là phải ghi nhớ sự thay đổi về kích thước và khối lượng của đối tượng để đạt được kết quả mong muốn.

Pixel-Perfect chặt chẽ

Độ chặt chẽ là một yếu tố quan trọng. Điều này có nghĩa là các cạnh của hộp giới hạn phải càng gần đối tượng được đề cập càng tốt để có kết quả chính xác. Khoảng cách nhất quán có thể ảnh hưởng đến độ chính xác trong việc xác định khu vực chồng chéo giữa dự đoán của mô hình và đối tượng thực, do đó tạo ra các vấn đề.

Các mặt hàng có đường chéo được đặt trong hộp có ranh giới

Vấn đề phải đối mặt với các mục được đặt theo đường chéo trong một hộp giới hạn là chúng chiếm ít không gian bên trong hộp hơn đáng kể so với nền. Tuy nhiên, nếu tiếp xúc lâu hơn, mô hình có thể cho rằng mục tiêu là nền vì tiêu tốn nhiều dung lượng hơn. Vì vậy, như một phương pháp hay nhất, bạn nên sử dụng đa giác và phân đoạn cá thể cho các đối tượng theo đường chéo. Tuy nhiên, có thể dạy các mô hình với một hộp giới hạn với một lượng dữ liệu huấn luyện tốt.

Giảm chồng chéo hộp

Luôn an toàn để tránh chồng chéo chú thích trong tất cả các trường hợp. Đôi khi, điều này có thể gây ra nhiều lộn xộn đến mức cuối cùng chỉ có thể nhìn thấy một số hộp chồng chéo. Các đối tượng có sự trùng lặp về nhãn với các đối tượng khác sẽ tạo ra kết quả tương đối tồi tệ hơn. Mô hình sẽ không phân biệt được đối tượng đích và các mục khác do chồng chéo quá nhiều. Trong những trường hợp như vậy, đa giác có thể được sử dụng để có độ chính xác cao hơn.

Kết luận

Xử lý hình ảnh là một lĩnh vực công nghệ mới nổi cung cấp phạm vi rộng. Điều đó nói rằng, các hộp giới hạn tạo thành kỹ thuật xử lý hình ảnh được áp dụng phổ biến nhất.

Tóm lại, các hộp giới hạn là một phương pháp chú thích hình ảnh để đào tạo các mô hình học máy dựa trên AI. Nó được sử dụng để phát hiện đối tượng và nhận dạng mục tiêu trong một loạt các ứng dụng, bao gồm robot, máy bay không người lái, xe tự hành, camera giám sát và các thiết bị thị giác máy khác.

Tài nguyên được đề xuất:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


Ống nano API OCR & OCR trực tuyến có nhiều điều thú vị trường hợp sử dụng that có thể tối ưu hóa hiệu suất kinh doanh của bạn, tiết kiệm chi phí và thúc đẩy tăng trưởng. Tìm ra cách các trường hợp sử dụng của Nanonets có thể áp dụng cho sản phẩm của bạn.


Dấu thời gian:

Thêm từ AI & Máy học