Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Przetwarzanie obrazu i ramki ograniczające dla OCR

Technologia ciągle się rozwija, my też. Wraz z pojawieniem się sztucznej inteligencji i uczenia maszynowego nacisk został przesunięty na automatyzację. Biorąc to pod uwagę, wprowadza się różne dyscypliny informatyki, aby badać i badać zastosowania tych pojawiających się trendów.

Jednym z takich przykładów jest przetwarzanie obrazu. W prostym języku odnosi się do eksploracji obrazów w celu uzyskania znaczących informacji. Chociaż dostępnych jest kilka technik, aby to osiągnąć, najczęściej stosowaną jest: obwiednie.

Ten blog zagłębia się w różne aspekty ramek ograniczających. Obejmuje to, czym one są, jak działają w przetwarzaniu obrazów, parametry, które je definiują, konwencje, które je określają, typowe przypadki użycia, środki ostrożności i najlepsze praktyki i nie tylko.

Nurkujmy.

Przetwarzanie obrazu odnosi się do wykonywania pewnych operacji na obrazie w celu jego ulepszenia lub wydobycia cennych informacji z powiązanych z nim cech lub atrybutów. Obecnie przetwarzanie obrazu jest podstawowym obszarem badań w dziedzinie inżynierii i technologii komputerowych.

Przetwarzanie obrazu może odbywać się dwoma metodami – analogową obróbką obrazu i cyfrową obróbką obrazu.

Analogowe przetwarzanie obrazu polega na wykorzystaniu wydruków i fotografii do analizy i manipulacji obrazami. Analitycy obrazów używają różnych metod do interpretacji tych kopii obrazów i wydobywania znaczących wyników.

Cyfrowe przetwarzanie obrazu wykorzystuje obrazy cyfrowe i interpretuje je za pomocą komputerów. Jest to podkategoria przetwarzania sygnałów cyfrowych i wykorzystuje algorytmy do przetwarzania obrazów cyfrowych. Zapewnia przewagę nad analogowym przetwarzaniem obrazu, taką jak algorytmy zapobiegające szumom i zniekształceniom podczas przetwarzania.

Cyfrowe przetwarzanie obrazu ma kilka zastosowań w obszarach medycyny, produkcji, handlu elektronicznego i innych.


Ramki ograniczające w przetwarzaniu obrazu

Na początku obwiednia jest wyimaginowanym prostokątnym prostokątem, który zawiera obiekt i zestaw punktów danych. W kontekście cyfrowego przetwarzania obrazu prostokąt ograniczający oznacza współrzędne obramowania na osiach X i Y, które otaczają obraz. Służą do identyfikacji celu i służą jako odniesienie do wykrywania obiektów i generowania pola kolizyjnego dla obiektu.

Co to są pudełka ograniczające?

Ramki ograniczające są kluczowymi elementami i jednym z podstawowych narzędzi przetwarzania obrazu w projektach adnotacji wideo. Zasadniczo ramka ograniczająca to wyimaginowany prostokąt, który przedstawia obiekt na obrazie jako część wymagania projektu uczenia maszynowego. Wyimaginowana prostokątna ramka otacza obiekt na obrazie.

Ramki ograniczające określają pozycję obiektu, jego klasę i ufność, która określa stopień prawdopodobieństwa, że ​​obiekt faktycznie znajduje się w ramce ograniczającej.

Widzenie komputerowe oferuje niesamowite zastosowania — od autonomicznych samochodów po rozpoznawanie twarzy i nie tylko. A to z kolei jest możliwe dzięki przetwarzaniu obrazu.

Czy przetwarzanie obrazu jest tak proste, jak rysowanie prostokątów lub wzorów wokół obiektów? Nie. Biorąc to pod uwagę, co robią ramki ograniczające?

Rozumiem.

Jak działają ramki ograniczające w przetwarzaniu obrazu?

Jak wspomniano, obwiednia jest wyimaginowanym prostokątem, który działa jako punkt odniesienia dla wykrywania obiektów i tworzy pole kolizyjne dla obiektu.

Jak więc pomaga adnotatorom danych? Cóż, profesjonaliści wykorzystują ideę obwiedni, aby narysować wyimaginowane prostokąty na obrazach. Tworzą kontury przedmiotowych obiektów na każdym obrazie i definiują jego współrzędne X i Y. Ułatwia to pracę algorytmów uczenia maszynowego, pomagając im znaleźć ścieżki kolizji itp., a tym samym oszczędzając zasoby obliczeniowe.

Na przykład na poniższym obrazku każdy pojazd jest kluczowym obiektem, którego pozycja i lokalizacja są niezbędne do uczenia modeli uczenia maszynowego. Adnotatory danych wykorzystują technikę obwiedni do rysowania prostokątów wokół każdego z tych obiektów – w tym przypadku pojazdów.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: klawiatura

Następnie używają współrzędnych do zrozumienia położenia i lokalizacji każdego obiektu, co jest przydatne do trenowania modeli uczenia maszynowego. Pojedyncza ramka ograniczająca nie zapewnia dobrego współczynnika przewidywania. Aby usprawnić wykrywanie obiektów, należy użyć wielu ramek ograniczających w połączeniu z metodami rozszerzania danych.

Bounding Boxs to wysoce wydajne i solidne techniki adnotacji obrazu, które znacznie obniżają koszty.

Parametry definiujące ramkę graniczną

Parametry są oparte na konwencjach użytych do określenia ramki ograniczającej. Do kluczowych stosowanych parametrów należą:

  • Klasa: Oznacza obiekt wewnątrz ramki ograniczającej — na przykład samochody, domy, budynki itp.
  • (X1, Y1): Odnosi się to do współrzędnych X i Y lewego górnego rogu prostokąta.
  • (X2, Y2): Odnosi się to do współrzędnych X i Y prawego dolnego rogu prostokąta.
  • (Xc, Yc): Odnosi się to do współrzędnych X i Y środka obwiedni.
  • Szerokość: Oznacza szerokość obwiedni.
  • Wysokość: Oznacza wysokość obwiedni.
  • Pewność: reprezentuje możliwość, że obiekt znajduje się w pudełku. Powiedzmy, że pewność wynosi 0.9. Oznacza to, że istnieje 90% prawdopodobieństwa, że ​​przedmiot rzeczywiście będzie obecny w pudełku.

Konwencje określające obwiednię

Podczas określania ramki ograniczającej zwykle należy uwzględnić dwie główne konwencje. To są:

  • Współrzędne X i Y lewego górnego i prawego dolnego punktu prostokąta.
  • Współrzędne X i Y środka obwiedni wraz z jego szerokością i wysokością.

Zilustrujmy to przykładem samochodu.

a. W odniesieniu do pierwszej konwencji ramka ograniczająca jest określona według współrzędnych lewego górnego i prawego dolnego punktu.

Źródło: AnalitykaVidhya

b. W odniesieniu do drugiej konwencji ramka ograniczająca jest opisana według współrzędnych środka, szerokości i wysokości.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: AnalitykaVidhya

W zależności od przypadku użycia możliwa jest konwersja pomiędzy różnymi typami konwencji.

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • Szerokość = (X2 – X1)
  • Wysokość = (Y2 – Y1)

Obwiednie Objaśnienie Kodem Programowania

Zobaczmy inny przykład dotyczący lokalizacji lub pozycji obiektu z fragmentami kodu.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: d2i

Wczytujemy obraz, który ma być użyty na tej ilustracji. Obraz przedstawia psa po lewej stronie i kota po prawej stronie. Na obrazie są dwa obiekty – pies i kot.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: d2i

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: d2i

Przyjmijmy x i y jako współrzędne lewego górnego i prawego dolnego narożnika obwiedni. Powiedz (x1,y1) i (x2,y2). Podobnie rozważmy (x,y) – współrzędne osi dla środka obwiedni, wraz z jego szerokością i wysokością.

Następnie definiujemy dwie funkcje do konwersji tych formularzy: box_corner_to_center konwertuje dwustronną reprezentację na reprezentację środek-wysokość-szerokość, a box_center_to_corner robi to na odwrót.

Pola argumentów wejściowych muszą być dwuwymiarowym tensorem kształtu (n,4), gdzie n jest liczbą pól ograniczających.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: d2i

Następnie zdefiniujmy obwiednie psa i kota na obrazie na podstawie danych o współrzędnych.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: d2i

Aby zweryfikować poprawność funkcji konwersji dwóch obwiedni, możemy dokonać konwersji dwukrotnie.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: d2i

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: d2i

Następnie możemy narysować obwiednie obiektów na obrazie, aby sprawdzić, czy są dokładne. Wcześniej definiujemy funkcję bbox_t_rect, która reprezentuje obwiednię w odpowiednim formacie pakietu matplotlib.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: d2i

Teraz, po dodaniu do obrazu obwiedni obiektów psa i kota, widzimy, że główny zarys tych obiektów znajduje się w tych dwóch obramowaniach.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: d2i

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: d2i


Chcesz zautomatyzować powtarzające się zadania ręczne? Sprawdź nasze oprogramowanie do przetwarzania dokumentów oparte na przepływie pracy Nanonets. Wyciągaj dane z faktur, dowodów osobistych lub dowolnego dokumentu na autopilocie!


Typowe przypadki użycia obwiedni

Lokalizacja obiektów autonomicznych pojazdów

Pudełka ograniczające są integralną częścią szkolenia pojazdów autonomicznych lub autonomicznych w celu identyfikacji obiektów na drodze, takich jak budynki, sygnalizacja drogowa, wszelkie przeszkody i inne. Pomagają opisywać wszelkie przeszkody i umożliwiają robotom bezpieczne prowadzenie pojazdu i zapobieganie wypadkom, nawet w przypadku zatoru.

Robotyka Zdjęcia

Techniki adnotacji obrazu, takie jak ramki ograniczające, są szeroko stosowane do oznaczania punktów widzenia robotów i dronów. Te autonomiczne pojazdy pomagają klasyfikować obiekty na Ziemi za pomocą zdjęć uzyskanych dzięki tej metodzie adnotacji.

Znakowanie obrazów w handlu elektronicznym i handlu detalicznym

Adnotacje w ramkach granicznych pomagają ulepszyć wizualizację produktów, co jest dużym plusem w handlu elektronicznym i handlu detalicznym. Modelki szkolone na podobnych przedmiotach mogą dokładniej opisywać obiekty, takie jak odzież, akcesoria, meble, kosmetyki itp., jeśli są odpowiednio oznakowane. Poniżej znajdują się niektóre wyzwania, które można rozwiązać przez adnotacje do ramek ograniczających w handlu detalicznym:

  • Nieprawidłowe wyniki wyszukiwania

Jeśli wyszukiwanie jest jedynym sposobem, w jaki klienci mogą natknąć się na witrynę eCommerce, nieprawidłowe dane katalogu mogą skutkować niedokładnymi wynikami wyszukiwania, a tym samym nie kierować ruchu klientów do witryny.

  • Niezorganizowane łańcuchy dostaw

Dla tych, którzy chcą rozszerzyć swoją działalność detaliczną, aby miliony produktów mogły być wysyłane rocznie, konieczne jest zsynchronizowanie danych offline i online.

  • Ciągła cyfryzacja

Niezwykle ważne jest, aby wszystkie produkty były digitalizowane i oznaczane systematycznie i szybko, aby klienci nie przegapili żadnych nowych możliwości. Ponadto tagi muszą być w kontekście, którego przestrzeganie staje się trudne w miarę rozwoju działalności detalicznej i dodawania kolejnych produktów.

Wykrywa utratę samochodu pod kątem roszczeń ubezpieczeniowych

Technika pudełek ograniczających pomaga śledzić samochody, rowery lub inne pojazdy uszkodzone w wypadku. Modele uczenia maszynowego wykorzystują te obrazy z ramek ograniczających, aby zrozumieć położenie i intensywność strat. Pozwala to przewidzieć koszty poniesionych strat, na podstawie których klienci mogą przedstawić swoje szacunki przed złożeniem pozwu.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: Superadnotacja

Wykrywanie przedmiotów w pomieszczeniach

Pudełka ograniczające pomagają komputerom wykrywać przedmioty w pomieszczeniach, takie jak łóżka, sofy, biurka, szafki lub urządzenia elektryczne. Pozwala to komputerom uzyskać poczucie przestrzeni i rodzajów obecnych obiektów wraz z ich wymiarami i lokalizacją. To z kolei pomaga modelom uczenia maszynowego w identyfikowaniu tych elementów w rzeczywistej sytuacji.

Pudełka ograniczające są szeroko stosowane na fotografiach jako narzędzie do głębokiego uczenia się, pozwalające zrozumieć i zinterpretować różne rodzaje obiektów.

Identyfikacja chorób i wzrostu roślin w rolnictwie

Wczesne wykrywanie chorób roślin pomaga rolnikom zapobiegać poważnym stratom. Wraz z pojawieniem się inteligentnego rolnictwa wyzwaniem jest uczenie danych, aby nauczyć modeli uczenia maszynowego wykrywania chorób roślin. Pudełka ograniczające są głównym czynnikiem zapewniającym niezbędną wizję maszynom.

Przemysł wytwórczy

Wykrywanie obiektów i identyfikacja przedmiotów w przemyśle jest istotnym aspektem produkcji. Dzięki robotom i komputerom obsługującym sztuczną inteligencję rola ręcznej interwencji jest ograniczona. To powiedziawszy, ramki ograniczające odgrywają kluczową rolę, pomagając w szkoleniu modeli uczenia maszynowego do lokalizowania i wykrywania komponentów przemysłowych. Ponadto procesy takie jak kontrola jakości, sortowanie i operacje na linii montażowej, które są częścią zarządzania jakością, wymagają wykrywania obiektów.

Obrazowanie medyczne

Pudełka ograniczające znajdują również zastosowanie w branży medycznej, np. w obrazowaniu medycznym. Technika obrazowania medycznego zajmuje się wykrywaniem obiektów anatomicznych, takich jak serce i wymaga szybkiej i dokładnej analizy. Pudełka ograniczające mogą służyć do trenowania modeli uczenia maszynowego, które następnie będą w stanie szybko i dokładnie wykryć serce lub inne narządy.

Zautomatyzowane CCTV

Zautomatyzowane systemy CCTV są obowiązkowe w większości obiektów mieszkalnych, komercyjnych i innych. Często do przechowywania przechwyconego materiału CCTV przez długi czas wymagana jest pamięć o dużej pojemności. Dzięki technikom wykrywania obiektów, takim jak ramki ograniczające, można zapewnić, że materiał zostanie nagrany tylko po zidentyfikowaniu określonych obiektów. Bounding box może szkolić modele uczenia maszynowego, które wykrywają tylko te obiekty i w tym momencie mogą przechwycić materiał. Pomogłoby to również zminimalizować wielkość pamięci wymaganej do telewizji przemysłowej i obniżyć koszty.

Rozpoznawanie i wykrywanie twarzy

Rozpoznawanie twarzy ma wiele zastosowań, na przykład w nadzorze biometrycznym. Poza tym różne agencje, takie jak banki, lotniska, sklepy detaliczne, stadiony i inne instytucje, wykorzystują rozpoznawanie twarzy, aby zapobiegać przestępstwom i przemocy. To powiedziawszy, wykrywanie twarzy jest ważnym elementem wizji komputerowej, która obejmuje przetwarzanie obrazu. I tu znowu, ramki ograniczające mogą być użyte jako skuteczne narzędzie do rozpoznawania znaków.


Chcesz skorzystać z robotycznej automatyzacji procesów? Wypróbuj oprogramowanie do przetwarzania dokumentów oparte na przepływach pracy Nanonets. Brak kodu. Bez platformy kłopotów.


Pudełka ograniczające do rozpoznawania znaków

Detekcja obiektów obejmuje – klasyfikację obrazu i lokalizację obiektu. Oznacza to, że komputer, aby wykryć obiekt, musi wiedzieć, czym jest dany obiekt i gdzie się znajduje. Klasyfikacja obrazu przypisuje do obrazu etykietę klasy. Lokalizacja obiektu jest związana z rysowaniem obwiedni wokół danego obiektu na obrazie.

Proces obejmuje rysowanie przez adnotatora ramek ograniczających wokół obiektów i oznaczanie ich etykietami. Pomaga to wytrenować algorytm i pozwala mu zrozumieć, jak wygląda obiekt. Pierwszym krokiem do wykrycia obiektów jest to, że zbiór danych obrazu musi mieć etykiety.

Aby oznaczyć obraz etykietą, wykonaj poniższe czynności:

  • Wybierz zbiór danych, który chcesz trenować i testować. Zrób z tego folder.
  • Weźmy za przykład projekt wykrywania twarzy typu: BTS, Avenger itp.
  • Utwórz dane nazwy folderu.
  • Na Dysku Google utwórz folder o nazwie FaceDetection.
  • W folderze FaceDetection utwórz folder z obrazem.
  • W folderze obrazu utwórz foldery z obrazem testowym, testowym kodem XML, trenowaniem obrazu i trenowaniem XML.
Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło:przemysłowy

Teraz w folderze ze zdjęciami pociągu pobierz i prześlij 10-15 zdjęć BTS i Avengers w formacie JPEG. Podobnie w folderze obrazów testowych zrób to samo dla 5-6 obrazów. W celu uzyskania dokładnych wyników zaleca się umieszczenie większej liczby obrazów w zbiorze danych.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: przemysłowy

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: przemysłowy

Następnie wygeneruj plik XML dla każdego obrazu obrazu testowego i foldery obrazów szkolenia

Pobierz i kliknij Windows v_1.8.0. Kliknij plik .exe z GitHub i naciśnij Uruchom.

Następnie kliknij otwarty katalog, aby wybrać folder obrazu. Zobaczysz obraz, który ma być oznaczony. Aby oznaczyć etykietę, naciśnij W na klawiaturze, kliknij prawym przyciskiem myszy i przeciągnij kursor, aby narysować ramkę wokół obiektu. Nadaj mu nazwę i kliknij OK.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: przemysłowy

Następnie zapisz obraz, aby wygenerować plik XML obrazu w folderze obrazu, jak pokazano poniżej.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: przemysłowy

Otwórz plik XML, aby zobaczyć współrzędne.

Przetwarzanie obrazu i ramki ograniczające dla OCR PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Źródło: przemysłowy

Powtórz procedurę dla wszystkich obrazów, aby wygenerować pliki XML i poszukaj współrzędnych.


Jeśli pracujesz z fakturami i paragonami lub martwisz się weryfikacją tożsamości, sprawdź Nanonets OCR online or Ekstraktor tekstu PDF wyodrębnić tekst z dokumentów PDF za darmo. Kliknij poniżej, aby dowiedzieć się więcej Rozwiązanie Nanonet do automatyzacji przedsiębiorstw.


Różne formaty adnotacji używane w obwiedniach

Zasadniczo ramka ograniczająca ma 4 punkty na osiach (x,y) reprezentujące narożniki:

Lewy górny : (x_min, y_min)

U góry po prawej: (x_max, y_min)

Dolny lewy: (x_min, y_max)

Dolny prawy: (x_max, y_max)

Współrzędne obwiedni są obliczane w odniesieniu do lewego górnego rogu obrazu.

Istnieje kilka formatów adnotacji obwiedni, z których każdy wykorzystuje własną reprezentację współrzędnych obwiedni.

a. Albumentacje

Używają czterech wartości do reprezentowania ramki ograniczającej – [x_min, y_min, x_max, y_max] – które są normalizowane przez podzielenie współrzędnych w pikselach dla osi x przez szerokość i oś y przez wysokość obrazu.

Powiedzmy, że współrzędne obwiedni to: x1 = 678, y1 = 24; x2 = 543, y2= 213.

Niech szerokość = 870, wysokość = 789

Następnie [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Albumentacje wykorzystuje i interpretuje te wartości wewnętrznie za pomocą ramek ograniczających i wzmacnia je.

b. KOKOSOWIEC

Jest to format używany przez zbiór danych Common Objects w kontekście COCO. W formacie COCO obwiednia jest reprezentowana przez cztery wartości: (x_min, y_min, szerokość, wysokość). Zasadniczo odnoszą się do lewego górnego rogu oraz szerokości i wysokości obwiedni.

C. YOLO

W tym formacie ramka ograniczająca jest prezentowana z czterema wartościami :(x_center, y_center, width, height). Tutaj x_center i y_center oznaczają znormalizowane współrzędne x i y środka obwiedni. Aby znormalizować, współrzędna x środka przez szerokość obrazu i współrzędna y środka przez wysokość obrazu. Znormalizowane są również wartości szerokości i wysokości.

D. PASCAL

W formacie Pascala obwiednia jest reprezentowana przez współrzędne lewego górnego i prawego dolnego rogu. Zatem wartości zakodowane w pikselach to: [x_min, y_min, x_max, y_max]. Tutaj [x_min, y_min] to lewy górny róg, podczas gdy [x_max, y_max] oznacza prawy dolny róg obwiedni.


Chcesz zautomatyzować powtarzające się zadania ręczne? Oszczędzaj czas, wysiłek i pieniądze, jednocześnie zwiększając wydajność!


Środki ostrożności i najlepsze praktyki w korzystaniu z ramek ograniczających

Zalecane są pewne środki ostrożności i najlepsze praktyki w celu optymalnego wykorzystania ramek ograniczających w przetwarzaniu obrazu. Zawierają:

Odmiany rozmiaru pudełka

Użycie wszystkich obwiedni tego samego rozmiaru nie zapewni dokładnych wyników. Szkolenie modeli na polach ograniczających o tych samych rozmiarach pogorszyłoby działanie modelu. Na przykład, jeśli ten sam obiekt wydaje się mniejszy, model może go nie wykryć. W przypadku, gdy obiekty wydają się większe niż oczekiwano, może zajmować większą liczbę pikseli i nie podawać dokładnej pozycji i lokalizacji obiektu. Sednem jest pamiętanie o zmienności wielkości i objętości obiektu, aby osiągnąć pożądane rezultaty.

Doskonała szczelność w pikselach

Kluczowym czynnikiem jest szczelność. Oznacza to, że krawędzie obwiedni muszą znajdować się jak najbliżej danego obiektu, aby uzyskać dokładne wyniki. Spójne luki mogą wpływać na dokładność określania obszaru nakładania się między przewidywaniami modelu a rzeczywistym obiektem, powodując w ten sposób problemy.

Przekątne przedmioty umieszczone w obwiedniach

Problem z przedmiotami umieszczonymi po przekątnej w ramce ograniczającej polega na tym, że zajmują znacznie mniej miejsca wewnątrz pudełka w porównaniu z tłem. Jednak w przypadku dłuższego eksponowania model może zakładać, że celem jest tło, ponieważ zajmuje to więcej miejsca. Dlatego zaleca się stosowanie wielokątów i segmentacji instancji dla obiektów przekątnych jako najlepszą praktykę. Jednak możliwe jest uczenie modeli za pomocą ramki ograniczającej z dużą ilością danych uczących.

Zmniejsz nakładanie się pudełek

Zawsze bezpiecznie jest unikać nakładania się adnotacji we wszystkich scenariuszach. Czasami może to powodować tyle bałaganu, że tylko niektóre nakładające się pola mogą być ostatecznie widoczne. Obiekty, które mają etykiety nakładające się na inne byty, dają stosunkowo gorsze wyniki. Model nie będzie w stanie odróżnić obiektu docelowego od innych elementów z powodu nadmiernego nakładania się. W takich przypadkach dla większej dokładności można użyć wielokątów.

Wnioski

Przetwarzanie obrazu to nowa dziedzina technologii, która oferuje szeroki zakres. To powiedziawszy, ramki ograniczające stanowią najczęściej stosowaną technikę przetwarzania obrazu.

Podsumowując, ramki ograniczające to metoda adnotacji obrazu do trenowania modeli uczenia maszynowego opartych na sztucznej inteligencji. Służy do wykrywania obiektów i rozpoznawania celów w szerokim zakresie zastosowań, w tym robotach, dronach, pojazdach autonomicznych, kamerach monitorujących i innych urządzeniach widzenia maszynowego.

Sugerowane zasoby:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


Nanonet online OCR & OCR API mają wiele interesujących przypadków użycia that może zoptymalizować wyniki Twojej firmy, obniżyć koszty i przyspieszyć rozwój. Dowiedzieć się jak przypadki użycia Nanonets mogą odnosić się do Twojego produktu.


Znak czasu:

Więcej z AI i uczenie maszynowe