Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Bildverarbeitung und Begrenzungsrahmen für OCR

Die Technologie entwickelt sich weiter und wir auch. Mit dem Aufkommen von künstlicher Intelligenz und maschinellem Lernen hat sich der Fokus in Richtung Automatisierung verlagert. Allerdings werden verschiedene Informatikdisziplinen vorgestellt, um die Anwendungen dieser aufkommenden Trends zu untersuchen und zu erforschen.

Ein solches Beispiel ist Bildverarbeitung. In einfacher Sprache bezieht es sich auf das Erkunden von Bildern, um aussagekräftige Informationen zu zeichnen. Während mehrere Techniken zur Verfügung stehen, um dies zu erreichen, ist die am häufigsten verwendete – Begrenzungsrahmen.

Dieser Blog befasst sich mit verschiedenen Aspekten von Begrenzungsrahmen. Es enthält, was sie sind, wie sie in der Bildverarbeitung funktionieren, Parameter, die sie definieren, Konventionen, die sie spezifizieren, allgemeine Anwendungsfälle, Vorsichtsmaßnahmen und bewährte Verfahren und mehr.

Lass uns eintauchen.

Die Bildverarbeitung bezieht sich auf die Durchführung bestimmter Operationen an einem Bild, um es entweder zu verbessern oder einige wertvolle Erkenntnisse aus den damit verbundenen Merkmalen oder Attributen zu extrahieren. Heute ist die Bildverarbeitung ein primäres Forschungsgebiet in Ingenieur- und Computertechnologiestudien.

Die Bildverarbeitung kann mit zwei Methoden erfolgen – analoge Bildverarbeitung und digitale Bildverarbeitung.

Die analoge Bildverarbeitung beinhaltet die Verwendung von Ausdrucken und Fotografien zum Analysieren und Manipulieren von Bildern. Bildanalytiker verwenden verschiedene Methoden, um diese Bildkopien zu interpretieren und aussagekräftige Ergebnisse zu extrahieren.

Die digitale Bildverarbeitung verwendet digitale Bilder und interpretiert sie mithilfe von Computern. Es ist eine Unterkategorie der digitalen Signalverarbeitung und verwendet Algorithmen zur Verarbeitung digitaler Bilder. Es bietet Vorteile gegenüber der analogen Bildverarbeitung, wie z. B. Algorithmen zur Vermeidung von Rauschen und Verzerrungen bei der Verarbeitung.

Die digitale Bildverarbeitung hat mehrere Anwendungen in den Bereichen Medizin, Fertigung, E-Commerce und mehr.


Begrenzungsrahmen in der Bildverarbeitung

Zu Beginn ist der Begrenzungsrahmen ein imaginärer rechteckiger Rahmen, der ein Objekt und eine Reihe von Datenpunkten enthält. Im Zusammenhang mit der digitalen Bildverarbeitung bezeichnet der Begrenzungsrahmen die Koordinaten des Randes auf der X- und Y-Achse, die ein Bild umschließen. Sie dienen zur Identifizierung eines Ziels und dienen als Referenz für die Objekterkennung und erzeugen eine Kollisionsbox für das Objekt.

Was sind Begrenzungsrahmen?

Begrenzungsrahmen sind die Schlüsselelemente und eines der wichtigsten Bildverarbeitungswerkzeuge für Videoanmerkungsprojekte. Im Wesentlichen ist ein Begrenzungsrahmen ein imaginäres Rechteck, das das Objekt in einem Bild als Teil einer Projektanforderung für maschinelles Lernen umreißt. Der imaginäre rechteckige Rahmen umschließt das Objekt im Bild.

Begrenzungsrahmen spezifizieren die Position des Objekts, seine Klasse und das Vertrauen, das den Grad der Wahrscheinlichkeit angibt, dass das Objekt tatsächlich in dem Begrenzungsrahmen vorhanden ist.

Computer Vision bietet erstaunliche Anwendungen – von selbstfahrenden Autos bis hin zur Gesichtserkennung und mehr. Und das wiederum wird durch Bildverarbeitung ermöglicht.

Ist die Bildverarbeitung also so einfach wie das Zeichnen von Rechtecken oder Mustern um Objekte herum? Nein. Davon abgesehen, was machen Begrenzungsrahmen?

Lass uns verstehen.

Wie funktionieren Begrenzungsrahmen in der Bildverarbeitung?

Wie erwähnt, ist der Begrenzungsrahmen ein imaginäres Rechteck, das als Referenzpunkt für die Objekterkennung dient und einen Kollisionsrahmen für das Objekt entwickelt.

Wie hilft es Datenannotatoren? Nun, Profis verwenden die Idee von Begrenzungsrahmen, um imaginäre Rechtecke über die Bilder zu ziehen. Sie erstellen Umrisse der betreffenden Objekte innerhalb jedes Bildes und definieren seine X- und Y-Koordinaten. Dies vereinfacht die Arbeit von Algorithmen für maschinelles Lernen und hilft ihnen, Kollisionspfade und dergleichen zu finden, wodurch Rechenressourcen eingespart werden.

In der folgenden Abbildung ist beispielsweise jedes Fahrzeug ein Schlüsselobjekt, dessen Position und Standort für das Training der Modelle für maschinelles Lernen von entscheidender Bedeutung sind. Data Annotators verwenden die Bounding-Box-Technik, um die Rechtecke um jedes dieser Objekte – in diesem Fall Fahrzeuge – zu zeichnen.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: Schlüsselmakr

Dann verwenden sie die Koordinaten, um die Position und Position jedes Objekts zu verstehen, was nützlich ist, um die Modelle für maschinelles Lernen zu trainieren. Ein einzelner Begrenzungsrahmen bietet keine gute Vorhersagerate. Für eine verbesserte Objekterkennung müssen mehrere Begrenzungsrahmen in Kombination mit Datenerweiterungsverfahren verwendet werden.

Bounding Boxes sind hocheffiziente und robuste Bildannotationstechniken, die die Kosten erheblich senken.

Parameter, die einen Begrenzungsrahmen definieren

Die Parameter basieren auf den Konventionen, die zur Angabe des Begrenzungsrahmens verwendet werden. Zu den verwendeten Schlüsselparametern gehören:

  • Klasse: Bezeichnet das Objekt innerhalb des Begrenzungsrahmens – zum Beispiel Autos, Häuser, Gebäude usw.
  • (X1, Y1): Dies bezieht sich auf die X- und Y-Koordinaten der oberen linken Ecke des Rechtecks.
  • (X2, Y2): Dies bezieht sich auf die X- und Y-Koordinaten der unteren rechten Ecke des Rechtecks.
  • (Xc, Yc): Dies bezieht sich auf die X- und Y-Koordinaten der Mitte des Begrenzungsrahmens.
  • Breite: Dies gibt die Breite des Begrenzungsrahmens an.
  • Höhe: Dies gibt die Höhe des Begrenzungsrahmens an.
  • Vertrauen: Dies stellt die Möglichkeit dar, dass sich das Objekt in der Box befindet. Angenommen, das Vertrauen ist 0.9. Das bedeutet, dass das Objekt mit 90-prozentiger Wahrscheinlichkeit tatsächlich in der Box vorhanden ist.

Konventionen zum Festlegen eines Begrenzungsrahmens

Bei der Angabe eines Begrenzungsrahmens müssen normalerweise zwei Hauptkonventionen berücksichtigt werden. Diese sind:

  • Die X- und Y-Koordinaten der oberen linken und unteren rechten Punkte des Rechtecks.
  • Die X- und Y-Koordinaten der Mitte des Begrenzungsrahmens zusammen mit seiner Breite und Höhe.

Lassen Sie uns dies am Beispiel eines Autos veranschaulichen.

a. In Bezug auf die erste Konvention wird der Begrenzungsrahmen gemäß den Koordinaten der Punkte oben links und unten rechts angegeben.

Quelle: AnalyticsVidhya

b. In Bezug auf die zweite Konvention wird der Begrenzungsrahmen durch die Mittenkoordinaten, Breite und Höhe beschrieben.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: AnalyticsVidhya

Je nach Anwendungsfall kann zwischen den verschiedenen Konventionsarten umgestellt werden.

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • Breite = (X2 – X1)
  • Höhe = (Y2 – Y1)

Begrenzungsrahmen mit Programmiercode erklärt

Sehen wir uns ein weiteres Beispiel zur Position oder Position eines Objekts mit Codeausschnitten an.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: d2i

Wir laden das Bild, das für diese Illustration verwendet werden soll. Das Bild zeigt links einen Hund und rechts eine Katze. Es gibt zwei Objekte – einen Hund und eine Katze im Bild.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: d2i

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: d2i

Nehmen wir x und y als Koordinaten für die obere linke und untere rechte Ecke des Begrenzungsrahmens. Sagen wir (x1,y1) und (x2,y2). Betrachten wir in ähnlicher Weise die (x,y)-Achsenkoordinaten für die Mitte des Begrenzungsrahmens zusammen mit seiner Breite und Höhe.

Als nächstes definieren wir zwei Funktionen, um diese Formen umzuwandeln: box_corner_to_center konvertiert die Zwei-Ecken-Darstellung in die Mitte-Höhe-Breite-Darstellung und box_center_to_corner macht es umgekehrt.

Die Eingabeargumentboxen müssen ein zweidimensionaler Formtensor (n,4) sein, wobei n die Anzahl der Begrenzungsboxen ist.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: d2i

Als Nächstes definieren wir die Begrenzungsrahmen des Hundes und der Katze auf dem Bild basierend auf den Koordinatendaten.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: d2i

Um die Korrektheit der Konvertierungsfunktionen der beiden Begrenzungsrahmen zu überprüfen, können wir zweimal konvertieren.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: d2i

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: d2i

Als nächstes können wir die Begrenzungsrahmen der Objekte auf dem Bild zeichnen, um zu überprüfen, ob sie korrekt sind. Zuvor definieren wir eine Funktion bbox_t_rect, die den Begrenzungsrahmen im entsprechenden Format des Matplotlib-Pakets darstellt.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: d2i

Nachdem wir nun die Begrenzungsrahmen der Hunde- und Katzenobjekte zum Bild hinzugefügt haben, sehen wir, dass sich der Hauptumriss dieser Objekte innerhalb der beiden Rahmen befindet.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: d2i

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: d2i


Möchten Sie sich wiederholende manuelle Aufgaben automatisieren? Testen Sie unsere Workflow-basierte Dokumentenverarbeitungssoftware Nanonets. Extrahieren Sie Daten aus Rechnungen, Personalausweisen oder anderen Dokumenten auf Autopilot!


Häufige Anwendungsfälle von Begrenzungsrahmen

Objektlokalisierung von selbstfahrenden Fahrzeugen

Begrenzungsrahmen sind ein wesentlicher Bestandteil beim Training selbstfahrender oder autonomer Fahrzeuge, um Objekte auf der Straße wie Gebäude, Ampeln, Hindernisse und mehr zu identifizieren. Sie helfen, Hindernisse zu kommentieren und ermöglichen es Robotern, das Fahrzeug sicher zu fahren und Unfälle zu vermeiden, selbst bei Staus.

Robotik-Bilder

Bildanmerkungstechniken wie Begrenzungsrahmen werden häufig verwendet, um die Blickwinkel von Robotern und Drohnen zu markieren. Diese autonomen Fahrzeuge helfen dabei, Objekte auf der Erde zu klassifizieren, indem sie die aus dieser Annotationsmethode erhaltenen Fotos verwenden.

Bild-Tagging für E-Commerce und Einzelhandel

Begrenzungsrahmenanmerkungen helfen bei der Verbesserung der Produktvisualisierung, was ein großes Plus im E-Commerce und Einzelhandel ist. Modelle, die an ähnlichen Gegenständen trainiert wurden, können Objekte wie Modekleidung, Accessoires, Möbel, Kosmetika usw. genauer beschriften, wenn sie richtig beschriftet sind. Im Folgenden sind einige der Herausforderungen aufgeführt, die mit Begrenzungsrahmenanmerkungen im Einzelhandel bewältigt werden:

  • Falsche Suchergebnisse

Wenn die Suche der einzige Weg ist, auf dem Kunden auf die eCommerce-Website stoßen können, können falsche Katalogdaten zu ungenauen Suchergebnissen führen, wodurch der Kundenverkehr nicht auf die Website gelenkt wird.

  • Unorganisierte Lieferketten

Für diejenigen, die ihr Einzelhandelsgeschäft erweitern möchten, damit jährlich Millionen von Produkten versendet werden können, ist es unerlässlich, die Offline- und Online-Daten zu synchronisieren.

  • Kontinuierliche Digitalisierung

Es ist entscheidend, dass alle Produkte systematisch und zeitnah digitalisiert und gekennzeichnet werden, um sicherzustellen, dass Kunden keine neuen Möglichkeiten verpassen. Außerdem müssen die Tags im Kontext stehen, dessen Einhaltung schwierig wird, wenn das Einzelhandelsgeschäft expandiert und mehr Produkte hinzugefügt werden.

Erkennt Autoverlust für Versicherungsansprüche

Die Technik der Begrenzungsrahmen hilft bei der Verfolgung von Autos, Fahrrädern oder anderen Fahrzeugen, die bei einem Unfall beschädigt wurden. Modelle für maschinelles Lernen verwenden diese Bilder aus Begrenzungsrahmen, um die Position und Intensität von Verlusten zu verstehen. Dies hilft, die Kosten der entstandenen Verluste vorherzusagen, auf deren Grundlage Kunden ihre Schätzung vorlegen können, bevor sie eine Klage einreichen.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: Superkommentieren

Erkennen von Gegenständen im Innenbereich

Begrenzungsrahmen helfen Computern dabei, Gegenstände im Innenbereich wie Betten, Sofas, Schreibtische, Schränke oder Elektrogeräte zu erkennen. Auf diese Weise können Computer ein Gefühl für den Raum und die Arten von vorhandenen Objekten mit ihren Abmessungen und ihrer Position erhalten. Dies wiederum hilft maschinellen Lernmodellen dabei, diese Elemente in einer realen Situation zu identifizieren.

Begrenzungsrahmen werden in Fotografien häufig als Deep-Learning-Tool verwendet, um verschiedene Arten von Objekten zu verstehen und zu interpretieren.

Krankheits- und Pflanzenwachstumserkennung in der Landwirtschaft

Die Früherkennung von Pflanzenkrankheiten hilft Landwirten, schwere Verluste zu vermeiden. Mit dem Aufkommen von Smart Farming liegt die Herausforderung darin, Daten zu trainieren, um maschinellen Lernmodellen beizubringen, Pflanzenkrankheiten zu erkennen. Bounding Boxes sind ein wichtiger Faktor, der Maschinen die notwendige Vision verleiht.

Fertigungsindustrie

Die Objekterkennung und Identifizierung von Gegenständen in der Industrie ist ein wesentlicher Aspekt der Fertigung. Bei KI-fähigen Robotern und Computern wird die Rolle manueller Eingriffe reduziert. Allerdings spielen Begrenzungsrahmen eine entscheidende Rolle, indem sie dabei helfen, die maschinellen Lernmodelle zu trainieren, um industrielle Komponenten zu lokalisieren und zu erkennen. Darüber hinaus erfordern Prozesse wie Qualitätskontrolle, Sortierung und Fließbandbetrieb, die alle Teil des Qualitätsmanagements sind, eine Objekterkennung.

Medizinische Bildgebung

Bounding Boxes finden auch Anwendungen in der Gesundheitsbranche, beispielsweise in der medizinischen Bildgebung. Die Technik der medizinischen Bildgebung befasst sich mit der Erkennung anatomischer Objekte wie dem Herzen und erfordert eine schnelle und genaue Analyse. Mithilfe von Bounding Boxes können die maschinellen Lernmodelle trainiert werden, die dann das Herz oder andere Organe schnell und genau erkennen können.

Automatisierte Videoüberwachung

Automatisierte CCTVs sind in den meisten Wohn-, Gewerbe- und anderen Einrichtungen vorgeschrieben. Oft ist viel Speicherplatz erforderlich, um das aufgenommene CCTV-Material lange aufzubewahren. Mit Objekterkennungstechniken wie Begrenzungsrahmen kann sichergestellt werden, dass das Filmmaterial nur aufgezeichnet wird, wenn bestimmte Objekte identifiziert werden. Begrenzungsrahmen können die maschinellen Lernmodelle trainieren, die nur diese Objekte erkennen, und in diesem Moment kann das Filmmaterial erfasst werden. Dies würde auch dazu beitragen, den für CCTV erforderlichen Speicherplatz zu minimieren und die Kosten zu senken.

Gesichtserkennung und -erkennung

Die Gesichtserkennung bietet vielfältige Anwendungsmöglichkeiten, wie sie beispielsweise in der biometrischen Überwachung eingesetzt wird. Außerdem nutzen verschiedene Behörden wie Banken, Flughäfen, Einzelhandelsgeschäfte, Stadien und andere Institutionen die Gesichtserkennung, um Verbrechen und Gewalt zu verhindern. Die Gesichtserkennung ist jedoch ein wichtiges Element der Computer Vision, die Bildverarbeitung beinhaltet. Auch hier können Begrenzungsrahmen als effektives Werkzeug zur Zeichenerkennung verwendet werden.


Möchten Sie robotergesteuerte Prozessautomatisierung nutzen? Sehen Sie sich die Workflow-basierte Dokumentenverarbeitungssoftware von Nanonets an. Kein Code. Keine lästige Plattform.


Begrenzungsrahmen für die Zeichenerkennung

Die Objekterkennung umfasst – Bildklassifizierung und Objektlokalisierung. Das heißt, damit ein Computer ein Objekt erkennen kann, muss er wissen, um welches Objekt es sich handelt und wo es sich befindet. Die Bildklassifizierung weist einem Bild eine Klassenbezeichnung zu. Die Objektlokalisierung bezieht sich auf das Zeichnen des Begrenzungsrahmens um das betreffende Objekt in einem Bild.

Der Prozess beinhaltet, dass ein Annotator die Begrenzungsrahmen um die Objekte zeichnet und sie beschriftet. Dies hilft, den Algorithmus zu trainieren und zu verstehen, wie das Objekt aussieht. Als erster Schritt zur Objekterkennung muss der Bilddatensatz mit Labels versehen werden.

Führen Sie die folgenden Schritte aus, um ein Bild zu beschriften:

  • Wählen Sie das Dataset aus, das Sie trainieren und testen möchten. Machen Sie einen Ordner daraus.
  • Nehmen wir das Beispiel eines Gesichtserkennungsprojekts wie: BTS, Avenger usw.
  • Erstellen Sie Ordnernamendaten.
  • Erstellen Sie in Google Drive einen Ordner mit dem Namen FaceDetection.
  • Erstellen Sie im Ordner „FaceDetection“ einen Ordner mit dem Bild.
  • Erstellen Sie im Bildordner Ordner mit Testbild, Test-XML, Trainingsbild und Trainings-XML.
Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle:indusmisch

Laden Sie jetzt im Zugbildordner 10-15 Bilder von BTS und Avengers im JPEG-Format herunter und laden Sie sie hoch. Machen Sie dasselbe im Testbildordner für 5-6 Bilder. Es wird empfohlen, mehr Bilder im Datensatz zu haben, um genaue Ergebnisse zu erhalten.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: indusmisch

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: indusmisch

Generieren Sie als Nächstes eine XML-Datei für jedes Bild des Testbilds und trainieren Sie Bildordner

Laden Sie Windows v_1.8.0 herunter und klicken Sie darauf. Klicken Sie auf die .exe-Datei von GitHub und drücken Sie auf Ausführen.

Klicken Sie als Nächstes auf das geöffnete Verzeichnis, um den Ordner des Bildes auszuwählen. Sie sehen das Bild, das beschriftet werden muss. Drücken Sie zum Beschriften W auf der Tastatur, klicken Sie mit der rechten Maustaste und ziehen Sie den Cursor, um den Rahmen um das Objekt zu ziehen. Geben Sie ihm einen Namen und klicken Sie auf OK.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: indusmisch

Als nächstes speichern Sie das Bild, um die XML-Datei des Bildes im Bildordner zu generieren, wie unten gezeigt.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: indusmisch

Öffnen Sie die XML-Datei, um die Koordinaten anzuzeigen.

Bildverarbeitung und Begrenzungsrahmen für OCR PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Quelle: indusmisch

Wiederholen Sie den Vorgang für alle Bilder, um die XML-Dateien zu generieren, und suchen Sie nach den Koordinaten.


Wenn Sie mit Rechnungen und Quittungen arbeiten oder sich Gedanken über die Identitätsprüfung machen, sehen Sie sich Nanonets an Online-OCR or PDF-Textextraktor um Text aus PDF-Dokumenten zu extrahieren kostenlos registrieren. Klicken Sie unten, um mehr darüber zu erfahren Unternehmensautomatisierungslösung von Nanonets.


Verschiedene Anmerkungsformate, die in Begrenzungsrahmen verwendet werden

Im Wesentlichen hat ein Begrenzungsrahmen 4 Punkte in (x,y)-Achsen, die die Ecken darstellen:

Oben links: (x_min, y_min)

Oben rechts: (x_max, y_min)

Unten links: (x_min, y_max)

Unten rechts: (x_max, y_max)

Die Koordinaten des Begrenzungsrahmens werden in Bezug auf die obere linke Ecke des Bildes berechnet.

Es gibt mehrere Beschriftungsformate für Begrenzungsrahmen, die jeweils eine eigene Darstellung der Koordinaten des Begrenzungsrahmens verwenden.

a. Albuminierungen

Sie verwenden vier Werte zur Darstellung des Begrenzungsrahmens – [x_min, y_min, x_max, y_max] – die normalisiert werden, indem die Koordinaten in Pixeln für die x-Achse durch die Breite und die y-Achse durch die Höhe des Bildes dividiert werden.

Angenommen, die Koordinaten des Begrenzungsrahmens sind: x1 = 678, y1 = 24; x2 = 543, y2 = 213.

Breite = 870, Höhe = 789

Dann ist [678/870, 24/789, 543/870, 213/789] = [0.779310, 0.030418, 0.624137, 0.269961]

Albumentations verwendet und interpretiert diese Werte intern mit Begrenzungsrahmen und erweitert sie.

b. KOKOS

Dies ist ein Format, das vom Common Objects in Context COCO-Datensatz verwendet wird. Im COCO-Format wird ein Begrenzungsrahmen durch vier Werte dargestellt: (x_min, y_min, Breite, Höhe). Sie beziehen sich im Wesentlichen auf die obere linke Ecke und die Breite und Höhe des Begrenzungsrahmens.

C. YOLO

In diesem Format wird ein Begrenzungsrahmen mit vier Werten dargestellt: (x_center, y_center, width, height). Hier bezeichnen x_center und y_center die normalisierten x- und y-Koordinaten der Mitte des Begrenzungsrahmens. Zum Normalisieren wird die x-Koordinate der Mitte durch die Breite des Bildes und die y-Koordinate der Mitte durch die Höhe des Bildes bestimmt. Die Werte von Breite und Höhe werden ebenfalls normalisiert.

D. PASCAL

Im Pascal-Format wird der Begrenzungsrahmen durch die Koordinaten oben links und unten rechts dargestellt. Die in Pixel codierten Werte sind also: [x_min, y_min, x_max, y_max]. Hier ist [x_min, y_min] die obere linke Ecke, während [x_max, y_max] die untere rechte Ecke des Begrenzungsrahmens bezeichnet.


Möchten Sie sich wiederholende manuelle Aufgaben automatisieren? Sparen Sie Zeit, Mühe und Geld und steigern Sie gleichzeitig die Effizienz!


Vorsichtsmaßnahmen und Best Practices bei der Verwendung von Begrenzungsrahmen

Für die optimale Verwendung von Begrenzungsrahmen bei der Bildverarbeitung werden einige Vorsichtsmaßnahmen und Best Practices empfohlen. Sie beinhalten:

Variationen der Kartongröße

Die Verwendung aller Begrenzungsrahmen derselben Größe liefert keine genauen Ergebnisse. Wenn Sie Ihre Modelle auf Begrenzungsrahmen gleicher Größe trainieren, würde dies zu einer schlechteren Leistung des Modells führen. Wenn beispielsweise dasselbe Objekt kleiner erscheint, kann das Modell es möglicherweise nicht erkennen. Im Fall von Objekten, die größer als erwartet erscheinen, kann es eine größere Anzahl von Pixeln einnehmen und nicht die genaue Position und Position des Objekts liefern. Der springende Punkt ist, die Variation in Größe und Volumen des Objekts im Auge zu behalten, um die gewünschten Ergebnisse zu erzielen.

Pixelperfekte Dichtheit

Dichtheit ist ein entscheidender Faktor. Das bedeutet, dass die Kanten des Begrenzungsrahmens so nah wie möglich am betreffenden Objekt liegen müssen, um genaue Ergebnisse zu erzielen. Konsistente Lücken können die Genauigkeit bei der Bestimmung des Überlappungsbereichs zwischen der Vorhersage des Modells und dem realen Objekt beeinträchtigen und dadurch Probleme verursachen.

Diagonale Elemente, die in Begrenzungsrahmen platziert werden

Das Problem bei Elementen, die diagonal innerhalb eines Begrenzungsrahmens angeordnet sind, besteht darin, dass sie im Vergleich zum Hintergrund erheblich weniger Platz innerhalb des Rahmens einnehmen. Wenn es jedoch länger belichtet wird, kann das Modell davon ausgehen, dass das Ziel der Hintergrund ist, da dieser mehr Platz verbraucht. Daher wird als Best Practice empfohlen, Polygone und Instanzsegmentierung für diagonale Objekte zu verwenden. Es ist jedoch möglich, die Modelle mit einer Begrenzungsbox mit einer guten Menge an Trainingsdaten zu lehren.

Reduzieren Sie die Box-Überlappung

Es ist immer sicher, Annotationsüberschneidungen in allen Szenarien zu vermeiden. Manchmal kann dies so viel Unordnung verursachen, dass nur einige überlappende Kästchen schließlich sichtbar sind. Objekte, die eine Beschriftungsüberschneidung mit anderen Entitäten aufweisen, führen zu relativ schlechteren Ergebnissen. Das Modell kann aufgrund übermäßiger Überlappung nicht zwischen dem Zielobjekt und anderen Elementen unterscheiden. In solchen Fällen können Polygone für eine höhere Genauigkeit verwendet werden.

Zusammenfassung

Die Bildverarbeitung ist ein aufstrebendes Technologiegebiet, das einen breiten Anwendungsbereich bietet. Allerdings bilden Begrenzungsrahmen die am häufigsten angewandte Bildverarbeitungstechnik.

Zusammenfassend lässt sich sagen, dass Bounding Boxes eine Bildannotationsmethode zum Trainieren von KI-basierten Modellen für maschinelles Lernen sind. Es wird zur Objekterkennung und Zielerkennung in einer Vielzahl von Anwendungen eingesetzt, darunter Roboter, Drohnen, autonome Fahrzeuge, Überwachungskameras und andere Bildverarbeitungsgeräte.

Vorgeschlagene Ressourcen:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


Nanonetze Online-OCR & OCR-API habe viele interessante Anwendungsfälle tDies könnte Ihre Geschäftsleistung optimieren, Kosten sparen und das Wachstum fördern. Finden Sie heraus Wie können die Anwendungsfälle von Nanonets auf Ihr Produkt angewendet werden?


Zeitstempel:

Mehr von KI & Maschinelles Lernen