Επεξεργασία εικόνας και οριοθέτηση κουτιών για OCR

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Η τεχνολογία εξελίσσεται συνεχώς, το ίδιο και εμείς. Με την εμφάνιση της τεχνητής νοημοσύνης και της μηχανικής μάθησης, η εστίαση έχει μετατοπιστεί προς την αυτοματοποίηση. Τούτου λεχθέντος, εισάγονται διάφοροι κλάδοι της επιστήμης των υπολογιστών για τη μελέτη και τη διερεύνηση των εφαρμογών αυτών των αναδυόμενων τάσεων.

Ένα τέτοιο παράδειγμα είναι ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ. Σε απλή γλώσσα, αναφέρεται στην εξερεύνηση εικόνων για να αντλήσετε σημαντικές πληροφορίες. Ενώ είναι διαθέσιμες αρκετές τεχνικές για να επιτευχθεί αυτό, η πιο συχνά χρησιμοποιούμενη είναι: κουτιά οριοθέτησης.

Αυτό το ιστολόγιο εμβαθύνει σε διάφορες πτυχές των πλαισίων οριοθέτησης. Περιλαμβάνει τι είναι, πώς λειτουργούν στην επεξεργασία εικόνας, παραμέτρους που τις καθορίζουν, συμβάσεις που τις καθορίζουν, περιπτώσεις κοινής χρήσης, προφυλάξεις και βέλτιστες πρακτικές και πολλά άλλα.

Ας κάνουμε βουτιά μέσα.

Η επεξεργασία εικόνας αναφέρεται στην εκτέλεση ορισμένων λειτουργιών σε μια εικόνα είτε για τη βελτίωσή της είτε για εξαγωγή ορισμένων πολύτιμων πληροφοριών από τα χαρακτηριστικά ή τα χαρακτηριστικά που σχετίζονται με αυτήν. Σήμερα, η επεξεργασία εικόνας αποτελεί πρωταρχικό τομέα έρευνας στις μελέτες μηχανικής και τεχνολογίας υπολογιστών.

Η επεξεργασία εικόνας μπορεί να γίνει χρησιμοποιώντας δύο μεθόδους – αναλογική επεξεργασία εικόνας και ψηφιακή επεξεργασία εικόνας.

Η αναλογική επεξεργασία εικόνας περιλαμβάνει τη χρήση έντυπων αντιγράφων εκτύπωσης και φωτογραφιών για την ανάλυση και τον χειρισμό εικόνων. Οι αναλυτές εικόνων χρησιμοποιούν διάφορες μεθόδους για να ερμηνεύσουν αυτά τα αντίγραφα εικόνων και να εξαγάγουν σημαντικά αποτελέσματα.

Η ψηφιακή επεξεργασία εικόνας χρησιμοποιεί ψηφιακές εικόνες και τις ερμηνεύει χρησιμοποιώντας υπολογιστές. Είναι μια υποκατηγορία της επεξεργασίας ψηφιακών σημάτων και χρησιμοποιεί αλγόριθμους για την επεξεργασία ψηφιακών εικόνων. Παρέχει πλεονεκτήματα σε σχέση με την αναλογική επεξεργασία εικόνας, όπως αλγόριθμους για την πρόληψη του θορύβου και της παραμόρφωσης στην επεξεργασία.

Η ψηφιακή επεξεργασία εικόνας έχει πολλές εφαρμογές στους τομείς της ιατρικής, της κατασκευής, του ηλεκτρονικού εμπορίου και άλλων.

Οριοθέτηση πλαισίων στην επεξεργασία εικόνας

Στην αρχή, το πλαίσιο οριοθέτησης είναι ένα φανταστικό ορθογώνιο πλαίσιο που περιλαμβάνει ένα αντικείμενο και ένα σύνολο σημείων δεδομένων. Στο πλαίσιο της ψηφιακής επεξεργασίας εικόνας, το πλαίσιο οριοθέτησης υποδηλώνει τις συντεταγμένες του περιγράμματος στους άξονες X και Y που περικλείουν μια εικόνα. Χρησιμοποιούνται για την αναγνώριση ενός στόχου και χρησιμεύουν ως αναφορά για την ανίχνευση αντικειμένου και δημιουργούν ένα πλαίσιο σύγκρουσης για το αντικείμενο.

Τι είναι τα Bounding Boxes;

Τα πλαίσια οριοθέτησης είναι τα βασικά στοιχεία και ένα από τα κύρια εργαλεία επεξεργασίας εικόνας για έργα σχολιασμού βίντεο. Στην ουσία, ένα πλαίσιο οριοθέτησης είναι ένα φανταστικό ορθογώνιο που σκιαγραφεί το αντικείμενο σε μια εικόνα ως μέρος μιας απαίτησης ενός έργου μηχανικής μάθησης. Το νοητό ορθογώνιο πλαίσιο περικλείει το αντικείμενο στην εικόνα.

Τα οριοθετημένα πλαίσια καθορίζουν τη θέση του αντικειμένου, την κλάση του και την εμπιστοσύνη που λέει τον βαθμό πιθανότητας ότι το αντικείμενο είναι πραγματικά παρόν στο πλαίσιο οριοθέτησης.

Η όραση υπολογιστή προσφέρει εκπληκτικές εφαρμογές – από αυτοοδηγούμενα αυτοκίνητα μέχρι αναγνώριση προσώπου και πολλά άλλα. Και αυτό, με τη σειρά του, γίνεται δυνατό με την επεξεργασία εικόνας.

Λοιπόν, είναι η επεξεργασία εικόνας τόσο απλή όσο η σχεδίαση ορθογωνίων ή μοτίβων γύρω από αντικείμενα; Όχι. Τούτου λεχθέντος, τι κάνουν τα κουτιά οριοθέτησης;

Ας καταλάβουμε.

Πώς λειτουργούν τα Bounding Boxes στην επεξεργασία εικόνας;

Όπως αναφέρθηκε, το πλαίσιο οριοθέτησης είναι ένα φανταστικό ορθογώνιο που λειτουργεί ως σημείο αναφοράς για την ανίχνευση αντικειμένων και αναπτύσσει ένα πλαίσιο σύγκρουσης για το αντικείμενο.

Λοιπόν, πώς βοηθά τους σχολιαστές δεδομένων; Λοιπόν, οι επαγγελματίες χρησιμοποιούν την ιδέα της οριοθέτησης πλαισίων για να σχεδιάσουν φανταστικά ορθογώνια πάνω από τις εικόνες. Δημιουργούν περιγράμματα των εν λόγω αντικειμένων σε κάθε εικόνα και ορίζουν τις συντεταγμένες X και Y της. Αυτό κάνει τη δουλειά των αλγορίθμων μηχανικής μάθησης πιο απλή, βοηθώντας τους να βρίσκουν μονοπάτια σύγκρουσης και άλλα, εξοικονομώντας έτσι υπολογιστικούς πόρους.

Για παράδειγμα, στην παρακάτω εικόνα, κάθε όχημα είναι ένα βασικό αντικείμενο του οποίου η θέση και η θέση είναι απαραίτητες για την εκπαίδευση των μοντέλων μηχανικής εκμάθησης. Οι σχολιαστές δεδομένων χρησιμοποιούν την τεχνική οριοθέτησης πλαισίων για να σχεδιάσουν τα ορθογώνια γύρω από καθένα από αυτά τα αντικείμενα - οχήματα, σε αυτήν την περίπτωση.

Κουτιά επεξεργασίας εικόνας και οριοθέτησης για την ευφυΐα δεδομένων OCR PlatoBlockchain. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

πηγή: keymakr

Στη συνέχεια, χρησιμοποιούν τις συντεταγμένες για να κατανοήσουν τη θέση και τη θέση κάθε αντικειμένου, κάτι που είναι χρήσιμο για την εκπαίδευση των μοντέλων μηχανικής εκμάθησης. Ένα μόνο πλαίσιο οριοθέτησης δεν παρέχει καλό ρυθμό πρόβλεψης. Για βελτιωμένη ανίχνευση αντικειμένων, πρέπει να χρησιμοποιούνται πολλαπλά πλαίσια οριοθέτησης σε συνδυασμό με μεθόδους αύξησης δεδομένων.

Τα πλαίσια οριοθέτησης είναι εξαιρετικά αποτελεσματικές και στιβαρές τεχνικές σχολιασμού εικόνας που μειώνουν σημαντικά το κόστος.

Παράμετροι που ορίζουν ένα πλαίσιο οριοθέτησης

Οι παράμετροι βασίζονται στις συμβάσεις που χρησιμοποιούνται για τον καθορισμό του πλαισίου οριοθέτησης. Οι βασικές παράμετροι που χρησιμοποιούνται περιλαμβάνουν:

Κλάση: Υποδηλώνει το αντικείμενο μέσα στο πλαίσιο οριοθέτησης — για παράδειγμα, αυτοκίνητα, σπίτια, κτίρια κ.λπ.
(X1, Y1): Αυτό αναφέρεται στις συντεταγμένες X και Y της επάνω αριστερής γωνίας του ορθογωνίου.
(X2, Y2): Αυτό αναφέρεται στις συντεταγμένες X και Y της κάτω δεξιάς γωνίας του ορθογωνίου.
(Xc, Yc): Αυτό αναφέρεται στις συντεταγμένες X και Y του κέντρου του πλαισίου οριοθέτησης.
Width: Αυτό υποδηλώνει το πλάτος του πλαισίου οριοθέτησης.
Ύψος: Αυτό υποδηλώνει το ύψος του πλαισίου οριοθέτησης.
Εμπιστοσύνη: Αυτό αντιπροσωπεύει την πιθανότητα το αντικείμενο να βρίσκεται στο κουτί. Ας πούμε, η εμπιστοσύνη είναι 0.9. Αυτό σημαίνει ότι υπάρχει 90% πιθανότητα το αντικείμενο να είναι πραγματικά παρόν μέσα στο κουτί.

Συμβάσεις που καθορίζουν ένα πλαίσιο οριοθέτησης

Κατά τον καθορισμό ενός πλαισίου οριοθέτησης, συνήθως, πρέπει να περιλαμβάνονται δύο κύριες συμβάσεις. Αυτά είναι:

Οι συντεταγμένες X και Y του επάνω αριστερού και κάτω δεξιού σημείου του ορθογωνίου.
Οι συντεταγμένες X και Y του κέντρου του πλαισίου οριοθέτησης, μαζί με το πλάτος και το ύψος του.

Ας το δείξουμε αυτό με το παράδειγμα ενός αυτοκινήτου.

ένα. Σε σχέση με την πρώτη σύμβαση, το πλαίσιο οριοθέτησης καθορίζεται σύμφωνα με τις συντεταγμένες του επάνω αριστερού και του κάτω δεξιού σημείου.

πηγή: AnalyticsVidhya

σι. Σε σχέση με τη δεύτερη σύμβαση, το πλαίσιο οριοθέτησης περιγράφεται σύμφωνα με τις κεντρικές συντεταγμένες, το πλάτος και το ύψος.

πηγή: AnalyticsVidhya

Ανάλογα με την περίπτωση χρήσης, είναι δυνατή η μετατροπή μεταξύ των διαφορετικών τύπων συμβάσεων.

Xc = (X1 + X2)/2
Yc = (Y1 + Y2)/2
Πλάτος = (X2 – X1)
Ύψος = (Y2 – Y1)

Οριοθέτηση πλαισίων που εξηγούνται με κώδικα προγραμματισμού

Ας δούμε ένα άλλο παράδειγμα σχετικά με τη θέση ή τη θέση ενός αντικειμένου με αποσπάσματα κώδικα.

πηγή: d2i

Φορτώνουμε την εικόνα που θα χρησιμοποιηθεί για αυτήν την απεικόνιση. Η εικόνα έχει έναν σκύλο στα αριστερά και μια γάτα στα δεξιά. Υπάρχουν δύο αντικείμενα – ένας σκύλος και μια γάτα στην εικόνα.

πηγή: d2i

Ας πάρουμε τα x και y ως συντεταγμένες για την επάνω αριστερή και την κάτω δεξιά γωνία του πλαισίου οριοθέτησης. Πείτε, (x1,y1) και (x2,y2). Ομοίως, ας εξετάσουμε τις συντεταγμένες (x,y) – άξονα για το κέντρο του οριοθετημένου πλαισίου, μαζί με το πλάτος και το ύψος του.

Στη συνέχεια, ορίζουμε δύο συναρτήσεις για τη μετατροπή αυτών των μορφών: το box_corner_to_center μετατρέπει την αναπαράσταση δύο γωνιών στην παράσταση ύψους κέντρου-πλάτους και το box_center_to_corner το κάνει αντίστροφα.

Τα πλαίσια ορισμάτων εισόδου πρέπει να είναι ένας δισδιάστατος τανυστής σχήματος (n,4), όπου n είναι ο αριθμός των οριοθετημένων πλαισίων.

πηγή: d2i

Στη συνέχεια, ας ορίσουμε τα πλαίσια οριοθέτησης του σκύλου και της γάτας στην εικόνα με βάση τα δεδομένα συντεταγμένων.

πηγή: d2i

Για να επαληθεύσουμε την ορθότητα των συναρτήσεων μετατροπής των δύο οριοθετημένων πλαισίων, μπορούμε να μετατρέψουμε δύο φορές.

πηγή: d2i

Στη συνέχεια, μπορούμε να σχεδιάσουμε τα πλαίσια οριοθέτησης των αντικειμένων στην εικόνα για να ελέγξουμε αν είναι ακριβή. Πριν από αυτό, ορίζουμε μια συνάρτηση bbox_t_rect που αντιπροσωπεύει το πλαίσιο οριοθέτησης στη σχετική μορφή του πακέτου matplotlib.

πηγή: d2i

Τώρα, αφού προσθέσουμε τα περιγράμματα των αντικειμένων σκύλου και γάτας στην εικόνα, βλέπουμε ότι το κύριο περίγραμμα αυτών των αντικειμένων βρίσκεται μέσα στα δύο κουτιά.

πηγή: d2i

Θέλετε να αυτοματοποιήσετε επαναλαμβανόμενες χειροκίνητες εργασίες; Ελέγξτε το λογισμικό επεξεργασίας εγγράφων που βασίζεται σε ροή εργασίας Nanonets. Εξάγετε δεδομένα από τιμολόγια, δελτία ταυτότητας ή οποιοδήποτε έγγραφο στον αυτόματο πιλότο!

Περιπτώσεις κοινής χρήσης οριοθέτησης κουτιών

Εντοπισμός αντικειμένων αυτοοδηγούμενων οχημάτων

Τα κιβώτια οριοθέτησης είναι αναπόσπαστα στην εκπαίδευση αυτοοδηγούμενων ή αυτόνομων οχημάτων για τον εντοπισμό αντικειμένων στο δρόμο όπως κτίρια, σήματα κυκλοφορίας, τυχόν εμπόδια και πολλά άλλα. Βοηθούν στον σχολιασμό τυχόν εμποδίων και επιτρέπουν στα ρομπότ να οδηγούν το όχημα με ασφάλεια και να αποτρέπουν ατυχήματα, ακόμη και σε περίπτωση συμφόρησης.

Εικόνες Ρομποτικής

Τεχνικές σχολιασμού εικόνας, όπως οριοθέτηση πλαισίων, χρησιμοποιούνται ευρέως για να επισημάνουν τις απόψεις των ρομπότ και των drones. Αυτά τα αυτόνομα οχήματα βοηθούν στην ταξινόμηση αντικειμένων στη γη χρησιμοποιώντας τις φωτογραφίες που λαμβάνονται από αυτήν τη μέθοδο σχολιασμού.

Προσθήκη ετικετών εικόνων για ηλεκτρονικό εμπόριο και λιανική

Οι σχολιασμοί πλαισίων οριοθέτησης συμβάλλουν στη βελτίωση της οπτικοποίησης του προϊόντος, κάτι που είναι ένα μεγάλο πλεονέκτημα στο ηλεκτρονικό εμπόριο και το λιανικό εμπόριο. Τα μοντέλα που εκπαιδεύονται σε παρόμοια αντικείμενα μπορούν να σχολιάσουν αντικείμενα όπως ρούχα μόδας, αξεσουάρ, έπιπλα, καλλυντικά κ.λπ., με μεγαλύτερη ακρίβεια όταν φέρουν την κατάλληλη ετικέτα. Παρακάτω είναι μερικές από τις προκλήσεις που αντιμετωπίζονται με τους σχολιασμούς πλαισίων οριοθέτησης στη λιανική:

Λανθασμένα αποτελέσματα αναζήτησης

Εάν η αναζήτηση είναι ο μόνος τρόπος με τον οποίο οι πελάτες μπορούν να σκοντάψουν στον ιστότοπο ηλεκτρονικού εμπορίου, τότε τα λανθασμένα δεδομένα καταλόγου μπορεί να οδηγήσουν σε ανακριβή αποτελέσματα αναζήτησης, με αποτέλεσμα να μην οδηγεί την επισκεψιμότητα των πελατών στον ιστότοπο.

Μη οργανωμένες Εφοδιαστικές Αλυσίδες

Για όσους επιθυμούν να επεκτείνουν τη λιανική τους επιχείρηση ώστε να μπορούν να αποστέλλονται εκατομμύρια προϊόντα ετησίως, καθίσταται επιτακτική ανάγκη να έχουν συγχρονισμένα τα δεδομένα εκτός σύνδεσης και τα διαδικτυακά.

Συνεχής Ψηφιοποίηση

Είναι σημαντικό όλα τα προϊόντα να ψηφιοποιούνται και να επισημαίνονται συστηματικά και έγκαιρα, ώστε να διασφαλίζεται ότι οι πελάτες δεν χάνουν καμία νέα ευκαιρία. Επιπλέον, οι ετικέτες πρέπει να βρίσκονται στο πλαίσιο, η τήρηση των οποίων γίνεται δύσκολη καθώς επεκτείνεται η επιχείρηση λιανικής και προστίθενται περισσότερα προϊόντα.

Εντοπίζει Απώλεια Αυτοκινήτου για Απαιτήσεις Ασφάλισης

Η τεχνική οριοθέτησης κουτιών βοηθά στην παρακολούθηση αυτοκινήτων, ποδηλάτων ή άλλων οχημάτων που έχουν υποστεί ζημιά σε ένα ατύχημα. Τα μοντέλα μηχανικής εκμάθησης χρησιμοποιούν αυτές τις εικόνες από οριοθετημένα πλαίσια για να κατανοήσουν τη θέση και την ένταση των απωλειών. Αυτό βοηθά στην πρόβλεψη του κόστους των ζημιών που προκύπτουν, βάσει του οποίου οι πελάτες μπορούν να παρουσιάσουν την εκτίμησή τους πριν υποβάλουν αγωγή.

πηγή: Υπερσχολιασμός

Ανίχνευση αντικειμένων εσωτερικού χώρου

Τα κουτιά οριοθέτησης βοηθούν τους υπολογιστές να εντοπίζουν αντικείμενα εσωτερικού χώρου όπως κρεβάτια, καναπέδες, γραφεία, ντουλάπια ή ηλεκτρικές συσκευές. Αυτό επιτρέπει στους υπολογιστές να αποκτήσουν μια αίσθηση του χώρου και των τύπων των αντικειμένων που υπάρχουν, με τις διαστάσεις και τη θέση τους. Αυτό, με τη σειρά του, βοηθά τα μοντέλα μηχανικής μάθησης στον εντοπισμό αυτών των στοιχείων σε μια πραγματική κατάσταση.

Τα πλαίσια οριοθέτησης χρησιμοποιούνται ευρέως στις φωτογραφίες ως εργαλείο βαθιάς εκμάθησης για την κατανόηση και την ερμηνεία διαφόρων ειδών αντικειμένων.

Αναγνώριση ασθενειών και ανάπτυξης φυτών στη γεωργία

Η έγκαιρη ανίχνευση ασθενειών των φυτών βοηθά τους αγρότες να αποτρέψουν σοβαρές απώλειες. Με την εμφάνιση της έξυπνης γεωργίας, η πρόκληση έγκειται στα δεδομένα εκπαίδευσης για τη διδασκαλία μοντέλων μηχανικής μάθησης για τον εντοπισμό ασθενειών των φυτών. Τα κουτιά οριοθέτησης είναι ένας σημαντικός οδηγός που παρέχει την απαραίτητη όραση στις μηχανές.

Βιομηχανία μεταποίησης

Η ανίχνευση αντικειμένων και η αναγνώριση αντικειμένων στις βιομηχανίες είναι μια ουσιαστική πτυχή της κατασκευής. Με ρομπότ και υπολογιστές με δυνατότητα AI, ο ρόλος της χειροκίνητης παρέμβασης μειώνεται. Τούτου λεχθέντος, τα κουτιά οριοθέτησης διαδραματίζουν κρίσιμο ρόλο βοηθώντας στην εκπαίδευση των μοντέλων μηχανικής εκμάθησης για τον εντοπισμό και τον εντοπισμό βιομηχανικών εξαρτημάτων. Επιπλέον, διαδικασίες όπως ο ποιοτικός έλεγχος, η διαλογή και οι λειτουργίες γραμμής συναρμολόγησης, που αποτελούν μέρος της διαχείρισης ποιότητας, χρειάζονται ανίχνευση αντικειμένων.

Ιατρική απεικόνιση

Τα κουτιά οριοθέτησης βρίσκουν επίσης εφαρμογές στη βιομηχανία υγειονομικής περίθαλψης, όπως στην ιατρική απεικόνιση. Η τεχνική της ιατρικής απεικόνισης ασχολείται με την ανίχνευση ανατομικών αντικειμένων όπως η καρδιά και απαιτεί γρήγορη και ακριβή ανάλυση. Τα πλαίσια οριοθέτησης μπορούν να χρησιμοποιηθούν για την εκπαίδευση των μοντέλων μηχανικής μάθησης, τα οποία στη συνέχεια θα μπορούν να ανιχνεύουν την καρδιά ή άλλα όργανα γρήγορα και με ακρίβεια.

Αυτοματοποιημένα CCTV

Τα αυτοματοποιημένα CCTV αποτελούν εντολή στα περισσότερα οικιστικά, εμπορικά και άλλα καταστήματα. Συχνά, απαιτείται υψηλή αποθήκευση μνήμης για να διατηρηθεί το τραβηγμένο βίντεο CCTV για μεγάλο χρονικό διάστημα. Με τεχνικές ανίχνευσης αντικειμένων, όπως οριοθέτηση κουτιών, μπορεί να διασφαλιστεί ότι το υλικό καταγράφεται μόνο όταν εντοπιστούν ορισμένα αντικείμενα. Τα οριοθετημένα κουτιά μπορούν να εκπαιδεύσουν τα μοντέλα μηχανικής μάθησης, τα οποία θα ανιχνεύουν μόνο αυτά τα αντικείμενα και, εκείνη τη στιγμή, το υλικό μπορεί να καταγραφεί. Αυτό θα βοηθούσε επίσης στην ελαχιστοποίηση της έκτασης της αποθήκευσης που απαιτείται για το CCTV και στη μείωση του κόστους.

Αναγνώριση και ανίχνευση προσώπου

Η αναγνώριση προσώπου προσφέρει πολλαπλές εφαρμογές, όπως χρησιμοποιείται στη βιομετρική επιτήρηση. Επιπλέον, διάφορες υπηρεσίες όπως τράπεζες, αεροδρόμια, καταστήματα λιανικής, γήπεδα και άλλα ιδρύματα χρησιμοποιούν την αναγνώριση προσώπου για την πρόληψη εγκλημάτων και βίας. Τούτου λεχθέντος, η ανίχνευση προσώπου είναι ένα σημαντικό στοιχείο της όρασης υπολογιστή που περιλαμβάνει την επεξεργασία εικόνας. Και εδώ πάλι, τα πλαίσια οριοθέτησης μπορούν να χρησιμοποιηθούν ως αποτελεσματικό εργαλείο για την αναγνώριση χαρακτήρων.

Θέλετε να χρησιμοποιήσετε ρομποτική αυτοματοποίηση διεργασιών; Ρίξτε μια ματιά στο λογισμικό επεξεργασίας εγγράφων που βασίζεται σε ροή εργασίας Nanonets. Χωρίς κωδικό. Χωρίς πλατφόρμα ταλαιπωρίας.

Οριοθέτηση πλαισίων για αναγνώριση χαρακτήρων

Η ανίχνευση αντικειμένων περιλαμβάνει – ταξινόμηση εικόνας και εντοπισμό αντικειμένων. Αυτό σημαίνει ότι για να ανιχνεύσει ένας υπολογιστής ένα αντικείμενο, πρέπει να γνωρίζει ποιο είναι το εν λόγω αντικείμενο και πού βρίσκεται. Η ταξινόμηση εικόνας εκχωρεί μια ετικέτα κλάσης σε μια εικόνα. Ο εντοπισμός αντικειμένου σχετίζεται με τη σχεδίαση του πλαισίου οριοθέτησης γύρω από το εν λόγω αντικείμενο σε μια εικόνα.

Η διαδικασία περιλαμβάνει έναν σχολιαστή που σχεδιάζει τα πλαίσια οριοθέτησης γύρω από τα αντικείμενα και τα επισημαίνει. Αυτό βοηθά στην εκπαίδευση του αλγόριθμου και του επιτρέπει να κατανοήσει πώς μοιάζει το αντικείμενο. Ως πρώτο βήμα για τον εντοπισμό αντικειμένων, το σύνολο δεδομένων εικόνας πρέπει να έχει ετικέτες.

Για να προσθέσετε ετικέτα σε μια εικόνα, ακολουθήστε τα παρακάτω βήματα:

Επιλέξτε το σύνολο δεδομένων που θέλετε να εκπαιδεύσετε και δοκιμάστε. Κάντε ένα φάκελο με αυτό.
Ας πάρουμε το παράδειγμα ενός έργου ανίχνευσης προσώπου όπως: BTS, Avenger, κ.λπ.
Δημιουργία δεδομένων ονόματος φακέλου.
Στο Google Drive, δημιουργήστε έναν φάκελο με το όνομα FaceDetection.
Στο φάκελο FaceDetection, δημιουργήστε έναν φάκελο της εικόνας.
Στο φάκελο εικόνων, δημιουργήστε φακέλους της δοκιμαστικής εικόνας, δοκιμάστε το XML, εκπαιδεύστε την εικόνα και εκπαιδεύστε το XML.

πηγή:ινδουσμικός

Τώρα, στο φάκελο εικόνων τρένου, κατεβάστε και ανεβάστε 10-15 εικόνες BTS και Avengers σε μορφή JPEG. Ομοίως, στον φάκελο δοκιμαστικής εικόνας, κάντε το ίδιο για 5-6 εικόνες. Συνιστάται να έχετε περισσότερες εικόνες στο σύνολο δεδομένων για ακριβή αποτελέσματα.

πηγή: ινδουσμικός

Στη συνέχεια, δημιουργήστε ένα αρχείο XML για κάθε εικόνα της δοκιμαστικής εικόνας και εκπαιδεύστε τους φακέλους εικόνων

Κάντε λήψη και κάντε κλικ στα windows v_1.8.0. Κάντε κλικ στο αρχείο .exe από το GitHub και πατήστε Εκτέλεση.

Στη συνέχεια, κάντε κλικ στον ανοιχτό κατάλογο για να επιλέξετε το φάκελο της εικόνας. Θα δείτε την εικόνα που πρέπει να επισημανθεί. Για να προσθέσετε ετικέτα, πατήστε το W στο πληκτρολόγιο και κάντε δεξί κλικ και σύρετε τον κέρσορα για να σχεδιάσετε το πλαίσιο γύρω από το αντικείμενο. Δώστε του ένα όνομα και κάντε κλικ στο OK.

πηγή: ινδουσμικός

Στη συνέχεια, αποθηκεύστε την εικόνα για να δημιουργήσετε το αρχείο XML της εικόνας στο φάκελο εικόνων, όπως φαίνεται παρακάτω.

πηγή: ινδουσμικός

Ανοίξτε το αρχείο XML για να δείτε τις συντεταγμένες.

πηγή: ινδουσμικός

Επαναλάβετε τη διαδικασία για όλες τις εικόνες για τη δημιουργία των αρχείων XML και αναζητήστε τις συντεταγμένες.

Εάν εργάζεστε με τιμολόγια και αποδείξεις ή ανησυχείτε για την επαλήθευση ταυτότητας, ρίξτε μια ματιά στο Nanonets online OCR or Εξαγωγή κειμένου PDF για εξαγωγή κειμένου από έγγραφα PDF δωρεάν. Κάντε κλικ παρακάτω για να μάθετε περισσότερα Nanonets Enterprise Automation Solution.

Διάφορες μορφές σχολιασμού που χρησιμοποιούνται στα πλαίσια οριοθέτησης

Ουσιαστικά, ένα πλαίσιο οριοθέτησης έχει 4 σημεία σε άξονες (x,y) που αντιπροσωπεύουν τις γωνίες:

Επάνω αριστερά : (x_min, y_min)

Επάνω δεξιά: (x_max, y_min)

Κάτω αριστερά: (x_min, y_max)

Κάτω δεξιά: (x_max, y_max)

Οι συντεταγμένες του πλαισίου οριοθέτησης υπολογίζονται σε σχέση με την επάνω αριστερή γωνία της εικόνας.

Υπάρχουν πολλές μορφές σχολιασμού οριοθέτησης, καθεμία από τις οποίες χρησιμοποιεί τη δική της αναπαράσταση των συντεταγμένων του πλαισίου οριοθέτησης.

ένα. Λεύκωμα

Χρησιμοποιούν τέσσερις τιμές για να αναπαραστήσουν το πλαίσιο οριοθέτησης – [x_min, y_min, x_max, y_max] – οι οποίες κανονικοποιούνται διαιρώντας τις συντεταγμένες σε pixel για τον άξονα x με το πλάτος και τον άξονα y με το ύψος της εικόνας.

Ας υποθέσουμε ότι οι συντεταγμένες του πλαισίου οριοθέτησης είναι: x1 = 678, y1 = 24; x2 = 543, y2 = 213.

Έστω πλάτος = 870, Ύψος = 789

Στη συνέχεια, [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Το Albumentations χρησιμοποιεί και ερμηνεύει αυτές τις τιμές εσωτερικά με πλαίσια οριοθέτησης και τις βελτιώνει.

σι. ΚΑΚΑΟ

Αυτή είναι μια μορφή που χρησιμοποιείται από το σύνολο δεδομένων COCO Common Objects in Context. Σε μορφή COCO, ένα πλαίσιο οριοθέτησης αντιπροσωπεύεται από τέσσερις τιμές: (x_min, y_min, πλάτος, ύψος). Ουσιαστικά αναφέρονται στην επάνω αριστερή γωνία και στο πλάτος και το ύψος του πλαισίου οριοθέτησης.

ντο. ΖΕΙΣ ΜΟΝΟ ΜΙΑ ΦΟΡΑ

Σε αυτή τη μορφή, παρουσιάζεται ένα πλαίσιο οριοθέτησης με τέσσερις τιμές: (x_center, y_center, width, height). Εδώ, το x_center και το y_center δηλώνουν τις κανονικοποιημένες συντεταγμένες x και y του κέντρου του πλαισίου οριοθέτησης. Για κανονικοποίηση, η συντεταγμένη x του κέντρου κατά το πλάτος της εικόνας και η συντεταγμένη y του κέντρου κατά το ύψος της εικόνας. Οι τιμές του πλάτους και του ύψους κανονικοποιούνται επίσης.

ρε. ΠΑΣΚΑΛ

Στη μορφή Pascal, το πλαίσιο οριοθέτησης αντιπροσωπεύεται από τις συντεταγμένες πάνω αριστερά και κάτω δεξιά. Έτσι, οι τιμές που κωδικοποιούνται σε pixel είναι: [x_min, y_min, x_max, y_max]. Εδώ, το [x_min, y_min] είναι αυτό της επάνω αριστερής γωνίας, ενώ το [x_max, y_max] υποδηλώνει την κάτω δεξιά γωνία του πλαισίου οριοθέτησης.

Θέλετε να αυτοματοποιήσετε επαναλαμβανόμενες χειροκίνητες εργασίες; Εξοικονομήστε χρόνο, κόπο και χρήματα ενώ ενισχύετε την αποτελεσματικότητα!

Προφυλάξεις και βέλτιστες πρακτικές για τη χρήση πλαισίων οριοθέτησης

Συνιστώνται ορισμένες προφυλάξεις και βέλτιστες πρακτικές για τη βέλτιστη χρήση των πλαισίων οριοθέτησης στην επεξεργασία εικόνας. Περιλαμβάνουν:

Παραλλαγές μεγέθους κουτιού

Η χρήση όλων των πλαισίων οριοθέτησης του ίδιου μεγέθους δεν θα δώσει ακριβή αποτελέσματα. Η εκπαίδευση των μοντέλων σας σε κουτιά οριοθέτησης των ίδιων μεγεθών θα χειροτέρευε την απόδοση του μοντέλου. Για παράδειγμα, εάν το ίδιο αντικείμενο φαίνεται μικρότερο σε μέγεθος, το μοντέλο μπορεί να μην το εντοπίσει. Στην περίπτωση αντικειμένων που εμφανίζονται μεγαλύτερα από το αναμενόμενο, μπορεί να καταλαμβάνει μεγαλύτερο αριθμό pixel και να μην παρέχει την ακριβή θέση και θέση του αντικειμένου. Η ουσία είναι να έχετε κατά νου τη διακύμανση στο μέγεθος και τον όγκο του αντικειμένου για να επιτύχετε τα επιθυμητά αποτελέσματα.

Pixel-Τέλεια στεγανότητα

Το σφίξιμο είναι ένας κρίσιμος παράγοντας. Αυτό σημαίνει ότι οι άκρες του πλαισίου οριοθέτησης πρέπει να είναι όσο το δυνατόν πιο κοντά στο εν λόγω αντικείμενο για ακριβή αποτελέσματα. Συνεπή κενά μπορεί να επηρεάσουν την ακρίβεια στον προσδιορισμό της περιοχής επικάλυψης μεταξύ της πρόβλεψης του μοντέλου και του πραγματικού αντικειμένου, δημιουργώντας έτσι προβλήματα.

Διαγώνια αντικείμενα που τοποθετούνται σε οριοθετημένα κουτιά

Το πρόβλημα που αντιμετωπίζουν τα αντικείμενα που τοποθετούνται διαγώνια μέσα σε ένα πλαίσιο οριοθέτησης είναι ότι καταλαμβάνουν πολύ λιγότερο χώρο μέσα στο κουτί σε σύγκριση με το φόντο. Ωστόσο, εάν εκτεθεί περισσότερο, το μοντέλο μπορεί να υποθέσει ότι ο στόχος είναι το φόντο, καθώς αυτό καταναλώνει περισσότερο χώρο. Επομένως, ως βέλτιστη πρακτική, συνιστάται η χρήση πολυγώνων και τμηματοποίησης παρουσιών για διαγώνια αντικείμενα. Ωστόσο, είναι δυνατό να διδαχθούν τα μοντέλα με ένα πλαίσιο οριοθέτησης με έναν καλό όγκο δεδομένων εκπαίδευσης.

Μειώστε την επικάλυψη πλαισίου

Είναι πάντα ασφαλές να αποφεύγονται οι επικαλύψεις σχολιασμών σε όλα τα σενάρια. Μερικές φορές, αυτό μπορεί να προκαλέσει τόση ακαταστασία που μόνο ορισμένα επικαλυπτόμενα κουτιά μπορεί τελικά να είναι ορατά. Τα αντικείμενα που έχουν επικάλυψη επισήμανσης με άλλες οντότητες παράγουν σχετικά χειρότερα αποτελέσματα. Το μοντέλο θα αποτύχει να κάνει διαφοροποίηση μεταξύ του αντικειμένου στόχου και άλλων στοιχείων λόγω υπερβολικής επικάλυψης. Σε τέτοιες περιπτώσεις, τα πολύγωνα μπορούν να χρησιμοποιηθούν για μεγαλύτερη ακρίβεια.

Συμπέρασμα

Η επεξεργασία εικόνας είναι μια αναδυόμενη σφαίρα τεχνολογίας που προσφέρει ευρύ φάσμα. Τούτου λεχθέντος, τα πλαίσια οριοθέτησης αποτελούν την πιο συχνά εφαρμοζόμενη τεχνική επεξεργασίας εικόνας.

Συνοψίζοντας, τα πλαίσια οριοθέτησης είναι μια μέθοδος σχολιασμού εικόνας για την εκπαίδευση μοντέλων μηχανικής εκμάθησης που βασίζονται σε τεχνητή νοημοσύνη. Χρησιμοποιείται για την ανίχνευση αντικειμένων και την αναγνώριση στόχων σε ένα ευρύ φάσμα εφαρμογών, συμπεριλαμβανομένων των ρομπότ, των drones, των αυτόνομων οχημάτων, των καμερών παρακολούθησης και άλλων συσκευών μηχανικής όρασης.

Προτεινόμενοι πόροι:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1

Νανοδίκτυα διαδικτυακό OCR & OCR API έχουν πολλά ενδιαφέροντα περιπτώσεις χρήσης tΤο καπέλο θα μπορούσε να βελτιστοποιήσει την απόδοση της επιχείρησής σας, να εξοικονομήσει κόστος και να αυξήσει την ανάπτυξη. Βρίσκω πώς μπορούν να εφαρμοστούν οι περιπτώσεις χρήσης Nanonets στο προϊόν σας.

Σφραγίδα ώρας: Αύγουστος 25, 2022Αύγουστος 25, 2022

Σφραγίδα ώρας: 22 Σεπτεμβρίου 2023

Κουτιά επεξεργασίας εικόνας και οριοθέτησης για OCR

Αναδημοσίευση από τον Πλάτωνα

Οριοθέτηση πλαισίων στην επεξεργασία εικόνας

Τι είναι τα Bounding Boxes;

Πώς λειτουργούν τα Bounding Boxes στην επεξεργασία εικόνας;

Παράμετροι που ορίζουν ένα πλαίσιο οριοθέτησης

Συμβάσεις που καθορίζουν ένα πλαίσιο οριοθέτησης

Οριοθέτηση πλαισίων που εξηγούνται με κώδικα προγραμματισμού

Περιπτώσεις κοινής χρήσης οριοθέτησης κουτιών

Οριοθέτηση πλαισίων για αναγνώριση χαρακτήρων

Διάφορες μορφές σχολιασμού που χρησιμοποιούνται στα πλαίσια οριοθέτησης

Προφυλάξεις και βέλτιστες πρακτικές για τη χρήση πλαισίων οριοθέτησης

Συμπέρασμα

Προτεινόμενοι πόροι:

Περισσότερα από AI και μηχανική μάθηση

Παραγγελία πωλήσεων έναντι τιμολογίου: Βασικές διαφορές, ρόλος και τύποι

Το κορυφαίο 5 λογισμικό διαχείρισης τιμολογίων το 2023

Συμμόρφωση RPA: Όλα όσα πρέπει να γνωρίζετε για τον αυτοματισμό ρομποτικής διαδικασίας σε συμμόρφωση

Τι είναι ο αυτοματισμός εσωτερικής εγκατάστασης; | Ένας ολοκληρωμένος οδηγός

Απεικόνιση τιμολογίου: Πώς μπορεί να αυτοματοποιήσει τη διαδικασία AP σας

Πώς μπορεί το AP Automation να βοηθήσει στην κλιμάκωση της επιχείρησής σας;

Βελτιστοποίηση Επιχειρηματικών Διαδικασιών – Οδηγός 2022

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός

Οριοθέτηση πλαισίων στην επεξεργασία εικόνας

Τι είναι τα Bounding Boxes;

Πώς λειτουργούν τα Bounding Boxes στην επεξεργασία εικόνας;

Παράμετροι που ορίζουν ένα πλαίσιο οριοθέτησης

Συμβάσεις που καθορίζουν ένα πλαίσιο οριοθέτησης

Πώς σχετίζονται οι Συμβάσεις;

Οριοθέτηση πλαισίων που εξηγούνται με κώδικα προγραμματισμού

Περιπτώσεις κοινής χρήσης οριοθέτησης κουτιών

Οριοθέτηση πλαισίων για αναγνώριση χαρακτήρων

Διάφορες μορφές σχολιασμού που χρησιμοποιούνται στα πλαίσια οριοθέτησης

Προφυλάξεις και βέλτιστες πρακτικές για τη χρήση πλαισίων οριοθέτησης

Συμπέρασμα

Προτεινόμενοι πόροι:

Περισσότερα από AI και μηχανική μάθηση

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός