Ερευνητές στο IIIT Allahabad προτείνουν T2CI GAN: Ένα μοντέλο βαθιάς μάθησης που δημιουργεί συμπιεσμένες εικόνες από κείμενο

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Τα τελευταία χρόνια, η δημιουργία περιγραφών κειμένου για οπτικά δεδομένα έχει γίνει ένα συναρπαστικό ερευνητικό ζήτημα. Ωστόσο, η δήλωση προβλήματος για την παραγωγή οπτικών δεδομένων από γραπτές περιγραφές εξακολουθεί να είναι πολύ πιο δύσκολη επειδή απαιτεί τη συγχώνευση τεχνικών Επεξεργασίας Φυσικής Γλώσσας και Τεχνικής Όρασης Υπολογιστή. Οι διαθέσιμες τεχνικές δημιουργούν ασυμπίεστες εικόνες από περιγραφές κειμένου χρησιμοποιώντας Generative Adversarial Networks (GAN). Τα Generative Adversarial Networks είναι ένας τύπος πλαισίου μηχανικής μάθησης που μπορεί να παράγει κείμενα, φωτογραφίες, βίντεο και ηχογραφήσεις φωνής. Προηγουμένως, τα GAN είχαν χρησιμοποιηθεί με επιτυχία για την παραγωγή συνόλων δεδομένων εικόνων για άλλους αλγόριθμους βαθιάς μάθησης για εκπαίδευση, για παραγωγή ταινιών ή κινούμενων εικόνων για συγκεκριμένους σκοπούς και για την παραγωγή κατάλληλων λεζάντων για φωτογραφίες.

Στην πραγματικότητα, οι περισσότερες οπτικές εισροές επεξεργάζονται και μεταδίδονται σε συμπιεσμένη μορφή. Προκειμένου να επιτευχθεί αποθήκευση και υπολογιστική αποτελεσματικότητα, η προτεινόμενη εργασία καταβάλλει μια προσπάθεια άμεσης παραγωγής οπτικών δεδομένων σε μορφή συμπιεσμένης αναπαράστασης χρησιμοποιώντας Deep Convolutional GANs (DCGANs). Ένα νέο μοντέλο που βασίζεται στο GAN, το T2CI-GAN, δημιουργήθηκε πρόσφατα από ερευνητές από το Computer Vision and Biometrics Lab του IIIT Allahabad και το Πανεπιστήμιο Vignan στην Ινδία, το οποίο μπορεί να παράγει συμπιεσμένες εικόνες από περιγραφές που βασίζονται σε κείμενο. Αυτή η προσέγγιση μπορεί να χρησιμεύσει ως αφετηρία για τη διερεύνηση πολλών επιλογών αποθήκευσης εικόνων και κοινής χρήσης περιεχομένου μεταξύ διαφόρων έξυπνων συσκευών.

Σε παλαιότερες εργασίες, οι ερευνητές χρησιμοποίησαν GAN και άλλα μοντέλα βαθιάς μάθησης για να χειριστούν διάφορες εργασίες, όπως εξαγωγή χαρακτηριστικών από δεδομένα, τμηματοποίηση δεδομένων κειμένου και εικόνας, ανίχνευση λέξεων σε μεγάλα αποσπάσματα κειμένου και δημιουργία συμπιεσμένων εικόνων JPEG. Αυτό το νέο μοντέλο επεκτείνεται σε αυτές τις προηγούμενες πρωτοβουλίες για την αντιμετώπιση ενός υπολογιστικού ζητήματος που μέχρι στιγμής έχει λάβει ελάχιστη προσοχή στη βιβλιογραφία. Μόνο μερικές τεχνικές βασισμένες σε βαθιά μάθηση που χρησιμοποιούνται από άλλες ερευνητικές ομάδες για τη δημιουργία εικόνων από περιγραφές κειμένου παράγουν συμπιεσμένες εικόνες. Επιπλέον, τα περισσότερα υπάρχοντα συστήματα για την παραγωγή και τη συμπίεση εικόνων προσεγγίζουν το πρόβλημα να το κάνουν ανεξάρτητα, γεγονός που αυξάνει τον φόρτο εργασίας του χρόνου υπολογισμού και επεξεργασίας.

Το προτεινόμενο T2CI-GAN είναι ένα μοντέλο βασισμένο σε βαθιά μάθηση που εξάγει συμπιεσμένες οπτικές εικόνες από περιγραφές κειμένου ως είσοδο. Αυτή είναι μια σημαντική απόκλιση από τις παραδοσιακές προσεγγίσεις που δημιουργούν οπτικές αναπαραστάσεις από περιγραφές κειμένου και συμπιέζουν περαιτέρω αυτές τις εικόνες. Το κύριο χαρακτηριστικό πώλησης του μοντέλου είναι η ικανότητά του να αντιστοιχίζει περιγραφές κειμένου και να δημιουργεί απευθείας συμπιεσμένες εικόνες.

Η ερευνητική ομάδα δημιούργησε δύο μοντέλα που βασίζονται σε GAN για την παραγωγή συμπιεσμένων εικόνων από περιγραφές κειμένου. Ένα σύνολο δεδομένων συμπιεσμένων εικόνων JPEG DCT (διακεκριμένος μετασχηματισμός συνημιτόνου) χρησιμοποιήθηκε για την εκπαίδευση του πρώτου από αυτά τα μοντέλα. Μετά την εκπαίδευση, αυτό το μοντέλο θα μπορούσε να παράγει συμπιεσμένες εικόνες από περιγραφές κειμένου. Από την άλλη πλευρά, ένα σύνολο φωτογραφιών RGB χρησιμοποιήθηκε για την εκπαίδευση του δεύτερου μοντέλου των ερευνητών που βασίζεται στο GAN. Αυτό το μοντέλο ανέπτυξε την ικανότητα να παράγει συμπιεσμένες με JPEG αναπαραστάσεις DCT εικόνων, οι οποίες εκφράζουν ρητά μια σειρά σημείων δεδομένων ως εξίσωση. Τα προτεινόμενα μοντέλα αξιολογήθηκαν χρησιμοποιώντας τόσο τις συμπιεσμένες εκδόσεις RGB όσο και JPEG του γνωστού συνόλου δεδομένων αναφοράς ανοιχτού κώδικα Oxford-102 Flower. Στον τομέα συμπιεσμένο με JPEG, το μοντέλο πέτυχε εξαιρετικά ενθαρρυντικές επιδόσεις αιχμής.

Όταν οι παρεχόμενες φωτογραφίες προορίζονται για εύκολη κοινή χρήση με smartphone ή άλλες έξυπνες συσκευές, το μοντέλο T2CI-GAN μπορεί να χρησιμοποιηθεί για τη βελτίωση των αυτοματοποιημένων συστημάτων ανάκτησης εικόνων. Επιπλέον, μπορεί να είναι ένα πολύτιμο εργαλείο για τους ειδικούς των μέσων ενημέρωσης και των επικοινωνιών, δίνοντάς τους τη δυνατότητα να βρίσκουν ελαφρύτερες εκδόσεις συγκεκριμένων φωτογραφιών για ανάρτηση στο διαδίκτυο.

Λόγω των πρόσφατων τεχνολογικών εξελίξεων, ο κόσμος μας οδεύει προς τις συνδέσεις μηχανής με μηχανή και ανθρώπου με μηχανή. Το T2CI-GAN θα είναι κρίσιμο σε αυτήν την περίπτωση, επειδή οι μηχανές χρειάζονται γεγονότα σε συμπιεσμένη μορφή για να τα διαβάσουν ή να τα κατανοήσουν. Το μοντέλο προς το παρόν δημιουργεί μόνο φωτογραφίες σε συμπιεσμένη μορφή JPEG. Έτσι, ο μακροπρόθεσμος στόχος των ερευνητών είναι να το επεκτείνουν ώστε να παράγουν εικόνες σε οποιαδήποτε συμπιεσμένη μορφή χωρίς περιορισμό στον αλγόριθμο συμπίεσης. Μετά τη δημοσίευση του ερευνητικού άρθρου της ομάδας, ο πηγαίος κώδικας του μοντέλου θα είναι επίσης διαθέσιμος στο ευρύ κοινό.

Αυτό το άρθρο είναι γραμμένο ως ένα ερευνητικό συνοπτικό άρθρο από το Marktechpost Staff με βάση την ερευνητική εργασία "T2CI-GAN: Δημιουργία κειμένου σε συμπιεσμένη εικόνα με χρήση του Generative Adversarial Network'. Όλη η πίστωση για αυτήν την έρευνα πηγαίνει στους ερευνητές αυτού του έργου. Ελέγξτε το χαρτί και  άρθρο αναφοράς.

Παρακαλώ μην ξεχάσετε να εγγραφείτε Το ML Subreddit μας

Ο Khushboo Gupta είναι συμβουλευτικός ασκούμενος στην MarktechPost. Αυτήν τη στιγμή παρακολουθεί το B.Tech της από το Indian Institute of Technology (IIT), Goa. Είναι παθιασμένη με τους τομείς της Μηχανικής Μάθησης, της Επεξεργασίας Φυσικής Γλώσσας και της Ανάπτυξης Ιστού. Της αρέσει να μαθαίνει περισσότερα για τον τεχνικό τομέα συμμετέχοντας σε πολλές προκλήσεις.

Si al principi no tens èxit, aleshores el paracaigudisme no és per a tu.

Σφραγίδα ώρας: Οκτώβριος 29, 2022Οκτώβριος 31, 2022