นักวิจัยที่ IIIT Allahabad เสนอ T2CI GAN: โมเดลการเรียนรู้เชิงลึกที่สร้างภาพที่บีบอัดจากข้อความ

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในช่วงไม่กี่ปีที่ผ่านมา การสร้างคำอธิบายที่เป็นข้อความสำหรับข้อมูลภาพกลายเป็นประเด็นการวิจัยที่น่าสนใจ อย่างไรก็ตาม คำชี้แจงปัญหาในการสร้างข้อมูลภาพจากคำอธิบายที่เป็นลายลักษณ์อักษรยังคงยากกว่ามาก เนื่องจากต้องใช้การผสมผสานระหว่างเทคนิคการประมวลผลภาษาธรรมชาติและคอมพิวเตอร์วิทัศน์ เทคนิคที่มีอยู่จะสร้างรูปภาพที่ไม่มีการบีบอัดจากคำอธิบายที่เป็นข้อความโดยใช้ Generative Adversarial Networks (GAN) Generative Adversarial Networks เป็นเฟรมเวิร์กแมชชีนเลิร์นนิงประเภทหนึ่งที่สามารถสร้างข้อความ รูปภาพ วิดีโอ และการบันทึกเสียงได้ ก่อนหน้านี้ GAN ถูกนำมาใช้อย่างประสบความสำเร็จในการสร้างชุดข้อมูลรูปภาพสำหรับอัลกอริธึมการเรียนรู้เชิงลึกอื่นๆ เพื่อฝึกฝน เพื่อสร้างภาพยนตร์หรือแอนิเมชั่นเพื่อวัตถุประสงค์เฉพาะ และเพื่อสร้างคำบรรยายที่เหมาะสมสำหรับภาพถ่าย

ในความเป็นจริง ข้อมูลภาพส่วนใหญ่จะถูกประมวลผลและส่งในรูปแบบที่บีบอัด เพื่อให้บรรลุถึงประสิทธิภาพในการจัดเก็บข้อมูลและการคำนวณ งานที่แนะนำคือความพยายามในการสร้างข้อมูลภาพโดยตรงในรูปแบบการนำเสนอที่ถูกบีบอัดโดยใช้ Deep Convolutional GAN (DCGAN) โมเดลที่ใช้ GAN ใหม่ T2CI-GAN เพิ่งถูกสร้างขึ้นโดยนักวิจัยจาก Computer Vision และ Biometrics Lab ของ IIIT Allahabad และ Vignan University ในอินเดีย ซึ่งสามารถสร้างภาพบีบอัดจากคำอธิบายแบบข้อความได้ วิธีการนี้อาจใช้เป็นจุดเริ่มต้นในการตรวจสอบตัวเลือกต่างๆ สำหรับการจัดเก็บรูปภาพและการแบ่งปันเนื้อหาระหว่างอุปกรณ์อัจฉริยะต่างๆ

ในงานก่อนหน้านี้ นักวิจัยใช้ GAN และโมเดลการเรียนรู้เชิงลึกอื่นๆ ในการจัดการงานต่างๆ เช่น การแยกคุณสมบัติจากข้อมูล การแบ่งส่วนข้อมูลข้อความและรูปภาพ การตรวจจับคำในการแยกข้อความที่มีความยาว และการสร้างภาพ JPEG ที่บีบอัด โมเดลใหม่นี้ขยายขอบเขตความคิดริเริ่มก่อนหน้านี้เพื่อจัดการกับปัญหาด้านการคำนวณที่ยังไม่ได้รับความสนใจในวรรณกรรมจนถึงตอนนี้ เทคนิคการเรียนรู้เชิงลึกเพียงไม่กี่เทคนิคที่ทีมวิจัยอื่นใช้เพื่อสร้างภาพจากคำอธิบายข้อความจะสร้างภาพที่ถูกบีบอัด นอกจากนี้ ระบบที่มีอยู่ส่วนใหญ่สำหรับการผลิตและการบีบอัดภาพยังประสบปัญหาในการดำเนินการดังกล่าวอย่างเป็นอิสระ ซึ่งเพิ่มภาระงานในการประมวลผลและเวลาในการประมวลผล

T2CI-GAN ที่แนะนำคือโมเดลการเรียนรู้เชิงลึกที่ส่งออกภาพที่บีบอัดจากคำอธิบายข้อความเป็นอินพุต นี่เป็นการแตกต่างอย่างมีนัยสำคัญจากแนวทางดั้งเดิมที่สร้างการแสดงภาพจากคำอธิบายข้อความ และบีบอัดรูปภาพเหล่านั้นเพิ่มเติม คุณลักษณะการขายหลักของโมเดลคือความสามารถในการจับคู่คำอธิบายข้อความและสร้างภาพที่บีบอัดได้โดยตรง

ทีมวิจัยได้สร้างแบบจำลองที่ใช้ GAN สองแบบจำลองเพื่อสร้างภาพที่บีบอัดจากคำอธิบายข้อความ ชุดข้อมูลของรูปภาพ JPEG DCT (การแปลงโคไซน์แบบไม่ต่อเนื่อง) ที่ถูกบีบอัดถูกนำมาใช้ในการฝึกโมเดลแรกเหล่านี้ หลังจากการฝึกอบรม โมเดลนี้สามารถสร้างภาพที่บีบอัดจากคำอธิบายข้อความได้ ในทางกลับกัน ชุดภาพถ่าย RGB ถูกใช้เพื่อฝึกแบบจำลอง GAN ตัวที่สองของผู้วิจัย แบบจำลองนี้พัฒนาความสามารถในการสร้างการแสดงภาพ DCT ที่บีบอัดด้วย JPEG ซึ่งแสดงจุดข้อมูลเป็นสมการอย่างชัดเจน โมเดลที่แนะนำได้รับการประเมินโดยใช้ทั้งเวอร์ชันบีบอัด RGB และ JPEG ของชุดข้อมูลมาตรฐานโอเพ่นซอร์สที่รู้จักกันดี รูปภาพ Oxford-102 Flower ในโดเมนที่บีบอัด JPEG โมเดลดังกล่าวได้รับประสิทธิภาพการทำงานที่ล้ำสมัยอย่างมาก

เมื่อภาพถ่ายที่ให้มามีจุดประสงค์เพื่อให้สามารถแชร์กับสมาร์ทโฟนหรืออุปกรณ์อัจฉริยะอื่นๆ ได้อย่างง่ายดาย รุ่น T2CI-GAN อาจถูกนำมาใช้เพื่อปรับปรุงระบบดึงภาพอัตโนมัติ นอกจากนี้ ยังเป็นเครื่องมืออันมีค่าสำหรับผู้เชี่ยวชาญด้านสื่อและการสื่อสาร ช่วยให้พวกเขาค้นหารูปถ่ายเฉพาะรุ่นที่มีสีจางลงเพื่อโพสต์ทางออนไลน์ได้

เนื่องจากความก้าวหน้าทางเทคโนโลยีล่าสุด โลกของเรากำลังมุ่งหน้าสู่การเชื่อมต่อระหว่างเครื่องจักรกับเครื่องจักรและการเชื่อมต่อระหว่างมนุษย์กับเครื่องจักร T2CI-GAN จะมีความสำคัญอย่างยิ่งในสถานการณ์นี้ เนื่องจากเครื่องจักรต้องการข้อเท็จจริงในรูปแบบบีบอัดเพื่อที่จะอ่านหรือทำความเข้าใจได้ ปัจจุบันโมเดลนี้สร้างเฉพาะภาพถ่ายในรูปแบบบีบอัด JPEG เท่านั้น ดังนั้นเป้าหมายระยะยาวของนักวิจัยคือการขยายเพื่อสร้างภาพในรูปแบบการบีบอัดโดยไม่มีข้อจำกัดในอัลกอริธึมการบีบอัด หลังจากที่บทความวิจัยของทีมได้รับการตีพิมพ์แล้ว ซอร์สโค้ดของแบบจำลองจะเผยแพร่ต่อสาธารณชนทั่วไปด้วย

บทความนี้เขียนขึ้นเพื่อเป็นบทความสรุปผลการวิจัยโดย Marktechpost Staff จากงานวิจัยเรื่อง 'T2CI-GAN: การสร้างข้อความเป็นรูปภาพที่ถูกบีบอัดโดยใช้ Generative Adversarial Network'. เครดิตทั้งหมดสำหรับการวิจัยนี้มอบให้กับนักวิจัยในโครงการนี้ ตรวจสอบที่ กระดาษ และ  บทความอ้างอิง.

โปรดอย่าลืมเข้าร่วม ML Subreddit ของเรา

Khushboo Gupta เป็นนักศึกษาฝึกงานด้านที่ปรึกษาที่ MarktechPost ปัจจุบันเธอกำลังศึกษาวิทยาศาสตรบัณฑิตจากสถาบันเทคโนโลยีแห่งอินเดีย (IIT) รัฐกัว เธอมีความหลงใหลในสาขาการเรียนรู้ของเครื่อง การประมวลผลภาษาธรรมชาติ และการพัฒนาเว็บ เธอสนุกกับการเรียนรู้เพิ่มเติมเกี่ยวกับด้านเทคนิคโดยการเข้าร่วมความท้าทายต่างๆ

<!–

ประทับเวลา: ตุลาคม 29, 2022ตุลาคม 31, 2022

Microstrategy มีประสิทธิภาพเหนือกว่าสินทรัพย์ทุกประเภทและหุ้นเทคโนโลยีรายใหญ่นับตั้งแต่ใช้กลยุทธ์ Bitcoin CEO . กล่าว

คลัสเตอร์ต้นทาง:

ที่ปรึกษาบล็อคเชน

โหนดต้นทาง: 1609176

ประทับเวลา: สิงหาคม 4, 2022

นักวิจัยที่ IIIT Allahabad เสนอ T2CI GAN: โมเดลการเรียนรู้เชิงลึกที่สร้างภาพที่บีบอัดจากข้อความ

เผยแพร่ซ้ำโดยเพลโต

เพิ่มเติมจาก ที่ปรึกษาบล็อคเชน

MicroStrategy ได้รับ Bitcoin มากขึ้นท่ามกลางการฟื้นตัวของตลาด

Galaxy Digital ลงทุน 44 ล้านดอลลาร์ใน Cryptocurrency ของสถาบัน

ค่าเบี่ยงเบนมาตรฐานกับข้อผิดพลาดมาตรฐาน: อะไรคือความแตกต่าง?

Ankr กลายเป็นผู้ให้บริการ RPC ของ Sui Blockchain

Lazy Lions ผ่านปริมาณการซื้อขาย 100 ล้านเหรียญสหรัฐและฉลองวันเกิดปีแรก

องค์การตำรวจสากลจะเพิ่มมาตรการต่อต้านการฟอกเงินด้วย Crypto

OKX เปิดตัว Dias Metaverse Fan Experience

Microstrategy มีประสิทธิภาพเหนือกว่าสินทรัพย์ทุกประเภทและหุ้นเทคโนโลยีรายใหญ่นับตั้งแต่ใช้กลยุทธ์ Bitcoin CEO . กล่าว

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้