เครื่องมือ AI ที่ทำให้ภาพดูดีขึ้น | นิตยสารควอนต้า

เครื่องมือ AI ที่ทำให้ภาพดูดีขึ้น | นิตยสารควอนต้า

เครื่องมือ AI ที่ทำให้ภาพดูดีขึ้น | นิตยสาร Quanta PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

บทนำ

มันเป็นหนึ่งในความคิดโบราณที่ใหญ่ที่สุดในอาชญากรรมและนิยายวิทยาศาสตร์: นักสืบหยิบภาพถ่ายที่พร่ามัวขึ้นมาบนหน้าจอคอมพิวเตอร์และขอให้ปรับปรุง ทันใดนั้นภาพก็เข้าสู่โฟกัส และเผยให้เห็นเบาะแสที่สำคัญบางอย่าง เป็นความสะดวกสบายในการเล่าเรื่องที่ยอดเยี่ยม แต่เป็นนิยายที่น่าหงุดหงิดมานานหลายทศวรรษ ทำให้ภาพมีขนาดใหญ่เกินไป และกลายเป็นพิกเซลอย่างเห็นได้ชัด มีข้อมูลไม่เพียงพอที่จะดำเนินการเพิ่มเติม

“ถ้าคุณแค่เพิ่มสเกลภาพอย่างไร้เดียงสา ภาพก็จะเบลอ จะมีรายละเอียดมากมาย แต่มันจะผิด” กล่าว ไบรอัน คาทันซาโรรองประธานฝ่ายการวิจัยเชิงลึกประยุกต์ที่ Nvidia

เมื่อเร็วๆ นี้ นักวิจัยและผู้เชี่ยวชาญได้เริ่มรวมอัลกอริธึมปัญญาประดิษฐ์ไว้ในเครื่องมือปรับปรุงภาพ ทำให้กระบวนการง่ายขึ้นและมีประสิทธิภาพมากขึ้น แต่ยังคงมีข้อจำกัดเกี่ยวกับจำนวนข้อมูลที่สามารถดึงข้อมูลจากภาพใดๆ ได้ โชคดีที่ในขณะที่นักวิจัยผลักดันอัลกอริธึมการเพิ่มประสิทธิภาพให้ดียิ่งขึ้น พวกเขากำลังค้นหาวิธีใหม่ในการรับมือกับขีดจำกัดเหล่านั้น แม้กระทั่งในบางครั้งก็ยังหาวิธีเอาชนะขีดจำกัดเหล่านั้นด้วย

ในทศวรรษที่ผ่านมา นักวิจัยเริ่มปรับปรุงรูปภาพด้วยโมเดล AI รูปแบบใหม่ที่เรียกว่า generative adversarial network หรือ GAN ซึ่งสามารถสร้างรูปภาพที่มีรายละเอียดและดูน่าประทับใจได้ “ภาพเริ่มดูดีขึ้นมากทันใด” กล่าว โทเมอร์ มิคาเอลีวิศวกรไฟฟ้าที่ Technion ในอิสราเอล แต่เขารู้สึกประหลาดใจที่ภาพที่สร้างโดย GAN มีความผิดเพี้ยนในระดับสูง ซึ่งจะวัดว่าภาพที่ปรับปรุงแล้วนั้นใกล้เคียงกับความเป็นจริงที่ซ่อนอยู่ของสิ่งที่แสดงอยู่มากน้อยเพียงใด GAN สร้างภาพที่ดูสวยและเป็นธรรมชาติ แต่จริงๆ แล้วเป็นการสร้างรายละเอียดหรือ "ภาพหลอน" ที่ไม่ถูกต้อง ซึ่งถือว่ามีการบิดเบือนในระดับสูง

Michaeli เฝ้าดูสาขาการฟื้นฟูภาพถ่ายแบ่งออกเป็นสองชุมชนย่อยที่แตกต่างกัน “ภาพหนึ่งแสดงภาพสวยๆ หลายภาพสร้างโดย GAN อีกอันแสดงข้อมูล แต่ไม่ได้แสดงภาพมากนัก เพราะมันดูไม่ดี” เขากล่าว

ในปี 2017 Michaeli และนักศึกษาระดับบัณฑิตศึกษา Yochai Blau พิจารณาการแบ่งขั้วนี้อย่างเป็นทางการมากขึ้น พวกเขาวางแผนประสิทธิภาพของอัลกอริธึมการปรับปรุงภาพต่างๆ บนกราฟของการบิดเบือนและคุณภาพการรับรู้ โดยใช้การวัดคุณภาพการรับรู้ที่ทราบกันดีซึ่งมีความสัมพันธ์ที่ดีกับการตัดสินเชิงอัตวิสัยของมนุษย์ ดังที่ Michaeli คาดไว้ อัลกอริธึมบางอันส่งผลให้ได้คุณภาพของภาพที่สูงมาก ในขณะที่บางอัลกอริธึมมีความแม่นยำมากโดยมีความบิดเบือนต่ำ แต่ไม่มีข้อดีทั้งสองอย่างเลย คุณต้องเลือกอย่างใดอย่างหนึ่ง นักวิจัยขนานนามสิ่งนี้ การแลกเปลี่ยนการรับรู้และการบิดเบือน.

มิคาเอลีก็เช่นกัน ท้าทายนักวิจัยคนอื่นๆ เพื่อสร้างอัลกอริธึมที่สามารถสร้างคุณภาพของภาพที่ดีที่สุดสำหรับระดับความผิดเพี้ยนที่กำหนด เพื่อให้สามารถเปรียบเทียบอย่างยุติธรรมระหว่างอัลกอริธึมภาพสวยและสถิติที่ดี ตั้งแต่นั้นมา นักวิจัย AI หลายร้อยคนได้รายงานเกี่ยวกับคุณภาพการบิดเบือนและการรับรู้ของอัลกอริทึมของพวกเขา อ้างถึงกระดาษของ Michaeli และ Blau ที่อธิบายการแลกเปลี่ยน

บางครั้ง ผลกระทบของการแลกเปลี่ยนการรับรู้และการบิดเบือนก็ไม่ได้เลวร้ายนัก ตัวอย่างเช่น Nvidia พบว่าหน้าจอที่มีความละเอียดสูงไม่สามารถเรนเดอร์เนื้อหาภาพที่มีความละเอียดต่ำได้ ดังนั้นในเดือนกุมภาพันธ์จึงได้เปิดตัวเครื่องมือที่ใช้การเรียนรู้เชิงลึกเพื่อยกระดับการสตรีมวิดีโอ ในกรณีนี้ วิศวกรของ Nvidia เลือกคุณภาพการรับรู้มากกว่าความแม่นยำ โดยยอมรับความจริงที่ว่าเมื่ออัลกอริธึมขยายขนาดวิดีโอ มันจะสร้างรายละเอียดภาพที่ไม่ได้อยู่ในวิดีโอต้นฉบับ “แบบจำลองนี้มีอาการประสาทหลอน มันเป็นเรื่องของการเดา” คาตันซาโรกล่าว “โดยส่วนใหญ่แล้ว การที่โมเดลที่มีความละเอียดสูงมากคาดเดาผิดนั้นเป็นเรื่องปกติ ตราบใดที่ยังคงสอดคล้องกัน”

บทนำ

แน่นอนว่าการประยุกต์ใช้ในการวิจัยและการแพทย์ต้องการความแม่นยำมากกว่ามาก เทคโนโลยี AI นำไปสู่ความก้าวหน้าที่สำคัญในการถ่ายภาพ แต่ “บางครั้งก็มาพร้อมกับผลข้างเคียงที่ไม่พึงประสงค์ เช่น การติดตั้งมากเกินไปหรือ [เพิ่ม] คุณสมบัติปลอม และด้วยเหตุนี้จึงต้องได้รับการปฏิบัติด้วยความระมัดระวังอย่างยิ่ง” กล่าว จุนจี้ เหยาวิศวกรชีวการแพทย์ที่มหาวิทยาลัยดุ๊ก ปีที่แล้วเขาร่วมเขียน กระดาษ อธิบายว่าเครื่องมือ AI สามารถปรับปรุงวิธีการวัดการไหลเวียนของเลือดและการเผาผลาญในสมองที่มีอยู่ได้อย่างไร ขณะเดียวกันก็รักษาความถูกต้องแม่นยำของการแลกเปลี่ยนการรับรู้และการบิดเบือน

วิธีหนึ่งในการหลีกเลี่ยงข้อจำกัดในการดึงข้อมูลจากรูปภาพหนึ่งๆ ก็คือการรวมข้อมูลจากรูปภาพอื่นๆ มากขึ้น แม้ว่ามักจะไม่ง่ายนักก็ตาม นักวิจัยที่ศึกษาสภาพแวดล้อมผ่านภาพถ่ายดาวเทียมมีความก้าวหน้าในการรวมแหล่งข้อมูลภาพต่างๆ ในปี 2021 กลุ่มนักวิจัยในประเทศจีนและสหราชอาณาจักร ข้อมูลหลอมรวม จากดาวเทียมสองประเภทที่แตกต่างกัน เพื่อให้ได้มุมมองที่ดีขึ้นของการตัดไม้ทำลายป่าในลุ่มน้ำคองโก ซึ่งเป็นป่าฝนเขตร้อนที่ใหญ่เป็นอันดับสองของโลก และเป็นหนึ่งในแหล่งเก็บความหลากหลายทางชีวภาพที่ใหญ่ที่สุด นักวิจัยนำข้อมูลจากดาวเทียม Landsat สองดวง ซึ่งตรวจวัดการตัดไม้ทำลายป่ามานานหลายทศวรรษ และใช้เทคนิคการเรียนรู้เชิงลึกเพื่อปรับแต่งความละเอียดของภาพจากระยะ 30 เมตรเป็น 10 เมตร จากนั้นพวกเขาก็รวมชุดภาพนั้นเข้ากับข้อมูลจากดาวเทียม Sentinel-2 สองดวงซึ่งมีชุดเครื่องตรวจจับที่แตกต่างกันเล็กน้อย ภาพที่รวมกัน "อนุญาตให้ตรวจพบพื้นที่ที่ถูกรบกวนได้มากกว่า 11% ถึง 21% มากกว่าที่เป็นไปได้โดยใช้ภาพ Sentinel-2 หรือ Landsat-7/8 เพียงอย่างเดียว" พวกเขาเขียน

Michaeli แนะนำวิธีอื่นในการหลีกเลี่ยงขีดจำกัดการเข้าถึงข้อมูลอย่างหนัก (หากไม่ผ่าน) แทนที่จะตัดสินด้วยคำตอบเดียวสำหรับวิธีปรับปรุงภาพคุณภาพต่ำ แบบจำลองอาจแสดงการตีความภาพต้นฉบับที่แตกต่างกันได้หลากหลาย ในบทความเรื่อง “ความละเอียดระดับสุดยอดที่สำรวจได้” เขาช่วยสาธิตว่าเครื่องมือปรับปรุงภาพสามารถนำเสนอคำแนะนำหลายประการแก่ผู้ใช้ได้อย่างไร ภาพที่ไม่ชัดเจนและมีความละเอียดต่ำของคนคนหนึ่งที่สวมสิ่งที่ดูเหมือนเสื้อเชิ้ตสีเทาสามารถสร้างขึ้นใหม่ให้เป็นภาพที่มีความละเอียดสูงกว่าได้ โดยที่เสื้อนั้นมีแถบแนวตั้งสีดำและสีขาว แถบแนวนอน หรือลายตาราง ซึ่งทั้งหมดนี้เป็นไปได้เท่าเทียมกัน .

อีกตัวอย่างหนึ่ง Michaeli ถ่ายภาพป้ายทะเบียนคุณภาพต่ำและเรียกใช้ผ่านโปรแกรมปรับปรุงรูปภาพ AI ชั้นนำ ซึ่งแสดงให้เห็นว่าเลข 1 บนป้ายทะเบียนดูเหมือนเลขศูนย์มากที่สุด แต่เมื่อภาพได้รับการประมวลผลด้วยอัลกอริธึมปลายเปิดอื่นที่ Michaeli ออกแบบ ตัวเลขก็ดูน่าจะเป็นศูนย์ 1 หรือ 8 เท่าๆ กัน วิธีการนี้สามารถช่วยแยกตัวเลขอื่นๆ ออกไปได้โดยไม่ต้องสรุปอย่างผิดพลาดว่าตัวเลขนั้นเป็นศูนย์

ในขณะที่สาขาวิชาต่างๆ ต้องต่อสู้กับการแลกเปลี่ยนการรับรู้และการบิดเบือนในรูปแบบของตนเอง คำถามที่ว่าเราสามารถดึงข้อมูลจากภาพ AI ได้มากเพียงใด และเราสามารถเชื่อถือภาพเหล่านั้นได้มากเพียงใด ยังคงเป็นสิ่งสำคัญ “เราควรจำไว้ว่าเพื่อที่จะส่งออกภาพที่สวยงามเหล่านี้ อัลกอริธึมก็แค่สร้างรายละเอียดขึ้นมา” Michaeli กล่าว เราสามารถบรรเทาภาพหลอนเหล่านั้นได้ แต่ปุ่ม "ปรับปรุง" ที่มีประสิทธิภาพและช่วยแก้ปัญหาอาชญากรรมจะยังคงเป็นความฝัน

ประทับเวลา:

เพิ่มเติมจาก ควอนทามากาซีน