Alat AI Membuat Gambar Terlihat Lebih Baik | Majalah Kuanta

Alat AI Membuat Gambar Terlihat Lebih Baik | Majalah Kuanta

Alat AI Membuat Gambar Terlihat Lebih Baik | Majalah Quanta PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pengantar

Ini adalah salah satu klise terbesar dalam kejahatan dan fiksi ilmiah: Seorang penyelidik menampilkan foto buram di layar komputer dan memintanya untuk dipercantik, dan boom, gambar tersebut menjadi fokus, mengungkapkan beberapa petunjuk penting. Ini merupakan kemudahan bercerita yang luar biasa, namun telah menjadi fiksi yang membuat frustrasi selama beberapa dekade - terlalu banyak meledakkan gambar, dan gambar tersebut menjadi tampak berpiksel. Tidak ada cukup data untuk berbuat lebih banyak.

โ€œJika Anda secara naif memperbesar gambar, hasilnya akan buram. Akan ada banyak detail, tapi itu akan salah,โ€ kata Bryan Catanzaro, wakil presiden penelitian pembelajaran mendalam terapan di Nvidia.

Baru-baru ini, para peneliti dan profesional mulai memasukkan algoritme kecerdasan buatan ke dalam alat penyempurnaan gambar mereka, sehingga prosesnya lebih mudah dan lebih canggih, namun masih ada batasan mengenai seberapa banyak data yang dapat diambil dari gambar apa pun. Untungnya, ketika para peneliti mendorong algoritma peningkatan lebih jauh lagi, mereka menemukan cara-cara baru untuk mengatasi batasan-batasan tersebut โ€” bahkan, kadang-kadang, menemukan cara untuk mengatasinya.

Dalam dekade terakhir, para peneliti mulai menyempurnakan gambar dengan model AI jenis baru yang disebut generative adversarial network, atau GAN, yang dapat menghasilkan gambar yang detail dan tampak mengesankan. โ€œGambar-gambarnya tiba-tiba mulai terlihat jauh lebih baik,โ€ kata Tomer Michaeli, seorang insinyur listrik di Technion di Israel. Namun dia terkejut karena gambar yang dibuat oleh GAN menunjukkan tingkat distorsi yang tinggi, yang mengukur seberapa dekat gambar yang disempurnakan dengan realitas mendasar dari apa yang ditampilkannya. GAN menghasilkan gambar yang tampak cantik dan alami, namun sebenarnya hanya mengarang, atau โ€œhalusinasiโ€, detail yang tidak akurat, yang dianggap sebagai distorsi tingkat tinggi.

Michaeli menyaksikan bidang restorasi foto terpecah menjadi dua sub-komunitas berbeda. โ€œAda yang menunjukkan gambar bagus, banyak yang dibuat oleh GAN. Yang satu lagi menunjukkan data, tapi gambarnya tidak banyak, karena kurang bagus tampilannya,โ€ ujarnya.

Pada tahun 2017, Michaeli dan mahasiswa pascasarjananya Yochai Blau mengkaji dikotomi ini secara lebih formal. Mereka memplot kinerja berbagai algoritma penyempurnaan gambar pada grafik distorsi versus kualitas persepsi, menggunakan ukuran kualitas persepsi yang diketahui dan berkorelasi baik dengan penilaian subjektif manusia. Seperti yang diharapkan Michaeli, beberapa algoritme menghasilkan kualitas visual yang sangat tinggi, sementara algoritme lainnya sangat akurat, dengan distorsi rendah. Namun tidak ada yang memiliki kedua kelebihan tersebut; Anda harus memilih satu atau yang lain. Para peneliti menjuluki hal ini trade-off persepsi-distorsi.

Michaeli juga menantang peneliti lain untuk menghasilkan algoritma yang dapat menghasilkan kualitas gambar terbaik untuk tingkat distorsi tertentu, untuk memungkinkan perbandingan yang adil antara algoritma gambar cantik dan algoritma dengan statistik bagus. Sejak itu, ratusan peneliti AI telah melaporkan distorsi dan kualitas persepsi algoritma mereka, mengutip makalah Michaeli dan Blau yang menggambarkan trade-off.

Terkadang, dampak dari trade-off antara persepsi dan distorsi tidaklah terlalu buruk. Nvidia, misalnya, menemukan bahwa layar definisi tinggi tidak menampilkan konten visual definisi rendah dengan baik, sehingga pada bulan Februari Nvidia merilis alat yang menggunakan pembelajaran mendalam untuk meningkatkan video streaming. Dalam hal ini, para insinyur Nvidia memilih kualitas persepsi daripada akurasi, menerima kenyataan bahwa ketika algoritme meningkatkan video, ia akan menghasilkan beberapa detail visual yang tidak ada dalam video aslinya. โ€œModelnya berhalusinasi. Itu semua hanya dugaan,โ€ kata Catanzaro. โ€œSering kali model resolusi super boleh saja salah menebak, asalkan konsisten.โ€

Pengantar

Penerapannya dalam penelitian dan kedokteran tentu saja menuntut akurasi yang jauh lebih tinggi. Teknologi AI telah membawa kemajuan besar dalam bidang pencitraan, namun โ€œterkadang menimbulkan efek samping yang tidak diinginkan, seperti overfitting atau [menambahkan] fitur palsu, sehingga perlu ditangani dengan sangat hati-hati,โ€ kata Junjie Yao, seorang insinyur biomedis di Duke University. Tahun lalu, dia ikut menulis a kertas menggambarkan bagaimana alat AI dapat meningkatkan metode yang ada dalam mengukur aliran darah dan metabolisme di otak โ€” sambil tetap berada pada sisi akurat dari trade-off distorsi persepsi.

Salah satu cara untuk menghindari batasan jumlah data yang dapat diekstraksi dari suatu gambar adalah dengan menggabungkan data dari lebih banyak gambar โ€” meskipun hal tersebut sering kali tidak sesederhana itu. Para peneliti yang mempelajari lingkungan melalui citra satelit telah mencapai kemajuan dalam menggabungkan berbagai sumber data visual. Pada tahun 2021, sekelompok peneliti di China dan Inggris data yang menyatu dari dua jenis satelit yang berbeda untuk mendapatkan gambaran yang lebih baik mengenai deforestasi di Cekungan Kongo, hutan hujan tropis terbesar kedua di dunia dan salah satu penyimpan keanekaragaman hayati terbesar. Para peneliti mengambil data dari dua satelit Landsat, yang telah mengukur deforestasi selama beberapa dekade, dan menggunakan teknik pembelajaran mendalam untuk menyempurnakan resolusi gambar dari 30 meter menjadi 10 meter. Mereka kemudian menggabungkan kumpulan gambar tersebut dengan data dari dua satelit Sentinel-2, yang memiliki susunan detektor yang sedikit berbeda. Citra gabungan tersebut โ€œmemungkinkan 11% hingga 21% lebih banyak area yang terganggu dapat dideteksi dibandingkan dengan menggunakan gambar Sentinel-2 atau Landsat-7/8 saja,โ€ tulis mereka.

Michaeli menyarankan cara lain untuk menyiasati, atau bahkan melewati, batasan ketat dalam aksesibilitas informasi. Daripada hanya menentukan satu jawaban pasti mengenai cara menyempurnakan gambar berkualitas rendah, model dapat menunjukkan berbagai interpretasi berbeda terhadap gambar asli. Dalam makalah berjudul โ€œResolusi Super yang Dapat Dijelajahi,โ€ dia membantu mendemonstrasikan bagaimana alat penyempurnaan gambar dapat memberikan banyak saran kepada pengguna. Satu gambar kabur dan beresolusi rendah dari seseorang yang mengenakan kemeja berwarna keabu-abuan dapat direkonstruksi menjadi gambar beresolusi lebih tinggi di mana kemeja tersebut memiliki garis-garis vertikal hitam putih, garis-garis horizontal, atau kotak-kotak, yang semuanya sama-sama masuk akal. .

Dalam contoh lain, Michaeli mengambil foto pelat nomor berkualitas rendah dan menjalankannya melalui peningkat gambar AI terkemuka, yang menunjukkan bahwa angka 1 pada pelat nomor tampak seperti nol. Namun ketika gambar diproses dengan algoritma yang berbeda dan lebih terbuka seperti yang dirancang Michaeli, angka tersebut kemungkinan besar akan menjadi nol, 1, atau 8. Pendekatan ini dapat membantu menyingkirkan angka lain tanpa secara keliru menyimpulkan bahwa angka tersebut adalah nol.

Ketika berbagai disiplin ilmu bergulat dengan trade-off persepsi-distorsi dengan cara mereka masing-masing, pertanyaan tentang seberapa banyak yang dapat kita ekstrak dari citra AI dan seberapa besar kita dapat mempercayai gambar-gambar tersebut tetap menjadi hal yang penting. โ€œKita harus ingat bahwa untuk menghasilkan gambar yang bagus ini, algoritme hanya membuat detailnya saja,โ€ kata Michaeli. Kita bisa mengurangi halusinasi tersebut, namun tombol โ€œmeningkatkanโ€ penyelesaian kejahatan yang sangat ampuh akan tetap menjadi mimpi.

Stempel Waktu:

Lebih dari Majalah kuantitas