Model teks-ke-gambar belajar lebih efisien dengan data palsu

Model teks-ke-gambar belajar lebih efisien dengan data palsu

Model teks-ke-gambar belajar lebih efisien dengan data palsu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Gambar sintetis dapat membantu model AI mempelajari representasi visual dengan lebih akurat dibandingkan dengan gambar sebenarnya, menurut ilmuwan komputer di MIT dan Google. Hasilnya adalah jaringan saraf yang lebih baik dalam membuat gambar dari deskripsi tertulis Anda.

Inti dari semua model teks-ke-gambar adalah kemampuannya memetakan objek menjadi kata-kata. Jika diberi perintah masukan teks โ€“ seperti โ€œseorang anak memegang balon merah di hari yang cerahโ€, misalnya โ€“ mereka harus mengembalikan gambar yang mendekati deskripsi. Untuk melakukan hal ini, mereka perlu mempelajari representasi visual tentang seperti apa rupa seorang anak, balon merah, dan hari yang cerah. 

Tim MIT-Google percaya bahwa jaringan saraf dapat menghasilkan gambar yang lebih akurat berdasarkan perintah setelah dilatih menggunakan gambar buatan AI dibandingkan menggunakan jepretan nyata. Untuk menunjukkan hal ini, kelompok tersebut berkembang Rep Stabil, yang mempelajari cara mengubah keterangan tertulis deskriptif menjadi gambar yang sesuai dan benar dari gambar yang dihasilkan oleh model teks-ke-gambar sumber terbuka yang populer, Difusi Stabil.

Dengan kata lain: menggunakan model AI yang sudah terlatih dan mapan untuk mengajarkan model lainnya.

Sebagai makalah pra-cetak para ilmuwan, dirilis melalui arXiv pada akhir bulan lalu, ia menyatakan: โ€œHanya dengan gambar sintetik, representasi yang dipelajari oleh StableRep melampaui kinerja representasi yang dipelajari oleh SimCLR dan CLIP menggunakan kumpulan perintah teks yang sama dan gambar nyata yang sesuai, pada kumpulan data skala besar.โ€ SimCLR dan CLIP adalah algoritma pembelajaran mesin yang dapat digunakan untuk membuat gambar dari perintah teks.

โ€œKetika kami menambahkan lebih lanjut pengawasan bahasa, StableRep yang dilatih dengan 20 juta gambar sintetis mencapai akurasi yang lebih baik daripada CLIP yang dilatih dengan 50 juta gambar nyata,โ€ lanjut makalah tersebut.

Algoritme pembelajaran mesin menangkap hubungan antara fitur objek dan makna kata sebagai rangkaian angka. Dengan menggunakan StableRep, para peneliti dapat mengontrol proses ini dengan lebih hati-hati โ€“ melatih model pada beberapa gambar yang dihasilkan oleh Stable Diffusion pada prompt yang sama. Artinya, model dapat mempelajari representasi visual yang lebih beragam, dan dapat melihat gambar mana yang paling cocok dengan perintah dibandingkan gambar lainnya. 

Saya pikir kita akan memiliki ekosistem yang terdiri dari beberapa model yang dilatih berdasarkan data nyata, beberapa lagi pada data sintetis

โ€œKami mengajarkan model untuk mempelajari lebih lanjut tentang konsep tingkat tinggi melalui konteks dan varian, tidak hanya memberikan data,โ€ Lijie Fan, peneliti utama studi tersebut dan mahasiswa PhD di bidang teknik elektro di MIT, menjelaskan minggu ini. โ€œSaat menggunakan beberapa gambar, semuanya dihasilkan dari teks yang sama, dan semuanya diperlakukan sebagai penggambaran dari hal mendasar yang sama, model akan menyelami lebih dalam konsep di balik gambar โ€“ misalnya objek โ€“ bukan hanya pikselnya saja.โ€

Seperti disebutkan di atas, pendekatan ini juga berarti Anda dapat menggunakan lebih sedikit gambar sintetis untuk melatih jaringan saraf Anda dibandingkan gambar asli, dan mendapatkan hasil yang lebih baik โ€“ yang merupakan win-win solution bagi pengembang AI.

Metode seperti StableRep berarti bahwa model teks-ke-gambar suatu hari nanti dapat dilatih pada data sintetis. Hal ini akan memungkinkan pengembang untuk tidak terlalu bergantung pada gambar nyata, dan mungkin diperlukan jika mesin AI menghabiskan sumber daya online yang tersedia.

โ€œSaya pikir [pelatihan model AI pada gambar sintetis] akan semakin umum,โ€ kata Phillip Isola, salah satu penulis makalah dan profesor visi komputer di MIT. Pendaftaran. โ€œSaya pikir kita akan memiliki ekosistem yang terdiri dari beberapa model yang dilatih menggunakan data nyata, beberapa lagi menggunakan data sintetis, dan mungkin sebagian besar model akan dilatih menggunakan keduanya.โ€

Sulit untuk hanya mengandalkan gambar yang dihasilkan AI karena kualitas dan resolusinya seringkali lebih buruk daripada foto asli. Model teks-ke-gambar yang menghasilkannya juga terbatas. Difusi Stabil tidak selalu menghasilkan gambar yang sesuai dengan petunjuk teks.

Isola memperingatkan bahwa penggunaan gambar sintetis juga tidak mengurangi potensi masalah pelanggaran hak cipta, karena model yang menghasilkan gambar tersebut kemungkinan besar dilatih tentang materi yang dilindungi.

โ€œData sintetis dapat mencakup salinan persis data hak cipta. Namun, data sintetis juga memberikan peluang baru untuk mengatasi masalah kekayaan intelektual dan privasi, karena kita berpotensi melakukan intervensi terhadapnya, dengan mengedit model generatif untuk menghapus atribut sensitif,โ€ jelasnya.

Tim tersebut juga memperingatkan bahwa sistem pelatihan pada gambar yang dihasilkan AI berpotensi memperburuk bias yang dipelajari oleh model text-to-image yang mendasarinya. ยฎ

Stempel Waktu:

Lebih dari Pendaftaran