Apa itu Data Sintetis? Jenisnya, Kasus Penggunaannya, Dan Aplikasinya Untuk Pembelajaran Mesin Dan Privasi

gambar

Bidang Ilmu Data dan Pembelajaran Mesin berkembang setiap hari. Karena model dan algoritme baru diusulkan seiring berjalannya waktu, algoritme dan model baru ini membutuhkan data yang sangat besar untuk pelatihan dan pengujian. Model Deep Learning mendapatkan begitu banyak popularitas saat ini, dan model tersebut juga haus data. Memperoleh sejumlah besar data dalam konteks pernyataan masalah yang berbeda merupakan proses yang cukup mengerikan, memakan waktu, dan mahal. Data dikumpulkan dari skenario kehidupan nyata, yang menimbulkan kewajiban keamanan dan masalah privasi. Sebagian besar data bersifat pribadi dan dilindungi oleh undang-undang dan peraturan privasi, yang menghambat pembagian dan perpindahan data antar organisasi atau terkadang antar departemen yang berbeda dalam satu organisasi—mengakibatkan penundaan eksperimen dan pengujian produk. Jadi timbul pertanyaan bagaimana masalah ini bisa diselesaikan? Bagaimana data dibuat lebih mudah diakses dan terbuka tanpa menimbulkan kekhawatiran tentang privasi seseorang?  

Solusi untuk masalah ini adalah sesuatu yang dikenal sebagai Data sintetis. 

Jadi, Apa itu Data Sintetis?

Menurut definisi, data sintetik dihasilkan secara artifisial atau algoritme dan sangat mirip dengan struktur dan properti yang mendasari data aktual. Jika data yang disintesis bagus, itu tidak dapat dibedakan dari data nyata.

Ada Berapa Jenis Data Sintetis yang Berbeda?

Jawaban atas pertanyaan ini sangat terbuka, karena data dapat mengambil banyak bentuk, tetapi sebagian besar kita miliki 

  1. Data teks
  2. Data Audio atau Visual (misalnya, Gambar, video, dan audio)
  3. Data tabel

Gunakan kasus data sintetis untuk pembelajaran mesin

Kami hanya akan membahas kasus penggunaan hanya tiga jenis data sintetis, seperti yang disebutkan di atas.

  • Penggunaan data teks sintetik untuk melatih model NLP

Data sintetik memiliki aplikasi di bidang pemrosesan bahasa alami. Misalnya, tim AI Alexa di Amazon menggunakan data sintetik untuk menyelesaikan set pelatihan untuk sistem NLU mereka (pemahaman bahasa alami). Ini memberi mereka dasar yang kuat untuk melatih bahasa baru tanpa data interaksi konsumen yang ada atau cukup.

  • Menggunakan data sintetik untuk melatih algoritme vision

   Mari kita bahas kasus penggunaan yang tersebar luas di sini. Misalkan kita ingin mengembangkan sebuah algoritma untuk mendeteksi atau menghitung jumlah wajah dalam sebuah gambar. Kita dapat menggunakan GAN atau jaringan generatif lainnya untuk menghasilkan wajah manusia yang realistis, yaitu wajah yang tidak ada di dunia nyata, untuk melatih model. Keuntungan lainnya adalah kami dapat menghasilkan data sebanyak yang kami inginkan dari algoritme ini tanpa melanggar privasi siapa pun. Tetapi kami tidak dapat menggunakan data asli karena mengandung beberapa wajah individu, jadi beberapa kebijakan privasi membatasi penggunaan data tersebut.

Kasus penggunaan lainnya adalah melakukan pembelajaran penguatan dalam lingkungan simulasi. Misalkan kita ingin menguji lengan robot yang dirancang untuk mengambil objek dan meletakkannya di dalam kotak. Sebuah algoritma pembelajaran penguatan dirancang untuk tujuan ini. Kita perlu melakukan eksperimen untuk mengujinya karena begitulah cara belajar algoritma pembelajaran penguatan. Menyiapkan percobaan dalam skenario kehidupan nyata cukup mahal dan memakan waktu, membatasi jumlah percobaan berbeda yang dapat kami lakukan. Tetapi jika kita melakukan percobaan di lingkungan yang disimulasikan, maka pengaturan percobaan relatif murah karena tidak memerlukan prototipe lengan robot.

  • Penggunaan data Tabular

Data sintetik tabular adalah data yang dihasilkan secara artifisial yang meniru data dunia nyata yang disimpan dalam tabel. Data ini disusun dalam baris dan kolom. Tabel ini dapat berisi data apa pun, seperti playlist musik. Untuk setiap lagu, pemutar musik Anda menyimpan banyak informasi: namanya, penyanyinya, durasinya, genrenya, dan seterusnya. Ini juga bisa menjadi catatan keuangan seperti transaksi bank, harga saham, dll.

Data tabular sintetik yang terkait dengan transaksi bank digunakan untuk melatih model dan merancang algoritme untuk mendeteksi transaksi penipuan. Data harga saham dari masa lalu dapat digunakan untuk melatih dan menguji model untuk memprediksi harga saham di masa depan.

Salah satu keuntungan signifikan menggunakan data sintetik dalam pembelajaran mesin adalah pengembang memiliki kendali atas data; dia dapat membuat perubahan pada data sesuai kebutuhan untuk menguji ide apa pun dan bereksperimen dengannya. Sementara itu, pengembang dapat menguji model pada data yang disintesis, dan ini akan memberikan gambaran yang sangat jelas tentang bagaimana model akan bekerja pada data kehidupan nyata. Jika pengembang ingin mencoba model dan menunggu data sebenarnya, maka perolehan data dapat memakan waktu berminggu-minggu atau bahkan berbulan-bulan. Oleh karena itu, menunda pengembangan dan inovasi teknologi.

Sekarang kami siap untuk membahas bagaimana data sintetis membantu menyelesaikan masalah terkait privasi data.

Banyak industri bergantung pada data yang dihasilkan oleh pelanggan mereka untuk inovasi dan pengembangan, tetapi data tersebut berisi Informasi Identifikasi Pribadi (PII), dan undang-undang privasi mengatur secara ketat pemrosesan data tersebut. Misalnya, Peraturan Perlindungan Data Umum (GDPR) melarang penggunaan yang tidak disetujui secara eksplisit saat organisasi mengumpulkan data.‍ Karena data sintetik sangat mirip dengan struktur dasar data nyata dan, pada saat yang sama, memastikan bahwa tidak ada individu yang hadir dalam data nyata dapat diidentifikasi ulang dari data sintetik. Akibatnya, pemrosesan dan pembagian data sintetik memiliki peraturan yang jauh lebih sedikit, menghasilkan perkembangan dan inovasi yang lebih cepat serta akses data yang mudah.

Kesimpulan

Data sintetik memiliki banyak keunggulan signifikan. Ini memberi developer ML kontrol atas eksperimen dan meningkatkan kecepatan pengembangan karena data sekarang lebih mudah diakses. Ini mempromosikan kolaborasi dalam skala yang lebih besar karena data dapat dibagikan secara bebas. Selain itu, data sintetis menjamin untuk melindungi privasi individu dari data sebenarnya.


<img lebar=”150″ tinggi=”150″ src=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg” class=” avatar avatar-150 foto” alt decoding=”async” loading=”lazy” srcset=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1. jpg 150w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-80×80-1.jpg 80w, https://www.marktechpost.com/wp-content/ unggahan/2022/11/IMG20221002180119-Vineet-kumar-70×70.jpg 70w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-24×24.jpg 24w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-48×48.jpg 48w, https://bizbuildermike.com/wp-content/uploads/2022 /11/IMG20221002180119-Vineet-kumar-96×96-1.jpg 96w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-300×300-1.jpg 300w ” ukuran=”(lebar maksimal: 150px) 100vw, 150px” data-attachment-id=”28275″ data-permalink=”https://www.marktechpost.com/img20221002180119-vineet-kumar/” data-orig- file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-scaled.jpg” data-orig-size=”1920,2560″ data-comments-opened= ”1″ data-image-meta=”{“aperture”:”2.8″,”kredit”:””,”kamera”:”OnePlus 9 5G”,”caption”:””,”created_timestamp”:”1664733679″ ,”hak cipta”:””,”panjang_fokus”:”6.064″,”iso”:”100″,”shutter_speed”:”0.0078740157480315″,”judul”:””,”orientasi”:”1″}” data- image-title=”IMG20221002180119 – Vineet kumar” data-gambar-deskripsi data-gambar-caption=”

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar adalah konsultan magang di MarktechPost. Dia saat ini mengejar gelar BS dari Institut Teknologi India (IIT), Kanpur. Dia adalah penggemar Machine Learning. Dia bersemangat tentang penelitian dan kemajuan terbaru dalam Pembelajaran Mendalam, Visi Komputer, dan bidang terkait.

<!–

->

Stempel Waktu:

Lebih dari Konsultan Blockchain