حوزه علم داده و یادگیری ماشین هر روز در حال رشد است. همانطور که مدلها و الگوریتمهای جدید با گذشت زمان ارائه میشوند، این الگوریتمها و مدلهای جدید به دادههای عظیمی برای آموزش و آزمایش نیاز دارند. امروزه مدلهای یادگیری عمیق محبوبیت زیادی پیدا کردهاند و این مدلها نیز تشنه داده هستند. به دست آوردن چنین حجم عظیمی از داده ها در زمینه اظهارات مختلف مشکل، فرآیندی بسیار زشت، وقت گیر و پرهزینه است. دادهها از سناریوهای واقعی جمعآوری شدهاند که مسئولیتهای امنیتی و نگرانیهای مربوط به حریم خصوصی را افزایش میدهد. بیشتر دادهها خصوصی هستند و توسط قوانین و مقررات حفظ حریم خصوصی محافظت میشوند، که مانع از اشتراکگذاری و جابجایی دادهها بین سازمانها یا گاهی اوقات بین بخشهای مختلف یک سازمان میشود که در نتیجه آزمایشها و آزمایش محصولات به تأخیر میافتد. بنابراین این سوال پیش می آید که چگونه می توان این مشکل را حل کرد؟ چگونه می توان داده ها را بدون ایجاد نگرانی در مورد حریم خصوصی افراد در دسترس تر و بازتر کرد؟
راه حل این مشکل چیزی است که به عنوان شناخته شده است داده های مصنوعی
بنابراین، داده مصنوعی چیست؟
طبق تعریف، داده های مصنوعی به صورت مصنوعی یا الگوریتمی تولید می شوند و شباهت زیادی به ساختار و ویژگی اصلی داده های واقعی دارند. اگر داده های ترکیب شده خوب باشند، از داده های واقعی قابل تشخیص نیستند.
چند نوع مختلف داده مصنوعی می تواند وجود داشته باشد؟
پاسخ به این سوال بسیار باز است، زیرا داده ها می توانند اشکال مختلفی داشته باشند، اما عمدتاً ما داریم
- داده های متنی
- داده های صوتی یا تصویری (به عنوان مثال، تصاویر، ویدئوها و صدا)
- داده های جدولی
از مواردی از داده های مصنوعی برای یادگیری ماشین استفاده کنید
همانطور که در بالا ذکر شد، ما فقط در مورد موارد استفاده تنها از سه نوع داده مصنوعی بحث خواهیم کرد.
- استفاده از داده های متن مصنوعی برای آموزش مدل های NLP
داده های ترکیبی در زمینه پردازش زبان طبیعی کاربرد دارد. به عنوان مثال، تیم هوش مصنوعی الکسا در آمازون از داده های مصنوعی برای تکمیل مجموعه آموزشی برای سیستم NLU خود (درک زبان طبیعی) استفاده می کند. این یک پایه محکم برای آموزش زبانهای جدید بدون دادههای موجود یا کافی در مورد تعامل مصرفکننده در اختیار آنها قرار میدهد.
- استفاده از داده های مصنوعی برای آموزش الگوریتم های بینایی
بیایید در اینجا یک مورد استفاده گسترده را مورد بحث قرار دهیم. فرض کنید می خواهیم الگوریتمی برای تشخیص یا شمارش تعداد چهره در یک تصویر ایجاد کنیم. ما میتوانیم از یک GAN یا شبکههای مولد دیگر برای تولید چهرههای واقعی انسان، یعنی چهرههایی که در دنیای واقعی وجود ندارند، برای آموزش مدل استفاده کنیم. مزیت دیگر این است که میتوانیم از این الگوریتمها هر اندازه که میخواهیم داده تولید کنیم، بدون اینکه حریم خصوصی کسی را نقض کنیم. اما ما نمیتوانیم از دادههای واقعی استفاده کنیم زیرا حاوی چهره برخی افراد است، بنابراین برخی از سیاستهای حفظ حریم خصوصی استفاده از آن دادهها را محدود میکنند.
مورد دیگر استفاده، انجام یادگیری تقویتی در یک محیط شبیه سازی شده است. فرض کنید میخواهیم یک بازوی رباتیک را آزمایش کنیم که برای گرفتن یک شی و قرار دادن آن در جعبه طراحی شده است. یک الگوریتم یادگیری تقویتی برای این منظور طراحی شده است. برای آزمایش آن باید آزمایش هایی انجام دهیم زیرا الگوریتم یادگیری تقویتی اینگونه یاد می گیرد. تنظیم یک آزمایش در یک سناریوی واقعی بسیار پرهزینه و وقت گیر است و تعداد آزمایش های مختلفی را که می توانیم انجام دهیم محدود می کند. اما اگر آزمایشها را در محیط شبیهسازی شده انجام دهیم، راهاندازی آزمایش نسبتاً ارزان است زیرا نیازی به نمونه اولیه بازوی رباتیک ندارد.
- استفاده از داده های جدولی
دادههای مصنوعی جدولی دادههای مصنوعی تولید شدهای هستند که دادههای دنیای واقعی ذخیرهشده در جداول را تقلید میکنند. این داده ها در ردیف ها و ستون ها ساخته شده اند. این جداول میتواند حاوی هر دادهای باشد، مانند فهرست پخش موسیقی. برای هر آهنگ، پخشکننده موسیقی شما مجموعهای از اطلاعات را نگه میدارد: نام، خواننده، طول آن، سبک آن و غیره. همچنین می تواند یک رکورد مالی مانند معاملات بانکی، قیمت سهام و غیره باشد.
داده های ترکیبی جدولی مربوط به تراکنش های بانکی برای آموزش مدل ها و طراحی الگوریتم ها برای شناسایی تراکنش های جعلی استفاده می شود. داده های قیمت سهام از گذشته را می توان برای آموزش و آزمایش مدل هایی برای پیش بینی قیمت های آتی سهام استفاده کرد.
یکی از مزایای قابل توجه استفاده از داده های مصنوعی در یادگیری ماشین این است که توسعه دهنده روی داده ها کنترل دارد. او می تواند بر اساس نیاز به آزمایش هر ایده و آزمایش با آن، تغییراتی در داده ها ایجاد کند. در همین حال، یک توسعهدهنده میتواند مدل را روی دادههای سنتز شده آزمایش کند و ایده بسیار واضحی از عملکرد مدل بر روی دادههای واقعی ارائه میدهد. اگر توسعهدهندهای بخواهد مدلی را امتحان کند و منتظر دادههای واقعی باشد، دریافت دادهها ممکن است هفتهها یا حتی ماهها طول بکشد. از این رو توسعه و نوآوری فناوری را به تاخیر می اندازد.
اکنون ما آماده هستیم تا در مورد اینکه چگونه داده های مصنوعی به حل مسائل مربوط به حریم خصوصی داده ها کمک می کند، بحث کنیم.
بسیاری از صنایع برای نوآوری و توسعه به داده های تولید شده توسط مشتریان خود وابسته هستند، اما این داده ها حاوی اطلاعات شناسایی شخصی (PII) هستند و قوانین حفظ حریم خصوصی به شدت پردازش چنین داده هایی را تنظیم می کند. به عنوان مثال، مقررات حفاظت از دادههای عمومی (GDPR) استفادههایی را ممنوع میکند که در زمان جمعآوری دادهها توسط سازمان به صراحت موافقت نشده است. از آنجایی که دادههای مصنوعی بسیار شبیه ساختار زیربنایی دادههای واقعی هستند و در عین حال تضمین میکند که هیچ افراد حاضر در داده های واقعی را می توان از داده های مصنوعی دوباره شناسایی کرد. در نتیجه، پردازش و به اشتراک گذاری داده های مصنوعی دارای مقررات بسیار کمتری است که منجر به پیشرفت ها و نوآوری های سریع تر و دسترسی آسان به داده ها می شود.
نتیجه
داده های مصنوعی دارای مزایای قابل توجه بسیاری است. این به توسعه دهندگان ML کنترل آزمایش ها را می دهد و سرعت توسعه را افزایش می دهد زیرا داده ها اکنون در دسترس تر هستند. از آنجایی که داده ها آزادانه قابل اشتراک گذاری هستند، همکاری را در مقیاس بزرگتر ترویج می کند. علاوه بر این، داده های مصنوعی تضمین می کند که از حریم خصوصی افراد در برابر داده های واقعی محافظت می کند.
<img width=”150″ height=”150″ src=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg” class=”avatar avatar-150 photo” alt decoding=”async” loading=”lazy” srcset=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg 150w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-80×80-1.jpg 80w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-70×70.jpg 70w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-24×24.jpg 24w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-48×48.jpg 48w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-96×96-1.jpg 96w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-300×300-1.jpg 300w” sizes=”(max-width: 150px) 100vw, 150px” data-attachment-id=”28275″ data-permalink=”https://www.marktechpost.com/img20221002180119-vineet-kumar/” data-orig-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-scaled.jpg” data-orig-size=”1920,2560″ data-comments-opened=”1″ data-image-meta=”{“aperture”:”2.8″,”credit”:””,”camera”:”OnePlus 9 5G”,”caption”:””,”created_timestamp”:”1664733679″,”copyright”:””,”focal_length”:”6.064″,”iso”:”100″,”shutter_speed”:”0.0078740157480315″,”title”:””,”orientation”:”1″}” data-image-title=”IMG20221002180119 – Vineet kumar” data-image-description data-image-caption=”
وینیت
” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>
Vineet Kumar یک کارآموز مشاور در MarktechPost است. او در حال حاضر مدرک کارشناسی خود را از موسسه فناوری هند (IIT)، کانپور دنبال می کند. او از علاقه مندان به یادگیری ماشین است. او مشتاق تحقیق و آخرین پیشرفتها در یادگیری عمیق، بینایی کامپیوتر و زمینههای مرتبط است.
<!–
->
- بیت کوین
- bizbuildermike
- بلاکچین
- انطباق با بلاک چین
- کنفرانس بلاکچین
- مشاوران بلاک چین
- coinbase
- coingenius
- اجماع
- کنفرانس رمزنگاری
- معدنکاری رمز گشایی
- کریپتو کارنسی (رمز ارزها )
- غیر متمرکز
- DEFI
- دارایی های دیجیتال
- ethereum
- فراگیری ماشین
- رمز غیر قابل شستشو
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- پلاتوبلاک چین
- PlatoData
- بازی پلاتو
- چند ضلعی
- اثبات سهام
- W3
- زفیرنت