چگونه IA مولد همه چیز را در دهه کنونی مختل خواهد کرد

بسیاری شگفت زده خواهند شد

تصویر توسط نویسنده با انتشار پایدار

In در ماه‌های اخیر، سیستم‌های هوش مصنوعی مانند Midjourney، DALL-E، Stable Diffusion، LaMDA و PalM در حوزه‌هایی که ظاهراً به اندازه تولید تصویر و متن متنوع هستند، پیشرفت‌های بزرگی داشته‌اند. قابلیت‌های این سیستم‌ها چشمگیر است: آنها تصاویر بسیار پیشنهادی تولید می‌کنند، نسخه‌های فروش مؤثری را برای تبلیغات ایجاد می‌کنند، و خیلی چیزهای دیگر - همه این‌ها از طریق «اعلام‌هایی» که توصیف می‌کنند آنچه کاربر می‌خواهد به دست آورد.

همه اینها با هوش مصنوعی Generative انجام می شود.

"هوش مصنوعی مولد" به سیستم هایی اشاره دارد که توسط شبکه های عصبی عمیق که اجرا می کنند مدل های زبان بزرگ (LLM) به منظور ایجاد نوعی محتوا در اینجا من می گویم "ایجاد"، به این معنی که این کپی از چیزی نیست که از قبل وجود داشته است، نه به معنای فلسفی (به هر حال "آفرینش" چیست؟).

شرکت های بزرگ جدید در این دنیای جدید و شجاع در حال ظهور هستند، مانند یشم، که هم نسل کپی فروش و هم تصاویر برای تبلیغات را ارائه می دهد: جاسپر اکنون ارزشی بیش از یک میلیارد دلار دارد و یک شبه اسب شاخدار می شود.

اولین پلتفرم هوش مصنوعی مولد که واقعاً یک فرورفتگی ایجاد کرد GPT-3 بود که چند سال پیش منتشر شد! پس از آن، نسخه‌های متوالی توسط چندین بازیکن در این زمینه (OpenAI، Google، StableDiffusion، Google، DeepMind، و دیگران) با سرعت بسیار بالایی ظاهر شد، به طوری که به سختی می‌توان به‌روز ماند.

اما فراتر از اینکه چقدر سرگرم کننده و خارق العاده است گذراندن مدتی با Midjourney برای ایجاد تصاویر از دستورات ما، بسیاری از علاقه مندان به فناوری برای درک این موج IA مولد تلاش می کنند.

آیا Generative IA یک روند ثابت است یا فقط یک مد است؟

من برای "روند جامدزیرا هزاران فعالیت حرفه ای و فراغتی را در گستره این دهه متحول خواهد کرد. اجازه دهید با یک مثال شروع کنم.

من یک طرفدار بزرگ تنیس هستم (حداقل از نظر تلویزیونی). اما بازی‌های تنیس زنده ساعت‌ها طول می‌کشد تا به پایان برسد، و من فعالیت‌ها و علایق دیگری دارم، بنابراین معمولاً به تماشای بازپخش‌ها متوسل می‌شوم یا فقط ویدیوهایی را با سرگرم‌کننده‌ترین 4 دقیقه یا بیشتر از یک مسابقه برجسته می‌کنم.

اما اگر به جای یک ویدیوی 4 دقیقه ای، یک ویدیوی 10 یا 15 دقیقه ای بخواهم چه؟ یا اگر بخواهم هر امتیازی را در تای بریک ها لحاظ کنم؟ من در حال حاضر بد شانس هستم

اکنون کلاه Generative-IA خود را در کار بگذارید: یک ژنراتور ویدیوی ورزشی Generative IA یک ویدیو ایجاد می کند فقط برای شما با توجه به مشخصاتی که به صورت غیررسمی در یک پیام متنی مانند زیر قرار داده اید:

"ویدئوی حدود 15 دقیقه با سرگرم کننده ترین نکات مسابقه رافا نادال و تامی پل در پاریس برسی 2022، شامل تای بریک های کامل در صورت وجود، و همچنین هر نقطه شکست تبدیل شده"

خودشه. پیوندی با ویدیوی شخصی‌شده خود دریافت می‌کنید، متفاوت از ویدیویی که هر کس دیگری در جهان آن را تماشا کرده است. و این سرویس ویدیویی به اندازه DALL-E و Midjourney از نظر اقتصادی مقرون به صرفه خواهد بود.

پژوهش با نوآوری متفاوت است. اولی مربوط به نتایج اولیه منتشر شده است، و دومی بیشتر به یافتن چگونگی ایجاد یک کسب و کار از آن نتایج مربوط می شود: نوآوری به اصالت اهمیت نمی دهد، بلکه به رشد، قابلیت دفاع، بازگشت سرمایه و غیره اهمیت می دهد.

اغلب همه چیز گیج کننده می شود زیرا تحقیقات توسط شرکت هایی مانند گوگل انجام می شود که اصولاً برای کسب سود در آنجا هستند - اما آنها می دانند که تجارت آنها با فناوری پیشرفته است و فناوری بدون تحقیق بالا نیست. بنابراین آنها درگیر تأمین مالی تحقیقات و همچنین نزدیک شدن به دانشگاه می شوند - بسیاری از محققان برتر آنها از دانشگاه استخدام شده اند. من خودم به عنوان یک محقق، چند سال پیش به یک اجلاس دانشکده در مقر آنها در Mountain View دعوت شدم، و آنها مرا در سوئیتی در هتل Four Seasons اسکان دادند - هر کاری که لازم است برای ایجاد تأثیر خوب در جامعه دانشگاهی!

اما حتی اگر ایجاد یک برش واضح بین تحقیق و نوآوری دشوار - و حتی مصنوعی - باشد، تفاوت در اینجا بسیار مهم است زیرا در مورد هوش مصنوعی Generative، این دو توسط بازیگران مختلف توسعه داده می‌شوند و با هم مرتبط خواهند شد. با دو لایه مختلف در پشته نرم افزار –as توسط J. Currier اشاره کرد:

  1. لایه نرم افزار پایینی است مدل یادگیری عمیق، بر پایه پیاده سازی مدل های زبان بزرگ (LLM) یا نمایش داخلی معادل آن ساخته شده است. مدل‌ها پایه‌ای را فراهم می‌کنند که از آن می‌توان برنامه‌ها را توسعه داد.
  2. لایه بالای نرم افزار همان است استفاده یکی، که بر روی مدل Deep Learning ساخته می شود تا یک کار خاص را انجام دهد، به عنوان مثال، خروجی تصویر از یک دستور متنی.

این معماری دولایه به عصر جدیدی از نوآوری شتاب زده دامن می زند، زیرا هنگامی که لایه پایین توسط شرکت های بسیار بزرگی مانند گوگل، OpenAI و دیگران توسعه یابد، شرکت های کوچکتر لایه برنامه را ارائه می دهند که البته باعث کاهش سود می شود. به ارائه دهنده لایه پایین

در حال حاضر، لایه پایین به سرعت بهبود یافته است - و اغلب، همراه با یک برنامه کاربردی در بالا توزیع شده است. برای مثال، LaMDA و PalM قابلیت‌های محاوره‌ای را ارائه می‌دهند، در حالی که DALL-E و Midjourney خدمات فوری به تصویر را ارائه می‌دهند. اما به زودی، تکثیر جایگزین های منبع باز برای لایه پایین، توسعه لایه برنامه بالا و اتصال آن به لایه پایینی از قبل موجود را ممکن می کند. البته گفتن آسان‌تر از انجام آن است، اما واقعیت این است که لایه پایینی نسبت به لایه بالایی پیچیده‌تر است.

من استدلال می کنم که Generative IA تقریباً در تمام کارهای دانشی و فعالیت های اوقات فراغت نفوذ خواهد کرد زیرا ابزارهایی را برای دور کردن پیچیدگی از فعالیت‌های دشوار سابق فراهم می‌کند و به این دلیل که می‌تواند سطح کاملا جدیدی از شخصی‌سازی را فراهم کند که من آن را «شخصی‌سازی مولد» می‌نامم.

می‌توانید «شخصی‌سازی مولد» را از مثال ویدیوی ورزشی بالا ببینید: به هر کاربر به جای انتخاب بین دو یا سه گزینه، یک ویدیوی جدید و منحصربفرد داده می‌شود.

اغراق کردن تأثیر تجمعی همه برنامه‌های IA Generative سخت است:

  1. ایجاد گرافیک آسان در حال حاضر با ابزارهایی مانند DALL-E، Midjourney و Stable Diffusion در دسترس افراد غیرحرفه ای است، حداقل برای مقاصد کاربردی ساده مانند گرفتن یک تصویر هدر برای این پست. قبل از امسال، من به طور کامل نمی توانستم تصاویر خود را ترسیم کنم و کارشناسان وبلاگ توصیه می کردند که زمان خود را برای طراحی گرافیکی برای داستان های خود تلف نکنید.
  2. کاربران ویرایش عکس برای تسلط بر مجموعه پیچیده ابزارهای Photoshop یا Affinity Photo نیازی به تحمل یک منحنی یادگیری سخت نخواهند داشت (من از دومی استفاده می کنم و آنقدر پیچیده است که برای یادگیری نحوه انجام بیشتر تنظیمات باید از آموزش های YouTube استفاده کنم). با استفاده از هوش مصنوعی Generative، کاربران فقط از نرم افزار می خواهند که یک تغییر شکل داده شده را انجام دهد و voila! تصویر ثابت خواهد شد. اگر Adobe نتواند هوش مصنوعی مولد را با ابزارهای خود ارائه دهد، توسط استارت‌آپ‌های جدیدی که به آن‌ها ارائه می‌دهند مختل می‌شوند و راه بلاک‌باستر را خواهند رفت.
  3. ابزارهای ارائه مانند پاورپوینت، به جای ارائه الگوهایی که اکنون انجام می‌دهند، کل ارائه‌های سطح حرفه‌ای را از ایده‌های کلی تولید و تنظیم می‌کنند. در حال حاضر، تفاوت بین ارائه های حرفه ای و آماتور بسیار زیاد است - این دیگر صدق نخواهد کرد.
  4. نوشتن متن فرآیندی خواهد بود که با ابزارهای هوش مصنوعی مولد بسیار بهبود یافته است. بسیاری از اشکال نوشتار در حال حاضر از ابزارهای پیچیده ای مانند Grammarly کمک می گیرند، اما هوش مصنوعی Generative سطح کیفی جدیدی از کمک را به نویسندگان می دهد، به عنوان مثال، با ایجاد اولین نسخه کامل یک وبلاگ. نوشتن یک فرآیند مشترک بین انسان و ابزار هوش مصنوعی خواهد بود.
  5. هر نرم افزاری که برای کاربر نهایی در نظر گرفته شده است باید برای استفاده با پیام های متنی یا صوتی ساده باشد. کتابچه‌های راهنمای کاربر و فیلم‌های آموزشی متعلق به گذشته خواهند بود و به محض اینکه کاربران به روش ساده جدید استفاده از نرم‌افزار عادت کنند، همه چیز باید آن را ارائه دهد تا مرتبط بماند.
  6. یادگیری زبان عمدتاً با کمک دستیارهای صوتی انجام می شود که توسط - درست حدس زدید - هوش مصنوعی Generative ارائه می شوند. دستیارهای صوتی، که مانند مربیان زبان شخصی عمل خواهند کرد، از قابلیت‌های شگفت‌انگیز گفتگوی زبان طبیعی خود که برای اولین بار در سیستم‌هایی مانند LaMDA گوگل دیده می‌شود، استفاده خواهند کرد تا زبان‌آموز را به منظور دستیابی به واژگان و عبارات، بهبود تلفظ و غیره راهنمایی کنند. آموزش زبان. دستیارهای صوتی یک فانتزی آینده نگر نیست - فقط در حال حاضر منطقی اقتصادی است.
  7. حتی محصولات سخت‌افزاری (مانند خودروها) دارای سیستم‌های کمکی مبتنی بر محاوره‌ای مبتنی بر هوش مصنوعی خواهند بود. آیا سعی کرده اید عملیات پیچیده ای مانند تنظیم نمایشگر در خودروهای مدرن را انجام دهید؟ آسان نیست، می توانم به شما بگویم. به جای جستجو در کتابچه های راهنمای پیچیده، فقط از دستیار صوتی بخواهید دستورالعمل ها را دریافت کند یا مستقیماً تنظیمات را انجام دهد.

بسیاری از مشاغل غیرقابل تشخیص تغییر خواهند کرد. طراحان گرافیک در حال حاضر نیش این اختلال را احساس می کنند. تمام حرفه ها ناپدید می شوند و مشاغل دیگری ایجاد می شوند. شرکت‌های قدرتمند ورشکست خواهند شد و شرکت‌های جدید، بسته به اینکه چگونه با اختلالات فنی ناشی از هوش مصنوعی تولیدی کنار بیایند، مسلط خواهند شد.

و همه اینها در این دهه اتفاق خواهد افتاد.

ممکن است اشتباه کنم، اما به نظر من، پیش‌بینی توانایی‌های عظیم تولیدکننده‌های تصویر و متن کنونی، حتی برای کارشناسان باتجربه فناوری، دشوار بود: چند سال پیش مشخص نبود که مدل‌ها و مجموعه‌های آموزشی عظیم این کار را انجام دهند. منجر به قابلیت های کیفی متفاوت می شود.

من تا آنجا پیش می روم که بگویم این یک یافته خوش شانس و تقریباً تصادفی بود. اما اکنون که ابزارهای مولد داریم، دروازه‌ها به روی شرکت‌های نوآوری باز است که برنامه‌های کاربردی پس از استفاده را با سرعتی سریع توسعه می‌دهند: این بیشتر به این بستگی دارد که بفهمیم چه چیزی را می‌توان به طور اساسی بهبود بخشید و مدل کسب‌وکار مناسبی را برای ایجاد یک کسب‌وکار پیدا کرد. یک ایده ژنراتور IA

چند سال پیش، به نظر می‌رسید که دیگر گرایش‌های فناوری، مانند خودروهای خودران، VR یا بلاک چین، به زودی فراگیر خواهند شد، اما فناوری خودران به دلیل موانع قانونی محدود شده است، بلاک چین تحت تأثیر رکود اقتصادی قرار گرفته است، و VR پذیرش با هزینه های بالای سخت افزاری محدود می شود. در عوض، هوش مصنوعی مولد هنوز توسط قانون محدود نشده است (سلام، صیقل دادن یک ارائه پاورپوینت یا تولید یک ویدیوی ورزشی یک موضوع مرگ یا زندگی نیست) و برای خرید کاربر به سخت افزار گران قیمت نیاز ندارد.

و ما فکر نمی کردیم که فعالیت های خلاقانه به این زودی مختل شود. اما آنها بودند.

ما وارد دوران جدید و گاه عجیبی می‌شویم، جایی که خلاقیت انسان با قابلیت‌های جدید ماشین‌ها آمیخته می‌شود تا جایی که تشخیص آن‌ها دشوار است. مانند جی کریر نشان میدهد:

"امروز و برای چند سال آینده، این امر شگفت‌انگیز و از بسیاری جهات ترسناک خواهد بود. زیرا آن لحظات خلاقانه ای که شما از ایده های صفر به ایده های اولیه می روید، همیشه بسیار منحصر به فرد بوده است، زیرا بسیار مرموز بوده است.

چگونه Generative IA همه چیز را در دهه جاری مختل خواهد کرد از منبع https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 از طریق https://towardsdatascience.com/feed

<!–

->

تمبر زمان:

بیشتر از مشاوران بلاک چین