कैसे जनरेटिव IA वर्तमान दशक में सब कुछ बाधित करेगा

बहुतों को आश्चर्य होगा

स्थिर प्रसार के साथ लेखक द्वारा छवि

In हाल के महीनों में, मिडजर्नी, DALL-E, स्टेबल डिफ्यूजन, LaMDA और PaLM जैसे AI सिस्टम ने स्पष्ट रूप से छवि और पाठ निर्माण जैसे विविध डोमेन में बड़ी प्रगति की है। इन प्रणालियों की क्षमताएं प्रभावशाली हैं: वे अत्यधिक विचारोत्तेजक छवियां उत्पन्न करते हैं, विज्ञापन के लिए प्रभावी बिक्री प्रतिलिपि बनाते हैं, और बहुत कुछ - केवल "संकेतों" से जो बताते हैं कि उपयोगकर्ता क्या प्राप्त करना चाहता है।

यह सब जेनरेटिव एआई के साथ किया जाता है।

"जेनरेटिव एआई" द्वारा संचालित प्रणालियों को संदर्भित करता है गहरे तंत्रिका नेटवर्क वह कार्यान्वयन बड़े भाषा मॉडल (एलएलएम) करने के लिए बनाना किसी प्रकार की सामग्री. यहां मैं "सृजन" कह रहा हूं, जिसका अर्थ है कि यह पहले से मौजूद किसी चीज़ की प्रतिलिपि नहीं है, दार्शनिक अर्थ में नहीं (वैसे भी "सृजन" क्या है?)।

इस बहादुर नई दुनिया में बड़ी नई कंपनियाँ उभर रही हैं, जैसे सूर्यकांत मणि, जो बिक्री प्रतियों और विज्ञापन के लिए छवियों दोनों की पीढ़ी प्रदान करता है: जैस्पर का अब एक अरब डॉलर से अधिक का मूल्यांकन है, जो रातोंरात यूनिकॉर्न बन गया है।

वास्तव में धूम मचाने वाला पहला जेनरेटिव एआई प्लेटफॉर्म जीपीटी-3 था - जिसे कुछ साल पहले ही जारी किया गया था! उसके बाद, क्षेत्र में कई खिलाड़ियों (ओपनएआई, गूगल, स्टेबलडिफ्यूजन, गूगल, डीपमाइंड, और अन्य) द्वारा रिलीज की एक श्रृंखला गर्दन तोड़ देने वाली गति से सामने आई है, इतनी तेजी से कि वर्तमान में बने रहना मुश्किल है।

लेकिन हमारे संकेतों से छवियां बनाने के लिए मिडजर्नी के साथ कुछ समय बिताना कितना मजेदार और शानदार है, इसके अलावा, कई तकनीकी उत्साही इस जेनरेटिव आईए तरंग को समझने के लिए संघर्ष करते हैं।

क्या जेनरेटिव आईए एक ठोस प्रवृत्ति है, या यह सिर्फ एक सनक है?

मैं "के लिए जाऊंगा"ठोस प्रवृत्तिक्योंकि यह इस दशक के दायरे में हजारों पेशेवर और अवकाश गतिविधियों को बदल देगा। मैं एक उदाहरण से शुरुआत करता हूँ।

मैं टेनिस का बहुत बड़ा प्रशंसक हूं (कम से कम टीवी अर्थ में)। लेकिन लाइव टेनिस मैच खत्म होने में घंटों लग जाते हैं, और मेरी अन्य गतिविधियां और रुचियां हैं, इसलिए मैं आमतौर पर रीप्ले देखने का सहारा लेता हूं या मैच के सबसे मनोरंजक 4 मिनट या उससे भी अधिक समय के हाइलाइट वीडियो का सहारा लेता हूं।

लेकिन क्या होगा अगर मुझे 4 मिनट के वीडियो के बजाय 10 या 15 मिनट का वीडियो चाहिए? या यदि मैं टाई-ब्रेक में प्रत्येक बिंदु को शामिल करना चाहता हूँ? फिलहाल मेरी किस्मत ख़राब है.

अब अपनी जेनरेटिव-आईए टोपी को काम पर लगाएं: एक जेनरेटिव आईए स्पोर्ट्स वीडियो जनरेटर एक वीडियो बनाएगा सिर्फ तुम्हारे लिए उन विशिष्टताओं के अनुसार जिन्हें आप अनौपचारिक रूप से निम्नलिखित जैसे टेक्स्ट प्रॉम्प्ट में डालते हैं:

"पेरिस बर्सी 15 में राफा नडाल बनाम टॉमी पॉल मैच के सबसे मनोरंजक बिंदुओं के साथ लगभग 2022 मिनट का वीडियो, जिसमें पूर्ण टाईब्रेक, यदि कोई हो, साथ ही परिवर्तित प्रत्येक ब्रेकपॉइंट भी शामिल है।"

इतना ही। आपको अपने वैयक्तिकृत वीडियो के साथ एक लिंक मिलता है, जो दुनिया में किसी अन्य द्वारा देखे गए वीडियो से अलग होता है। और यह वीडियो सेवा DALL-E और मिडजर्नी जितनी ही आर्थिक रूप से व्यवहार्य होगी।

अनुसंधान नवप्रवर्तन से भिन्न है। पूर्व का संबंध प्रकाशित मूल परिणामों से है, और बाद वाले का संबंध उन परिणामों से व्यवसाय बनाने का तरीका खोजने से अधिक है: नवाचार मौलिकता की परवाह नहीं करता है, बल्कि विकास, रक्षात्मकता, निवेश रिटर्न आदि की परवाह करता है।

अक्सर चीजें भ्रमित करने वाली हो जाती हैं क्योंकि शोध Google जैसी कंपनियों द्वारा किया जाता है, जो सिद्धांत रूप में लाभ कमाने के लिए हैं - लेकिन वे समझते हैं कि उनका व्यवसाय उच्च तकनीक वाला है, और शोध के बिना तकनीक ऊंची नहीं है. इसलिए वे अनुसंधान के वित्तपोषण में शामिल हो जाते हैं, साथ ही शिक्षा जगत के करीब भी जाते हैं - उनके कई शीर्ष शोधकर्ताओं को शिक्षा जगत से ही काम पर रखा गया था। एक शोधकर्ता के रूप में, मुझे कुछ साल पहले माउंटेन व्यू में उनके मुख्यालय में एक संकाय शिखर सम्मेलन में आमंत्रित किया गया था, और उन्होंने मुझे फोर सीजन्स होटल के एक सुइट में ठहराया था - अकादमिक समुदाय पर अच्छा प्रभाव डालने के लिए जो भी करना पड़े!

लेकिन भले ही अनुसंधान और नवाचार के बीच स्पष्ट अंतर बनाना मुश्किल हो - और यहां तक ​​​​कि कृत्रिम भी - अंतर यहां महत्वपूर्ण है क्योंकि, जेनरेटिव एआई के मामले में, दोनों को अलग-अलग अभिनेताओं द्वारा विकसित किया जाएगा, और वे जुड़े रहेंगे सॉफ़्टवेयर स्टैक में दो अलग-अलग परतों के साथ -as जे. क्यूरियर द्वारा बताया गया:

  1. निचली सॉफ़्टवेयर परत है डीप लर्निंग मॉडल, बड़े भाषा मॉडल (एलएलएम) या समकक्ष आंतरिक प्रतिनिधित्व के कार्यान्वयन के आसपास बनाया गया है। मॉडल आधार बिल्डिंग ब्लॉक प्रदान करते हैं जिससे एप्लिकेशन विकसित किए जा सकते हैं।
  2. शीर्ष सॉफ़्टवेयर परत है आवेदन एक, जो किसी विशिष्ट कार्य को पूरा करने के लिए डीप लर्निंग मॉडल के शीर्ष पर बनता है, उदाहरण के लिए, टेक्स्ट प्रॉम्प्ट से एक छवि आउटपुट करना।

यह दो-परत वास्तुकला त्वरित नवाचार के एक नए युग को बढ़ावा देगी क्योंकि एक बार जब नीचे की परत Google, OpenAI और अन्य जैसी बहुत बड़ी कंपनियों द्वारा विकसित की जाती है, तो छोटी कंपनियां एप्लिकेशन परत प्रदान करेंगी - जिससे निश्चित रूप से, उनके लाभ में कटौती होगी। निचली परत प्रदाता को।

वर्तमान में, निचली परत में तेजी से सुधार हुआ है - और अक्सर, इसे शीर्ष पर एक एप्लिकेशन के साथ वितरित किया गया है। उदाहरण के लिए, LaMDA और PaLM बॉक्स से बाहर संवाद क्षमताएं प्रदान करते हैं, जबकि DALL-E और मिडजर्नी प्रॉम्प्ट-टू-इमेज सेवाएं प्रदान करते हैं। लेकिन जल्द ही, निचली परत के लिए ओपन-सोर्स विकल्पों के प्रसार से केवल शीर्ष एप्लिकेशन परत को विकसित करना और इसे पहले से ही उपलब्ध निचली परत में प्लग करना संभव हो जाएगा। बेशक, कहना जितना आसान है, करना उतना ही आसान है, लेकिन तथ्य यह है कि निचली परत ऊपरी परत की तुलना में अधिक जटिल है।

मैं तर्क दूंगा कि जनरेटिव आईए यह लगभग हर एक ज्ञान कार्य और अवकाश गतिविधि में व्याप्त होगा क्योंकि यह पहले की कठिन गतिविधियों से जटिलता दूर करने के लिए उपकरण प्रदान करेगा और क्योंकि यह वैयक्तिकरण का एक नया स्तर प्रदान कर सकता है जिसे मैं "जनरेटिव वैयक्तिकरण" कहूंगा।

आप ऊपर दिए गए खेल वीडियो उदाहरण से देख सकते हैं कि "जनरेटिव वैयक्तिकरण" क्या है: प्रत्येक उपयोगकर्ता को केवल दो या तीन विकल्पों के बीच चयन के बजाय एक बिल्कुल नया और अद्वितीय हाइलाइट्स वीडियो दिया जाता है।

सभी जेनरेटिव IA अनुप्रयोगों से संचयी प्रभाव को बढ़ा-चढ़ाकर बताना कठिन है:

  1. DALL-E, मिडजर्नी और स्टेबल डिफ्यूजन जैसे उपकरणों के साथ आसान ग्राफिक निर्माण पहले से ही गैर-पेशेवरों की पहुंच में है, कम से कम इस पोस्ट के लिए हेडर छवि प्राप्त करने जैसे सरल उपयोगितावादी उद्देश्यों के लिए। इस वर्ष से पहले, मैं अपनी स्वयं की छवियां बनाने में पूरी तरह से असमर्थ था, और ब्लॉग विशेषज्ञों ने अपनी कहानियों के लिए ग्राफिक डिज़ाइन पर समय बर्बाद करने की सलाह दी थी।
  2. फ़ोटो संपादन उपयोगकर्ताओं को फ़ोटोशॉप या एफ़िनिटी फ़ोटो के टूल के जटिल सेट में महारत हासिल करने के लिए कठिन सीखने की आवश्यकता नहीं होगी (मैं बाद वाले का उपयोग करता हूं, और यह इतना जटिल है कि मुझे अधिकांश समायोजन करने के तरीके सीखने के लिए YouTube ट्यूटोरियल से परामर्श लेना होगा)। जेनरेटिव एआई के साथ, उपयोगकर्ता केवल सॉफ्टवेयर से किसी दिए गए परिवर्तन को करने के लिए कहेंगे, और वोइला! छवि ठीक हो जायेगी. यदि एडोब अपने टूल के साथ जेनरेटिव एआई देने में विफल रहता है, तो उन्हें पेश किए जाने वाले नए स्टार्टअप द्वारा बाधित किया जाएगा और ब्लॉकबस्टर की राह पर चलेंगे।
  3. पॉवरपॉइंट जैसे प्रेजेंटेशन टूल, केवल टेम्पलेट प्रदान करने के बजाय, जैसा कि वे अब करते हैं, रूपरेखा विचारों से संपूर्ण पेशेवर-स्तरीय प्रस्तुतियों को तैयार और परिष्कृत करेंगे। वर्तमान में, पेशेवर और शौकिया प्रस्तुतियों के बीच अंतर बहुत बड़ा है - अब ऐसा नहीं होगा।
  4. टेक्स्ट लेखन जेनरेटिव एआई टूल्स द्वारा अत्यधिक उन्नत प्रक्रिया होगी। लेखन के कई रूपों को पहले से ही व्याकरण जैसे परिष्कृत उपकरणों से मदद मिल रही है, लेकिन जेनरेटिव एआई लेखकों को गुणात्मक रूप से नए स्तर की मदद देगा, उदाहरण के लिए, एक ब्लॉग का पूरा पहला संस्करण तैयार करके। लेखन मनुष्य और एआई टूल के बीच एक सहयोगात्मक प्रक्रिया होगी।
  5. अंतिम उपयोगकर्ता के लिए इच्छित किसी भी सॉफ़्टवेयर को टेक्स्ट या ध्वनि संकेतों के साथ उपयोग करना आसान होना चाहिए। उपयोगकर्ता मैनुअल और निर्देशात्मक वीडियो अतीत की बात हो जाएंगे, और जैसे ही उपयोगकर्ता सॉफ़्टवेयर का उपयोग करने के नए सरल तरीके के अभ्यस्त हो जाएंगे, प्रासंगिक बने रहने के लिए हर चीज़ को इसे पेश करना होगा।
  6. भाषा सीखना मुख्य रूप से वॉयस असिस्टेंट की मदद से किया जाएगा, जो कि - आपने सही अनुमान लगाया - जेनरेटिव एआई द्वारा संचालित होगा। वॉयस असिस्टेंट, जो व्यक्तिगत भाषा प्रशिक्षकों की तरह काम करेंगे, अपनी अद्भुत प्राकृतिक भाषा संवाद क्षमताओं का उपयोग करेंगे, जो पहली बार Google के LaMDA जैसी प्रणालियों में देखी गई है, ताकि मानव भाषा सीखने वाले को शब्दावली और अभिव्यक्ति प्राप्त करने, उच्चारण में सुधार करने आदि के लिए मार्गदर्शन किया जा सके। भाषा-शिक्षण वॉइस असिस्टेंट कोई भविष्य की कल्पना नहीं है - यह अभी केवल आर्थिक समझ में आता है।
  7. यहां तक ​​कि हार्डवेयर उत्पादों (जैसे कारों) में भी जेनरेटिव एआई डायलॉग-आधारित सहायता प्रणाली होगी। क्या आपने आधुनिक कारों में डिस्प्ले को समायोजित करने जैसा जटिल ऑपरेशन करने का प्रयास किया है? आसान नहीं है, मैं आपको बता सकता हूँ। जटिल मैनुअल में खोजबीन करने के बजाय, आप वॉयस असिस्टेंट से या तो निर्देश प्राप्त करने के लिए कहेंगे या सीधे समायोजन करने के लिए कहेंगे।

कई व्यवसायों को मान्यता से परे बदल दिया जाएगा। ग्राफ़िक डिज़ाइनर पहले से ही इस व्यवधान का दंश महसूस कर रहे हैं। सारे पेशे ख़त्म हो जायेंगे और दूसरे पेशे पैदा हो जायेंगे। शक्तिशाली कंपनियां दिवालिया हो जाएंगी, और नई कंपनियां प्रभावी हो जाएंगी, यह इस बात पर निर्भर करेगा कि वे जेनरेटिव एआई द्वारा लाए गए तकनीकी व्यवधान को कितनी अच्छी तरह संभालते हैं।

और यह सब इसी दशक के भीतर होगा.

मैं गलत हो सकता हूं, लेकिन मुझे ऐसा लगता है कि अनुभवी तकनीकी पंडितों के लिए भी वर्तमान छवि और पाठ जनरेटर की विशाल क्षमताओं का पूर्वानुमान लगाना मुश्किल था: कुछ साल पहले यह स्पष्ट नहीं था कि विशाल मॉडल और प्रशिक्षण सेट ऐसा करेंगे गुणात्मक रूप से भिन्न क्षमताओं की ओर ले जाता है।

मैं तो यहां तक ​​कहूंगा कि यह एक सौभाग्यशाली, लगभग यादृच्छिक खोज थी। लेकिन अब जब हमारे पास जेनरेटर टूल्स हैं, तो नई कंपनियों के लिए द्वार खुले हैं जो तेज गति से एप्लिकेशन के बाद एप्लिकेशन विकसित करेंगे: यह ज्यादातर यह पता लगाने का मामला है कि क्या मौलिक रूप से सुधार किया जा सकता है और व्यवसाय बनाने के लिए उपयुक्त बिजनेस मॉडल ढूंढना है एक जनरेटिव आईए विचार।

कुछ साल पहले, ऐसा लग रहा था कि सेल्फ-ड्राइविंग कार, वीआर, या ब्लॉकचेन जैसे अन्य तकनीकी रुझान जल्द ही हावी हो जाएंगे, लेकिन सेल्फ-ड्राइविंग तकनीक विधायी बाधाओं के कारण सीमित हो गई है, ब्लॉकचेन आर्थिक मंदी की चपेट में आ गई और वीआर हार्डवेयर की उच्च लागत के कारण इसे अपनाना सीमित है। इसके बजाय, जेनरेटिव एआई अभी तक कानून द्वारा सीमित नहीं है (अरे, पावरपॉइंट प्रेजेंटेशन को चमकाना या स्पोर्ट्स वीडियो बनाना जीवन या मृत्यु का मामला नहीं है) और उपयोगकर्ता द्वारा खरीदे जाने वाले महंगे हार्डवेयर की आवश्यकता नहीं है।

और हमने नहीं सोचा था कि रचनात्मक गतिविधियाँ इतनी जल्दी बाधित होने वाली हैं। लेकिन वे थे.

हम नए और कभी-कभी अजीब समय में प्रवेश कर रहे हैं, जहां मानव रचनात्मकता मशीनों की नई क्षमताओं के साथ इस हद तक मिश्रित हो गई है कि उनके बीच अंतर करना मुश्किल हो गया है। जैसा जे कैरियर बताता है:

“आज और अगले कुछ वर्षों तक, यह आश्चर्यजनक और कई मायनों में डरावना लगेगा। क्योंकि वे रचनात्मक क्षण जहां आप शून्य से आरंभिक विचारों की ओर जाते हैं, वे हमेशा विशिष्ट रूप से मानवीय लगते हैं, क्योंकि वे बहुत रहस्यमय होते हैं।

वर्तमान दशक में जेनरेटिव IA सब कुछ कैसे बाधित करेगा, स्रोत से पुनर्प्रकाशित https://towardsdatascience.com/how-generative-ia-will-disrup-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 https://towardsdatascience.com/feed के माध्यम से

<!–

->

समय टिकट:

से अधिक ब्लॉकचेन कंसल्टेंट्स

मेटा 'ट्यूलिप' पेश करता है, एक बाइनरी सीरियलाइजेशन प्रोटोकॉल जो एआई और मशीन लर्निंग वर्कलोड के लिए प्रोटोकॉल विश्वसनीयता को संबोधित करके डेटा स्कीमेटाइजेशन के साथ सहायता करता है

स्रोत नोड: 1755699
समय टिकट: नवम्बर 12, 2022