গভীর শিক্ষায় ডোমেন বিশেষজ্ঞদের উত্থান

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

জেরেমি হাওয়ার্ড হলেন কৃত্রিম বুদ্ধিমত্তার গবেষক এবং এর সহ-প্রতিষ্ঠাতা দ্রুত.এআই, কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং শেখার জন্য অ-বিশেষজ্ঞদের জন্য একটি প্ল্যাটফর্ম। fast.ai শুরু করার আগে, তিনি একাধিক কোম্পানী প্রতিষ্ঠা করেছিলেন — যার মধ্যে রয়েছে FastMail এবং Enlitic, চিকিৎসা ক্ষেত্রে গভীর শিক্ষা প্রয়োগে অগ্রগামী — এবং মেশিন-লার্নিং প্রতিযোগিতার প্ল্যাটফর্ম Kaggle-এর সভাপতি ও প্রধান বিজ্ঞানী ছিলেন।

এই সাক্ষাত্কারে, হাওয়ার্ড বিভিন্ন শিল্প এবং এমনকি বিশ্বব্যাপী অঞ্চলগুলির জন্য এর অর্থ কী তা নিয়ে আলোচনা করেছেন যে বিশেষ গবেষণা ল্যাব থেকে পিএইচডি ছাড়া লোকেরা গভীর শিক্ষার মডেল তৈরি করতে এবং কাজ করতে পারে। এই বিস্তৃত ছাতার অধীনে অন্যান্য বিষয়গুলির মধ্যে, তিনি কীভাবে অত্যাধুনিক কৌশলগুলির সাথে সর্বোত্তমভাবে চলতে হয়, একটি নতুন দক্ষতা সেট হিসাবে প্রম্পট ইঞ্জিনিয়ারিং এবং কোডেক্সের মতো কোড-জেনারেশন সিস্টেমের সুবিধা এবং অসুবিধাগুলি সম্পর্কে তার চিন্তাভাবনাগুলি ভাগ করে নেন৷

ভবিষ্যৎ: বিগত কয়েক বছর ধরে fast.ai চালানোর পর, গভীর শিক্ষার মৌলিক ধারণাগুলির সাথে পরিচিত হওয়ার ফলে আপনি আরও অনেক লোকের কী প্রভাব দেখতে পাচ্ছেন — বনাম কয়েক বছর আগে যখন জ্ঞানসম্পন্ন লোকেরা ইউনিকর্ন ছিল?

জেরেমি হাওয়ার্ড: আমরা যখন fast.ai শুরু করি, তখন মূলত, পাঁচটি উল্লেখযোগ্য বিশ্ববিদ্যালয়ের গবেষণা ল্যাব গভীর শিক্ষার উপর কাজ করে — এবং একমাত্র লোকেরা যারা গভীর শিক্ষার মাধ্যমে প্রায় কিছু করতে জানত তারা সেই পাঁচটি ল্যাবে ছিল বা ছিল। . সামগ্রিকভাবে, কোড প্রকাশ করা হচ্ছিল না, ডেটা ছেড়ে দিন। এমনকি কাগজপত্রগুলি কীভাবে এটিকে বাস্তবে কার্যকর করা যায় তার বিশদ প্রকাশ করছিল না, আংশিক কারণ একাডেমিক স্থানগুলি ব্যবহারিক বাস্তবায়নের বিষয়ে খুব বেশি যত্নশীল ছিল না। এটি তত্ত্বের উপর খুব মনোযোগী ছিল।

সুতরাং যখন আমরা শুরু করি, তখন এটি একটি খুব অনুমানমূলক প্রশ্ন ছিল, "পিএইচডি ছাড়া কি বিশ্ব-মানের গভীর শিক্ষা করা সম্ভব?"। আমরা এখন উত্তর জানি হাঁ; আমরা আমাদের প্রথম কোর্সে তা দেখিয়েছি। আমাদের প্রথম প্রাক্তন ছাত্ররা গভীর শিক্ষা ব্যবহার করে পেটেন্ট তৈরি করতে, গভীর শিক্ষা ব্যবহার করে কোম্পানি তৈরি করতে এবং গভীর শিক্ষা ব্যবহার করে শীর্ষস্থানীয় স্থানে প্রকাশ করতে গিয়েছিলেন।

আমি মনে করি আপনার প্রশ্নটি একেবারে সঠিক, যা ডোমেন বিশেষজ্ঞরা যখন কার্যকর গভীর শিক্ষার অনুশীলনকারী হয়ে ওঠে তখন কী হয়? সেখানেই আমরা সবচেয়ে আকর্ষণীয় জিনিসগুলি ঘটতে দেখেছি। সাধারণত, সেরা স্টার্টআপগুলি এমন ব্যক্তিদের দ্বারা তৈরি করা হয় যাদের ব্যক্তিগতভাবে স্ক্র্যাচ করার জন্য চুলকানি রয়েছে। তারা নিয়োগকারী হতেন, তাই তারা একটি নিয়োগের স্টার্টআপ করছেন, বা তারা প্যারালিগাল ছিলেন, তাই তারা একটি আইনি স্টার্টআপ করছেন, বা যাই হোক না কেন। এবং তারা, যেমন, "ওহ, আমার যে কাজটি ছিল সে সম্পর্কে আমি এই জিনিসটিকে ঘৃণা করি। এবং এখন যেহেতু আমি গভীর শিক্ষা সম্পর্কে জানি, আমি জানি যে আমি প্রায় পুরো জিনিসটিকে স্বয়ংক্রিয় করতে পারি।"

আমাদের অনেক শিক্ষার্থীও তাদের পিএইচডি করছে বা করেছে, কিন্তু গণিত বা কম্পিউটার বিজ্ঞানে নয়; পরিবর্তে, তারা সেগুলি কেমোইনফরমেটিক্স, প্রোটিওমিক্স, ডেটা সাংবাদিকতা বা যে কোনও বিষয়ে করছে। এবং আমরা প্রায়শই দেখতে পাই যে তারা তাদের গবেষণাকে সম্পূর্ণ অন্য স্তরে নিয়ে যেতে সক্ষম। উদাহরণস্বরূপ, আমরা প্রথমবারের মতো কিছু বড় ডাটাবেস এবং পাবলিক লাইব্রেরি সামগ্রীর ডেটা কার্পাস ইন্টারনেটে প্রদর্শিত হতে শুরু করছি। এবং সেই ক্ষেত্রের লোক রয়েছে - গ্রন্থাগার বিজ্ঞান - এখন যারা এমন কিছু করছেন যেখানে এটি আগে কখনও কারও কাছে আসেনি যে তারা এই স্কেলে কিছু করতে পারে। কিন্তু হঠাৎ, এটা এমন, "ওহ, আমার ঈশ্বর, আপনি যখন একটি লাইব্রেরি বিশ্লেষণ করেন তখন কী হয় তা দেখুন জিনিস. "

আমি একটি পশুপালন সম্মেলনে একটি বক্তৃতা দিয়েছিলাম যেখানে সবাই গভীর শিক্ষার বিষয়ে কথা বলছিল। আমার কাছে, এটি একটি সত্যিই অ-স্পষ্ট ব্যবহার, কিন্তু তাদের কাছে এটি সবচেয়ে সুস্পষ্ট ব্যবহার। লোকেরা বাস্তব-বিশ্বের সীমাবদ্ধতার মধ্যে বাস্তব-বিশ্বের ডেটা ব্যবহার করে বাস্তব-বিশ্বের সমস্যাগুলি সমাধান করতে এটি ব্যবহার করছে।

আমার অভিজ্ঞতা থেকে মনে হচ্ছে, গত কয়েক বছরে, গভীর শিক্ষা প্রায় প্রতিটি শিল্পে প্রয়োগ করা যেতে পারে - নয় প্রতি অংশ বিশেষ প্রতি শিল্প, কিন্তু কিছু অংশ প্রায় প্রতিটি শিল্প।

আমরা একজন লোকের সাথে পরিচিত হয়েছি যিনি ম্যালেরিয়া ডায়াগনস্টিকস নিয়ে প্রচুর আকর্ষণীয় জিনিস করছেন, যা আপনি কল্পনা করতে পারেন, সান ফ্রান্সিসকোর লোকেরা যে সমস্যাটি সমাধান করার চেষ্টা করছিল তা শীর্ষ সমস্যা নয়।

মনে হচ্ছে জ্ঞানের ভিত্তির সেই বিপরীতমুখীতা - গভীর শিক্ষা এখন ডোমেন দক্ষতার পরিপূরক - তত্ত্ব এবং প্রয়োগের মধ্যে ভারসাম্য পরিবর্তন করতে পারে।

ঠিক আছে, এবং আপনি যে ঘটছে দেখতে পারেন. গভীর শিক্ষার যুগের প্রথম দিকের একটি বড় জিনিস ছিল গুগল ব্রেইন যে কাজটি করেছিল, যেখানে তারা প্রচুর YouTube ভিডিও বিশ্লেষণ করেছিল এবং এটি আবিষ্কার করেছিল বিড়াল একটি সুপ্ত ফ্যাক্টর ছিল অনেক ভিডিওতে। তাদের মডেল বিড়াল চিনতে শিখেছে কারণ এটি তাদের অনেকগুলি দেখেছে। এবং এটি খুব আকর্ষণীয় কাজ, কিন্তু কেউ দূরে গিয়ে একটি কোম্পানি তৈরি করেনি।

মানুষ যে জিনিস ছিল বিল্ডিং — আবার, দরকারী, কিন্তু নির্দিষ্ট কিছু এলাকায় — যেমন Google এবং Apple ইমেজ ফটো-সার্চ খুব দ্রুত ভালো হয়ে গেছে কারণ আপনি আসলে ফটোতে থাকা জিনিসগুলি অনুসন্ধান করতে পারেন। যে সত্যিই সহায়ক. এবং যে ধরনের জিনিস সবাই কাজ করছিল - হয় সত্যিই বিমূর্ত স্টাফ বা বাস্তব প্রথম বিশ্বের সমস্যা স্টাফ. এতে কোনো ভুল নেই, তবে আরও অনেক কিছু আছে যেগুলোর ওপরও কাজ করা দরকার।

তাই আমি রোমাঞ্চিত হয়েছিলাম যখন, কয়েক বছর পর, আমি আমাদের কোর্স করা লোকদের জনসংখ্যার দিকে তাকালাম এবং আমি আবিষ্কার করলাম যে মার্কিন যুক্তরাষ্ট্রের বাইরে সবচেয়ে বড় শহরগুলির মধ্যে একটি হল লাগোস [নাইজেরিয়ার রাজধানী]। আমি ভেবেছিলাম এটি সত্যিই দুর্দান্ত কারণ এটি এমন একটি সম্প্রদায় যা আগে গভীর শিক্ষা গ্রহণ করেনি। আমি প্রথম কোর্সে আক্ষরিক অর্থে লোকেদের জিজ্ঞাসা করেছি: "এখানে আফ্রিকা থেকে কেউ?" এবং আমি মনে করি আইভরি কোস্টের একজন লোক ছিল যাকে তার লাইব্রেরির সিডি-রমে জিনিসগুলি পুড়িয়ে দিতে হয়েছিল কারণ তাদের কাছে পর্যাপ্ত ইন্টারনেট সংযোগ নেই। তাই এটা সত্যিই খুব দ্রুত বৃদ্ধি.

এবং তারপরে এটি চমৎকার ছিল কারণ আমরা উগান্ডা, কেনিয়া এবং নাইজেরিয়া থেকে সান ফ্রান্সিসকোতে ব্যক্তিগতভাবে কোর্স করতে এবং একে অপরকে জানার জন্য লোকদের দল পেতে শুরু করেছি। আমরা একজন লোকের সাথে পরিচিত হয়েছি, উদাহরণস্বরূপ, যিনি ম্যালেরিয়া ডায়াগনস্টিকস নিয়ে প্রচুর আকর্ষণীয় জিনিস করছেন, যা আপনি কল্পনা করতে পারেন, সান ফ্রান্সিসকোর লোকেরা যে সমস্যাটি সমাধান করার চেষ্টা করছিল তা শীর্ষ সমস্যা নয়।

এটা আমার কাছে মনে হয় যে 16টি ভিন্ন ভিন্ন বৃহৎ ভাষার মডেল 5% ইন্টারনেটে প্রশিক্ষিত হওয়া মানে আপনার বাড়িতে 16টি জলের পাইপ আসা এবং 16টি বিদ্যুতের তারগুলি আপনার বাড়িতে আসা।

আপনার মতো গভীর শিক্ষার প্রোগ্রাম থেকে বেরিয়ে আসা ব্যক্তির জন্য গড় ক্যারিয়ারের পথটি কেমন দেখায়?

এটা তাই বৈচিত্র্যময়. প্রথম দিন থেকে এটি সত্যিই অনেক পরিবর্তিত হয়েছে, যখন এটি শুধুমাত্র এই সুপার প্রারম্ভিক-দত্তককারী মানসিকতা ছিল — যারা মূলত হয় উদ্যোক্তা বা পিএইচডি এবং প্রাথমিক পোস্টডক, এবং যারা কেবল অত্যাধুনিক গবেষণা এবং নতুন জিনিস চেষ্টা করতে পছন্দ করে। এটি এখন আর প্রাথমিকভাবে গ্রহণকারী নয়, এটি এমন লোকেরাও যারা তাদের শিল্প যেভাবে এগিয়ে চলেছে তার সাথে তাল মিলিয়ে চলার চেষ্টা করছে।

আজকাল, এটির বেশিরভাগই এমন লোক যারা, “ওহ, আমার ঈশ্বর, আমার মনে হচ্ছে গভীর শিক্ষা আমার শিল্পের দক্ষতা ধ্বংস করতে শুরু করেছে। লোকেরা কিছুটা গভীর শিক্ষা নিয়ে এমন কিছু করছে যা আমি কল্পনাও করতে পারি না এবং আমি মিস করতে চাই না।" কিছু লোক একটু সামনের দিকে তাকিয়ে আছে, এবং তারা আরও বেশি, যেমন, "ভাল, কেউ সত্যিই আমার শিল্পে গভীর শিক্ষা ব্যবহার করছে না, কিন্তু আমি কল্পনা করতে পারি না যে এটি এক শিল্প যে না প্রভাবিত হবে, তাই আমি প্রথম হতে চাই।"

কিছু লোকের অবশ্যই একটি কোম্পানির জন্য একটি ধারণা আছে যা তারা তৈরি করতে চায়।

অন্য যে জিনিসটি আমরা অনেক পাই তা হল কোম্পানীগুলি তাদের একগুচ্ছ গবেষণা বা ইঞ্জিনিয়ারিং টিমকে কোর্সটি করার জন্য পাঠায় কারণ তারা মনে করে যে এটি একটি কর্পোরেট ক্ষমতা যা তাদের থাকা উচিত। এবং এটি বিশেষভাবে সহায়ক অনলাইন এপিআইগুলির সাথে যা এখন সেখানে রয়েছে যাতে লোকেরা এর সাথে খেলতে পারে — হস্তলিখিত পুঁথি or ডাল-ই বা যাই হোক না কেন - এবং একটি ধারনা পান, "ওহ, এটি আমার কাজের মধ্যে এমন কিছুর মতো, তবে আমি যদি এই উপায়ে এটিকে পরিবর্তন করতে পারি তবে এটি কিছুটা আলাদা।"

যাইহোক, এই মডেলগুলির দুর্ভাগ্যজনক পার্শ্ব প্রতিক্রিয়াও রয়েছে, হতে পারে, মানুষের মধ্যে এআই উদ্ভাবনের প্রবণতা বাড়ানোর মতো মনে হয় শুধুমাত্র বড় কোম্পানিগুলির জন্য, এবং এটি তাদের ক্ষমতার বাইরে। তারা প্রযুক্তির নিষ্ক্রিয় ভোক্তা হতে বেছে নিতে পারে কারণ তারা বিশ্বাস করে না যে তাদের ব্যক্তিগতভাবে এমন কিছু তৈরি করার ক্ষমতা আছে যা Google বা OpenAI তৈরি করতে পারে তার চেয়ে ভাল হবে।

একটি মডেল যা সিদ্ধান্ত নেয় যে আপনি একটি সিনেমা পছন্দ করছেন কিনা এবং হাইকু তৈরি করতে পারে এমন একটি মডেল 98% একই হতে চলেছে৷ . . এটা খুবই, খুবই বিরল যে আমাদের আসলে ইন্টারনেটের বিস্তীর্ণ অংশে স্ক্র্যাচ থেকে একটি বিশাল মডেলকে প্রশিক্ষণ দিতে হবে।

এমনকি যদি এটি হয় - যদি আপনি OpenAI বা Google-কে আউটবিল্ড করতে না পারেন - অবিশ্বাস্যভাবে শক্তিশালী মডেলগুলিতে API অ্যাক্সেসের জন্য তারা যা করেছে তার সুবিধা নেওয়ার একটি উপায় আছে, তাই না?

প্রথমেই বলতে হয় এটা সত্য নয়, কিছু সাধারণ অর্থে নয়, অন্তত। এআই প্রশিক্ষণের একটি নির্দিষ্ট বিভাজন এখন চলছে: গুগল এবং ওপেনএআই দিক রয়েছে, যা সবই মডেল তৈরি করার বিষয়ে যা যতটা সম্ভব সাধারণ, এবং প্রায় সবসময়ই, সেই গবেষকদের বিশেষভাবে লক্ষ্য থাকে তাদের AGI-তে যাওয়ার। আমি মন্তব্য করছি না যে ভাল না খারাপ; এটি অবশ্যই আমাদের সাধারণ লোকদের জন্য দরকারী শিল্পকর্মের ফলস্বরূপ, তাই এটি ভাল।

যাইহোক, একটি সম্পূর্ণ ভিন্ন পথ রয়েছে, যেটি আমাদের প্রায় সকল শিক্ষার্থীই গ্রহণ করে, যা হল: "আমি কীভাবে আমার সম্প্রদায়ের মানুষের বাস্তব-বিশ্বের সমস্যাগুলি যতটা সম্ভব বাস্তবসম্মত উপায়ে সমাধান করতে পারি?" এবং আপনি দুটি পদ্ধতি, দুটি ডেটাসেট, দুটি কৌশলের মধ্যে ভাবতে পারেন তার চেয়ে অনেক কম ওভারল্যাপ আছে।

আমার বিশ্বে, আমরা মূলত স্ক্র্যাচ থেকে একটি মডেলকে প্রশিক্ষণ দিই না। এটা সবসময় ফাইন-টিউনিং। তাই আমরা অবশ্যই বড় লোকদের কাজকে কাজে লাগাই, তবে এটি সর্বদা অবাধে উপলব্ধ, ডাউনলোডযোগ্য মডেল। ওপেন সোর্স বৃহৎ ভাষার মডেলের মাধ্যমে স্টাফ বিগ সায়েন্স এর জন্য খুবই সহায়ক।

যাইহোক, তারা সম্ভবত বড় লোকদের থেকে 6 থেকে 12 মাস পিছিয়ে থাকবে যতক্ষণ না, আমরা এটি করার আরও কিছু গণতান্ত্রিক উপায় খুঁজে পাই। এটা আমার কাছে মনে হয় যে 16টি ভিন্ন ভিন্ন বৃহৎ ভাষার মডেল 5% ইন্টারনেটে প্রশিক্ষিত হওয়া মানে আপনার বাড়িতে 16টি জলের পাইপ আসা এবং 16টি বিদ্যুতের তারগুলি আপনার বাড়িতে আসা। মনে হচ্ছে এটি একটি পাবলিক ইউটিলিটি হওয়া উচিত। প্রতিযোগীতা থাকাটা খুবই ভালো, কিন্তু আরও ভালো কিছু সহযোগিতা যদি চলতে থাকে, তাই আমাদের সবাইকে একই জিনিস করতে আমাদের সময় নষ্ট করতে হবে না।

সুতরাং, হ্যাঁ, আমরা আমাদের বিশেষ উদ্দেশ্যে, অন্য লোকেরা তৈরি করা মডেলগুলির জন্য ফাইন-টিউনিং শেষ করি। এবং এটি এমনই যে মানুষের জিনোম এবং বানরের জিনোম প্রায় সম্পূর্ণ একই, এখানে এবং সেখানে কয়েক শতাংশ বাদে, যা আসলে একটি বড় পার্থক্য তৈরি করে। নিউরাল নেটগুলির ক্ষেত্রেও এটি একই: একটি মডেল যা সিদ্ধান্ত নেয় যে আপনি একটি সিনেমা পছন্দ করছেন কি না এবং হাইকুস তৈরি করতে পারে এমন একটি মডেল 98% একই হতে চলেছে কারণ এর বেশিরভাগই বিশ্ব বোঝা, এবং ভাষা এবং জিনিস বোঝার বিষয়ে। . এটা খুবই, খুবই বিরল যে আমাদের আসলে ইন্টারনেটের বিস্তীর্ণ অংশে স্ক্র্যাচ থেকে একটি বিশাল মডেলকে প্রশিক্ষণ দিতে হবে।

এবং তাই আপনি একেবারে পারেন Google এবং OpenAI-এর সাথে প্রতিযোগিতা করুন - কারণ তারা সম্ভবত আপনার স্পেসে থাকবে না। আপনি যদি প্যারালিগালদের কাজকে স্বয়ংক্রিয় করার জন্য কিছু তৈরি করার চেষ্টা করছেন, অথবা দুর্যোগের স্থিতিস্থাপকতার পরিকল্পনায় সাহায্য করার জন্য, বা গত 100 বছরে লিঙ্গভিত্তিক ভাষা সম্পর্কে আরও ভাল বোঝা তৈরি করার চেষ্টা করছেন বা যাই হোক না কেন, আপনি Google এর সাথে প্রতিদ্বন্দ্বিতা করছেন না, আপনি প্রতিযোগিতা করছেন আপনার ডোমেনে যে কুলুঙ্গি সঙ্গে.

কীভাবে দ্রুত যেতে হয় তা জানার জন্য এখনই একটি উল্লেখযোগ্য কোডিং দক্ষতা রয়েছে৷ . . সঠিক কোডেক্স মন্তব্য নিয়ে আসলেই ভালো হওয়ার মাধ্যমে। . . অনেক লোকের জন্য, কোডিংয়ে সত্যিই ভাল হওয়ার চেয়ে এটি সম্ভবত আরও মূল্যবান, তাত্ক্ষণিকভাবে শেখার জিনিস।

AI স্পেসের সমস্ত অগ্রগতির সাথে তাল মিলিয়ে চলা কতটা গুরুত্বপূর্ণ, বিশেষ করে যদি আপনি এটির সাথে ছোট স্কেলে কাজ করছেন?

কেউ সব অগ্রগতির সাথে রাখতে পারে না। আপনি সঙ্গে রাখা আছে কিছু অগ্রগতি, কিন্তু প্রকৃত কৌশল আমরা পরিবর্তনের সাথে কাজ করছি, আজকাল, খুব ধীরে ধীরে। 2017 fast.ai কোর্স এবং 2018 fast.ai কোর্সের মধ্যে পার্থক্যের পরিমাণ বিস্তীর্ণ ছিল এবং 2018 এবং 2019 কোর্সের মধ্যে তা বিস্তৃত ছিল-পর. আজকাল, কয়েক বছরের মধ্যে খুব কম পরিবর্তন হয়।

যে জিনিসগুলোকে আমরা সত্যিই তাৎপর্যপূর্ণ বলে মনে করি, যেমন উত্থান ট্রান্সফরমার আর্কিটেকচার, উদাহরণস্বরূপ, আসলে এখন কিছু বছর বয়সী এবং প্রধানত শুধুমাত্র স্যান্ডউইচড, প্লেইন ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ক স্তরগুলির একটি গুচ্ছ এবং কিছু ডট-পণ্য. এটা দারুণ, কিন্তু কেউ এটা বুঝতে চায়, যারা ইতিমধ্যে বুঝতে চায় কনভনেট, পুনরাবৃত্ত নেট, এবং বেসিক মাল্টিলেয়ার পারসেপ্টরনএটা কয়েক ঘন্টা কাজের মত।

গত কয়েক বছরে ঘটে যাওয়া বড় জিনিসগুলির মধ্যে একটি হল যে আরও বেশি লোক কীভাবে একটি মডেলকে কার্যকরভাবে প্রশিক্ষণ দেওয়া যায় তার ব্যবহারিক দিকগুলি বুঝতে শুরু করেছে। যেমন সম্প্রতি ডিপমাইন্ড একটি কাগজ প্রকাশ করেছে যেগুলি মূলত দেখায় যে সমস্ত ভাষার মডেলগুলি তাদের হওয়া উচিত তার চেয়ে নাটকীয়ভাবে কম দক্ষ ছিল, আক্ষরিক অর্থে কারণ তারা কিছু মৌলিক জিনিস করছিল না। Facebook - এবং, বিশেষ করে, একজন ফেসবুক ইন্টার্ন ছিলেন কাগজের প্রধান লেখক - একটি জিনিস তৈরি করেছিলেন যা বলা হয় ConvNeXt, যা মূলত বলছে, "এখানে কি হবে যদি আমরা একটি সাধারণ কনভোল্যুশনাল নিউরাল নেটওয়ার্ক গ্রহণ করি এবং শুধুমাত্র সুস্পষ্ট টুইকগুলি রাখি যা সম্পর্কে সবাই জানে।" এবং তারা মূলত এখন অত্যাধুনিক ছবির মডেল।

সুতরাং, হ্যাঁ, কীভাবে ভাল গভীর শিক্ষার মডেলগুলি তৈরি করা যায় তার ভিত্তিগত বুনিয়াদিগুলির সাথে আপ টু ডেট থাকা যতটা মনে হয় তার চেয়ে কম কঠিন। এবং আপনাকে অবশ্যই ক্ষেত্রের প্রতিটি কাগজ পড়তে হবে না। বিশেষ করে এই মুহুর্তে, এখন যে জিনিসগুলি খুব কম দ্রুত যাচ্ছে।

কিন্তু আমি মনে করি এটি একটি বিস্তৃত বোঝার জন্য দরকারী, শুধুমাত্র আপনার নিজস্ব বিশেষ বিশেষ এলাকা নয়। ধরা যাক আপনি একজন কম্পিউটার-দৃষ্টিসম্পন্ন ব্যক্তি, এটি এনএলপি, সহযোগী ফিল্টারিং এবং ট্যাবুলার বিশ্লেষণে ভাল হতে অনেক সাহায্য করে - এবং এর বিপরীতে কারণ এই গোষ্ঠীগুলির মধ্যে প্রায় পর্যাপ্ত পরাগ-পরাগায়ন নেই। এবং সময়ে সময়ে, কেউ অন্য এলাকায় উঁকি দেয়, এর কিছু ধারণা চুরি করে এবং একটি যুগান্তকারী ফলাফল নিয়ে চলে আসে।

এই আমি সঙ্গে কি ঠিক কি ULMFiT চার বা পাঁচ বছর আগে। আমি বলেছিলাম, "আসুন NLP-তে কম্পিউটার-ভিশন ট্রান্সফার শেখার সমস্ত মৌলিক কৌশল প্রয়োগ করি," এবং মাইলের পর এক অত্যাধুনিক ফলাফল পেয়েছি। OpenAI এর গবেষকরা অনুরূপ কিছু করেছে, কিন্তু আমার আরএনএনকে একটি ট্রান্সফরমার দিয়ে প্রতিস্থাপন করেছি এবং এটিকে স্কেল করেছি, এবং এটি হয়ে গেছে GPT. আমরা সবাই জানি যে কিভাবে গেছে.

কীভাবে ভাল গভীর শিক্ষার মডেলগুলি তৈরি করা যায় তার ভিত্তিগত বুনিয়াদিগুলির সাথে আপ টু ডেট থাকা যতটা মনে হয় তার চেয়ে কম কঠিন। এবং আপনাকে অবশ্যই ক্ষেত্রের প্রতিটি কাগজ পড়তে হবে না।

আপনি উল্লেখ করেছেন যে আমরা গত তিন থেকে ছয় মাসে AI-তে একটি ধাপ-ফাংশন পরিবর্তন দেখেছি। আপনি যে বিস্তারিত করতে পারেন?

আমি আসলে এটি একটি কল চাই হুক বরং একটি ধাপ ফাংশন. আমি মনে করি আমরা একটি সূচকীয় বক্ররেখায় আছি, এবং সময়ে সময়ে, আপনি লক্ষ্য করতে পারেন যে জিনিসগুলি সত্যিই লক্ষণীয় উপায়ে বেড়েছে বলে মনে হচ্ছে। আমরা যেখানে পেয়েছি তা হল যে টেক্সট এবং চিত্রের খুব বড় আকারের উপর প্রশিক্ষিত প্রাক-প্রশিক্ষিত মডেলগুলি এখন মোটামুটি সাধারণ উপায়ে খুব চিত্তাকর্ষক ওয়ান-শট বা কয়েক-শট জিনিসগুলি করতে পারে, আংশিক কারণ গত কয়েক মাসে লোকেরা আরও ভাল হয়েছে বোঝার সময় প্রম্পট ইঞ্জিনিয়ারিং. মূলত, কীভাবে সঠিক প্রশ্ন জিজ্ঞাসা করতে হয় তা জেনে — “আপনার যুক্তি ব্যাখ্যা করুন” ধাপে ধাপে প্রম্পট।

এবং আমরা আবিষ্কার করছি যে এই মডেলগুলি আসলে এমন জিনিসগুলি করতে সক্ষম যা অনেক শিক্ষাবিদ আমাদের বলে আসছেন বিশ্বের একটি রচনাগত বোঝার পরিপ্রেক্ষিতে এবং ধাপে ধাপে যুক্তি দেখাতে সক্ষম হওয়ার ক্ষেত্রে এটি সম্ভব নয়। অনেক লোক বলছিলেন, “ওহ, আপনাকে প্রতীকী কৌশল ব্যবহার করতে হবে; নিউরাল নেট এবং ডিপ লার্নিং কখনই সেখানে পৌঁছাবে না।" ওয়েল, এটা সক্রিয় যে তারা করতে. আমি মনে করি যখন আমরা সবাই দেখতে পাব যে এটি এমন কিছু করতে পারে যা লোকেরা দাবি করে যে এটি কখনই করতে পারে না, এটি তাদের সাথে আরও কিছু করার চেষ্টা করার বিষয়ে আমাদেরকে আরও সাহসী করে তোলে.

এটি আমাকে মনে করিয়ে দেয় যে আমি ইন্টারনেটে প্রথমবার একটি ভিডিও দেখেছিলাম, যা আমার মাকে দেখানোর কথা মনে আছে কারণ এটি একটি ফিজিওথেরাপি ভিডিও ছিল এবং তিনি একজন ফিজিওথেরাপিস্ট৷ এটি আপনার কাঁধে একটি যৌথ গতিশীলতা অনুশীলনের একটি ভিডিও ছিল এবং আমি মনে করি এটি ছিল 128 বাই 128 পিক্সেল। এটি কালো এবং সাদা, অত্যন্ত সংকুচিত এবং প্রায় 3 বা 4 সেকেন্ড দীর্ঘ ছিল। আমি খুব উত্তেজিত ছিলাম, এবং আমি আমার মাকে বললাম, "বাহ, এটি দেখুন: ইন্টারনেটে একটি ভিডিও!" এবং, অবশ্যই, তিনি মোটেও উত্তেজিত ছিলেন না। তিনি মত ছিল, "কি লাভ যে? এটি আমার দেখা সবচেয়ে অর্থহীন জিনিস।"

অবশ্যই, আমি ভাবছিলাম যে এটি একদিন এক হাজার বাই হাজার পিক্সেল, 60 ফ্রেম এক সেকেন্ড, সম্পূর্ণ রঙিন, সুন্দর ভিডিও হতে চলেছে। প্রমাণ আছে, এখন শুধু বাকিটা ধরার অপেক্ষা।

তাই আমি মনে করি প্রাথমিক দিনগুলিতে যখন লোকেরা গভীর শিক্ষা থেকে সত্যিই নিম্ন-মানের চিত্রগুলি দেখেছিল, তখন খুব বেশি উত্তেজনা ছিল না কারণ বেশিরভাগ লোকেরা বুঝতে পারে না যে প্রযুক্তির স্কেল এইরকম। এখন যেহেতু আমরা প্রকৃতপক্ষে উচ্চ-মানের, পূর্ণ-রঙের ছবি তৈরি করতে পারি যা আমাদের প্রায় কেউ ছবি বা ছবি তুলতে পারে তার চেয়ে ভাল দেখায়, মানুষের কোন কল্পনার প্রয়োজন নেই। তারা শুধু পারে দেখ এখন যা করা হচ্ছে তা খুবই চিত্তাকর্ষক। আমি মনে করি এটি একটি বড় পার্থক্য করে।

আমি মনে করি HCI আমার দেখা প্রায় প্রতিটি গভীর শিক্ষার প্রকল্পের মধ্যে সবচেয়ে বড় অনুপস্থিত অংশ। . . আমি যদি HCI তে থাকতাম, আমি চাইতাম যে আমার পুরো ক্ষেত্রটি আমরা কীভাবে গভীর শিক্ষার অ্যালগরিদমগুলির সাথে ইন্টারঅ্যাক্ট করি সেই প্রশ্নের উপর ফোকাস করুক.

প্রম্পট ইঞ্জিনিয়ারিংয়ের ধারণা - যদি সম্পূর্ণ নতুন ক্যারিয়ার হিসাবে না হয় তবে অন্তত একটি নতুন দক্ষতা সেট হিসাবে - আসলেই আকর্ষণীয়।

এটা, এবং আমি এটা ভয়ানক. উদাহরণস্বরূপ, DALL-E সঠিকভাবে টেক্সট কীভাবে লিখতে হয় তা সত্যিই জানে না, যা তার সমস্ত রক্তাক্ত ছবিতে টেক্সট রাখতে পছন্দ করে তা ছাড়া কোন সমস্যা হবে না। তাই সবসময় এই র্যান্ডম চিহ্ন আছে এবং আমি পারি না, আমার জীবনের জন্য, কিভাবে একটি প্রম্পট নিয়ে আসা যায় যে এটিতে পাঠ্য নেই। এবং তারপর কখনও কখনও, আমি শুধু এলোমেলোভাবে এখানে বা সেখানে একটি শব্দ পরিবর্তন করব এবং, হঠাৎ, তাদের কোনটিরই আর টেক্সট নেই। এর কিছু কৌশল আছে, এবং আমি এখনও এটি পুরোপুরি বের করতে পারিনি।

এছাড়াও, উদাহরণস্বরূপ, কীভাবে দ্রুত যেতে হয় তা জানার ক্ষেত্রে এই মুহূর্তে একটি উল্লেখযোগ্য কোডিং দক্ষতা রয়েছে — বিশেষ করে, আপনি যদি বিশেষভাবে ভাল কোডার না হন — সঠিক কোডেক্স মন্তব্যগুলি আপনার জন্য জিনিসগুলি তৈরি করার জন্য সত্যিই ভাল হওয়ার মাধ্যমে . এবং এটি কী ধরণের ত্রুটি তৈরি করতে থাকে, কী ধরণের জিনিস এটিতে ভাল এবং খারাপ, এবং এটি আপনার জন্য যে জিনিসটি তৈরি করেছে তার জন্য একটি পরীক্ষা তৈরি করতে এটি কীভাবে পেতে হয় তা জেনে রাখা।

অনেক লোকের জন্য, কোডিংয়ে সত্যিই ভাল হওয়ার চেয়ে এটি সম্ভবত আরও মূল্যবান, তাত্ক্ষণিকভাবে শেখার জিনিস।

বিশেষত কোডেক্সে, মেশিন-জেনারেটেড কোডের ধারণা সম্পর্কে আপনার চিন্তাভাবনা কী?

I একটি ব্লগ পোস্ট লিখেছে এটিতে যখন GitHub কপাইলট আসলে, বেরিয়ে আসে। সেই সময়ে, আমি ছিলাম, "বাহ, এটি সত্যিই দুর্দান্ত এবং চিত্তাকর্ষক, তবে আমি নিশ্চিত নই যে এটি কতটা দরকারী।" এবং আমি এখনও নিশ্চিত নই.

একটি প্রধান কারণ হল যে আমি মনে করি আমরা সবাই জানি যে গভীর শিক্ষার মডেলগুলি সঠিক বা ভুল কিনা তা বুঝতে পারে না। কোডেক্স অনেক উন্নত হয়েছে যেহেতু আমি এর প্রথম সংস্করণ পর্যালোচনা করেছি, কিন্তু এটি এখনও অনেক ভুল কোড লিখে। এছাড়াও, এটি ভার্বোজ কোড লিখে কারণ এটি তৈরি করছে গড় কোড আমার জন্য, গড় কোড নেওয়া এবং এটিকে এমন কোডে পরিণত করা যা আমি পছন্দ করি এবং আমি জানি যে এটি স্ক্র্যাচ থেকে লেখার চেয়ে অনেক ধীর - অন্তত ভাষাগুলিতে আমি ভাল জানি৷

কিন্তু আমি মনে করি এখানে একটি সম্পূর্ণ মানব-কম্পিউটার ইন্টারফেস (HCI) প্রশ্ন আছে, এবং আমি মনে করি HCI আমার দেখা প্রায় প্রতিটি গভীর শিক্ষার প্রকল্পের মধ্যে সবচেয়ে বড় অনুপস্থিত অংশ: এই জিনিসগুলি প্রায় কখনই মানুষের প্রতিস্থাপন করে না। অতএব, আমরা কাজ করছি একসঙ্গে এই অ্যালগরিদম সঙ্গে. আমি যদি HCI তে থাকতাম, আমি চাইতাম যে আমার পুরো ক্ষেত্রটি আমরা কীভাবে গভীর শিক্ষার অ্যালগরিদমগুলির সাথে ইন্টারঅ্যাক্ট করি সেই প্রশ্নের উপর ফোকাস করুক. কারণ আমরা গ্রাফিকাল ইউজার ইন্টারফেস, কমান্ড-লাইন ইন্টারফেস এবং ওয়েব ইন্টারফেসের সাথে কীভাবে ইন্টারঅ্যাক্ট করতে হয় তা কয়েক দশক ধরে শিখেছি, কিন্তু এটি সম্পূর্ণ ভিন্ন জিনিস।

এবং আমি জানি না কিভাবে আমি একজন প্রোগ্রামার হিসেবে কোডেক্সের মত কিছুর সাথে সর্বোত্তম ইন্টারঅ্যাক্ট করি। আমি বাজি ধরতে পারি যে প্রতিটি ক্ষেত্রের জন্য এটি করার জন্য সত্যিই শক্তিশালী উপায় রয়েছে — ইন্টারফেস তৈরি করা এবং ডেটা বাঁধাই করা, অ্যালগরিদম তৈরি করা এবং আরও অনেক কিছু — কিন্তু সেই জিনিসগুলি কী তা আমার কোনও ধারণা নেই।

জুলাই 21, 2022

প্রযুক্তি, উদ্ভাবন, এবং ভবিষ্যত, যারা এটি তৈরি করে বলেছে।

সাইন আপ করার জন্য ধন্যবাদ.

একটি স্বাগত নোটের জন্য আপনার ইনবক্স চেক করুন.

সময় স্ট্যাম্প: জুলাই 21, 2022জুলাই 21, 2022

ক্রিপ্টোতে আমরা কিছু বিষয় নিয়ে উত্তেজিত

উত্স ক্লাস্টার:

আন্দ্রেসেন হরোয়েজ্জ

উত্স নোড: 1773183

সময় স্ট্যাম্প: ডিসেম্বর 15, 2022

প্রমাণ বিনিয়োগ

উত্স ক্লাস্টার:

আন্দ্রেসেন হরোয়েজ্জ

উত্স নোড: 1645706

সময় স্ট্যাম্প: আগস্ট 30, 2022

স্থান: একটি বাজার মানচিত্র

উত্স ক্লাস্টার:

আন্দ্রেসেন হরোয়েজ্জ

উত্স নোড: 1815308

সময় স্ট্যাম্প: মার্চ 17, 2023

গভীর শিক্ষায় ডোমেন বিশেষজ্ঞদের উত্থান

প্লেটো দ্বারা প্রকাশিত

সাইন আপ করার জন্য ধন্যবাদ.

থেকে আরো আন্দ্রেসেন হরোয়েজ্জ

CESC '22: জিরো নলেজ ওয়ার্কশপ থেকে ফিল্ড নোট

সেটপয়েন্টে বিনিয়োগ

এসইসি-তে একটি কল: ক্রিপ্টো সম্পদগুলিকে ক্লায়েন্ট ম্যাটার হিসাবে ব্যবহার করুন৷

পে-অ্যাজ-ইউ-গোর প্রতিরক্ষায়

আপমার্কেট সরানোর জন্য প্রস্তুত হচ্ছে

পাইনকোনে বিনিয়োগ

সমান বিনিয়োগ

এনএফটি লাইসেন্সগুলি খারাপ হতে পারে না

পেমেন্টের ভবিষ্যত হল... লাল?

ক্রিপ্টোতে আমরা কিছু বিষয় নিয়ে উত্তেজিত

প্রমাণ বিনিয়োগ

স্থান: একটি বাজার মানচিত্র

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব