ディープラーニング PlatoBlockchain データ インテリジェンスにおけるドメイン エキスパートの台頭。垂直検索。あい。

ディープラーニングにおけるドメインエキスパートの台頭

ジェレミーハワードは、人工知能の研究者であり、 fast.ai、 非専門家が人工知能と機械学習を学習するためのプラットフォーム。 fast.aiを開始する前は、ディープラーニングを医療分野に適用するパイオニアであるFastMailやEnliticなど、複数の企業を設立し、機械学習競争プラットフォームKaggleの社長兼チーフサイエンティストを務めていました。 

このインタビューでは、ハワードは、専門の研究所の博士号を持たない人々がディープラーニングモデルを構築して使用できるようになった今、さまざまな業界やグローバル地域にとってそれが何を意味するのかについて説明しています。 この幅広い傘の下で他のトピックの中で、彼は最先端の技術、新しいスキルセットとしての迅速なエンジニアリング、およびコーデックスのようなコード生成システムの長所と短所に最もよく追いつく方法についての彼の考えを共有しています。


将来:過去数年間fast.aiを実行した後、ディープラーニングの基本概念に精通している人が非常に多くなった場合の影響は何ですか?知識を持つ人がユニコーンだった数年前とは異なりますか?

ジェレミーハワード: fast.aiを開始したとき、基本的に、ディープラーニングに取り組んでいるXNUMXつの重要な大学の研究所がありました。ディープラーニングでほぼすべてのことを行う方法を知っていたのは、それらのXNUMXつのラボにいた、または行ったことのある人だけでした。 。 全体として、データは言うまでもなく、コードは公開されていませんでした。 そして、論文でさえ、それを実際に機能させる方法の詳細を公表していませんでした。これは、一部には、学術機関が実際の実装にあまり関心がなかったためです。 それは理論に非常に焦点を合わせていました。 

それで、私たちが始めたとき、それは「博士号なしで世界クラスの深層学習を行うことは可能ですか?」という非常に投機的な質問でした。 私たちは今、答えが はい; 最初のコースでそれを示しました。 私たちの最初の卒業生は、ディープラーニングを使用して特許を作成し、ディープラーニングを使用して会社を設立し、ディープラーニングを使用してトップ会場で公開しました。 

あなたの質問は正確に正しいと思います。それは、ドメインの専門家が効果的なディープラーニングの実践者になったときに何が起こるかについてです。 ここで、最も興味深いことが起こっているのを見てきました。 一般的に、最高のスタートアップは、個人的にかゆみを持っている人々によって構築されたものです。 彼らはかつてリクルーターだったので、リクルートのスタートアップをやっていたり、パラリーガルだったので合法的なスタートアップをやっていたりしていました。 そして、彼らは、「ああ、私は自分が持っていた仕事についてこのことを嫌います。 そして、ディープラーニングについて知った今、私はそのすべてをほぼ自動化できることを知っています。」

私たちの学生の多くは、博士号を取得している、または取得したことがありますが、数学やコンピューターサイエンスではありません。 代わりに、彼らはケモインフォマティクス、プロテオミクス、データジャーナリズムなどでそれらを行っています。 そして、私たちは彼らが彼らの研究をまったく別のレベルに引き上げることができることに気付くことがよくあります。 たとえば、公共図書館の資料のいくつかの大きなデータベースとデータコーパスがインターネット上に登場し始めているのを初めて見始めています。 そして、その分野の人々、つまり図書館学は、今までその規模で何でもできるとは誰にも思いもよらなかったようなことをしている人々がいます。 しかし、突然、「ああ、なんてことだ、図書館を分析するとどうなるか見てみよう。 ものに設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」 

みんながディープラーニングについて話していた畜産会議で話をしました。 私にとって、それは本当に明白ではない使用法ですが、彼らにとっては、これがはるかに最も明白な使用法です。 人々は、現実世界の制約内で現実世界のデータを使用して現実世界の問題を解決するためにそれを使用しています。

過去数年間の私の経験から、ディープラーニングはほとんどすべての業界に適用できるようです。 あらゆる の一部 あらゆる 業界ですが 一部 の部品 ほぼすべて 業界。 

マラリアの診断で面白いことをたくさんやっていた一人の男と知り合いになりました。これは、ご想像のとおり、サンフランシスコの人々が解決しようとしていた最大の問題ではありません。

知識ベースの逆転(現在、ドメインの専門知識を補足する深層学習)は、理論と応用のバランスを変える可能性があるようです。

そうです、あなたはそれが起こっているのを見ることができます。 ディープラーニング時代の初期の大きなことのXNUMXつは、Google Brainが行った作業でした。そこでは、多くのYouTube動画を分析し、次のことを発見しました。 猫は潜在要因でした 多くのビデオで。 彼らのモデルは、猫をたくさん見たので、猫を認識することを学びました。 そして、それは非常に興味深い仕事ですが、誰も立ち去ってその上に会社を設立することはありませんでした。 

人々がすること した GoogleやAppleのような特定の領域内での構築—繰り返しになりますが、画像写真検索は、写真に含まれているものを実際に検索できるため、非常に迅速になりました。 それは本当に役に立ちます。 そして、それは誰もが取り組んでいた種類のものです—本当に抽象的なものか、本当の第一世界の問題のもののどちらかです。 それは何も悪いことではありませんが、他にも取り組む必要のあることがたくさんあります。 

それで、数年後、私たちのコースを受講した人々の人口統計を見て、米国以外の最大の都市のXNUMXつがラゴス[ナイジェリアの首都]であることを発見したとき、私は興奮しました。 これまでディープラーニングを行っていなかったコミュニティなので、本当に素晴らしいと思いました。 私は文字通り最初のコースの人々に「ここアフリカから来た人はいますか?」と尋ねました。 そして、コートジボワールから、インターネット接続が十分でないために、図書館のCD-ROMに物を焼かなければならなかった人がXNUMX人いたと思います。 ですから、それは本当に急速に成長しました。

そして、ウガンダ、ケニア、ナイジェリアの人々のグループがサンフランシスコに飛んで直接コースを受講し、お互いを知るようになったので、それは素晴らしいことでした。 たとえば、マラリアの診断で多くの興味深いことを行っていたXNUMX人の男性と知り合いになりました。これは、ご想像のとおり、サンフランシスコの人々が解決しようとしていた最大の問題ではありません。

インターネットの16%で5の異なる大規模な言語モデルをトレーニングすることは、16本の水道管を家に持ち込み、16セットの電気ケーブルを家に入れるようなものだと私は感じています。 

あなたのようなディープラーニングプログラムから出てきた人にとって、平均的なキャリアパスはどのように見えますか?

それはとても多様です。 それは、この超早期採用者の考え方であった初期の頃から本当に大きく変わりました。主に起業家または博士号と初期のポスドクであり、最先端の研究と新しいことに挑戦するのが大好きな人々です。 もはやアーリーアダプターだけでなく、業界の動きに追いついたり、追いついたりしようとしている人々もいます。

今日では、「ああ、なんてことだ、ディープラーニングが私の業界の専門知識を破壊し始めているような気がする。 人々は私が想像することさえできない少し深い学習で何かをしている、そして私は逃したくない。」 一部の人々はもう少し先を見据えており、「まあ、私の業界では誰もディープラーニングを実際に使用していませんが、それが XNUMXつ 業界 影響を受けるので、私が最初になりたいです。」 

一部の人々は間違いなく彼らが構築したい会社のアイデアを持っています。 

私たちがたくさん得ているもう一つのことは、これが彼らが持つべき企業能力であると彼らが感じているという理由だけで、コースを行うために彼らの研究またはエンジニアリングチームの束を送る企業です。 そして、人々がいじくり回すことができるようになった現在出回っているオンラインAPIで特に役立ちます— 古写本 or DALL-E または何でも—そして、「ああ、これは私の仕事でやっていることと少し似ていますが、これらの方法で微調整できれば少し違います」という感覚を得ることができます。 

ただし、これらのモデルには、AIイノベーションは大企業だけのものであり、その能力の範囲外であると人々が感じる傾向が高まるという不幸な副作用もあります。 彼らは、GoogleやOpenAIが構築しているものよりも優れたものを個人的に構築する能力を持っていないと信じているため、テクノロジーの受動的な消費者になることを選択するかもしれません。

映画が好きかどうかを決めるモデルと俳句を生成できるモデルは98%同じになります。 。 。 広大なインターネット上で巨大なモデルを最初からトレーニングする必要があることは非常にまれです。

そうだとしても(OpenAIやGoogleをアウトビルドできない場合)、信じられないほど強力なモデルへのAPIアクセスを利用する方法は確かにありますよね?

最初に言うことは それは真実ではない少なくとも、一般的な意味ではありません。 現在進行中のAIトレーニングには一定の分岐点があります。GoogleとOpenAIの側面があります。これは、可能な限り一般的なモデルを作成することであり、ほとんどの場合、これらの研究者はAGIに到達することを特に目標としています。 それが良いか悪いかについてはコメントしていません。 それは間違いなく私たち普通の人々にとって有用なアーティファクトをもたらすので、それは問題ありません。 

しかし、まったく異なる道があります。それは、ほぼすべての学生がたどる道です。「コミュニティの人々の現実の問題を可能な限り実用的な方法で解決するにはどうすればよいですか」。 そして、XNUMXつの方法、XNUMXつのデータセット、XNUMXつの手法の間で、あなたが考えるよりもはるかに少ない重複があります。

私の世界では、基本的にモデルを最初からトレーニングすることはありません。 それは常に微調整です。 ですから、私たちは間違いなく大物の仕事を活用していますが、それはいつでも無料で入手でき、ダウンロード可能なモデルです。 オープンソースの大規模言語モデルのようなもの ビッグサイエンス それにはとても役に立ちます。 

しかし、おそらく、これを行うためのより民主的な方法が見つかるまで、彼らはおそらく大物に6〜12か月遅れをとるでしょう。 インターネットの16%で5の異なる大規模な言語モデルをトレーニングすることは、16本の水道管を家に持ち込み、16セットの電気ケーブルを家に入れるようなものだと私は感じています。 それはもっと公益事業であるべきだと感じています。 競争するのは素晴らしいことですが、もっと良い協力ができればいいので、同じことをするのに時間を無駄にする必要はありませんでした。

つまり、特定の目的のために、他の人が作成したモデルを微調整することになります。 そして、それは、人間のゲノムとサルのゲノムがほぼ完全に同じであるようなものですが、実際には大きな違いを生むことが判明した数パーセントを除いては。 ニューラルネットも同じです。映画が好きかどうかを判断するモデルと俳句を生成できるモデルは、ほとんどが世界を理解し、言語などを理解することであるため、98%同じになります。 。 広大なインターネット上で巨大なモデルを最初からトレーニングする必要があることは非常にまれです。

そしてそれがあなたが絶対に できる GoogleやOpenAIと競争します—おそらく彼らはあなたのスペースにいることすらないからです。 パラリーガルの仕事を自動化するための何かを作成しようとしている場合、災害回復力の計画を支援している場合、または過去100年間など、性別による言語の理解を深めようとしている場合は、Googleと競合しているのではなく、競合していることになります。あなたのドメインにあるそのニッチで。

より速く進む方法を知ることには、現在、重要なコーディングスキルがあります。 。 。 正しいコーデックスのコメントを思いつくのが本当に上手です。 。 。 多くの人にとって、それはコーディングが本当に上手になるよりも、おそらくすぐに学ぶ価値のあることです。

AIスペースのすべての進歩に遅れずについていくことは、特に小規模で作業している場合、どれほど重要ですか?

誰もすべての進歩についていくことはできません。 あなたはついていく必要があります 一部 進歩しますが、私たちが取り組んでいる実際の技術は、今日では非常にゆっくりと変化しています。 2017fast.aiコースと2018fast.aiコースの違いは非常に大きく、2018年と2019年のコースの違いは非常に大きかった-ISH。 今日では、XNUMX、XNUMX年の間にほとんど変化がありません。

の台頭のように、私たちが本当に重要だと考えるもの トランスアーキテクチャたとえば、実際には数年前のものであり、主にサンドイッチされたプレーンなフィードフォワードニューラルネットワーク層の束であり、いくつかは ドット積。 それは素晴らしいですが、それを理解したい人にとっては、すでに理解しています 変換, リカレントネット、および基本 多層パーセプトロン、それは数時間の仕事のようなものです。

ここ数年で起こった大きな出来事のXNUMXつは、モデルを効果的にトレーニングする方法の実際的な側面を理解し始めている人が増えていることです。 たとえば、最近のDeepMind 論文を発表しました それは本質的に、そこにあるすべての言語モデルが、文字通りいくつかの基本的なことをしていなかったために、本来あるべきよりも劇的に効率が悪いことを示していました。 Facebook —そして具体的にはFacebookのインターンが論文の筆頭著者でした—は コンバージョン、これは基本的に、「通常の畳み込みニューラルネットワークを使用して、誰もが知っている明らかな調整を加えるとどうなるか」と言っています。 そして、それらは基本的に現在の最先端の画像モデルです。 

ですから、そうです、優れた深層学習モデルを構築する方法の基本的な基本を最新に保つことは、見た目ほど難しくありません。 そして、あなたは確かに現場のすべての論文を読む必要はありません。 特にこの時点で、物事はそれほど速く進んでいません。

しかし、あなた自身の特定の特別な分野だけでなく、幅広い理解を持つことは有益だと思います。 あなたがコンピュータビジョンの人であるとしましょう。NLP、協調フィルタリング、表形式の分析が得意であると非常に役立ちます。また、これらのグループ間には十分な他家受粉がないため、その逆も同様です。 そして時々、誰かが別の領域をのぞき見し、そのアイデアのいくつかを盗み、画期的な結果をもたらします。 

これはまさに私がしたことです ウルフィット XNUMX、XNUMX年前。 「すべての基本的なコンピュータービジョン転移学習技術をNLPに適用しましょう」と言って、マイル単位で最先端の結果を得ました。 OpenAIの研究者 同様のことをしました、しかし私のRNNをトランスに置き換えてスケールアップすると、 GPT。 私たちは皆、それがどのように進んだかを知っています。 

優れた深層学習モデルを構築する方法の基本的な基本事項を常に把握しておくことは、見た目ほど難しくありません。 そして、あなたは確かに現場のすべての論文を読む必要はありません。

過去XNUMX〜XNUMXか月でAIのステップ関数シフトが見られたとおっしゃいました。 それについて詳しく教えていただけますか?

私は実際にそれを フック いうより ステップ関数。 私たちは指数関数的な曲線を描いていると思います。時々、物事が目立ってスピードアップしたように見えることがあります。 私たちがしなければならないのは、テキストと画像の非常に大きなコーパスでトレーニングされた事前トレーニング済みモデルが、かなり一般的な方法で非常に印象的なワンショットまたは数ショットのことを実行できることです。理解して 迅速なエンジニアリング。 基本的に、正しい質問をする方法を知っています—「あなたの推論を説明する」ステップバイステップの種類のプロンプト。 

そして、これらのモデルは、世界の構成的理解と段階的な推論を示すことができるという点では不可能であると多くの学者が私たちに言ってきたことを実際に行うことができることを発見しています。 多くの人がこう言っていました。「ああ、象徴的なテクニックを使わなければならない。 ニューラルネットとディープラーニングは決してそこに到達しません。」 まあ、彼らはそうしていることがわかりました。 人々が決してできないと主張していたこれらのことができることを私たち全員が見ることができるとき、私は思います、 それは私たちが彼らともっとやろうとすることについてもう少し大胆になります.

インターネットで初めてビデオを見たときのことを思い出します。それは理学療法のビデオであり、彼女は理学療法士であるため、母に見せたことを覚えています。 肩の関節運動の動画で、128×128ピクセルだったと思います。 それは白黒で、高度に圧縮されており、おそらく約3〜4秒の長さでした。 私はとても興奮していて、母に「わあ、これを見てください。インターネット上のビデオです!」と言いました。 そしてもちろん、彼女はまったく興奮していませんでした。 彼女は「それの用途は何ですか? これは私が今まで見た中で最も無意味なことです。」

もちろん、いつの日かこれは千×千ピクセル、毎秒60フレーム、フルカラーの美しいビデオになると思っていました。 証拠はそこにあります、今それは残りが追いつくのを待っているだけです。 

ですから、初期のディープラーニングで実際に低品質の画像を見たとき、テクノロジーがこのように拡張されることにほとんどの人が気付いていないため、それほど興奮していなかったと思います。 ほぼ誰もが写真や写真を撮ることができるよりもはるかに見栄えのする高品質のフルカラー画像を実際に作成できるようになったので、人々は想像力を必要としません。 彼らはただできる 今行われていることは非常に印象的です。 それが大きな違いになると思います。

HCIは、私が見たほぼすべてのディープラーニングプロジェクトで最大の欠落部分であるように感じます。 。 。 私がHCIにいた場合、深層学習アルゴリズムとどのように相互作用するかという問題に、自分の分野全体を集中させたいと思います。.

まったく新しいキャリアとしてではなく、少なくとも新しいスキルセットとしての迅速なエンジニアリングのアイデアは、実際には非常に興味深いものです。

そうです、そして私はそれでひどいです。 たとえば、DALL-Eはテキストを正しく書く方法を本当に知りません。これは、血まみれの画像すべてにテキストを入れるのが好きなことを除けば、問題にはなりません。 したがって、これらのランダムな記号は常に存在し、テキストが含まれていないプロンプトを作成する方法を私は一生理解できません。 そして時々、私はあちこちでランダムに単語を変更します、そして突然、それらのどれももうテキストを持っていません。 これにはいくつかのトリックがありますが、私はまだそれを完全に理解していません。

また、たとえば、現在、特に優れたコーダーでない場合は、適切なCodexコメントを作成して生成させるのが得意であるため、高速化の方法を知る上で重要なコーディングスキルがあります。 。 そして、どのような種類のエラーが発生する傾向があるのか​​、どのような点が得意なのか、どのような点が得意なのかを知り、それを取得して、自分のために作成したもののテストを作成する方法を知っています。

多くの人にとって、それはコーディングが本当に上手になるよりも、おそらくすぐに学ぶ価値のあることです。

特にコーデックスについて、マシンで生成されたコードのアイデアについてどう思いますか?

I ブログ投稿を書いた 実際、GitHubCopilotが出たときのことです。 当時、「すごい、かっこいいし、印象的ですが、どれだけ役に立つのかよくわかりません」と思っていました。 そして、私はまだわかりません。

主な理由のXNUMXつは、ディープラーニングモデルが正しいか間違っているかを理解していないことを私たち全員が知っていると思うことです。 Codexは、最初のバージョンを確認してから大幅に改善されました、しかしそれでも多くの間違ったコードを書きます。 また、生成しているため、詳細なコードを記述します 平均 コード。 私にとって、平均的なコードを取得して、自分が好きで正しいことがわかっているコードにするのは、最初から書くよりもはるかに遅くなります。少なくとも、私がよく知っている言語では。 

しかし、ここにはヒューマンコンピュータインターフェイス(HCI)の質問全体があるように感じます。 HCIは、私が見たほぼすべてのディープラーニングプロジェクトで最大の欠落部分であるように感じます:これらのことを完全に人間に置き換えることはほとんどありません。 したがって、私たちは働いています 一緒に これらのアルゴリズムで。 私がHCIにいた場合、深層学習アルゴリズムとどのように相互作用するかという問題に、自分の分野全体を集中させたいと思います。。 グラフィカルユーザーインターフェイス、コマンドラインインターフェイス、およびWebインターフェイスを操作する方法を何十年も学んできたためですが、これはまったく別のことです。 

そして、私はプログラマーとしてコーデックスのようなものとどのように最もよく対話するのかわかりません。 インターフェースの作成やデータのバインド、アルゴリズムの構築など、あらゆる分野でそれを行うための本当に強力な方法があるに違いありませんが、それらが何であるかはわかりません。

21年2022月XNUMX日に投稿

テクノロジー、イノベーション、そして未来。

ご登録いただきありがとうございます。

受信トレイでウェルカムノートを確認してください。

タイムスタンプ:

より多くの アンドレッセン・ホロウィッツ