AI を支援するコンピューティングのパイオニアクアンタマガジン

AI を支援するコンピューティングのパイオニアクアンタマガジン

AI を支援するコンピューティングのパイオニアQuanta Magazine PlatoBlockchain Data Intelligence。垂直検索。あい。

概要

日時 アレクセイエフロス 1980 年代に家族とともにロシアからカリフォルニアに移住したとき、彼はソ連製のパーソナル コンピューター、エレクトロニカ BK-0010 を持ち込みました。 このマシンには外部ストレージがなく、数時間ごとに過熱するため、ビデオ ゲームをプレイするには、マシンがシャットダウンする前にコードを作成し、トラブルシューティングを行い、高速にプレイする必要がありました。 そのサイクルがほとんど毎日繰り返され、彼の学習は加速しました。

「このソ連のコンピューターはあまり性能が良くなかったので、とても幸運でした!」 エフロスさんは簡単に笑い、穏やかなロシア訛りで話した。 彼は現在、それほど多くのゲームをプレイしていませんが、ツールを探求して最大限に活用しようとする意欲は今でも残っています。

カリフォルニア大学バークレー校の大学院で、エフロスはハイキングを始め、ベイエリアの自然の美しさを探索し始めました。 彼がコンピューターに対する情熱とこれらの光景の楽しみを結び付けるようになるまで、時間はかかりませんでした。 彼は、写真の穴をシームレスに補修する方法を開発しました。たとえば、セコイアの森の写真にある誤ったゴミ箱を自然に見える木に置き換えるなどです。 Adobe Photoshop は後に、この技術のバージョンを「コンテンツを意識した塗りつぶし」ツールに採用しました。

現在、バークレー人工知能研究所のコンピューター科学者であるエフロスは、膨大なオンライン データセットと機械学習アルゴリズムを組み合わせて、視覚的な世界を理解し、モデル化し、再作成しています。 2016 年、コンピューティング機械協会から彼に賞を授与されました。 コンピューティング賞 リアルな合成画像を作成する彼の仕事を評価して、彼を「」と呼んでいます。イメージアルケミストに設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」

概要

研究者の最善の努力にもかかわらず、機械は依然として人間とは根本的に異なるものの見方をしている、とエフロス氏は言う。 「色と明るさの斑点を表現するには、私たちが今見ているものを、以前にどこで見たのかという記憶と結びつける必要があります」とエフロス氏は言う。 「このつながりが、私たちが見ているものに意味を与えます。」 機械は、以前に見たものと結びつけずに、その瞬間にそこにあるものを認識することがよくあります。

しかし、違いには利点がある場合もあります。 コンピューター ビジョンにおいて、エフロス氏は、オブジェクトやシーンを認識するように設計されたアルゴリズムが画像上で機能するかどうかを即座に知ることができることを高く評価しています。 彼のコンピューター ビジョンに関する質問のいくつか — など何がパリをパリらしくしているのでしょうか?」 — 哲学的な傾向があります。 その他、永続的な対処方法など データセットの偏り、実用的かつ差し迫ったものです。

「現在、言語を使ってAIを開発している人がたくさんいます」とエフロス氏は言う。 「残された視覚的なパターン全体を見てみたいのです。」 コンピュータービジョンを改善することで、彼は自動運転車のようなより良い実用的なアプリケーションを期待しているだけではありません。 また、彼が「人間の視覚的知性」と呼ぶもの、つまり人が見たものをどのように理解するのかをより深く理解するために、これらの洞察を掘り起こしたいと考えています。

クォンタマガジン バークレーのオフィスでエフロス氏と会い、科学の超大国、ビジュアルを説明することの難しさ、人工知能が実際にどれほど危険であるかについて話しました。 インタビューはわかりやすくするために要約および編集されています。

概要

学生の頃と比べて、コンピュータ ビジョンはどのように向上しましたか?

私が博士課程に進み始めたとき、役に立つことはほとんどありませんでした。 一部のロボットはコンピューター ビジョンを使用してネジを締めていましたが、それはこの種の非常に管理された産業環境に限定されていました。 すると突然、カメラが顔を検出し、より鮮明にしました。

現在、コンピュータ ビジョンは自動運転車など、膨大な数のアプリケーションに導入されています。 一部の人が当初考えていたよりも時間がかかっていますが、それでも進歩はあります。 車を運転しない人にとって、これは非常にエキサイティングです。

ちょっと待って、運転しないの?

いいえ、運転できるほど視力が良くありません。 (笑)私にとって、これはとても大きな変化です。車を持ってどこかへ連れて行ってくれるということです。

あなたの視力のせいで運転ができないとは知りませんでした。 作業中の画像はコンピューターのモニターで見ることができますか?

十分に大きくすれば。 私のフォントがかなり大きいことがわかります。 私は生まれつき目が良くありませんでした。 他の人はみんな、めちゃくちゃ視力がいいのに変人だと思う。

あなたの「変わり者」ではないというステータスは、あなたの研究の方向性に影響を与えましたか?

知るか? 「ああ、私は目がよく見えないから、もっとよく見えるコンピューターを作ろう」という感覚はまったくありませんでした。 いいえ、それをモチベーションにしたことはありません。

優れた科学者になるには、秘密の超大国が必要です。 あなたは他の人よりも何か良いことをしなければなりません。 科学の素晴らしいところは、私たち全員が同じ超能力を持っているわけではないということです。 おそらく私の超能力は、目があまり良くないので、視覚の問題についてもっと洞察できるかもしれないということです。

概要

私は世界を見るとき、以前のデータが重要であることを早い段階で理解していました。 私自身、目はあまりよくありませんでしたが、以前の経験の記憶によって穴が十分に埋まり、基本的には普通の人と同じように機能することができました。 ほとんどの人は私が目が見えにくいことを知りません。 そのことが私に、ピクセルの問題ではなくメモリの問題であるかもしれないという独特の直感を与えてくれたと思います。

コンピューターは今そこにあるものしか見えませんが、私たちはこれまでに見たすべてのタペストリーに結びついた瞬間を見ます。

たとえば、パリをパリのように見せる微妙な視覚パターンを言葉で表現することは可能でしょうか?

特定の都市にいるとき、自分がどの都市にいるのかだけがわかることがあります。これがあります。 言葉で表現できない上質性たとえその特定の街角に行ったことがないとしても。 それを言葉で説明するのは非常に難しいですが、それはピクセルの中にあります。

(パリの場合は)通常は XNUMX 階建ての建物で、通常は XNUMX 階にバルコニーがあることについて話すことができます。 この一部は言葉で表現できますが、多くは言語的ではありません。 私にとってそれはとてもエキサイティングなことです。

最近の仕事には、コンピュータに次のことを教えることが含まれています。 ビジュアルデータを取り込む 人間の視覚を模倣する方法で。 それはどのように機能するのでしょうか?

現在、コンピューターには膨大なデータセット、つまりインターネットから収集された何十億ものランダムな画像が保存されています。 ランダムな画像を取得し、XNUMX つの画像を処理し、次に別のランダムな画像を取得し、それを処理する、という具合です。このデータセットを何度も調べることで、[コンピュータの視覚] システムをトレーニングします。

私たち (生物学的エージェント) がデータを取り込む方法は、非常に異なります。 私たちが新たな状況に直面したとき、このデータが役立つのはそのときだけです。 私たちは、この部屋で、この照明で、このような服装で、これとまったく同じ状況に陥ったことはありません。 まず、このデータを使用して、世界を理解するために必要な作業を行います。 次に、このデータを使用して、そこから学習し、将来を[予測]します。

概要

また、私たちが目にするデータはランダムではありません。 あなたが今見ているものは、数秒前に見たものと非常に相関しています。 ビデオとして考えることができます。 ビデオのすべてのフレームは相互に相関しています。これは、コンピューターによるデータの処理方法とは大きく異なります。

私は、コンピューターがデータを受信して​​処理し、そこから学習する学習アプローチを採用することに興味があります。

コンピューターに静止画の代わりに動画を見てもらうほど単純ではないと思います。

いいえ、適応するにはまだ [コンピューター] が必要です。 私は、データが入ってくるたびにそれを見て、それを処理してそこから学習するアプローチを学ぶことに興味があります。 私たちのアプローチの XNUMX つは、次のように知られています。 テスト時のトレーニング。 ビデオのように一連の画像を見ていると、状況が変化するかもしれないという考えです。 したがって、モデルを修正してほしくないのです。 生物学的因子が常に周囲に適応しているのと同じように、私たちはコンピューターも継続的に適応することを望んでいます。

標準的なパラダイムでは、最初にビッグ データ セットでトレーニングし、次にデプロイします。 Dall·E と ChatGPT は 2021 年頃にインターネットでトレーニングされましたが、その後 [知識が] 凍結されました。 そして、すでに知っていることを吐き出します。 より自然な方法は [テスト時トレーニング] です。これは、データを吸収させ、実際に学習させることを目的としており、トレーニングと導入フェーズを個別に設けるのではありません。

コンピューターには、ドメイン シフトまたはデータ セット バイアスと呼ばれる問題が確実に存在します。トレーニング データが、システムのデプロイ時に使用しているデータと大きく異なる場合、物事は機能しないという考え方です。非常によく。 ある程度は進んでいますが、まだそこには達していません。

概要

この問題は、過去の実績が将来の収益を予測できない可能性があると銀行が投資家に警告するのと似ているのでしょうか?

まさにそれが問題なのです。 現実の世界では状況が変化します。 たとえば、野ネズミが家に入ってしまっても大丈夫です。 そのマウスを決して取り除くことはできません。 (笑) 野原で生まれ、これまで家に入ったことはありませんでしたが、あなたの食料をすべて見つけて食べます。 新しい環境に非常に素早く適応し、学習して適応します。

その能力は現在の[コンピュータービジョン]システムにはありません。 自動運転では、カリフォルニアで車を訓練し、その後ミネソタでテストすると、ドーン! - そこには雪があります。 雪は一度も見たことがありません。 混乱してしまいます。

現在、人々は非常に多くのデータを取得することでこの問題に対処しており、[システム] は基本的にすべてを把握しています。 そうすれば適応する必要はありません。 しかし、それでもまれな出来事は見逃されます。

AI システムが前進する方法のように思えます。 それは人間をどこに残すのでしょうか?

テキスト面 (ChatGPT) と画像面 (Dall・E) の両方で OpenAI から生み出される成果は、信じられないほど刺激的で驚くべきものでした。 十分なデータが得られれば、かなり単純な方法で驚くほど良い結果が得られるというこの考えが再確認されます。

概要

しかし、ChatGPT のおかげで、人間は自分たちが思っているほど創造的でも優れた存在でもないことに気づきました。 ほとんどの場合、私たちの中のパターン認識機能が引き継いでいる可能性があります。 私たちは、以前に聞いたフレーズや文から作られた文で話します。 もちろん、私たちには空想と創造性の飛行もあります。 少なくとも現時点では、私たちはコンピューターにはできないことを行うことができます。 しかし、ほとんどの場合、ChatGPT に置き換えられる可能性があり、ほとんどの人は気付かないでしょう。

謙虚な気持ちです。 しかし、それはまた、それらのパターンから抜け出し、より空想的な飛行を試み、決まり文句や模倣に囚われないようにするための動機付けでもあります。

一部の科学者は、AI が人類にもたらすリスクについて懸念を表明しています。 心配していますか?

私が尊敬する多くの研究者は、人工知能について警告を発しています。 私はその言葉を軽視したくありません。 その多くは有効なポイントです。 しかし、物事を大局的に考える必要があります。

現在、文明に対する最大の危険はコンピューターからではなく人間から来ています。 核ハルマゲドンと気候変動は、はるかに差し迫った懸念です。 ロシア連邦は全く罪のない隣国を攻撃した。 私はロシアで生まれましたが、私の元同胞がこのようなことをしている可能性があるのは特に恐ろしいことです。 私はこれが引き続き第 XNUMX のトピックであることを確認するために全力を尽くしています。

私たちは AI 革命が人生で最も重要な出来事だと考えるかもしれません。 しかし、私たちが自由な世界を救わなければ、AI 革命は何の意味もありません。

では、AIについてはまったく心配していませんか?

いいえ、ご存知のように、私は心配するのが大好きです。 私は大の心配性なんです! しかし、プーチンが世界を破壊することがここにあり[頭に手を上げ]、気候変動がここにある[肩に手を下げる]ならば、AIはここにいます[手を足元に下げる]。 プーチン大統領や気候変動に比べれば、それは私の心配の何パーセントにも満たない。

タイムスタンプ:

より多くの クアンタマガジン