機械学習を生物学に適用するのが難しい理由 – しかし、それだけの価値がある PlatoBlockchain Data Intelligence. 垂直検索。 あい。

機械学習を生物学に適用するのは難しいが、その価値がある理由

Jimmy Lin は CSO です。 フリーノームは、大腸がんをはじめとするがんの早期発見のための血液検査を開発しています。 彼は、大規模なゲノム データから洞察を抽出するための計算手法の開発におけるパイオニアであり、複数の種類のがんにおける最初のゲノムワイド シーケンス研究の計算解析を先導しました。 

Lin は Future に、機械学習アプローチと生物学的データを結びつけるという会社の使命を実行する際の課題について話しました。 彼は、バランスの取れたテクノロジーバイオ企業を構築するために採用する必要がある XNUMX 種類の人材、避けるべき落とし穴、XNUMX つの分野の融合が機能しているか機能していないかを判断する方法、および生物学的研究と機械学習を適応させる際のニュアンスについて説明しています。お互いに。


将来: 多くの分野と同様に、機械学習をバイオに適用する可能性について多くの期待が寄せられています。 しかし、進歩はより苦労したように見えます。 機械学習で通常使用されるタイプのデータと比較して、生体分子データには何か違いがありますか?

JIMMY LIN: 従来の機械学習データは非常に広範で浅いものです。 機械学習が解決することが多い問題の種類は、画像認識など、人間がナノ秒で解決できるものです。 コンピューターに猫の画像を認識させるには、何十億もの画像を訓練する必要がありますが、各画像のデータ コンテンツは比較的限られています。 生物学的データは通常逆です。 私たちは何十億もの個人を持っていません。 幸運なことに、数千人を獲得できました。 しかし、個人ごとに、何十億ものデータ ポイントがあります。 少数の非常に深いデータがあります。

同時に、生物学的な問題は人間が解決できる問題ではありません。 私たちは、この分野の世界の専門家でさえできないことをやっています。 したがって、問題の性質は非常に異なります。 新しい考え方 これにどのようにアプローチするかについて。

生体分子データ用にゼロからアプローチを構築する必要がありますか、それとも既存の方法を適応させることができますか?

この深い情報を取得して特徴付け、既存のツールを活用できるようにする方法はいくつかあります。これは、統計学習であろうと深層学習の方法であろうと関係ありません。 直接のコピペではありませんが、直接の XNUMX 対 XNUMX のマップでなくても、多くの機械学習手法を移植して生物学的問題に適用できる方法はたくさんあります。

データの問題をさらに掘り下げると、生物学的データには多くの変動性があります。生物学的ノイズ、実験的ノイズがあります。 機械学習に対応した生物医学データを生成する最善の方法は何ですか? 

それは素晴らしい質問です。 Freenome は当初から、機械学習に適した最適なデータを生成する方法を考慮してきました。 研究デザインからサンプル収集、アッセイの実行、データ分析までのプロセス全体を通して、特にサンプルよりもはるかに多くの機能がある場合、機械学習を最適化できるようにすべてのステップで注意を払う必要があります。 これは古典的な big-p little-n 問題です。

何よりもまず、交絡因子を最小限に抑えるように研究を設計しました。 多くの企業が過去のデータセットに依存しており、コホートの影響を最小限に抑えて交絡因子を排除するために多くの作業を行ってきました。 しかし、それは本当に最善の方法でしょうか? いいえ、それを行う最善の方法は、事前に交絡因子を制御する前向き研究です. これが、発見の取り組みにおいても、事前にゴールド スタンダード データを収集する大規模なマルチサイト前向き試験を行うことにした理由です。 AI-EMERGEトライアル.

幸いなことに、これらのデータを生成することを許可するのに十分なほど私たちを信頼している投資家がいます. これらの研究は非常に高価であるため、実際には大きなリスクがありました. 

では、データを取得したら、それをどうしますか?

つまり、すべてのサイトを一貫した方法でトレーニングし、さまざまなサイトからの交絡因子を制御して、患者ができるだけ似ているようにする必要があります。 そして、サンプルを実行したら、バッチ効果を最小限に抑える方法を検討する必要があります。たとえば、サンプルの適切な組み合わせをさまざまなマシンに適切な比率で配置するなどです。

あなたがやっているとき、これは非常に難しいです マルチオミクス あるクラスの生体分子を分析するマシンは、XNUMX回の実行で数百のサンプルを取得する可能性がありますが、別のクラスの生体分子を分析するマシンは数個しか使用しない可能性があるためです。 その上で、ヒューマン エラーをなくしたいと考えています。 そのため、トレーニング データを生成する段階で、ほぼ事前に自動化を導入しました。

また、XNUMX 人あたり数十億のデータ ポイントがあると、非常に簡単にオーバーフィットする可能性があります。 そのため、適切な統計補正と多くの連続したトレーニングとテストのホールドアウト セットを使用して、トレーニングが最終的に適用したい母集団に一般化できるようにします。

機械学習と生体分子データを組み合わせることは、多くのバイオテクノロジー企業が試みていることですが、多くの場合、これをどのように行うかについてはあいまいです. それらを効果的に統合するために不可欠な機能は何だと思いますか?

At フリーノーム 私たちは機械学習とマルチオミクスを融合しています。 そのためには、両方をうまくやる必要があります。 ここで重要なのは、両方の専門知識を持ち、両方の言語を話せるようになることです。 バイリンガルである必要があります。 

一方の専門家であり、もう一方の層に散りばめられている企業はたくさんあります。 たとえば、バイオに飛び込みたいと決心したテクノロジー企業がありますが、彼らはほんの一握りのウェットラボの科学者を雇っているだけです. 一方、機械学習の科学者を雇っている生物学の会社があり、彼らは今では AI/ML の会社であると宣言しています。 

本当に必要なのは、両方の深いベンチ強度です。 システム、さまざまなアッセイ、知識空間の機能について、生物学的に深く理解する必要があります。 ただし、機械学習、データ サイエンス、計算手法、統計学習についての深い理解と、それを適用するためのプラットフォームも必要です。 

これらの XNUMX つの領域はしばしば非常にサイロ化されているため、これは非常に困難です。 会社で採用する人材について考えているとき、これら XNUMX つの異なる領域の間にどのように架け橋を作るのでしょうか?

テクノロジーとバイオの橋渡しをするために採用したい人は、XNUMX 種類いると思います。 最初の XNUMX つは標準的なもので、機械学習や生物学の分野の専門家です。 しかし、彼らはオープンで他の分野について学ぶ意欲も必要です。

機械学習の専門家には、最新のアルゴリズムを開発するだけでなく、最新のアルゴリズムを生物学の問題に適用したいと考えている人を選びます。 

生物学は 乱雑な. さまざまな分析物を測定するすべての方法を持っているわけではないだけでなく、新しい生体分子と機能を継続的に発見しています。 また、考慮する必要がある多くの交絡因子とノイズもあります。 これらの問題は一般に、問題と知識空間がより明確に定義されている標準的な機械学習の問題よりも複雑です。 自分の技術を生物学に適用したい ML の専門家は、生物学内に存在する複雑さについて学ぶ謙虚さを持ち、最適とは言えない条件やデータの可用性の違いに進んで取り組む必要があります。

反対に、大規模な定量的データ生成、信号対雑音比を最適化するための設計研究、交絡因子と一般化可能性の注意点を認識している生物学者を雇っています。 コードの言語で話したり考えたりできるというだけではありません。 私たちの生物学者の多くは、すでにコーディングを行っており、優れた統計的バックグラウンドを持っており、これらの分野に進んで成長したいと考えています。 実際、Freenome では、統計的推論を発展させるためにコーディングについてもっと学びたい生物学者向けのトレーニング プログラムを用意しています。

さらに重要なことは、ビッグデータと ML のコンテキストで設計された場合、研究の設計と私たちが尋ねることができる質問が異なって見えることです。

XNUMX番目のタイプは何ですか?

XNUMX 番目のタイプの人を雇うのは、見つけるのが最も難しい人です。 これらはブリッジャーであり、これらの両方の分野で流暢に働いてきた人々です。 この交差点にある場所やラボは、世界でもほとんどありません。 両方の領域を翻訳して橋渡しできる人材を確保することは非常に重要です。 しかし、橋渡し役だけの会社を作りたくはありません。なぜなら、これらの人々は、その仕事のせいで、ある分野の専門家ではないことが多いからです。 多くの場合、彼らの理解はより一般的です。 ただし、これらは XNUMX つの分野を結び付けるという重要な作業を提供します。

したがって、XNUMX つのグループすべてを持つことが重要です。 ドメイン エキスパートのスペシャリストが XNUMX 人しかいない場合は、XNUMX つの分野でしか強みを発揮できません。 または、ブリッジ ビルダーがいない場合は、互いに話すことができない人々のサイロができます。 理想的には、ML と生物学の両方を深く理解し、両方の分野の効果的な相乗効果を提供できるように、チームにはこれら XNUMX つのタイプの人々のそれぞれを含める必要があります。

技術や計算の専門家が問題を攻撃する方法と、生物学者が問題にアプローチする方法に違いがあると思いますか? 

うん。 極端な例としては、統計的および定量的なバックグラウンドを持ち、コードや方程式で話す人が確実にいます。 私たちは彼らがこれらの方程式を理解できるように手助けし、一般の聴衆が理解できるように明確に説明する必要があります. 

生物学者は、目に見えないものを扱うため、想像力に優れています。 彼らはプレゼンテーションで多くのイラストを使用して、分子的に何が起こっているかを視覚化し、メカニズムと複雑さについて優れた直感を持っています. この考え方の多くは、より質的です。 これにより、考え方やコミュニケーションの方法が異なります。

そのため、人々のコミュニケーション方法は非常に大きく異なります。 重要なのは、私たちが冗談めかして言っているのですが、おばあちゃんでも理解できる方法でコミュニケーションをとる必要があるということです。 

初心者でも理解できるように単純化できるようにするには、知識を真に習得する必要があります。 通常のショートカット、専門用語、技術用語以外の非常に難しい概念を伝えることを学ぶことは、実際には素晴らしいトレーニングだと思います.

機械学習と生物学を結びつける方法について、あなたの特定の視点に影響を与えたものは何ですか?

したがって、この問題は新しいものではなく、長年の問題の最新の反復です。 のフィールドが 計算生物学とバイオインフォマティクス 最初に作成された、同じ問題が存在しました。 コンピューター サイエンティスト、統計学者、データ サイエンティスト、さらには物理学者が生物学の分野に加わり、彼らの定量的思考をこの分野にもたらしました。 同時に、生物学者は、遺伝子をアップレギュレーションおよびダウンレギュレーションとして特徴付けるだけでなく、モデリングを開始し、より定量的にデータにアプローチし始めなければなりませんでした.生物学的データのデジタル化は、現在、規模が指数関数的に成長しています. 問題はより深刻で広範囲に及びますが、基本的な課題は変わりません。

結婚生活がうまくいっているかどうかを示す成功指標または危険信号は何だと思いますか?

分野を統合しようとしている企業を見れば、彼らがどちらか一方にどれだけ投資しているかがすぐにわかります。 したがって、従業員の 90% が実験室の科学者であり、XNUMX 人か XNUMX 人の機械学習科学者を雇っただけで、自らを ML 企業と呼んでいる会社である場合、それはおそらく後付けです。

生物学と機械学習を結びつけるこのプロセス全体で学んだ持ち帰りの教訓はありますか?

特にテクノロジー側から来る知的謙虚さだと思います。 たとえば、検索を解決するようなものでは、すべての情報が既にテキスト形式になっていて、簡単にアクセスでき、何を探しているかがわかります。 それで、それは解決可能な問題になりますよね? 生物学の問題は、どのデータセットを探しているのか、適切な領域を照らす適切な懐中電灯があるかどうかさえわからないことです。 

そのため、テクノロジーの専門家がバイオに飛び込むと、単純化しすぎの罠に陥ることがあります。 例として、次世代シーケンスの場合、彼らは「うわー。 DNAを配列決定できます。 たくさんのDNAを配列決定してみませんか? それはデータの問題になり、それから私たちは生物学を解決します。」 

しかし問題は、DNA が体内の数十の異なる分析物の XNUMX つであることです。 RNA、タンパク質、翻訳後修飾、細胞外小胞などのさまざまなコンパートメント、および時間、空間、細胞タイプなどの違い。 使用する各データモダリティの可能性と限界を理解する必要があります。

信じがたいかもしれませんが、生物学はまだ始まったばかりの分野です。 私たちはただ ヒトゲノムを配列決定した XNUMX年ちょっと前。 ほとんどの場合、個々の生物学的シグナルにアクセスすることはできないため、多くのシグナルの集合体または平均値を測定しています。 一度に XNUMX つのセルを測定し始めたところです。 やらなければならないことはまだたくさんあります。だからこそ、生物学を学ぶのはエキサイティングな時期なのです。 

しかし、その幼年期には、人間の健康と幸福に大きな影響を与える問題を解決する大きな可能性が秘められています。 私たちは生物学の新しいフロンティアを切り開いているので、今はとても素晴らしい時期です。

どんなフロンティア? 計算が適用されるのを見るのが最も楽しみな生物学や医学の分野はありますか?

ええ - すべて! しかし、考えさせてください。 がんについては、私たちの世代では、新たな治療法や早期発見の取り組みによって、HIV の場合のように、がんがもはやそれほど怖くない慢性疾患に変わると私は信じています。 そして、おそらく非常によく似たタイプの方法を使用して、病気の検出と予防をより一般的に見ることができます. 私が興奮している重要なことは、症状が現れる前に病気がすでに存在するかどうかを検出し始めることができるということです. 

がんの診断以外で本当に素晴らしいのは、単なる読み書きではなく、生物学を使った構築への移行です。 CRISPRであれ、合成ペプチドであれ、合成ヌクレオチドであれ、生物学を技術として使用している合成生物学の分野に興奮しています. 生物学をツールとして活用することで、農業からエネルギーまで、従来の資源生成産業を完全に変革する可能性が広がります。 これは、生物学者にとって本当に素晴らしい時期です。

5年2022月XNUMX日に投稿

テクノロジー、イノベーション、そして未来。

ご登録いただきありがとうございます。

受信トレイでウェルカムノートを確認してください。

タイムスタンプ:

より多くの アンドレッセン・ホロウィッツ