چرا استفاده از یادگیری ماشینی در زیست شناسی سخت است

بازنشر افلاطون

دنبال: 0

جیمی لین یک CSO از Freenome، که در حال توسعه آزمایش های مبتنی بر خون برای تشخیص زودهنگام سرطان است که از سرطان روده بزرگ شروع می شود. او پیشگام در توسعه رویکردهای محاسباتی برای استخراج بینش از داده‌های ژنومی در مقیاس بزرگ است، که رهبری تحلیل‌های محاسباتی اولین مطالعات توالی‌یابی ژنومی در انواع مختلف سرطان را بر عهده داشت.

لین با Future در مورد چالش های اجرای ماموریت شرکت برای ازدواج با رویکردهای یادگیری ماشین و داده های بیولوژیکی صحبت کرد. او توضیح می دهد که چه سه نوع از افراد را برای ایجاد یک شرکت فناورانه متوازن استخدام کنید، تله هایی که باید از آنها دوری کنید، نحوه تشخیص اینکه چه زمانی ازدواج دو رشته کار می کند یا نه، و تفاوت های ظریف انطباق مطالعات بیولوژیکی و یادگیری ماشینی را توضیح می دهد. به یکدیگر.

آینده: مانند بسیاری از رشته ها، هیجان زیادی در مورد پتانسیل استفاده از یادگیری ماشین در زیست وجود دارد. اما پیشرفت سخت تر به نظر می رسید. آیا در مقایسه با انواع داده‌هایی که معمولاً برای یادگیری ماشین استفاده می‌شوند، چیز متفاوتی در مورد داده‌های زیست مولکولی وجود دارد؟

JIMMY LIN: داده های یادگیری ماشین سنتی بسیار گسترده و کم عمق هستند. نوع مشکلاتی که یادگیری ماشین اغلب آنها را حل می کند همان چیزی است که انسان می تواند در یک نانوثانیه حل کند، مانند تشخیص تصویر. برای آموزش تشخیص تصویر یک گربه به رایانه، باید میلیاردها میلیارد تصویر برای آموزش داشته باشید، اما هر تصویر از نظر محتوای داده نسبتاً محدود است. داده های بیولوژیکی معمولاً برعکس هستند. ما میلیاردها نفر نداریم. ما خوش شانس هستیم که هزاران نفر به دست می آوریم. اما برای هر فرد، ما میلیاردها و میلیاردها نقطه داده داریم. ما تعداد کمتری از داده های بسیار عمیق داریم.

در عین حال، سوالات بیولوژیکی کمتر مشکلاتی هستند که انسان می تواند حل کند. ما کارهایی را انجام می دهیم که حتی کارشناسان جهانی در این زمینه قادر به انجام آن نیستند. بنابراین، ماهیت مشکلات بسیار متفاوت است، بنابراین لازم است تفکر جدید در مورد نحوه برخورد ما با این موضوع

آیا رویکردها باید از ابتدا برای داده های زیست مولکولی ساخته شوند یا می توانید روش های موجود را تطبیق دهید؟

راه‌هایی وجود دارد که می‌توانید این اطلاعات عمیق را دریافت کرده و آن‌ها را برجسته کنید تا بتوانید از ابزارهای موجود، چه یادگیری آماری و چه روش‌های یادگیری عمیق استفاده کنید. این یک کپی پیست مستقیم نیست، اما راه‌های زیادی وجود دارد که می‌توانید بسیاری از روش‌های یادگیری ماشین را منتقل کنید و آنها را برای مشکلات بیولوژیکی اعمال کنید، حتی اگر نقشه مستقیم یک به یک نباشد.

با بررسی بیشتر موضوع داده‌ها، با داده‌های بیولوژیکی تنوع زیادی وجود دارد – نویز بیولوژیکی وجود دارد، نویز تجربی وجود دارد. بهترین راه برای نزدیک شدن به تولید داده های زیست پزشکی آماده برای یادگیری ماشین چیست؟

این یک سوال عالی است. از همان ابتدا، Freenome نحوه تولید بهترین داده های مناسب برای یادگیری ماشین را در نظر گرفته است. در طول کل فرآیند از طراحی مطالعه، جمع‌آوری نمونه، تا اجرای سنجش‌ها، تا تجزیه و تحلیل داده‌ها، باید در هر مرحله مراقب باشید تا بتوانید برای یادگیری ماشینی بهینه‌سازی کنید، به خصوص زمانی که ویژگی‌های بسیار بیشتری نسبت به نمونه‌ها دارید. این مشکل کلاسیک big-p small-n است.

اول از همه، ما مطالعه خود را طوری طراحی کرده ایم که عوامل مخدوش کننده را به حداقل برسانیم. بسیاری از شرکت‌ها به مجموعه داده‌های تاریخی تکیه کرده‌اند و تلاش زیادی برای به حداقل رساندن اثرات هم‌گروهی و حذف عوامل مخدوش‌کننده انجام داده‌اند. اما آیا واقعا این بهترین راه برای انجام آن است؟ خوب، نه، بهترین راه برای انجام آن یک مطالعه آینده نگر است که در آن عوامل مخدوش کننده را از قبل کنترل کنید. به همین دلیل است که، حتی در تلاش‌های اکتشافی خود، تصمیم گرفتیم یک کارآزمایی آینده‌نگر چند سایتی بزرگ انجام دهیم که داده‌های استاندارد طلایی را از قبل جمع‌آوری می‌کند. آزمایشی AI-EMERGE.

خوشبختانه ما سرمایه گذارانی داریم که به اندازه کافی به ما اعتقاد داشتند تا به ما اجازه دهند این داده ها را تولید کنیم. این در واقع ریسک بزرگی بود زیرا این مطالعات بسیار گران هستند.

سپس هنگامی که داده ها را دریافت کردید، با آنها چه می کنید؟

خوب، شما باید همه سایت ها را به شیوه ای ثابت آموزش دهید و عوامل مخدوش کننده را از تمام سایت های مختلف کنترل کنید تا بیماران تا حد امکان شبیه به هم به نظر برسند. و پس از اجرای نمونه‌ها، باید به این فکر کنید که چگونه اثرات دسته‌ای را به حداقل برسانید، مثلاً با قرار دادن ترکیب مناسب نمونه‌ها روی ماشین‌های مختلف با نسبت‌های مناسب.

وقتی این کار را انجام می دهید، بسیار سخت است مولتیومیک زیرا ماشین‌هایی که یک دسته از مولکول‌های زیستی را تجزیه و تحلیل می‌کنند ممکن است صدها نمونه را در یک اجرا بگیرند، در حالی که ماشین‌هایی که دسته دیگری از مولکول‌های زیستی را تجزیه و تحلیل می‌کنند ممکن است فقط تعداد کمی از آنها را مورد بررسی قرار دهند. علاوه بر این، شما می خواهید خطای انسانی را حذف کنید. بنابراین، ما اتوماسیون را تقریباً از قبل در مرحله تولید داده های آموزشی معرفی کردیم.

همچنین، هنگامی که شما میلیاردها نقطه داده به ازای هر نفر دارید، به‌طور بالقوه اضافه کردن آن بسیار آسان می‌شود. بنابراین ما مطمئن می شویم که آموزش ما با اصلاحات آماری صحیح و مجموعه های آموزشی و آزمایشی متوالی قابل تعمیم به جمعیت هایی است که در نهایت می خواهیم آن را اعمال کنیم.

ترکیب یادگیری ماشین با داده‌های زیست مولکولی، کاری است که بسیاری از شرکت‌های بیوتکنولوژی در تلاش برای انجام آن هستند، اما اغلب اوقات ابهامات زیادی در مورد نحوه انجام این کار وجود دارد. به نظر شما یکی از ویژگی های اساسی ادغام موثر آنها چیست؟

At Freenome ما در حال ادغام یادگیری ماشین و مولتیومیک هستیم. برای انجام این کار، باید هر دو را به خوبی انجام دهید. نکته کلیدی در اینجا این است که شما باید در هر دوی آنها تخصص قوی داشته باشید و سپس بتوانید به زبان هر دو صحبت کنید. شما باید دو زبانه باشید.

شرکت‌های زیادی وجود دارند که در یکی از آنها خبره هستند و سپس لایه‌ای از دیگری را می‌پاشند. به عنوان مثال، شرکت‌های فناوری وجود دارند که تصمیم می‌گیرند که می‌خواهند وارد بیو شوند، اما تنها کاری که انجام می‌دهند این است که تعداد انگشت شماری از دانشمندان آزمایشگاه مرطوب را استخدام می‌کنند. از سوی دیگر، شرکت‌های زیست‌شناسی هستند که تعدادی دانشمندان یادگیری ماشینی را استخدام می‌کنند، سپس آنها اعلام می‌کنند که اکنون یک شرکت AI/ML هستند.

چیزی که واقعاً به آن نیاز دارید، استحکام نیمکت عمیق در هر دو است. شما به درک بیولوژیکی عمیقی از سیستم، سنجش‌های مختلف، ویژگی‌های فضای دانش نیاز دارید. اما شما همچنین باید درک عمیقی از یادگیری ماشینی، علم داده، روش‌های محاسباتی و یادگیری آماری داشته باشید و پلتفرم‌هایی برای اعمال آن داشته باشید.

این واقعاً چالش برانگیز است زیرا این دو منطقه اغلب بسیار سیلو هستند. وقتی به افرادی که برای شرکت استخدام می کنید فکر می کنید، چگونه می توانید پل هایی را بین این دو حوزه مختلف ایجاد کنید؟

من فکر می کنم سه نوع از افراد وجود دارد که شما می خواهید برای ایجاد پل بین فناوری و بیو استخدام کنید. دو مورد اول استانداردهای شما هستند، متخصصان حوزه در یادگیری ماشین یا زیست شناسی. اما آنها همچنین باید باز باشند و مایل به یادگیری در مورد دامنه دیگر باشند، یا حتی بهتر از آن، تجربه و تجربه کار در این حوزه های اضافی را داشته باشند.

برای کارشناسان یادگیری ماشین، ما افرادی را انتخاب می‌کنیم که نه تنها برای توسعه جدیدترین الگوریتم‌ها حضور دارند، بلکه می‌خواهند جدیدترین الگوریتم‌ها را بگیرند و آنها را در سؤالات زیست‌شناسی به کار ببرند.

زیست شناسی است کثیف. ما نه تنها همه روش‌ها را برای اندازه‌گیری آنالیت‌های مختلف نداریم، بلکه به طور مداوم در حال کشف مولکول‌های زیستی و ویژگی‌های جدید هستیم. همچنین عوامل مخدوش کننده و نویز زیادی وجود دارد که باید در نظر گرفته شود. این مشکلات عموماً پیچیده‌تر از مشکلات یادگیری ماشین استاندارد هستند، جایی که مشکل و فضای دانش به خوبی تعریف شده است. کارشناسان ML که می خواهند مهارت خود را در زیست شناسی به کار ببرند، باید فروتنی داشته باشند تا در مورد پیچیدگی موجود در زیست شناسی بیاموزند و مایل باشند با شرایط کمتر از بهینه و تفاوت در دسترس بودن داده ها کار کنند.

طرف دیگر استخدام زیست شناسانی است که به مشکلات خود در زمینه تولید داده های کمی در مقیاس بزرگتر فکر می کنند، مطالعات طراحی برای بهینه سازی نسبت سیگنال به نویز، و از هشدارهای مخدوش کننده ها و قابلیت تعمیم آگاه هستند. این چیزی بیش از این است که بتوانید به زبان رمز صحبت کنید و فکر کنید. بسیاری از زیست شناسان ما قبلاً کدنویسی می کنند و پیشینه آماری خوبی دارند و مایلند و می خواهند در این زمینه ها رشد کنند. در واقع، در Freenome، ما در واقع برنامه های آموزشی برای زیست شناسانی داریم که می خواهند درباره کدنویسی اطلاعات بیشتری کسب کنند تا بتوانند استدلال آماری خود را توسعه دهند.

آنچه حتی مهمتر است این است که طراحی مطالعه، و سؤالاتی که ما می توانیم بپرسیم، زمانی که در زمینه داده های بزرگ و ML طراحی می شوند، متفاوت به نظر می رسند.

نوع سوم چیست؟

سومین نوع از افراد برای استخدام سخت ترین آنها هستند. این پل‌ها هستند – افرادی که روان در هر دوی این حوزه‌ها کار کرده‌اند. مکان ها و آزمایشگاه های بسیار کمی در جهان وجود دارد که دقیقاً در این تقاطع قرار دارند. جذب افرادی که می توانند هر دو حوزه را ترجمه و پل بزنند بسیار بسیار مهم است. اما شما نمی‌خواهید یک شرکت فقط پل‌ساز بسازید، زیرا اغلب این افراد به دلیل کاری که انجام می‌دهند، در این یا آن منطقه متخصص نیستند. آنها اغلب در درک خود کلی تر هستند. با این حال، آنها کار مهمی را در کنار هم قرار دادن این دو زمینه فراهم می کنند.

بنابراین، داشتن هر سه گروه از افراد مهم است. اگر فقط یکی از متخصصان متخصص حوزه دارید، فقط در یک زمینه قوی خواهید بود. یا اگر پل سازان را ندارید، سیلوهایی از مردم دارید که نمی توانند با یکدیگر صحبت کنند. به طور مطلوب، تیم ها باید هر یک از این سه نوع از افراد را شامل شوند تا درک عمیقی از هر دو ML و زیست شناسی و همچنین ایجاد هم افزایی موثر در هر دو زمینه ایجاد کنند.

آیا تفاوت هایی در نحوه حمله متخصصان فناوری یا محاسبات به مشکلات در مقابل نحوه برخورد زیست شناسان با مشکلات می بینید؟

آره تا حدی، ما قطعاً افرادی را داریم که از پس زمینه های آماری و کمی می آیند و به صورت رمز و معادله صحبت می کنند. ما باید به آنها کمک کنیم تا آن معادلات را بگیرند و آن را به صورت واضح توضیح دهند تا مخاطب عام بتواند آن را درک کند.

زیست شناسان قدرت تخیل بالایی دارند زیرا با چیزهایی کار می کنند که نامرئی هستند. آنها از تصاویر زیادی در ارائه ها استفاده می کنند تا به تجسم آنچه از نظر مولکولی اتفاق می افتد کمک کنند، و شهود زیادی در مورد مکانیسم ها و پیچیدگی دارند. بسیاری از این تفکر کیفی تر است. این روشی متفاوت از تفکر و ارتباط را فراهم می کند.

بنابراین، نحوه ارتباط مردم بسیار بسیار متفاوت خواهد بود. نکته کلیدی این است - ما به نوعی به شوخی می گوییم - باید به گونه ای ارتباط برقرار کنیم که حتی مادربزرگ شما هم بتواند آن را درک کند.

نیاز به تسلط واقعی بر دانش شما دارد تا بتوانید آن را ساده کنید تا حتی یک تازه کار نیز بتواند آن را درک کند. من فکر می کنم در واقع آموزش عالی برای کسی است که یاد بگیرد مفاهیم بسیار سخت را خارج از میانبرهای معمولی، اصطلاحات تخصصی و زبان فنی برقرار کند.

چه چیزی الهام‌بخش دیدگاه خاص شما در مورد نحوه ازدواج با یادگیری ماشینی و زیست‌شناسی بوده است؟

بنابراین، مشکل جدید نیست، بلکه آخرین تکرار یک مشکل قدیمی است. زمانی که زمینه های زیست شناسی محاسباتی و بیوانفورماتیک ابتدا ایجاد شدند، همین مشکل وجود داشت. دانشمندان کامپیوتر، آماردانان، دانشمندان داده و یا حتی فیزیکدانان به حوزه زیست شناسی پیوستند و تفکر کمی خود را به این حوزه آوردند. در همان زمان، زیست‌شناسان باید مدل‌سازی را فراتر از تعیین ژن‌ها به‌عنوان تنظیم‌شده و پایین‌تنظیم‌شده شروع می‌کردند و شروع به نزدیک‌تر شدن به داده‌ها از نظر کمی می‌کردند. دیجیتالی کردن داده‌های بیولوژیکی اکنون به‌طور تصاعدی در مقیاس رشد کرده است. مشکل از نظر دامنه حادتر و گسترده تر است، اما چالش های اساسی یکسان باقی می مانند.

به نظر شما معیارهای موفقیت یا پرچم های قرمز که به شما می گوید آیا ازدواج مؤثر است یا خیر؟

اگر به شرکت‌هایی که سعی در ترکیب رشته‌ها دارند نگاه کنید، می‌توانید به سرعت متوجه شوید که چقدر در یک طرف یا طرف دیگر سرمایه‌گذاری می‌کنند. بنابراین، اگر شرکتی است که 90 درصد از مردم آن دانشمندان آزمایشگاهی هستند، و سپس آنها فقط یک یا دو دانشمند یادگیری ماشین را استخدام کرده اند و خود را یک شرکت ML می نامند، احتمالاً این یک فکر بعدی است.

آیا در کل این فرآیند ازدواج با زیست شناسی و یادگیری ماشینی، یک درس مهم وجود دارد؟

من فکر می کنم فروتنی فکری، به ویژه از جنبه فنی. برای مثال، با چیزی مانند حل برای جستجو، تمام اطلاعات در حال حاضر به صورت متنی هستند که به راحتی می توانید به آن دسترسی داشته باشید و می دانید به دنبال چه هستید. بنابراین، این یک مشکل قابل حل می شود، درست است؟ مشکل زیست شناسی این است که ما حتی نمی دانیم به دنبال چه مجموعه داده هایی هستیم، آیا حتی چراغ قوه مناسبی برای تابش در مناطق مناسب داریم یا خیر.

بنابراین، گاهی اوقات وقتی متخصصان فناوری وارد بیوگرافی می شوند، در دام ساده سازی بیش از حد می افتند. بیایید، به عنوان مثال، برای توالی نسل بعدی آنها ممکن است بگویند: «وای. ما می توانیم DNA را توالی یابی کنیم. چرا ما فقط تعداد زیادی DNA را توالی یابی نمی کنیم؟ این به یک مشکل داده تبدیل می شود و سپس ما زیست شناسی را حل می کنیم.

اما مشکل اینجاست که DNA یکی از ده ها آنالیت مختلف در بدن است. RNA، پروتئین وجود دارد،اصلاحات پس از ترجمهبخش های مختلف مانند وزیکول های خارج سلولی و تفاوت در زمان، مکان، نوع سلول و غیره. ما باید امکانات و همچنین محدودیت های هر روش داده ای که استفاده می کنیم را درک کنیم.

در حالی که ممکن است باورش سخت باشد، زیست شناسی هنوز یک رشته در ابتدای راه است. ما فقط ژنوم انسان را توالی یابی کرد کمی بیش از دو دهه پیش اغلب اوقات، ما نمی‌توانیم به سیگنال‌های بیولوژیکی منفرد دسترسی پیدا کنیم، بنابراین هنوز در حال انجام اندازه‌گیری‌هایی هستیم که یک کنگلومرا یا میانگین در بسیاری از سیگنال‌ها هستند. ما تازه شروع به اندازه گیری یک سلول در یک زمان می کنیم. هنوز کارهای زیادی برای انجام دادن وجود دارد و به همین دلیل است که زمان هیجان انگیزی برای رفتن به زیست شناسی است.

اما با آن دوران نوزادی، پتانسیل زیادی برای حل مشکلاتی به وجود می‌آید که تأثیرات زیادی بر سلامت و رفاه انسان خواهند داشت. زمان بسیار شگفت انگیزی است زیرا ما در حال باز کردن مرزهای جدید زیست شناسی هستیم.

چه نوع مرزهایی؟ آیا حوزه ای از زیست شناسی یا پزشکی وجود دارد که در آن بیشتر از دیدن محاسبات هیجان زده باشید؟

بله - همه چیز! ولی بذار فکر کنم در سرطان، من معتقدم که در نسل ما، درمان‌های جدید و تلاش‌های تشخیص زودهنگام که در حال انجام است، سرطان را به یک بیماری مزمن تبدیل می‌کند که دیگر چندان ترسناک نیست، مانند آنچه برای HIV انجام دادیم. و ما احتمالاً می‌توانیم از روش‌های بسیار مشابهی برای بررسی کلی‌تر تشخیص و پیشگیری از بیماری استفاده کنیم. نکته کلیدی که من در مورد آن هیجان زده هستم این است که می توانیم تشخیص دهیم که آیا بیماری از قبل وجود دارد یا خیر.

خارج از تشخیص سرطان، چیزی که واقعاً جالب است، گذار به ساختن با زیست شناسی به جای صرف خواندن و نوشتن است. من در مورد حوزه های زیست شناسی مصنوعی که در آن از زیست شناسی به عنوان یک فناوری استفاده می کنیم، هیجان زده هستم، چه CRISPR باشد یا پپتیدهای مصنوعی یا نوکلئوتیدهای مصنوعی. استفاده از زیست شناسی به عنوان یک ابزار، امکانات گسترده ای را برای تغییر کامل صنایع تولید کننده منابع سنتی، از کشاورزی به انرژی، ایجاد می کند. این واقعا زمان شگفت انگیزی برای زیست شناس شدن است!

ارسال شده در 5 اکتبر 2022

فناوری، نوآوری و آینده، همانطور که توسط کسانی که آن را می سازند گفته اند.

از ثبت نام شما سپاسگزاریم.

صندوق ورودی خود را برای یادداشت خوشامدگویی بررسی کنید.

تمبر زمان: اکتبر 5، 2022اکتبر 6، 2022

بیشتر از آندرسن هورویتز

"ماجراجویی آنجاست!": فرصت ها در AI x Travel

آندرسن هورویتز

گره منبع: 1830289

تمبر زمان: آوریل 28، 2023

سرمایه گذاری در Ready Player Me PlatoBlockchain Intelligence Data. جستجوی عمودی Ai.

سرمایه گذاری روی Ready Player Me

خوشه منبع:

آندرسن هورویتز

گره منبع: 1635450

تمبر زمان: اوت 23، 2022

چرا استفاده از یادگیری ماشینی در زیست شناسی سخت است - اما ارزش آن را دارد

بازنشر افلاطون

از ثبت نام شما سپاسگزاریم.

بیشتر از آندرسن هورویتز

LATW 2022: ساخت کارخانه های بهتر

سرمایه گذاری در بازی های آزرا

بزرگترین شرکت دنیا

Reshore and Restore: باز کردن قفل نوآوری آمریکایی برای قرن بیست و یکم

برایان کوینتز – رئیس جدید سیاست ارز دیجیتال a16z

ایجاد مشارکت با پروژه ها و جوامع NFT

کاری که اخیراً انجام داده ام

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب