جیمی لین یک CSO از Freenome، که در حال توسعه آزمایش های مبتنی بر خون برای تشخیص زودهنگام سرطان است که از سرطان روده بزرگ شروع می شود. او پیشگام در توسعه رویکردهای محاسباتی برای استخراج بینش از دادههای ژنومی در مقیاس بزرگ است، که رهبری تحلیلهای محاسباتی اولین مطالعات توالییابی ژنومی در انواع مختلف سرطان را بر عهده داشت.
لین با Future در مورد چالش های اجرای ماموریت شرکت برای ازدواج با رویکردهای یادگیری ماشین و داده های بیولوژیکی صحبت کرد. او توضیح می دهد که چه سه نوع از افراد را برای ایجاد یک شرکت فناورانه متوازن استخدام کنید، تله هایی که باید از آنها دوری کنید، نحوه تشخیص اینکه چه زمانی ازدواج دو رشته کار می کند یا نه، و تفاوت های ظریف انطباق مطالعات بیولوژیکی و یادگیری ماشینی را توضیح می دهد. به یکدیگر.
آینده: مانند بسیاری از رشته ها، هیجان زیادی در مورد پتانسیل استفاده از یادگیری ماشین در زیست وجود دارد. اما پیشرفت سخت تر به نظر می رسید. آیا در مقایسه با انواع دادههایی که معمولاً برای یادگیری ماشین استفاده میشوند، چیز متفاوتی در مورد دادههای زیست مولکولی وجود دارد؟
JIMMY LIN: داده های یادگیری ماشین سنتی بسیار گسترده و کم عمق هستند. نوع مشکلاتی که یادگیری ماشین اغلب آنها را حل می کند همان چیزی است که انسان می تواند در یک نانوثانیه حل کند، مانند تشخیص تصویر. برای آموزش تشخیص تصویر یک گربه به رایانه، باید میلیاردها میلیارد تصویر برای آموزش داشته باشید، اما هر تصویر از نظر محتوای داده نسبتاً محدود است. داده های بیولوژیکی معمولاً برعکس هستند. ما میلیاردها نفر نداریم. ما خوش شانس هستیم که هزاران نفر به دست می آوریم. اما برای هر فرد، ما میلیاردها و میلیاردها نقطه داده داریم. ما تعداد کمتری از داده های بسیار عمیق داریم.
در عین حال، سوالات بیولوژیکی کمتر مشکلاتی هستند که انسان می تواند حل کند. ما کارهایی را انجام می دهیم که حتی کارشناسان جهانی در این زمینه قادر به انجام آن نیستند. بنابراین، ماهیت مشکلات بسیار متفاوت است، بنابراین لازم است تفکر جدید در مورد نحوه برخورد ما با این موضوع
آیا رویکردها باید از ابتدا برای داده های زیست مولکولی ساخته شوند یا می توانید روش های موجود را تطبیق دهید؟
راههایی وجود دارد که میتوانید این اطلاعات عمیق را دریافت کرده و آنها را برجسته کنید تا بتوانید از ابزارهای موجود، چه یادگیری آماری و چه روشهای یادگیری عمیق استفاده کنید. این یک کپی پیست مستقیم نیست، اما راههای زیادی وجود دارد که میتوانید بسیاری از روشهای یادگیری ماشین را منتقل کنید و آنها را برای مشکلات بیولوژیکی اعمال کنید، حتی اگر نقشه مستقیم یک به یک نباشد.
با بررسی بیشتر موضوع دادهها، با دادههای بیولوژیکی تنوع زیادی وجود دارد – نویز بیولوژیکی وجود دارد، نویز تجربی وجود دارد. بهترین راه برای نزدیک شدن به تولید داده های زیست پزشکی آماده برای یادگیری ماشین چیست؟
این یک سوال عالی است. از همان ابتدا، Freenome نحوه تولید بهترین داده های مناسب برای یادگیری ماشین را در نظر گرفته است. در طول کل فرآیند از طراحی مطالعه، جمعآوری نمونه، تا اجرای سنجشها، تا تجزیه و تحلیل دادهها، باید در هر مرحله مراقب باشید تا بتوانید برای یادگیری ماشینی بهینهسازی کنید، به خصوص زمانی که ویژگیهای بسیار بیشتری نسبت به نمونهها دارید. این مشکل کلاسیک big-p small-n است.
اول از همه، ما مطالعه خود را طوری طراحی کرده ایم که عوامل مخدوش کننده را به حداقل برسانیم. بسیاری از شرکتها به مجموعه دادههای تاریخی تکیه کردهاند و تلاش زیادی برای به حداقل رساندن اثرات همگروهی و حذف عوامل مخدوشکننده انجام دادهاند. اما آیا واقعا این بهترین راه برای انجام آن است؟ خوب، نه، بهترین راه برای انجام آن یک مطالعه آینده نگر است که در آن عوامل مخدوش کننده را از قبل کنترل کنید. به همین دلیل است که، حتی در تلاشهای اکتشافی خود، تصمیم گرفتیم یک کارآزمایی آیندهنگر چند سایتی بزرگ انجام دهیم که دادههای استاندارد طلایی را از قبل جمعآوری میکند. آزمایشی AI-EMERGE.
خوشبختانه ما سرمایه گذارانی داریم که به اندازه کافی به ما اعتقاد داشتند تا به ما اجازه دهند این داده ها را تولید کنیم. این در واقع ریسک بزرگی بود زیرا این مطالعات بسیار گران هستند.
سپس هنگامی که داده ها را دریافت کردید، با آنها چه می کنید؟
خوب، شما باید همه سایت ها را به شیوه ای ثابت آموزش دهید و عوامل مخدوش کننده را از تمام سایت های مختلف کنترل کنید تا بیماران تا حد امکان شبیه به هم به نظر برسند. و پس از اجرای نمونهها، باید به این فکر کنید که چگونه اثرات دستهای را به حداقل برسانید، مثلاً با قرار دادن ترکیب مناسب نمونهها روی ماشینهای مختلف با نسبتهای مناسب.
وقتی این کار را انجام می دهید، بسیار سخت است مولتیومیک زیرا ماشینهایی که یک دسته از مولکولهای زیستی را تجزیه و تحلیل میکنند ممکن است صدها نمونه را در یک اجرا بگیرند، در حالی که ماشینهایی که دسته دیگری از مولکولهای زیستی را تجزیه و تحلیل میکنند ممکن است فقط تعداد کمی از آنها را مورد بررسی قرار دهند. علاوه بر این، شما می خواهید خطای انسانی را حذف کنید. بنابراین، ما اتوماسیون را تقریباً از قبل در مرحله تولید داده های آموزشی معرفی کردیم.
همچنین، هنگامی که شما میلیاردها نقطه داده به ازای هر نفر دارید، بهطور بالقوه اضافه کردن آن بسیار آسان میشود. بنابراین ما مطمئن می شویم که آموزش ما با اصلاحات آماری صحیح و مجموعه های آموزشی و آزمایشی متوالی قابل تعمیم به جمعیت هایی است که در نهایت می خواهیم آن را اعمال کنیم.
ترکیب یادگیری ماشین با دادههای زیست مولکولی، کاری است که بسیاری از شرکتهای بیوتکنولوژی در تلاش برای انجام آن هستند، اما اغلب اوقات ابهامات زیادی در مورد نحوه انجام این کار وجود دارد. به نظر شما یکی از ویژگی های اساسی ادغام موثر آنها چیست؟
At Freenome ما در حال ادغام یادگیری ماشین و مولتیومیک هستیم. برای انجام این کار، باید هر دو را به خوبی انجام دهید. نکته کلیدی در اینجا این است که شما باید در هر دوی آنها تخصص قوی داشته باشید و سپس بتوانید به زبان هر دو صحبت کنید. شما باید دو زبانه باشید.
شرکتهای زیادی وجود دارند که در یکی از آنها خبره هستند و سپس لایهای از دیگری را میپاشند. به عنوان مثال، شرکتهای فناوری وجود دارند که تصمیم میگیرند که میخواهند وارد بیو شوند، اما تنها کاری که انجام میدهند این است که تعداد انگشت شماری از دانشمندان آزمایشگاه مرطوب را استخدام میکنند. از سوی دیگر، شرکتهای زیستشناسی هستند که تعدادی دانشمندان یادگیری ماشینی را استخدام میکنند، سپس آنها اعلام میکنند که اکنون یک شرکت AI/ML هستند.
چیزی که واقعاً به آن نیاز دارید، استحکام نیمکت عمیق در هر دو است. شما به درک بیولوژیکی عمیقی از سیستم، سنجشهای مختلف، ویژگیهای فضای دانش نیاز دارید. اما شما همچنین باید درک عمیقی از یادگیری ماشینی، علم داده، روشهای محاسباتی و یادگیری آماری داشته باشید و پلتفرمهایی برای اعمال آن داشته باشید.
این واقعاً چالش برانگیز است زیرا این دو منطقه اغلب بسیار سیلو هستند. وقتی به افرادی که برای شرکت استخدام می کنید فکر می کنید، چگونه می توانید پل هایی را بین این دو حوزه مختلف ایجاد کنید؟
من فکر می کنم سه نوع از افراد وجود دارد که شما می خواهید برای ایجاد پل بین فناوری و بیو استخدام کنید. دو مورد اول استانداردهای شما هستند، متخصصان حوزه در یادگیری ماشین یا زیست شناسی. اما آنها همچنین باید باز باشند و مایل به یادگیری در مورد دامنه دیگر باشند، یا حتی بهتر از آن، تجربه و تجربه کار در این حوزه های اضافی را داشته باشند.
برای کارشناسان یادگیری ماشین، ما افرادی را انتخاب میکنیم که نه تنها برای توسعه جدیدترین الگوریتمها حضور دارند، بلکه میخواهند جدیدترین الگوریتمها را بگیرند و آنها را در سؤالات زیستشناسی به کار ببرند.
زیست شناسی است کثیف. ما نه تنها همه روشها را برای اندازهگیری آنالیتهای مختلف نداریم، بلکه به طور مداوم در حال کشف مولکولهای زیستی و ویژگیهای جدید هستیم. همچنین عوامل مخدوش کننده و نویز زیادی وجود دارد که باید در نظر گرفته شود. این مشکلات عموماً پیچیدهتر از مشکلات یادگیری ماشین استاندارد هستند، جایی که مشکل و فضای دانش به خوبی تعریف شده است. کارشناسان ML که می خواهند مهارت خود را در زیست شناسی به کار ببرند، باید فروتنی داشته باشند تا در مورد پیچیدگی موجود در زیست شناسی بیاموزند و مایل باشند با شرایط کمتر از بهینه و تفاوت در دسترس بودن داده ها کار کنند.
طرف دیگر استخدام زیست شناسانی است که به مشکلات خود در زمینه تولید داده های کمی در مقیاس بزرگتر فکر می کنند، مطالعات طراحی برای بهینه سازی نسبت سیگنال به نویز، و از هشدارهای مخدوش کننده ها و قابلیت تعمیم آگاه هستند. این چیزی بیش از این است که بتوانید به زبان رمز صحبت کنید و فکر کنید. بسیاری از زیست شناسان ما قبلاً کدنویسی می کنند و پیشینه آماری خوبی دارند و مایلند و می خواهند در این زمینه ها رشد کنند. در واقع، در Freenome، ما در واقع برنامه های آموزشی برای زیست شناسانی داریم که می خواهند درباره کدنویسی اطلاعات بیشتری کسب کنند تا بتوانند استدلال آماری خود را توسعه دهند.
آنچه حتی مهمتر است این است که طراحی مطالعه، و سؤالاتی که ما می توانیم بپرسیم، زمانی که در زمینه داده های بزرگ و ML طراحی می شوند، متفاوت به نظر می رسند.
نوع سوم چیست؟
سومین نوع از افراد برای استخدام سخت ترین آنها هستند. این پلها هستند – افرادی که روان در هر دوی این حوزهها کار کردهاند. مکان ها و آزمایشگاه های بسیار کمی در جهان وجود دارد که دقیقاً در این تقاطع قرار دارند. جذب افرادی که می توانند هر دو حوزه را ترجمه و پل بزنند بسیار بسیار مهم است. اما شما نمیخواهید یک شرکت فقط پلساز بسازید، زیرا اغلب این افراد به دلیل کاری که انجام میدهند، در این یا آن منطقه متخصص نیستند. آنها اغلب در درک خود کلی تر هستند. با این حال، آنها کار مهمی را در کنار هم قرار دادن این دو زمینه فراهم می کنند.
بنابراین، داشتن هر سه گروه از افراد مهم است. اگر فقط یکی از متخصصان متخصص حوزه دارید، فقط در یک زمینه قوی خواهید بود. یا اگر پل سازان را ندارید، سیلوهایی از مردم دارید که نمی توانند با یکدیگر صحبت کنند. به طور مطلوب، تیم ها باید هر یک از این سه نوع از افراد را شامل شوند تا درک عمیقی از هر دو ML و زیست شناسی و همچنین ایجاد هم افزایی موثر در هر دو زمینه ایجاد کنند.
آیا تفاوت هایی در نحوه حمله متخصصان فناوری یا محاسبات به مشکلات در مقابل نحوه برخورد زیست شناسان با مشکلات می بینید؟
آره تا حدی، ما قطعاً افرادی را داریم که از پس زمینه های آماری و کمی می آیند و به صورت رمز و معادله صحبت می کنند. ما باید به آنها کمک کنیم تا آن معادلات را بگیرند و آن را به صورت واضح توضیح دهند تا مخاطب عام بتواند آن را درک کند.
زیست شناسان قدرت تخیل بالایی دارند زیرا با چیزهایی کار می کنند که نامرئی هستند. آنها از تصاویر زیادی در ارائه ها استفاده می کنند تا به تجسم آنچه از نظر مولکولی اتفاق می افتد کمک کنند، و شهود زیادی در مورد مکانیسم ها و پیچیدگی دارند. بسیاری از این تفکر کیفی تر است. این روشی متفاوت از تفکر و ارتباط را فراهم می کند.
بنابراین، نحوه ارتباط مردم بسیار بسیار متفاوت خواهد بود. نکته کلیدی این است - ما به نوعی به شوخی می گوییم - باید به گونه ای ارتباط برقرار کنیم که حتی مادربزرگ شما هم بتواند آن را درک کند.
نیاز به تسلط واقعی بر دانش شما دارد تا بتوانید آن را ساده کنید تا حتی یک تازه کار نیز بتواند آن را درک کند. من فکر می کنم در واقع آموزش عالی برای کسی است که یاد بگیرد مفاهیم بسیار سخت را خارج از میانبرهای معمولی، اصطلاحات تخصصی و زبان فنی برقرار کند.
چه چیزی الهامبخش دیدگاه خاص شما در مورد نحوه ازدواج با یادگیری ماشینی و زیستشناسی بوده است؟
بنابراین، مشکل جدید نیست، بلکه آخرین تکرار یک مشکل قدیمی است. زمانی که زمینه های زیست شناسی محاسباتی و بیوانفورماتیک ابتدا ایجاد شدند، همین مشکل وجود داشت. دانشمندان کامپیوتر، آماردانان، دانشمندان داده و یا حتی فیزیکدانان به حوزه زیست شناسی پیوستند و تفکر کمی خود را به این حوزه آوردند. در همان زمان، زیستشناسان باید مدلسازی را فراتر از تعیین ژنها بهعنوان تنظیمشده و پایینتنظیمشده شروع میکردند و شروع به نزدیکتر شدن به دادهها از نظر کمی میکردند. دیجیتالی کردن دادههای بیولوژیکی اکنون بهطور تصاعدی در مقیاس رشد کرده است. مشکل از نظر دامنه حادتر و گسترده تر است، اما چالش های اساسی یکسان باقی می مانند.
به نظر شما معیارهای موفقیت یا پرچم های قرمز که به شما می گوید آیا ازدواج مؤثر است یا خیر؟
اگر به شرکتهایی که سعی در ترکیب رشتهها دارند نگاه کنید، میتوانید به سرعت متوجه شوید که چقدر در یک طرف یا طرف دیگر سرمایهگذاری میکنند. بنابراین، اگر شرکتی است که 90 درصد از مردم آن دانشمندان آزمایشگاهی هستند، و سپس آنها فقط یک یا دو دانشمند یادگیری ماشین را استخدام کرده اند و خود را یک شرکت ML می نامند، احتمالاً این یک فکر بعدی است.
آیا در کل این فرآیند ازدواج با زیست شناسی و یادگیری ماشینی، یک درس مهم وجود دارد؟
من فکر می کنم فروتنی فکری، به ویژه از جنبه فنی. برای مثال، با چیزی مانند حل برای جستجو، تمام اطلاعات در حال حاضر به صورت متنی هستند که به راحتی می توانید به آن دسترسی داشته باشید و می دانید به دنبال چه هستید. بنابراین، این یک مشکل قابل حل می شود، درست است؟ مشکل زیست شناسی این است که ما حتی نمی دانیم به دنبال چه مجموعه داده هایی هستیم، آیا حتی چراغ قوه مناسبی برای تابش در مناطق مناسب داریم یا خیر.
بنابراین، گاهی اوقات وقتی متخصصان فناوری وارد بیوگرافی می شوند، در دام ساده سازی بیش از حد می افتند. بیایید، به عنوان مثال، برای توالی نسل بعدی آنها ممکن است بگویند: «وای. ما می توانیم DNA را توالی یابی کنیم. چرا ما فقط تعداد زیادی DNA را توالی یابی نمی کنیم؟ این به یک مشکل داده تبدیل می شود و سپس ما زیست شناسی را حل می کنیم.
اما مشکل اینجاست که DNA یکی از ده ها آنالیت مختلف در بدن است. RNA، پروتئین وجود دارد،اصلاحات پس از ترجمهبخش های مختلف مانند وزیکول های خارج سلولی و تفاوت در زمان، مکان، نوع سلول و غیره. ما باید امکانات و همچنین محدودیت های هر روش داده ای که استفاده می کنیم را درک کنیم.
در حالی که ممکن است باورش سخت باشد، زیست شناسی هنوز یک رشته در ابتدای راه است. ما فقط ژنوم انسان را توالی یابی کرد کمی بیش از دو دهه پیش اغلب اوقات، ما نمیتوانیم به سیگنالهای بیولوژیکی منفرد دسترسی پیدا کنیم، بنابراین هنوز در حال انجام اندازهگیریهایی هستیم که یک کنگلومرا یا میانگین در بسیاری از سیگنالها هستند. ما تازه شروع به اندازه گیری یک سلول در یک زمان می کنیم. هنوز کارهای زیادی برای انجام دادن وجود دارد و به همین دلیل است که زمان هیجان انگیزی برای رفتن به زیست شناسی است.
اما با آن دوران نوزادی، پتانسیل زیادی برای حل مشکلاتی به وجود میآید که تأثیرات زیادی بر سلامت و رفاه انسان خواهند داشت. زمان بسیار شگفت انگیزی است زیرا ما در حال باز کردن مرزهای جدید زیست شناسی هستیم.
چه نوع مرزهایی؟ آیا حوزه ای از زیست شناسی یا پزشکی وجود دارد که در آن بیشتر از دیدن محاسبات هیجان زده باشید؟
بله - همه چیز! ولی بذار فکر کنم در سرطان، من معتقدم که در نسل ما، درمانهای جدید و تلاشهای تشخیص زودهنگام که در حال انجام است، سرطان را به یک بیماری مزمن تبدیل میکند که دیگر چندان ترسناک نیست، مانند آنچه برای HIV انجام دادیم. و ما احتمالاً میتوانیم از روشهای بسیار مشابهی برای بررسی کلیتر تشخیص و پیشگیری از بیماری استفاده کنیم. نکته کلیدی که من در مورد آن هیجان زده هستم این است که می توانیم تشخیص دهیم که آیا بیماری از قبل وجود دارد یا خیر.
خارج از تشخیص سرطان، چیزی که واقعاً جالب است، گذار به ساختن با زیست شناسی به جای صرف خواندن و نوشتن است. من در مورد حوزه های زیست شناسی مصنوعی که در آن از زیست شناسی به عنوان یک فناوری استفاده می کنیم، هیجان زده هستم، چه CRISPR باشد یا پپتیدهای مصنوعی یا نوکلئوتیدهای مصنوعی. استفاده از زیست شناسی به عنوان یک ابزار، امکانات گسترده ای را برای تغییر کامل صنایع تولید کننده منابع سنتی، از کشاورزی به انرژی، ایجاد می کند. این واقعا زمان شگفت انگیزی برای زیست شناس شدن است!
ارسال شده در 5 اکتبر 2022
فناوری، نوآوری و آینده، همانطور که توسط کسانی که آن را می سازند گفته اند.
- آندرسن هورویتز
- اطلاعات زیستی و علمی
- بیت کوین
- بلاکچین
- انطباق با بلاک چین
- کنفرانس بلاکچین
- coinbase
- coingenius
- اجماع
- کنفرانس رمزنگاری
- معدنکاری رمز گشایی
- کریپتو کارنسی (رمز ارزها )
- غیر متمرکز
- DEFI
- دارایی های دیجیتال
- ethereum
- فراگیری ماشین
- رمز غیر قابل شستشو
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- پلاتوبلاک چین
- PlatoData
- بازی پلاتو
- چند ضلعی
- اثبات سهام
- W3
- زفیرنت