لماذا يعد تطبيق التعلم الآلي على علم الأحياء أمرًا صعبًا - ولكنه يستحق ذلك ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.

لماذا يعد تطبيق التعلم الآلي على علم الأحياء أمرًا صعبًا - ولكنه يستحق ذلك

جيمي لين هو CSO من Freenom، والتي تعمل على تطوير الاختبارات القائمة على الدم للكشف المبكر عن السرطان ، بدءًا من سرطان القولون. إنه رائد في تطوير الأساليب الحسابية لاستخراج الأفكار من البيانات الجينومية واسعة النطاق ، حيث قاد التحليلات الحسابية لأول دراسات التسلسل على نطاق الجينوم في أنواع السرطان المتعددة. 

تحدث لين إلى Future عن تحديات التنفيذ في مهمة الشركة للمزج بين مناهج التعلم الآلي والبيانات البيولوجية. يشرح الأنواع الثلاثة من الأشخاص الذين تحتاج إلى توظيفهم لبناء شركة تكنولوجيا متوازنة ، والفخاخ التي يجب تجنبها ، وكيفية معرفة متى ينجح أو لا يعمل الزواج بين مجالين ، والفروق الدقيقة في تكييف الدراسات البيولوجية والتعلم الآلي لبعضهم البعض.


المستقبل: مثل العديد من التخصصات ، هناك الكثير من الإثارة حول إمكانية تطبيق التعلم الآلي على السيرة الذاتية. لكن يبدو أن إحراز التقدم كان صعب المنال. هل هناك شيء مختلف بشأن البيانات الجزيئية الحيوية مقارنة بأنواع البيانات التي تُستخدم عادةً مع التعلم الآلي؟

JIMMY LIN: بيانات التعلم الآلي التقليدية واسعة جدًا وغير عميقة. غالبًا ما يحل التعلم الآلي نوع المشكلات التي يمكن للبشر حلها في نانوثانية ، مثل التعرف على الصور. لتعليم الكمبيوتر التعرف على صورة قطة ، سيكون لديك مليارات ومليارات من الصور للتدريب عليها ، ولكن كل صورة محدودة نسبيًا في محتوى البيانات الخاص بها. عادة ما تكون البيانات البيولوجية عكس ذلك. ليس لدينا بلايين من الأفراد. نحن محظوظون بالحصول على الآلاف. لكن لكل فرد ، لدينا مليارات ومليارات من نقاط البيانات. لدينا أعداد أقل من البيانات العميقة للغاية.

في الوقت نفسه ، فإن الأسئلة البيولوجية هي في كثير من الأحيان أقل المشاكل التي يمكن للبشر حلها. نحن نقوم بأشياء لا يستطيع حتى خبراء العالم القيام بها. لذا ، فإن طبيعة المشاكل مختلفة جدًا ، لذا فهي تتطلب تفكير جديد حول كيفية تعاملنا مع هذا.

هل تحتاج الأساليب إلى أن تُبنى من البداية للبيانات الجزيئية الحيوية ، أم يمكنك تكييف الأساليب الحالية؟

هناك طرق يمكنك من خلالها أخذ هذه المعلومات العميقة وتمييزها بحيث يمكنك الاستفادة من الأدوات الحالية ، سواء كانت تعلم إحصائيًا أو طرق تعلم عميق. إنها ليست لصق نسخ مباشر ، ولكن هناك الكثير من الطرق التي يمكنك من خلالها نقل العديد من طرق التعلم الآلي وتطبيقها على المشكلات البيولوجية حتى لو لم تكن خريطة مباشرة.

البحث في مشكلة البيانات أكثر ، مع البيانات البيولوجية هناك الكثير من التباين - هناك ضوضاء بيولوجية ، هناك ضوضاء تجريبية. ما هي أفضل طريقة للتعامل مع إنشاء بيانات طبية حيوية جاهزة للتعلم الآلي؟ 

هذا سؤال رائع. منذ البداية ، أخذت Freenome في الاعتبار كيفية إنشاء أفضل البيانات المناسبة للتعلم الآلي. طوال العملية بأكملها بدءًا من تصميم الدراسة ، إلى جمع العينات ، إلى تشغيل الاختبارات ، إلى تحليل البيانات ، يجب أن تكون هناك رعاية في كل خطوة لتكون قادرًا على تحسين التعلم الآلي ، خاصةً عندما يكون لديك العديد من الميزات أكثر من العينات. إنها مشكلة big-p little-n الكلاسيكية.

أولاً وقبل كل شيء ، قمنا بتصميم دراستنا لتقليل الإرباك. اعتمدت الكثير من الشركات على مجموعات البيانات التاريخية وقامت بالكثير من العمل لمحاولة تقليل التأثيرات الجماعية وإزالة الإرباك. لكن هل هذه حقا أفضل طريقة للقيام بذلك؟ حسنًا ، لا ، أفضل طريقة للقيام بذلك هي الدراسة المستقبلية حيث يمكنك التحكم في الأمور المربكة مقدمًا. لهذا السبب ، حتى في جهود الاكتشاف التي نبذلها ، قررنا إجراء تجربة مستقبلية كبيرة متعددة المواقع تجمع بيانات المعيار الذهبي مقدمًا ، كما هو الحال في تجربة AI-EMERGE.

لحسن الحظ ، لدينا مستثمرون آمنوا بنا بما يكفي للسماح لنا بتوليد هذه البيانات. كان هذا في الواقع مخاطرة كبيرة لأن هذه الدراسات باهظة الثمن. 

ثم بمجرد حصولك على البيانات ، ماذا تفعل بها؟

حسنًا ، أنت بحاجة إلى تدريب جميع المواقع بطريقة متسقة ، والتحكم في عوامل الإرباك من جميع المواقع المختلفة بحيث يبدو المرضى متشابهين قدر الإمكان. وبعد ذلك بمجرد تشغيل العينات ، تحتاج إلى التفكير في كيفية تقليل تأثيرات الدُفعات ، مثل وضع المزيج الصحيح من العينات على أجهزة مختلفة بالنسب الصحيحة.

هذا صعب للغاية عندما تفعل متعدد الوسائط لأن الآلات التي تحلل فئة واحدة من الجزيئات الحيوية قد تأخذ مئات العينات في وقت واحد ، في حين أن الآلات التي تحلل فئة أخرى من الجزيئات الحيوية قد تستغرق القليل منها فقط. علاوة على ذلك ، تريد إزالة الخطأ البشري. لذلك ، قدمنا ​​الأتمتة مقدمًا إلى حد كبير ، في مرحلة إنشاء بيانات التدريب فقط.

أيضًا ، عندما يكون لديك بلايين من نقاط البيانات لكل شخص ، يصبح من السهل جدًا جدًا أن تكون أكثر من اللازم. لذلك نتأكد من أن تدريبنا قابل للتعميم على السكان الذين نريد في النهاية تطبيقه عليهم ، مع التصحيحات الإحصائية الصحيحة والعديد من مجموعات التدريب والاختبار المتتالية.

إن الجمع بين التعلم الآلي والبيانات الجزيئية الحيوية أمر تحاول الكثير من شركات التكنولوجيا الحيوية القيام به ، ولكن في كثير من الأحيان هناك الكثير من الغموض حول كيفية القيام بذلك. ما الذي تعتبره سمة أساسية لدمجهم بشكل فعال؟

At Freenom نحن نمزج بين التعلم الآلي والوسائط المتعددة. من أجل القيام بذلك ، عليك أن تقوم بالأمرين بشكل جيد. المفتاح هنا هو أنك بحاجة إلى خبرة قوية في كليهما ، ومن ثم أن تكون قادرًا على التحدث بلغة كليهما. يجب أن تكون ثنائي اللغة. 

هناك الكثير من الشركات التي هي خبراء في واحدة ثم يرشون في طبقة أخرى. على سبيل المثال ، هناك شركات تقنية قررت أنها تريد القفز إلى السيرة الذاتية ، لكن كل ما تفعله هو توظيف حفنة من علماء المختبرات الرطبة. من ناحية أخرى ، هناك شركات بيولوجية توظف بعض علماء التعلم الآلي ، ثم يعلنون أنهم شركة AI / ML الآن. 

ما تحتاجه حقًا هو قوة مقاعد البدلاء العميقة في كليهما. أنت بحاجة إلى فهم بيولوجي عميق للنظام ، للمقايسات المختلفة ، لخصائص فضاء المعرفة. لكنك تحتاج أيضًا إلى فهم عميق للتعلم الآلي وعلوم البيانات والأساليب الحسابية والتعلم الإحصائي ، وأن يكون لديك الأنظمة الأساسية لتطبيق ذلك. 

هذا أمر صعب حقًا لأن هذين المجالين غالبًا ما يكونان منفصلين للغاية. عندما تفكر في الأشخاص الذين توظفهم للشركة ، كيف يمكنك إنشاء جسور بين هذين المجالين المختلفين؟

أعتقد أن هناك نوعًا من ثلاثة أنواع من الأشخاص تريد توظيفهم للربط بين التكنولوجيا والسيرة الذاتية. الأولين هما المعياران الخاصان بك ، خبراء المجال في التعلم الآلي أو علم الأحياء. لكنهم بحاجة أيضًا إلى أن يكونوا منفتحين وراغبين في التعرف على المجال الآخر ، أو حتى أفضل من ذلك ، لديهم خبرة في العمل في هذه المجالات الإضافية.

بالنسبة لخبراء التعلم الآلي ، نختار الأشخاص الذين ليسوا موجودين فقط لتطوير أحدث الخوارزمية ، ولكنهم يرغبون في استخدام أحدث الخوارزميات وتطبيقها على الأسئلة البيولوجية. 

علم الأحياء فوضوي. ليس فقط ليس لدينا جميع الطرق لقياس التحليلات المختلفة ، ولكننا نكتشف جزيئات حيوية وميزات جديدة باستمرار. هناك أيضًا الكثير من العوامل المربكة والضوضاء التي يجب على المرء أن يأخذها في الاعتبار. تعد هذه المشكلات بشكل عام أكثر تعقيدًا من مشكلات التعلم الآلي القياسية ، حيث يتم تحديد المشكلة ومساحة المعرفة بشكل أفضل. يحتاج خبراء ML الذين يرغبون في تطبيق حرفتهم في علم الأحياء إلى التواضع للتعرف على التعقيد الموجود في علم الأحياء وأن يكونوا مستعدين للعمل في ظروف أقل من مثالية والاختلافات في توافر البيانات.

الجانب الآخر هو توظيف علماء الأحياء الذين يفكرون في مشاكلهم من حيث توليد البيانات الكمية على نطاق واسع ، ودراسات التصميم لتحسين نسب الإشارة إلى الضوضاء ، وهم على دراية بمحاذير الإرباك والتعميم. إنه أكثر من مجرد القدرة على التحدث والتفكير بلغة الكود. العديد من علماء الأحياء لدينا بالفعل شفرة ولديهم خلفية إحصائية جيدة ، وهم على استعداد وراغبين في النمو في هذه المجالات. في الواقع ، في Freenome ، لدينا بالفعل برامج تدريبية لعلماء الأحياء الذين يرغبون في معرفة المزيد عن الترميز ليتمكنوا من تطوير تفكيرهم الإحصائي.

والأهم من ذلك أن تصميم الدراسة والأسئلة التي يمكننا طرحها تبدو مختلفة عند تصميمها في سياق البيانات الضخمة وتعلم الآلة.

ما هو النوع الثالث؟

النوع الثالث من الأشخاص الذين يتم تعيينهم هو الأصعب. هؤلاء هم الجسور - الأشخاص الذين عملوا بطلاقة في كلا المجالين. يوجد عدد قليل جدًا من الأماكن والمعامل في العالم التي تقع عند هذا التقاطع. إن الحصول على الأشخاص الذين يمكنهم الترجمة والربط بين المنطقتين أمر بالغ الأهمية. لكنك لا ترغب في بناء شركة من الجسور فقط لأن هؤلاء الأشخاص في كثير من الأحيان ليسوا خبراء في مجال أو آخر ، بسبب ما يفعلونه. غالبًا ما يكونون أكثر عمومية في فهمهم. ومع ذلك ، فإنها توفر العمل الحاسم المتمثل في الجمع بين الحقلين.

لذا ، فإن وجود كل المجموعات الثلاث من الأشخاص أمر مهم. إذا كان لديك اختصاصي واحد فقط من المتخصصين في المجال ، فستكون قويًا في مجال واحد فقط. أو ، إذا لم يكن لديك بناة الجسور ، فلديك صوامع من الأشخاص الذين لن يتمكنوا من التحدث مع بعضهم البعض. على النحو الأمثل ، يجب أن تضم الفرق كل نوع من هذه الأنواع الثلاثة من الأشخاص للسماح بفهم عميق لكل من ML وعلم الأحياء بالإضافة إلى توفير تآزر فعال بين هذين المجالين.

هل ترى اختلافات في كيفية هجوم المتخصصين في التكنولوجيا أو المشكلات الحسابية مقابل كيفية تعامل علماء الأحياء مع المشكلات؟ 

نعم. إلى جانب واحد ، لدينا بالتأكيد أشخاص ينتمون إلى خلفية إحصائية وكمية ويتحدثون في الكود والمعادلات. نحتاج إلى مساعدتهم على أخذ هذه المعادلات وشرحها بطريقة واضحة حتى يتمكن الجمهور العام من فهمها. 

يتمتع علماء الأحياء بخيال عظيم لأنهم يتعاملون مع أشياء غير مرئية. يستخدمون الكثير من الرسوم التوضيحية في العروض التقديمية للمساعدة في تصور ما يحدث جزيئيًا ، ولديهم حدس كبير حول الآليات والتعقيد. الكثير من هذا التفكير نوعي أكثر. هذا يوفر طريقة مختلفة في التفكير والتواصل.

لذا ، فإن طريقة تواصل الناس ستكون مختلفة جدًا جدًا. المفتاح هو - نقول مازحا نوعا ما - نحن بحاجة للتواصل بطريقة يمكن حتى لجدتك أن تفهمها. 

يتطلب إتقانًا حقيقيًا لمعرفتك لتكون قادرًا على تبسيطها حتى يتمكن حتى المبتدئ من فهمها. أعتقد أنه تدريب رائع حقًا لشخص ما أن يتعلم توصيل المفاهيم الصعبة للغاية خارج الاختصارات العادية والمصطلحات واللغة الفنية.

ما الذي ألهم وجهة نظرك الخاصة حول كيفية الجمع بين التعلم الآلي وعلم الأحياء؟

لذا ، فإن المشكلة ليست جديدة ، بل هي أحدث تكرار لمشكلة قديمة. عندما تكون حقول البيولوجيا الحاسوبية والمعلوماتية الحيوية تم إنشاؤها لأول مرة، نفس المشكلة موجودة. انضم علماء الكمبيوتر والإحصائيون وعلماء البيانات وحتى الفيزيائيون إلى مجال علم الأحياء وجلبوا تفكيرهم الكمي إلى هذا المجال. في الوقت نفسه ، كان على علماء الأحياء البدء في نمذجة تتجاوز توصيف الجينات على أنها منظمة ومنخفضة التنظيم ، والبدء في التعامل مع البيانات بشكل أكثر كميًا. المشكلة أكثر حدة واتساع نطاقها ، لكن التحديات الأساسية لا تزال كما هي.

ما الذي تراه على أنه مقاييس النجاح أو العلامات الحمراء التي تخبرك ما إذا كان الزواج ناجحًا أم لا؟

إذا نظرت إلى الشركات التي تحاول دمج الحقول ، يمكنك أن ترى بسرعة كبيرة مقدار استثماراتها في جانب أو آخر. لذا ، إذا كانت شركة حيث 90٪ من الناس هم علماء مختبرات ، ثم قاموا بتوظيف واحد أو اثنين من علماء التعلم الآلي ويطلقون على أنفسهم اسم شركة ML ، فمن المحتمل أن يكون هذا أكثر من مجرد فكرة لاحقة.

هل هناك درس واحد تعلمته في المنزل أثناء عملية الجمع بين علم الأحياء والتعلم الآلي؟

أعتقد أن التواضع الفكري يأتي خاصة من الجانب التكنولوجي. بشيء مثل حل البحث ، على سبيل المثال ، تكون جميع المعلومات موجودة بالفعل في نموذج نصي يمكنك الوصول إليه بسهولة ، وأنت تعرف ما تبحث عنه. إذن ، تصبح مشكلة قابلة للحل ، أليس كذلك؟ تكمن مشكلة علم الأحياء في أننا لا نعرف حتى مجموعات البيانات التي نبحث عنها ، سواء كان لدينا مصباح يدوي مناسب للتألق في المناطق الصحيحة. 

لذلك ، في بعض الأحيان عندما يقفز خبراء التكنولوجيا إلى السيرة الذاتية ، فإنهم يقعون في فخ التبسيط المفرط. دعنا نقول ، على سبيل المثال ، لتسلسل الجيل القادم قد يقولون ، "واو. يمكننا تسلسل الحمض النووي. لماذا لا نقوم فقط بتسلسل الكثير والكثير من الحمض النووي؟ تصبح مشكلة بيانات ، ثم نحل علم الأحياء ". 

لكن المشكلة هي أن الحمض النووي هو واحد من عشرات التحليلات المختلفة في الجسم. يوجد RNA ، بروتين ،تعديلات ما بعد الترجمة، ومقصورات مختلفة مثل الحويصلات خارج الخلية ، والاختلافات في الزمان والمكان ونوع الخلية ، من بين أمور أخرى. نحتاج إلى فهم الاحتمالات وكذلك القيود المفروضة على كل طريقة بيانات نستخدمها.

في حين أنه قد يكون من الصعب تصديق ذلك ، فإن علم الأحياء لا يزال حقلاً في مهده. نحن فقط تسلسل الجينوم البشري منذ أكثر من عقدين بقليل. في معظم الأوقات ، لا يمكننا الوصول إلى إشارات بيولوجية فردية ، لذلك ما زلنا نأخذ قياسات متكتلة أو متوسطة عبر الكثير من الإشارات. لقد بدأنا للتو في قياس خلية واحدة في كل مرة. لا يزال هناك الكثير للقيام به وهذا هو السبب في أنه وقت مثير للدخول في علم الأحياء. 

ولكن مع هذه الطفولة تأتي إمكانات كبيرة لحل المشكلات التي سيكون لها تأثيرات هائلة على صحة الإنسان ورفاهه. إنه وقت رائع جدًا لأننا نفتح آفاقًا جديدة للبيولوجيا.

ما هي أنواع الحدود؟ هل هناك مجال علم الأحياء أو الطب حيث تكون متحمسًا للغاية لرؤية تطبيق الحساب؟

نعم - كل شيء! لكن دعني أفكر. في مجال السرطان ، أعتقد أنه خلال جيلنا ، ستحول العلاجات الجديدة وجهود الكشف المبكر التي يتم طرحها ، السرطان إلى مرض مزمن لم يعد مخيفًا ، كما فعلنا مع فيروس نقص المناعة البشرية. ويمكننا على الأرجح استخدام أنواع متشابهة جدًا من الأساليب للنظر في اكتشاف الأمراض والوقاية منها بشكل عام. الشيء الرئيسي الذي أنا متحمس له هو أنه يمكننا البدء في اكتشاف ما إذا كان المرض موجودًا بالفعل قبل ظهور الأعراض. 

خارج تشخيص السرطان ، الشيء الرائع أيضًا هو الانتقال إلى البناء باستخدام علم الأحياء بدلاً من القراءة والكتابة فقط. أنا متحمس لمجالات البيولوجيا التركيبية حيث نستخدم علم الأحياء كتقنية ، سواء كانت كريسبر أو ببتيدات صناعية أو نيوكليوتيدات اصطناعية. الاستفادة من علم الأحياء كأداة يخلق إمكانيات موسعة لتحويل الصناعات التقليدية المولدة للموارد بالكامل ، من الزراعة إلى الطاقة. إنه حقًا وقت رائع أن تكون عالم أحياء!

تم النشر في 5 أكتوبر 2022

التكنولوجيا والابتكار والمستقبل كما يرويها أولئك الذين يبنونها.

شكرا لتسجيلك.

تحقق من صندوق الوارد الخاص بك للحصول على ملاحظة ترحيب.

الطابع الزمني:

اكثر من أندرسن هورويتز