Η τεχνητή νοημοσύνη σχεδιασμού πρωτεϊνών ανοίγει την πόρτα σε φάρμακα που οι άνθρωποι δεν μπορούσαν να ονειρευτούν την ευφυΐα δεδομένων PlatoBlockchain. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η τεχνητή νοημοσύνη σχεδίασης πρωτεϊνών ανοίγει την πόρτα σε φάρμακα που οι άνθρωποι δεν μπορούσαν να ονειρευτούν

εικόνα

Ο σχεδιασμός μιας πρωτεΐνης μοιάζει λίγο με την κατασκευή ενός ντουλαπιού. Το πρώτο βήμα είναι η οικοδόμηση της ραχοκοκαλιάς που συγκρατεί την πρωτεΐνη ενωμένη. Αλλά μετά έρχεται το δύσκολο μέρος: να καταλάβετε πού να εγκαταστήσετε μεντεσέδες στο ικρίωμα—δηλαδή να βρείτε τα καλύτερα «hotspots»—για να τοποθετήσετε πόρτες, ράφια και άλλα εξαρτήματα που τελικά κάνουν το ντουλάπι πλήρως λειτουργικό.

Κατά κάποιο τρόπο, οι πρωτεΐνες έχουν επίσης hotspots ενσωματωμένα στις δομές τους. Πιστές στο όνομά τους, «λειτουργικές τοποθεσίες», αυτές οι συναρπαστικές γωνιές και σχισμές σχηματίζουν περίπλοκες αποβάθρες για άλλες πρωτεΐνες ή φάρμακα. Οι τοποθεσίες είναι κεντρικές για την εκτέλεση των περισσότερων από τις βασικές βιολογικές διεργασίες μας. Είναι επίσης ένα τεράστιο χρυσωρυχείο για το σχεδιασμό νέων θεραπειών και ιατρικών φαρμάκων.

Το πρόβλημα? Οι λειτουργικές τοποθεσίες είναι δύσκολο να χαρτογραφηθούν. Οι επιστήμονες παραδοσιακά έπρεπε να μεταλλάξουν τις ύποπτες περιοχές σε μια πρωτεΐνη μία προς μία - αλλάζοντας το ένα αμινοξύ σε ένα άλλο - για να καταγράψουν ακριβή σημεία δέσμευσης. Όπως ένας ντετέκτιβ που εξετάζει εκατοντάδες υπόπτους, από τους οποίους μπορεί να υπάρχουν πολλοί, είναι εξαιρετικά κουραστικό.

A νέα μελέτη in Επιστήμη ανέτρεψε ολόκληρο το gamebook. Με επικεφαλής τον Δρ. Ντέιβιντ Μπέικερ στο Πανεπιστήμιο της Ουάσιγκτον, μια ομάδα αξιοποίησε τη «φαντασία» ενός AI για να ονειρευτεί μια μυριάδα λειτουργικών τοποθεσιών από την αρχή. Είναι η «δημιουργικότητα» ενός μηχανικού μυαλού στα καλύτερά της—ένας αλγόριθμος βαθιάς μάθησης που προβλέπει τη γενική περιοχή της λειτουργικής θέσης μιας πρωτεΐνης, αλλά στη συνέχεια σμιλεύει περαιτέρω τη δομή.

Ως έλεγχο πραγματικότητας, η ομάδα χρησιμοποίησε το νέο λογισμικό για να δημιουργήσει φάρμακα που καταπολεμούν τον καρκίνο και να σχεδιάσουν εμβόλια ενάντια σε κοινούς, αν και μερικές φορές θανατηφόρους, ιούς. Σε μια περίπτωση, το ψηφιακό μυαλό βρήκε μια λύση που, όταν δοκιμάστηκε σε μεμονωμένα κύτταρα, ταίριαζε τέλεια με ένα υπάρχον αντίσωμα ενάντια σε έναν κοινό ιό. Με άλλα λόγια, ο αλγόριθμος «φαντάστηκε» ένα hotspot από μια ιική πρωτεΐνη, καθιστώντας το ευάλωτο ως στόχο για το σχεδιασμό νέων θεραπειών.

Ο αλγόριθμος είναι η πρώτη επιδρομή της βαθιάς μάθησης για τη δημιουργία πρωτεϊνών γύρω από τις λειτουργίες τους, ανοίγοντας μια πόρτα σε θεραπείες που προηγουμένως ήταν αδιανόητες. Αλλά το λογισμικό δεν περιορίζεται σε φυσικές πρωτεΐνες hotspot. «Οι πρωτεΐνες που βρίσκουμε στη φύση είναι εκπληκτικά μόρια, αλλά οι σχεδιασμένες πρωτεΐνες μπορούν να κάνουν πολλά περισσότερα», δήλωσε ο Baker σε δελτίο τύπου. Ο αλγόριθμος είναι «κάνει πράγματα που κανείς από εμάς δεν πίστευε ότι θα ήταν ικανός».

Το hotspot πρωτεΐνης

Η ομάδα του Baker δεν είναι ξένη στην πρόβλεψη πρωτεϊνών με τεχνητά μυαλά. Πριν από μερικά χρόνια, ταρακούνησαν το πεδίο της δομικής βιολογίας κυκλοφόρησαν το Rosetta, ένα λογισμικό που μπορεί να προβλέψει την τρισδιάστατη δομή μιας πρωτεΐνης με βάση μόνο την αλληλουχία αμινοξέων της. Περαιτέρω χαρτογράφησαν συμπλέγματα πρωτεϊνών και σχεδίασαν «κατσαβίδια» πρωτεϊνών από την αρχή για να ξεχωρίσουν τις ανεπιθύμητες αλληλεπιδράσεις πρωτεϊνών. Στα τέλη του περασμένου έτους, κυκλοφόρησαν ένα δίκτυο βαθιάς μάθησης ονομάστηκε trRosetta, ένας «αρχιτέκτονας» της τεχνητής νοημοσύνης που γενικεύει τον τρόπο με τον οποίο οι σειρές αμινοξέων διατάσσονται σε περίπλοκες δομές σε νανοκλίμακα.

Ας κάνουμε backup.

Είναι εύκολο να φανταστείς τις πρωτεΐνες ως την κρεατική, κουρελιασμένη φτερούγα κοτόπουλου που δαγκώνω καθώς πληκτρολογώ αυτήν την πρόταση. Αλλά σε μοριακό επίπεδο, είναι πολύ πιο κομψά. Φανταστείτε πολλά μπλοκ Lego - αμινοξέα - που συγκρατούνται μεταξύ τους από μια χορδή. Τώρα περιστρέψτε το γύρω-γύρω, στρίβοντας την αλυσίδα μέχρι να κουμπώσουν μερικά κομμάτια το ένα πάνω στο άλλο. Αυτό σχηματίζει μια λεπτή δομή που συχνά μοιάζει με έλικα ή τσαλακωμένα σεντόνια. Σε ορισμένες πρωτεΐνες, αυτά τα δομικά στοιχεία συναρμολογούνται περαιτέρω σε σύμπλοκα - για παράδειγμα, δημιουργώντας ένα κανάλι που διέρχεται από την προστατευτική μεμβράνη ενός κυττάρου σαν μια περιπολική διακρατική οδός.

Οι πρωτεΐνες τροφοδοτούν κάθε μεμονωμένη βιολογική διαδικασία, συχνά μέσω ενός καταρράκτη αλληλεπιδράσεων με άλλες πρωτεΐνες ή φάρμακα, οι οποίες –ανάλογα με τον σύντροφο– μπορούν να προκαλέσουν εντελώς διαφορετικές συνέπειες: πρέπει ένα κύτταρο να ζήσει ή να πεθάνει; Επίθεση σε έναν πιθανό εισβολέα ή να σταματήσει; Με άλλα λόγια, οι πρωτεΐνες είναι τα δομικά στοιχεία της ζωής και η ανάλυση της δομής τους είναι ο τρόπος με τον οποίο μπορούμε να εισχωρήσουμε στη ζωή.

Εδώ είναι το πράγμα: δεν δημιουργούνται όλα τα μέρη μιας πρωτεΐνης ίσα. Εάν μια πρωτεΐνη είναι ανθρώπινο σώμα, οι λειτουργικές θέσεις είναι τα «χέρια» της - όπου αρπάζει μια άλλη πρωτεΐνη ή φάρμακο, προκαλεί ενζυμικές αντιδράσεις ή καταπολεμά τα εισβάλλοντα παθογόνα. Ενσωματωμένες απευθείας στη δομή της πρωτεΐνης, αυτές οι θέσεις είναι δύσκολο να εντοπιστούν και ακόμη πιο δύσκολο να αναδημιουργηθούν.

Η νέα μελέτη αντιμετώπισε το πρόβλημα με μια έκδοση της Rosetta: με κάποια προηγούμενη γνώση, είναι δυνατόν ένας υπολογιστής να ονειρευτεί μια αλυσίδα αμινοξέων που αναδιπλώνονται φυσικά σε μια λειτουργική τοποθεσία;

Ο Ονειροπόλος και ο Ρεαλιστής

Το πρόβλημα μπορεί να φαίνεται εξωτικό, αλλά υπάρχει ένα προηγούμενο παράδειγμα — σε διαφορετικό πεδίο. Χρησιμοποιώντας ένα νευρωνικό δίκτυο, το OpenAI δημιούργησε ένα ευρύ φάσμα εικόνων μόνο από λεζάντες κειμένου. Ένα spinoff της δημιουργίας κειμένου rockstar AI GPT-3, ο αλγόριθμος DALL·E δημιούργησε φανταστικές αλλά ρεαλιστικές εικόνες βασισμένες σε απλές προτροπές κειμένου ανιχνεύοντας μοτίβα από την εκπαίδευσή του. «Παίρνει τις πιο βαθιές, πιο σκοτεινές εσοχές της φαντασίας σας και τη μετατρέπει σε κάτι που είναι παράξενα επίκαιρο». είπε Ο Δρ Hany Farid στο UC Berkeley μετά την αρχική κυκλοφορία του εργαλείου.

Η οικοδόμηση μιας λειτουργικής θέσης πρωτεΐνης είναι παρόμοια. Εδώ, τα αμινοξέα είναι τα γράμματα και η πρωτεϊνική λειτουργική θέση είναι η εικόνα. «Η ιδέα είναι η ίδια: τα νευρωνικά δίκτυα μπορούν να εκπαιδευτούν ώστε να βλέπουν μοτίβα στα δεδομένα. Μόλις εκπαιδευτείτε, μπορείτε να του δώσετε μια προτροπή και να δείτε αν μπορεί να δημιουργήσει μια κομψή λύση», δήλωσε ο Δρ Τζόζεφ Γουάτσον, επικεφαλής συγγραφέας της νέας εργασίας. Εκτός από τη συγγραφή ενός μυθιστορήματος, ο αλγόριθμος θα μπορούσε να βοηθήσει στην επανεγγραφή της ζωής.

Η ομάδα ξεκίνησε με μια προηγούμενη δημιουργία, την trRosetta. Είναι ένα νευρωνικό δίκτυο που αρχικά σχεδιάστηκε για να ονειρεύεται νέες πρωτεΐνες βασισμένες σε αλληλουχίες αμινοξέων ενώ είναι σε θέση να προβλέψει τη δομή τους—μερικές τόσο ξένες από τις φυσικές που η ομάδα ονόμασε τις εσωτερικές λειτουργίες της βαθιάς μάθησης «ψευδαίσθηση». Ο αλγόριθμος φαινόταν τέλειος: μπορούσε να προβλέψει τόσο την αλληλουχία αμινοξέων μιας πρωτεΐνης όσο και τη δομή της.

Ο λόξυγκας; Δεν λειτούργησε πραγματικά. Σε αντίθεση, το OG πρόβλεψη δομής πρωτεΐνης, RoseTTAFold, εκτελέστηκε σαν πρωταθλητής. Η δύναμη του αλγορίθμου προέρχεται από τη σχεδίασή του: μοντελοποίηση κάθε αμινοξέος σε νανοκλίμακα, παρέχοντας συντεταγμένες σε κάθε άτομο. Όπως το καρφίτσωμα μιας γεωγραφικής τοποθεσίας χρησιμοποιώντας τους Χάρτες Google, αυτό παρέχει ένα επίπεδο βασικής αλήθειας για μια δομή την οποία μπορεί να ρίξει περαιτέρω μια τεχνητή νοημοσύνη - ένα είδος «περιορισμένης ψευδαίσθησης».

Μετάφραση? Το RoseTTAFold μπορεί να προβλέψει μια λειτουργική δομή—συγκεκριμένη για το συγκεκριμένο πρόβλημα—και να καταλήξει σε ένα πρόχειρο σκίτσο ως τελικό σχέδιο.

Στη συνέχεια ήρθε ένα άλλο έξυπνο τέχνασμα, που ονομάστηκε "inpainting". Εδώ, η ομάδα έκρυψε τμήματα της αλληλουχίας ή της δομής πρωτεΐνης. Το λογισμικό έπρεπε να μάθει πώς να αποκρυπτογραφεί πληροφορίες από αυτό που είναι ουσιαστικά μια θορυβώδης ραδιοφωνική παρακολούθηση, όπου μπορείτε να ακούσετε μόνο τις πρώτες λίγες λέξεις, αλλά να προσπαθήσετε να κατανοήσετε τη σημασία τους συμπληρώνοντας τα κενά. Το RoseTTAFold αντιμετώπισε το «πρόβλημα ανάκτησης πληροφοριών που λείπει» με γοητεία, συμπληρώνοντας αυτόματα τόσο τις αλληλουχίες όσο και τις δομές αμινοξέων για να κατασκευάσει μια δεδομένη λειτουργική περιοχή με υψηλή πιστότητα.

Το RoseTTAFold μπορεί να αντιμετωπίσει τα προβλήματα της δημιουργίας αλληλουχιών αμινοξέων και τη δημιουργία μιας ραχοκοκαλιάς για την τοποθεσία ταυτόχρονα. Είναι σαν να βάζεις λέξεις σε χαρτί: ο συγγραφέας φροντίζει να βρίσκεται κάθε γράμμα στη σωστή θέση, ελέγχοντας ταυτόχρονα ότι η γραμματική και το νόημα έχουν νόημα.

Αμφισβήτηση της Φύσης της Πραγματικότητας

Δοκιμάζοντας τη νέα τους δημιουργία, η ομάδα δημιούργησε πολλά σχέδια φαρμάκων και εμβολίων που θα μπορούσαν ενδεχομένως να καταπολεμήσουν τους ιούς και τον καρκίνο ή να βοηθήσουν σε προβλήματα υγείας με χαμηλή περιεκτικότητα σε σίδηρο.

Για τον επικεφαλής συγγραφέα Dr. Jue Wang, ο αλγόριθμος έγινε απροσδόκητα κατάλληλος. Ενώ εργαζόταν στο έργο, ο δίχρονος γιος του νοσηλεύτηκε στη μονάδα επειγόντων περιστατικών από λοίμωξη των πνευμόνων από RSV (Respiratory Syncytial Virus) - έναν ιό που συνήθως εμφανίζει συμπτώματα που μοιάζουν με κρυολόγημα, αλλά μπορεί να είναι θανατηφόρος στους νέους και τους ηλικιωμένος.

Εκείνη την εποχή, ο Wang χρησιμοποιούσε τον αλγόριθμο για να σχεδιάσει νέες θεραπείες, οι οποίες περιλάμβαναν πιθανές τοποθεσίες στο RSV για περαιτέρω δοκιμή εμβολίων και φαρμάκων κατά. Είναι μια σχετικά καλά σχεδιασμένη δομή. Το λογισμικό παρουσίαζε παραισθήσεις σχέδια που ανακεφαλαίωσαν δύο θέσεις για τα εμβόλια που θα μπορούσαν να συνδεθούν. Δοκιμές που χρησιμοποιούν παραισθησιακές πρωτεΐνες, ανακατασκευασμένες σε βακτήρια, άρπαξαν γρήγορα υπάρχοντα αντισώματα - ένα σημάδι ότι είναι λειτουργικά και ότι η προσέγγιση βαθιάς μάθησης λειτουργεί.

Το περιστατικό «με έκανε να συνειδητοποιήσω ότι ακόμη και τα προβλήματα «δοκιμών» που εργαζόμασταν ήταν στην πραγματικότητα αρκετά σημαντικά», είπε ο Wang.

Σε αρκετές πρόσθετες δοκιμές, η ομάδα σχεδίασε λειτουργικές θέσεις για ένα ένζυμο, πρωτεΐνες που δεσμεύουν πρωτεΐνες και πρωτεΐνες που αρπάζουν τα μεταλλικά ιόντα - βασικά, τον τρόπο με τον οποίο απορροφάτε τον σίδηρο και άλλα σημαντικά μέταλλα.

Αν και ισχυρό, υπάρχει χώρος για ανάπτυξη. Η μέθοδος ανοίγει την πόρτα στην απομυθοποίηση των φυσικών πρωτεϊνών, αλλά και στον δυνητικό σχεδιασμό νέων για τη συνθετική βιολογία. «Πρόκειται για πολύ ισχυρές νέες προσεγγίσεις, αλλά υπάρχουν ακόμη πολλά περιθώρια βελτίωσης», είπε ο Baker.

Συνολικά, είναι μια ακόμη νίκη για τη βαθιά μάθηση και μια καθηλωτική παρουσίαση του τρόπου με τον οποίο η τεχνητή νοημοσύνη και η βιολογία μπορούν να συνεργαστούν. «Η πρόβλεψη της δομής της πρωτεΐνης μετασχηματισμένης βαθιάς μάθησης τα τελευταία δύο χρόνια, βρισκόμαστε τώρα στη μέση ενός παρόμοιου μετασχηματισμού του σχεδιασμού πρωτεϊνών», δήλωσε ο Baker.

Πίστωση εικόνας: Ian C. Haydon/UW Institute for Protein Design. Νέο λογισμικό τεχνητής νοημοσύνης εκπαιδευμένο σε πρωτεϊνικές δομές μπορεί να δημιουργήσει λειτουργικές πρωτεΐνες, συμπεριλαμβανομένων αυτών των υποψηφίων εμβολίων για τον αναπνευστικό ιό RSV, σε δευτερόλεπτα.

Σφραγίδα ώρας:

Περισσότερα από Κέντρο μοναδικότητας