Noua IA de tip ChatGPT de la Meta este fluentă în limbajul proteinelor

Noua IA de tip ChatGPT de la Meta este fluentă în limbajul proteinelor

Noua IA de tip ChatGPT de la Meta este fluentă în limbajul proteinelor PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Cursa de a rezolva fiecare structură proteică tocmai a primit un alt gigant tehnologic: Meta AI.

O ramură de cercetare a Meta, cunoscută pentru Facebook și Instagram, echipa a intrat pe scena predicției formei proteinelor cu un obiectiv ambițios: de a descifra „materia întunecată” a universului proteinelor. Deseori găsite în bacterii, viruși și alte microorganisme, aceste proteine ​​stau în mediile noastre zilnice, dar sunt mistere complete pentru știință.

„Acestea sunt structurile despre care știm cel mai puțin. Acestea sunt proteine ​​incredibil de misterioase. Cred că oferă un potențial pentru o mare perspectivă asupra biologiei.” a spus autor principal Dr. Alexander Rives la Natura.

Cu alte cuvinte, sunt o comoară de inspirație pentru biotehnologie. Ascunse în formele lor secrete sunt chei pentru proiectare biocombustibili eficienti, antibiotice, enzime, sau chiar organisme complet noi. La rândul lor, datele din predicțiile proteinelor ar putea antrena în continuare modelele AI.

În centrul noului AI al Meta, denumit ESMFold, se află un model de limbaj mare. Poate suna familiar. Acești algoritmi de învățare automată au luat lumea cu asalt cu chatbot-ul rockstar ChatGPT. Cunoscut pentru capacitatea sa de a genera eseuri, poezii și versuri frumoase cu instrucțiuni simple, ChatGPT — și recent-lansat GPT-4— sunt instruiți cu milioane de texte disponibile public. În cele din urmă, AI învață să prezică litere, cuvinte și chiar să scrie paragrafe întregi și, în cazul unui chatbot similar al lui Bing, ține apăsat conversații care uneori devin ușor enervante.

Noul studiu, publicat în Ştiinţă, leagă modelul AI cu biologia. Proteinele sunt formate din 20 de „litere”. Datorită evoluției, succesiunea de litere ajută la generarea formelor lor finale. Dacă modelele mari de limbaj pot transforma cu ușurință cele 26 de litere ale alfabetului englez în mesaje coerente, de ce nu pot funcționa și pentru proteine?

Spoiler: da. ESM-2 a explodat aproximativ 600 de milioane de predicții privind structura proteinelor în doar două săptămâni folosind 2,000 de unități de procesare grafică (GPU). Comparativ cu încercările anterioare, AI a făcut procesul de până la 60 de ori mai rapid. Autorii au introdus fiecare structură în Atlasul metagenomic ESM, pe care îl puteți explora aici.

Pentru Dr. Alfonso Valencia de la Centrul Național de Supercomputing din Barcelona (BCS), care nu a fost implicat în lucrare, frumusețea utilizării sistemelor mari de limbaj este un „simplitatea conceptuală.” Odată cu dezvoltarea ulterioară, IA poate prezice „structura proteinelor nenaturale, extinzând universul cunoscut dincolo de ceea ce procesele evolutive au explorat”.

Să vorbim despre evoluție

ESMFold urmează un ghid simplu: secvența prezice structura.

Să ne întoarcem. Proteinele sunt făcute din 20 de aminoacizi – fiecare o „litera” – și sunt înșirate ca niște margele țepoase pe o sfoară. Celulele noastre le modelează apoi în trăsături delicate: unele arată ca lenjerii de pat șifonate, altele ca un baston de bomboane învolburat sau panglici libere. Proteinele pot apoi să se apuce una de cealaltă pentru a forma un multiplex - de exemplu, un tunel care traversează membrana celulară a creierului care îi controlează acțiunile și, la rândul său, controlează modul în care gândim și ne amintim.

Oamenii de știință știu de mult că literele de aminoacizi ajută la modelarea structurii finale a unei proteine. Similar cu literele sau caracterele dintr-o limbă, numai unele dintre ele au sens. În cazul proteinelor, aceste secvențe le fac funcționale.

„Proprietățile biologice ale unei proteine ​​constrâng mutațiile la secvența sa care sunt selectate prin evoluție”, au spus autorii.

Similar cu felul în care diferitele litere din alfabet converg pentru a crea cuvinte, propoziții și paragrafe fără a suna ca o farsă completă, literele proteice procedează la fel. Există un fel de „dicționar evolutiv” care ajută la înșirarea aminoacizilor în structuri pe care organismul le poate înțelege.

„Logica succesiunii aminoacizilor din proteinele cunoscute este rezultatul unui proces evolutiv care le-a determinat să aibă structura specifică cu care îndeplinesc o anumită funcție”, a spus Valencia.

Domnule AI, fă-mă o proteină

Dicționarul relativ limitat al vieții este vești grozave pentru modelele mari de limbă.

Aceste modele AI caută textele disponibile pentru a învăța și a construi predicții pentru cuvântul următor. Rezultatul final, așa cum se vede în GPT-3 și ChatGPT, sunt conversații uimitor de naturale și imagini artistice fantastice.

Meta AI a folosit același concept, dar a rescris manualul pentru predicțiile structurii proteinelor. În loc să alimenteze algoritmul cu texte, ei au dat programului secvențe de proteine ​​cunoscute.

Modelul AI – numit model de limbaj al proteinelor transformatoare – a învățat arhitectura generală a proteinelor folosind până la 15 miliarde de „setări”. A văzut aproximativ 65 de milioane de secvențe de proteine ​​diferite în total.

În următorul pas, echipa a ascuns anumite litere de la AI, determinându-i să completeze spațiile libere. În ceea ce înseamnă autocompletare, programul a învățat în cele din urmă cum diferiți aminoacizi se conectează (sau se resping) între ei. În cele din urmă, AI a format o înțelegere intuitivă a secvențelor de proteine ​​​​evolutive și a modului în care acestea lucrează împreună pentru a produce proteine ​​funcționale.

În necunoscut

Ca o dovadă a conceptului, echipa a testat ESMFold folosind două seturi de testare binecunoscute. Unul, CAMEO, a implicat aproape 200 de structuri; celălalt, CASP14, are 51 de forme de proteine ​​lansate public.

În general, AI „oferă precizie de ultimă generație de predicție a structurii”, a spus echipa, „potrivind performanța AlphaFold2 la mai mult de jumătate din proteine”. De asemenea, a abordat în mod fiabil complexe mari de proteine, de exemplu, canalele neuronilor care le controlează acțiunile.

Apoi, echipa și-a dus AI un pas mai departe, aventurându-se în lumea metagenomicii.

Metagenomii sunt așa cum sună: un amestec de material ADN. În mod normal, acestea provin din surse de mediu, cum ar fi murdăria de sub picioare, apa de mare sau chiar orificiile termice în mod normal inospitaliere. Majoritatea microbilor nu pot fi cultivați artificial în laboratoare, totuși unii au superputeri, cum ar fi rezistența la căldură la nivel vulcanic, făcându-i o materie întunecată biologică încă de explorat.

La momentul publicării lucrării, AI a prezis peste 600 de milioane de aceste proteine. Numărul este acum de peste 700 de milioane cu cea mai recentă lansare. Previziunile au venit rapid și furioase în aproximativ două săptămâni. În schimb, încercările anterioare de modelare au durat până la 10 minute pentru o singură proteină.

Aproximativ o treime din predicțiile de proteine ​​au fost de mare încredere, cu suficiente detalii pentru a mări scara la nivel atomic. Deoarece predicțiile proteinelor s-au bazat exclusiv pe secvențele lor, au apărut milioane de „extratereștri” – structuri diferite de orice în bazele de date stabilite sau cele testate anterior.

„Este interesant că mai mult de 10 la sută din predicții sunt pentru proteine ​​care nu se aseamănă cu alte proteine ​​​​cunoscute”, a spus Valencia. S-ar putea datora magiei modelelor de limbaj, care sunt mult mai flexibile la explorarea - și potențial generatoare - de secvențe nemaiauzite anterior care alcătuiesc proteinele funcționale. „Acesta este un nou spațiu pentru proiectarea proteinelor cu secvențe noi și proprietăți biochimice cu aplicații în biotehnologie și biomedicină”, a spus el.

De exemplu, ESMFold ar putea ajuta la identificarea consecințelor modificărilor cu o singură literă într-o proteină. Denumite mutații punctiforme, aceste modificări aparent benigne fac ravagii în organism, provocând sindroame metabolice devastatoare, anemia secerată și cancer. O IA slabă, rea și relativ simplă aduce rezultate în laboratorul de cercetare biomedicală obișnuită, în timp ce crește predicțiile formei proteinelor datorită vitezei AI.

Lăsând deoparte biomedicina, o altă idee fascinantă este că proteinele pot ajuta la formarea modelelor de limbaj mari într-un mod în care textele nu pot. După cum a explicat Valencia, „Pe de o parte, secvențele de proteine ​​sunt mai abundente decât textele, au dimensiuni mai definite și un grad mai mare de variabilitate. Pe de altă parte, proteinele au un „înțeles” intern puternic – adică o relație puternică între secvență și structură, o semnificație sau coerență care este mult mai difuză în texte,” unind cele două câmpuri într-o buclă de feedback virtuoasă.

Credit imagine: Meta AI

Timestamp-ul:

Mai mult de la Singularity Hub