Metas nye ChatGPT-lignende AI er flydende i proteinernes sprog

Metas nye ChatGPT-lignende AI er flydende i proteinernes sprog

Meta’s New ChatGPT-Like AI Is Fluent in the Language of Proteins PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Kapløbet om at løse enhver proteinstruktur bød netop velkommen til en anden teknologigigant: Meta AI.

En forskningsudløber af Meta, kendt for Facebook og Instagram, kom holdet ind på forudsigelsesscenen for proteinform med et ambitiøst mål: at dechifrere det "mørke stof" i proteinuniverset. Disse proteiner findes ofte i bakterier, vira og andre mikroorganismer, og disse proteiner ligger i vores hverdagsmiljøer, men er fuldstændige mysterier for videnskaben.

»Det er de strukturer, vi ved mindst om. Det er utroligt mystiske proteiner. Jeg tror, ​​de tilbyder potentiale for stor indsigt i biologi." sagde seniorforfatter Dr. Alexander Rives til Nature.

De er med andre ord en skatkammer af inspiration til bioteknologi. Skjult i deres hemmelighedsfulde former er nøgler til design effektive biobrændstoffer, antibiotika, enzymer, eller endda helt nye organismer. Til gengæld kunne data fra proteinforudsigelser yderligere træne AI-modeller.

I hjertet af Metas nye AI, kaldet ESMFold, er en stor sprogmodel. Det lyder måske bekendt. Disse maskinlæringsalgoritmer har taget verden med storm med rockstjerne chatbot ChatGPT. Kendt for sin evne til at generere smukke essays, digte og tekster med enkle meddelelser, ChatGPT – og det nyligt lancerede GPT-4-er trænet med millioner af offentligt tilgængelige tekster. Til sidst lærer AI at forudsige bogstaver, ord og endda skrive hele afsnit og, i tilfælde af Bings lignende chatbot, holde samtaler som nogle gange bliver lidt nervøse.

Den nye undersøgelse, offentliggjort i Videnskab, slår bro mellem AI-modellen og biologi. Proteiner er lavet af 20 "bogstaver". Takket være evolutionen hjælper sekvensen af ​​bogstaver med at generere deres ultimative former. Hvis store sprogmodeller nemt kan konstruere de 26 bogstaver i det engelske alfabet til sammenhængende budskaber, hvorfor kan de så ikke også fungere for proteiner?

Spoiler: det gør de. ESM-2 gennemgik omkring 600 millioner forudsigelser af proteinstrukturer på kun to uger ved hjælp af 2,000 grafiske behandlingsenheder (GPU'er). Sammenlignet med tidligere forsøg gjorde AI processen op til 60 gange hurtigere. Forfatterne lægger enhver struktur ind i ESM Metagenomic Atlas, som du kan udforske link..

For Dr. Alfonso Valencia ved Barcelona National Supercomputing Center (BCS), som ikke var involveret i arbejdet, er skønheden ved at bruge store sprogsystemer en "konceptuel enkelhed." Med yderligere udvikling kan AI forudsige "strukturen af ​​ikke-naturlige proteiner, hvilket udvider det kendte univers ud over, hvad evolutionære processer har udforsket."

Lad os tale evolution

ESMFold følger en simpel retningslinje: sekvens forudsiger struktur.

Lad os gå tilbage. Proteiner er lavet af 20 aminosyrer - hver et "bogstav" - og trukket op som spidse perler på en snor. Vores celler former dem derefter til sarte træk: nogle ligner krøllede sengetøj, andre som en hvirvlende slikstang eller løse bånd. Proteinerne kan så gribe fat i hinanden for at danne en multipleks - for eksempel en tunnel, der krydser hjernecellemembranen, der styrer dens handlinger og igen styrer, hvordan vi tænker og husker.

Forskere har længe vidst, at aminosyrebogstaver hjælper med at forme den endelige struktur af et protein. I lighed med bogstaver eller tegn i et sprog er det kun visse, der giver mening, når de er trukket sammen. I tilfælde af proteiner gør disse sekvenser dem funktionelle.

"Et proteins biologiske egenskaber begrænser mutationerne til dets sekvens, som er udvalgt gennem evolution," sagde forfatterne.

I lighed med hvordan forskellige bogstaver i alfabetet konvergerer for at skabe ord, sætninger og afsnit uden at lyde som fuldstændig volapyk, gør proteinbogstaverne det samme. Der er en slags "evolutionær ordbog", der hjælper med at samle aminosyrer til strukturer, som kroppen kan forstå.

"Logikken i rækkefølgen af ​​aminosyrer i kendte proteiner er resultatet af en evolutionær proces, der har ført dem til at have den specifikke struktur, som de udfører en bestemt funktion med," sagde Valencia.

Mr. AI, Gør mig til et protein

Livets relativt begrænsede ordbog er gode nyheder for store sprogmodeller.

Disse AI-modeller gennemsøger let tilgængelige tekster for at lære og opbygge forudsigelser om det næste ord. Slutresultatet, som det ses i GPT-3 og ChatGPT, er slående naturlige samtaler og fantastiske kunstneriske billeder.

Meta AI brugte det samme koncept, men omskrev spillebogen til forudsigelser af proteinstruktur. I stedet for at fodre algoritmen med tekster, gav de programsekvenser af kendte proteiner.

AI-modellen - kaldet en transformerproteinsprogmodel - lærte den generelle arkitektur af proteiner ved at bruge op til 15 milliarder "indstillinger". Den så omkring 65 millioner forskellige proteinsekvenser i alt.

I deres næste trin gemte holdet visse bogstaver fra AI, hvilket fik den til at udfylde de tomme felter. I hvad der svarer til autofuldførelse, lærte programmet til sidst, hvordan forskellige aminosyrer forbindes til (eller frastøder) hinanden. I sidste ende dannede AI en intuitiv forståelse af evolutionære proteinsekvenser - og hvordan de arbejder sammen om at lave funktionelle proteiner.

Ind i det ukendte

Som et bevis på konceptet testede holdet ESMFold ved hjælp af to velkendte testsæt. En, CAMEO, involverede næsten 200 strukturer; den anden, CASP14, har 51 offentligt udgivne proteinformer.

Samlet set giver AI "state-of-the-art strukturforudsigelsesnøjagtighed," sagde holdet, "der matcher AlphaFold2-ydelsen på mere end halvdelen af ​​proteinerne." Det håndterede også pålideligt store proteinkomplekser - for eksempel kanalerne på neuroner, der styrer deres handlinger.

Holdet tog derefter deres AI et skridt videre og begav sig ind i metagenomics verden.

Metagenomer er, hvad de lyder som: et sammensurium af DNA-materiale. Normalt kommer disse fra miljømæssige kilder såsom snavs under dine fødder, havvand eller endda normalt ugæstfrie termiske ventilationsåbninger. De fleste af mikroberne kan ikke dyrkes kunstigt i laboratorier, men nogle har superkræfter som at modstå varme på vulkanniveau, hvilket gør dem til et biologisk mørkt stof, der endnu ikke skal udforskes.

På det tidspunkt, hvor papiret blev offentliggjort, havde AI forudsagt over 600 millioner af disse proteiner. Antallet er nu oppe på over 700 millioner med den seneste udgivelse. Forudsigelserne kom hurtigt og rasende på omkring to uger. I modsætning hertil tog tidligere modelleringsforsøg op til 10 minutter for kun et enkelt protein.

Omtrent en tredjedel af proteinforudsigelserne var af høj sikkerhed, med nok detaljer til at zoome ind på atomniveauskalaen. Fordi proteinforudsigelserne udelukkende var baseret på deres sekvenser, dukkede millioner af "udlændinge" op - strukturer, der ikke ligner noget i etablerede databaser eller dem, der tidligere er testet.

"Det er interessant, at mere end 10 procent af forudsigelserne er for proteiner, der ikke ligner andre kendte proteiner," sagde Valencia. Det kan skyldes magien ved sprogmodeller, som er langt mere fleksible til at udforske - og potentielt generere - tidligere uhørte sekvenser, der udgør funktionelle proteiner. "Dette er et nyt rum for design af proteiner med nye sekvenser og biokemiske egenskaber med anvendelser inden for bioteknologi og biomedicin," sagde han.

Som et eksempel kan ESMFold potentielt hjælpe med at afklare konsekvenserne af enkeltbogstavsændringer i et protein. Kaldet punktmutationer, disse tilsyneladende godartede redigeringer forårsager kaos i kroppen og forårsager ødelæggende metaboliske syndromer, seglcelleanæmi og kræft. En slank, middel og relativt enkel AI bringer resultater til det gennemsnitlige biomedicinske forskningslaboratorium, mens den opskalerer forudsigelser af proteinform takket være AI'ens hastighed.

Bortset fra biomedicin er en anden fascinerende idé, at proteiner kan hjælpe med at træne store sprogmodeller på en måde, som tekster ikke kan. Som Valencia forklarede, "På den ene side er proteinsekvenser mere rigelige end tekster, har mere definerede størrelser og en højere grad af variabilitet. På den anden side har proteiner en stærk intern 'betydning' – det vil sige et stærkt forhold mellem sekvens og struktur, en betydning eller sammenhæng, der er meget mere diffus i tekster,” som bygger bro mellem de to felter til en dydig feedback-loop.

Billede Credit: Meta AI

Tidsstempel:

Mere fra Singularitet Hub