Den glittrande skatten i ditt genoms skräp PlatoBlockchain-dataintelligens. Vertikal sökning. Ai.

Den glittrande skatten i ditt genoms skräp

Rick Young är professor i biologi vid MIT som studerar RNA som transkriberas från den del av genomet som inte kodar för proteiner, så kallat icke-kodande DNA. Denna del av arvsmassan kallades en gång för "skräp-DNA", vilket ger dig en känsla av vad många tyckte om dess värde. Forskare blev förvånade över att upptäcka att det utgör 98 % av det mänskliga genomet, vilket utlöste en strävan efter att hitta dess funktioner.

I det här samtalet chattar Rick Young med Hanne Winarsky från Bio Eats World och a16z general partner Jorge Conde, som leder investeringar i skärningspunkten mellan biologi, datavetenskap och teknik. Innan han började på a16z var Conde Chief Strategy Officer på Syros Pharmaceuticals och var med och grundade genomics-tolkningsföretaget Knome. 

Samtalet täcker vad vi har lärt oss om att 98% av arvsmassan vi trodde var skräp. Det visar sig att det har olika jobb, allt från att gömma bort bevisen på uråldriga virusinfektioner till att få varje ansikte att se unikt ut. De diskuterar också dess massiva men fortfarande dåligt förstådda roll i sjukdomar, och hur studier av skräp-DNA ledde till upptäckten av en gen på/av-knapp som ingen förväntade sig. 

Obs: denna konversation publicerades ursprungligen som ett avsnitt av Bio Eats World. Du kan lyssna på det avsnittet här.


HANNE WINARSKY: Vi är här för att prata idag om det som kallas skräp-DNA. Kan vi börja med en enkel definition?

RICK YOUNG: Det är ungefär ett halvt sekel gammal term. Forskare visste om delar av genomet som inte kodar för proteiner, och de teoretiserade att detta var skräp. Vi visste att en del av det bara var resterna av forntida virala invasioner av genomet. Men den frasen, skräp-DNA, har förföljt oss.

HANNE: Så vad är det för term du försöker använda istället? Den mörka materia DNA som vi förstår mer om varje dag?

RICK: Icke-kodande DNA.

HANNE: Varför tänkte de på det som detritus? Du har nämnt att en del av det var överblivna gamla virusbitar. Men varför var det inte bara ett mysterium från början?

RICK: För genom den biologiska historien har det varit en debatt om vad som var det genetiska materialet, och till en början troddes det vara protein. Men när det väl blev klart att protein var maskineriet och DNA var ritningen för maskineriet, blev folk upptagna på maskineriet eftersom defekter i maskineriet orsakar sjukdomar. Men så visade det sig att endast 2% av arvsmassan kodar för aminosyrorna för proteiner. De allra flesta, 98 %, gör det inte. Och år 2000, när forskare från Human Genome Project presenteras den mänskliga genomsekvensen, dessa data bekräftade att 98 % av våra 3.2 miljarder baser inte kodar för proteiner.

Varje gen har den anmärkningsvärda förmågan att ta bitar och bitar av segment av proteinet som den kommer att koda för och ordna det så att produkten som du får i en cell kanske fungerar lite snabbare, eller i en annan cell faktiskt kan gå in i en annan fack för att göra ett annat jobb.

JORGE CONDE: Vilka var de första uppskattningarna av hur många gener som skulle kodas i dessa 3.2 miljarder baspar?

RICK: Vi bestämde oss för ungefär 100,000 XNUMX. Vi antog bara att ju mer komplexa vi är, desto större arvsmassa och desto fler gener. Det blev lite av en chock när vi insåg att vi och insekter har ungefär lika många gener.

JORGE: Färre gener än vi förväntat oss kodar för vad vi anser vara en otroligt komplex organism, eller hur? 

HANNE: Det är lite av en chock.

Samma källkod, olika program

JORGE: En sak vi alla lärde oss i gymnasiet är att DNA-koder för RNA, RNA-koder för aminosyror och aminosyror ger oss proteiner, eller hur? Det är den centrala dogmen i modern biologi.

RICK: Japp. En av de stora anledningarna till att människor var snabba med att tillskriva titeln "skräp-DNA" till de 98 % av arvsmassan som inte kodar för proteiner är för att man till stor del trodde att det affärsmässiga slutet av genomet var att göra proteiner.

JORGE: Så när började genetiker få en aning om att skräp-DNA kan vara mer än skräp?

RICK: [Det började med] insikten om att du kunde förklara den ytterligare komplexiteten hos människor kontra insekter genom en enorm mängd alternativ skarvning. Det är där du har, för en enda gen, ett stort RNA som skapas, men det skarvas annorlunda i en cell jämfört med en annan cell. Med andra ord, olika delar av genen hamnar i RNA-molekylen som kommer att specificera proteinet. Så proteinet är lite annorlunda.

National Human Genome Research Institute, Public domain, via Wikimedia Commons

HANNE: Det låter som ett kalejdoskop lite med ljus som träffar det olika, du får olika färger, olika vinklar.

RICK: Tja, och det är en intressant analogi. Jag tror att en bättre liknelse är när du har dessa legos, och du kan göra en maskin, men du kan göra den på så många olika sätt, så många olika strukturer, färger. Varje gen har den anmärkningsvärda förmågan att ta bitar och bitar av segment av proteinet som den kommer att koda för och ordna det så att produkten som du får i en cell kanske fungerar lite snabbare, eller i en annan cell faktiskt kan gå in i en annan fack för att göra ett annat jobb.

JORGE: Varje enskild cell i en given människa har ungefär samma genom. Ändå ger samma genom upphov till en otroligt mångfald av olika celltyper. Och så i den mån vi ska göra en analogi, kör varje celltyp ett annat program från samma källkod.

RICK: Det stämmer.

Funktionerna för 98%

JORGE: Du behöver inte vara expert för att titta på olika celltyper och se hur olika de kan vara, eller hur? En neuron ser väldigt, väldigt, väldigt annorlunda ut och fungerar väldigt, väldigt annorlunda än, säg, en muskelcell. Vad bestämmer programmet, det genetiska programmet som en cell väljer att köra? Vad gör en muskelcell till en muskelcell och vad gör en neuron till en neuron?

RICK: Så vi började med att DNA gör RNA och [RNA] gör protein. Det är den centrala dogmen. Men för ungefär ett halvt sekel sedan började forskare framföra argumentet att RNA faktiskt började skapa olika typer av funktioner helt på egen hand. Och det visar sig att RNA faktiskt har en del av aktiviteten i de tidigaste utvecklingsstadierna. 

När spermierna möter ägget är det moderns RNA som hon stoppar in i det ägget. Det finns RNA-molekyler som gör detta. Det visar sig att antibiotika som vi använder rutinmässigt binder till RNA:t. Så RNA har några ganska viktiga roller där. Det förändrade folks sätt att tänka. Sedan, när vi började tänka på skräp-DNA, är det den del av DNA som inte kodar för protein. Tja, tänk om världen är baserad på RNA och inte protein, åtminstone på börjar? Och så nu förstår vi att en stor del av det vi kallar skräp-DNA, eller vad vi brukade kalla skräp-DNA, inte är skräp. Det är mycket funktionellt. Och det mesta gör RNA.

Så ditt mål med att programmera en cell är att använda just den specifika uppsättningen av sekvenser som kommer att ställa in var och en av den gemensamma uppsättningen gener till den nivå du vill ha. . . .Vårt problem är att vi faktiskt inte känner till programmet.

HANNE: Wow. Kan du göra lite av det land där vi är för att förstå den icke-kodande delen av DNA:t? Du vet, vad är vår nuvarande uppfattning om alla de olika möjligheterna där?

RICK: Endast 2% av vårt genom kodar för dessa aminosyrasekvenser som går in i proteiner. Så vad står på vår revisors reskontra för vad resten gör? 

Ungefär hälften av vårt genom är vad vi kallar heterokromatin. Det är där du får produkterna från uråldriga virala invasioner. Gamla retrovirus invaderade och förvandlades sedan till DNA, och de infogades i genomet. Så det är faktiskt ett sätt som vi har haft genom hela vår evolutionära historia för att gömma undan sekvenser som vi inte vill ta itu med. Och det förblir tyst i vårt arvsmassa med ett viktigt undantag. 

Den andra hälften är där alla aktiva proteinkodande gener finns, och där alla aktiva icke-kodande gener finns. Så, vad gör det? Den har en lång lista med regulatoriska funktioner, men jag ska förenkla den till tre. 

En av dess funktioner är kromosomunderhåll. Så, det är de platser där DNA-replikation sker. De är platserna i vårt genom som är ansvariga för att vika ihop det eftersom det är en 2 meter lång polymer. Den måste vikas ihop till en kärna med en diameter på ett par mikrometer. 

Den andra regulatoriska regionen är alla dessa saker som är ansvariga för genreglering. Förmodligen specificerar mycket mer av genomet regulatoriska egenskaper för genuttryck än vad som specificerar generna själva. Och det beror på att varje cell använder en annan reglerande region för varje gen.

HANNE: Det är så intressant, det låter för mig lite nästan som att det finns garderoben med hyllorna på med saker som vi måste lägga in i garderoben en liten stund, och så är det infrastrukturskåpet.

Varför är det viktigt att fokusera så mycket på detta? För det är där över 75 % av all sjukdomsassocierad genetisk variation uppstår.

RICK: Ja. I grund och botten, vad du har är en gemensam uppsättning gener i varje cell, både kodande och icke-kodande. Och du har element, du har faktiska sekvenser som endast fungerar i specifika celltyper. Så ditt mål med att programmera en cell är att använda just den specifika uppsättningen av sekvenser som kommer att ställa in var och en av den gemensamma uppsättningen av gener till den nivå du vill ha. Så du spelar ett fantastiskt musikinstrument med 20,000 XNUMX proteinkodande gener och ungefär samma antal icke-kodande gener. Du gör det genom specifika sekvenser. Vårt problem är att vi faktiskt inte känner till programmet.

Retat ut regleringsprogrammet

HANNE: Så hur börjar man sussera ut det? Vilka är tipsen som du följer när du börjar försöka förstå det här programmet?

RICK: Tipsen är att de reglerande regionerna för varje gen i en cell visar sig själva. De berättar för dig. Och du kan använda olika tekniks som mycket snabbt berättar för dig över hela genomet, i en viss celltyp, låt oss säga i en motorneuron, vilka är alla regulatoriska regioner som finns i den cellen. Du kan till och med se var reostaten är inställd för var och en av dessa gener. Det är där snabb sekvensering har gett oss dessa möjligheter att samtidigt härleda alla aktiva beståndsdelar för gener, både kodande och icke-kodande i genomet av en viss celltyp. 

Vårt problem för tillfället är att du måste göra detta i stort sett en celltyp i taget, och vi har många, många hundra celltyper. Ibland är det svårt att faktiskt se en viss cell utan att kontaminera med andra celler, eftersom alla våra vävnader verkligen är kombinationer av flera celltyper.

JORGE: Är det värt att argumentera analogt om vi sa att med tanke på att varje cell har hela arvsmassan, har varje cell hela sångboken, specifika celltyper väljer att spela specifika symfonier, och maskineriet som hjälper till att reglera arvsmassan är i huvudsak ledaren för orkestern? Det maskineriet är dirigenten som bestämmer vilka låtar som ska spelas, vilka toner som ska slås, med vilken volym de ska slås, i vilket tempo, etc. Är det en rimlig analogi till att förstå genomets reglerande funktion?

RICK: Det är i den meningen att det är lätt att se vad resultatet skulle bli. Men vad som är mer utmanande är, vem skriver alla anteckningar? Vem är kompositören som lade in alla de där tonerna och fick det bra? Kompositören visar sig vara, för de flesta av våra celler och de flesta av våra gener, dessa proteinmolekyler som kallas transkriptionsfaktorer, vars uppgift det är att binda till de reglerande elementen i gener och ge dem en reostatinställning. 

Nu finns det en intressant rynka i detta eftersom på de platser där dessa transkriptionsfaktorer binder, kallar vi dem en förstärkare. På de förstärkarställena görs det också alltid ett RNA från det stället där de är bundna. Vi har först nyligen förstått att RNA spelar en viktig roll i regleringen. Bara för att förstärka det: hur din iPhone känner igen ditt ansikte beror på att förstärkarna som kontrollerar generna för kranial ansiktsstruktur varierar i varje människa. 

Det du har nu här är detta triumvirat. Du har DNA-sekvensen. Den känns igen specifikt av den sammansatta molekylen, transkriptionsfaktorn, men den behöver den här tredje delen, denna RNA-molekyl. Så DNA, RNA och protein fungerar faktiskt tillsammans i dessa reglerande regioner. Och varför är det viktigt att fokusera så mycket på detta? För det är där över 75 % av all sjukdomsassocierad genetisk variation uppstår.

HANNE: Inte för att bli för musikaliskt nördig, men det låter nästan som ett ackord, eller hur? Strukturen med tre toner spelar alla tillsammans för att skapa något större.

RICK: Det stämmer.

Programmerarna

JORGE: Ett av de mest banbrytande områdena inom biologin är vår ökande förmåga att försöka förstå några av de styrande lagarna för hur cellprogram bestäms, hur cellöde bestäms. För mig kom ett av de fascinerande sprången framåt i vår förståelse från det arbete som Yamanaka gjorde, för vilket han tilldelades Nobelpriset, vilket visar att du kan programmera om celltyper genom att bara exponera celler för en mycket liten handfull specifika transkriptionsfaktorer.

HANNE: Kan du beskriva varför just det var ett sådant genombrott för fältet?

RICK: Jag hade en liten roll i den filmen. Det visar sig att även om det är ett mycket stort antal, kan ett litet antal transkriptionsfaktorer identifiera alla regulatoriska element som är väsentliga för den cellens identitet. Och Yamanaka bevisade detta för oss genom att visa att endast fyra av dessa faktorer kunde användas för att programmera vilken mänsklig cell eller vilken manlig cell som helst till motsvarigheten till en embryonal stamcell.

Ett sätt att tänka på detta är, om sången är för dålig, lever inte organismen. Men om det bara är lite av så växer man upp, man blir vuxen och sedan får man alla dessa olika sjukdomar när vi blir äldre.

JORGE: Och det är fantastiskt, eller hur? För det skulle tyda på att systemet på något sätt är designat där otrolig komplexitet hämtas från vad som låter som enkelhet. Fyra transkriptionsfaktorer som bestämmer all den komplexa kaskad av händelser som styr olika celltyper. 

En del av det arbete du har gjort har visat att dessa mastertranskriptionsfaktorer i huvudsak skapar motsvarigheten till kretsar som kontrollerar de gener som är nödvändiga för att en cell ska etablera och bibehålla sitt tillstånd. Kan du beskriva vad du menar med genkontrollkretsar?

RICK: Det finns två coola element i genkontrollkretsarna. En är att när en masterregulator hittar dessa förstärkare och orsakar uttrycket av dess målgener, så är det en del av kretsen, det är resultatet. Det andra elementet som är så coolt är att mastertranskriptionsfaktorerna också reglerar sitt eget uttryck. Så det finns en återkopplingsslinga. Som, du skulle ha ett elektriskt diagram där du låter mästarna styra sitt eget uttryck från sina egna gener, och sedan binda till och kontrollera uttrycket av en måluppsättning gener.

JORGE: Det är ganska vilt. Det är nästan som en cirkulär referens, där transkriptionsfaktorer är protein, det proteinet är gjort av DNA, kodat i en gen. Transkriptionsfaktorer är en del av det maskineri som hjälper uttrycket vid transkription av gener. Och därför säger du att transkriptionsfaktorer – proteinet – hjälper till att reglera uttrycket av generna som gör transkriptionsfaktorerna.

HANNE: Ja. Det finns en mental bild av hela den här symfonin av alla dessa små celler, ni vet, som sjunger ut alla dessa olika texturer. 

Det regulatoriska genomet och sjukdomen

HANNE: Vad förändras det när vi börjar förstå hur allt det här fungerar? Vad kan vi göra med denna kunskap?

RICK: Dessa platser där dessa master transkriptionsfaktorer driver varje cells identitet är där det mesta av mänsklig variation är som orsakar sjukdom. Över 75 % av sjukdomsassocierad variation sker i dessa förstärkarelement som driver nyckelgenerna.

JORGE: Okej. Så det är vilt, eller hur? När vi tänker på mutationer som orsakar eller bidrar till sjukdom, tänker vi normalt på en mutation som sker inom en gen som påverkar proteinet, på något sätt bryter sönder proteinet och som ger upphov till sjukdom.

HANNE: Just det.

JORGE: Men du säger att i 75% av fallen sker den mutationen faktiskt utanför generna, den sker i denna icke-kodande region av genomet. Om genen är låten så är det inte så att låten spelas fel, det är att den kanske spelas för högt, eller för mjukt, eller för långsamt eller för snabbt, men det är det som driver en hel del sjukdomar.

RICK: Ett sätt att tänka på detta är faktiskt, om låten är för dålig, lever inte organismen. Men om det bara är lite av så växer man upp, man blir vuxen och sedan får man alla dessa olika sjukdomar när vi blir äldre.

För första gången har vi alla dessa modeller för hur du ställer in apparaten och får den att fungera.

JORGE: Gör inte fel version av genen, men får fel dosering av genen. För mycket eller för lite.

RICK: Det stämmer. Hur hittar man terapier som hanterar detta? Hur justerar man selektivt upp eller stämmer ner genen? I princip kan vi göra det på många sätt, och det kan vi göra med genterapi. Vi kan göra det med CRISPR-genredigering. Men det viktigaste jag tror att vi har upptäckt under de senaste åren är att var och en av dessa genreglerande element har ett RNA. RNA:t är funktionellt. Det är en reostat som hjälper till att ställa in produktionen av den genen. Det finns nu många sätt som du kan läkemedels-RNA. Vi har ASO:er (antisensoligonukleotider), såsom Spinraza för spinal muskelatrofi. Vi har RNA-interferens. Vi har några nya småmolekylära läkemedel vid horisonten. Om du kunde tänka på sätt att nu programmera ett läkemedel, ett syntetiskt RNA, för att reglera det regulatoriska RNA:t, det regulatoriska RNA:t, har du det huvudsakliga sättet att ställa in vilken som helst gen i vilken cell som helst där den cellen kan få tillgång till det läkemedlet.

HANNE: Så det är inte bara en helt annan förståelse för hur sjukdom uppstår. Men det är en helt annan förståelse för hur vi potentiellt skulle kunna behandla sjukdomar.

RICK: Precis. I princip har vi nu ett programmerbart sätt att utveckla ett läkemedel som stämmer in vilken gen som helst av intresse. I det här ögonblicket programmerar människor helt enkelt syntetiska RNA-molekyler för att producera ett vaccin mot denna pandemi. Ett som är ett så bra resultat som du någonsin kan förvänta dig för ett vaccin.

JORGE: När vi tänker på tillämpningarna av teknik inom biologi, vi brukar försöka göra en av två saker. Antingen försöker vi förhöra biologin väldigt djupt och förstå den, öka nivåerna av dess komplexitet, eller så försöker vi ingripa. Vi kan i allt högre grad förhöra biologi på en mycket, väldigt djup nivå så vi förstår de styrande lagarna eller reglerna av hur celler regleras. Och det har vi, vi har allt mer sofistikerade verktyg, som dessa programmerbara medicinska modaliteter, där vi kan rikta in oss på RNA, mycket, mycket specifikt. Detta kommer liksom att vara denna dygdiga cykel mellan vår förmåga att förhöra biologi och sedan ingripa på allt mer sofistikerade sätt. Och jag tror att det är en av de mest spännande aspekterna av var vi befinner oss idag inom detta område.

RICK: Jag håller med dig. Vi håller nu på att utveckla en så djup förståelse av de många skikten av komplexitet, att vi kan komma med terapeutiska hypoteser som vi inte har sett tidigare. Vi kan göra dem med en hastighet som vi aldrig tänkt på för bara några år sedan. Det tidsmässiga avståndet mellan en grundläggande upptäckt och terapin som gick in i människor för 10 år sedan var 14 år i genomsnitt. Nu är det tänkbart att tänka på att utveckla en terapeutisk hypotes baserad på grundläggande vetenskap, och en terapi som når en patient på nio månader. Det är vi ser att med detta nya vaccin.

HANNE: Så vi förändrar inte bara hur vi förstår sjukdom som uppstår, hur vi behandlar den, utan också hur vi gör själva vetenskapen, och sedan hur snabbt vetenskapen kan hända och förvandlas till klinisk verklighet för patienter.

RNA som kompartmentalisering

RICK: Precis. Men nu är det grädde på moset eftersom vi klassiskt har tänkt på farmakologi på två sätt. En var effekten av läkemedlet på individen. Den andra var effekten av individen på drogen. Och i det senare segmentet är du orolig för distributionen av läkemedlet, vilka vävnader det går till, vilka vävnader det inte är tillgängligt för. Eftersom vi bara antar att när ett läkemedel väl kommer in i en cell så diffunderar det genom cellen och hittar sitt mål. Vi har membranbundna fack, som vi har känt till i ett sekel.

JORGE: Vilket var alltid frågan om cellpermeabilitet, eller hur? Kan det passera membranet?

RICK: Ja. Kan den passera ett membran, och kommer den in i kärnan eller inte? Men vi har först under det senaste decenniet förstått att det också finns många icke-membrankroppar i celler som kallas biomolekylära kondensat eftersom man tror att en anledning till att dessa kroppar bildas är att de kondenserar ungefär som vatten kondenserar till en daggdroppe. Men det som har varit så djupgående med denna förståelse är att dessa kondensat delar upp proteiner, DNA, RNA för specifika funktioner. Och så nu har vi förstått att du kan separera de 5 till 10 miljarder protein- och RNA-molekylerna i en cell i olika fack där de fungerar med sina kompisar.

HANNE: Va.

JORGE: Lämnar vi biologins rike och går in i fysikens rike?

RICK: Vi har gjort precis det eftersom fasseparation anses vara drivkraften. Det är ett fysiskt fenomen som beskrivs av matematik.

HANNE: Wow.

RICK: Nu har vi lärt oss de mest effektiva kemoterapeutiska läkemedlen är koncentrering inne i avdelningarna där deras mål bor. De koncentrerar sig 600 gånger över resten av cellen, så de har målaktivitet på onkogener som är 600 gånger vad vi förväntade oss. Detta berättar inte bara för oss att det finns helt nya insikter som är viktiga i läkemedelsupptäckt och utveckling för framtiden, utan det får oss att vilja bättre förstå vad dessa kondensat gör.

Här är vad jag menar med grädden på moset. Vad vi har kommit att inse är att dessa kondensatfack som funktionaliserar cellen på så viktiga sätt regleras av RNA. Deras bildning kan stimuleras av RNA. Om du producerar för mycket RNA, tar du upp reostaten till 11, det kommer att lösa upp ett kondensat. Så plötsligt inser vi att RNA-utgången på vilken plats som helst inuti en cell kan ställa in funktionen för vad som helst genom att förbättra eller lösa upp de kondensat där den funktionen förekommer. Och det är, tror jag, djupgående eftersom det är ett annat sätt som ett programmerbart RNA, en syntetisk RNA-molekyl, kan användas för att ställa in funktionen hos en cell som har blivit dysfunktionell. För första gången har vi alla dessa modeller för hur du ställer in apparaten och får den att fungera.

HANNE: Ännu en ratt att slå.

RICK: Men hur stänger du av det då? Det visar sig att när du gör det där långa RNA:t är det bara en stor sträng av negativa laddningar, och det löser upp kondensatet och stänger av genen. Det är så gener regleras. Du justerar kondensatet med ett RNA, sedan stänger du av det med RNA-produkten som görs när genen blir helt transkriberad.

HANNE: Superkul. Så en av och på-knapp, verkligen.

RICK: Det är en av/på-knapp som ingen förutsåg. Och det betyder återigen, om du har ett programmerbart läkemedel, har du ett nytt sätt att rikta in dig på cellulära funktioner som är dysfunktionella, en ny lösning på ett terapeutiskt problem.

JORGE: En mans skräp-DNA är en annan mans sofistikerade genomreglerande maskineri.

HANNE: Eller alla mäns. 

Upplagd 15 juli 2022

Teknik, innovation och framtiden, som berättas av dem som bygger den.

Tack för att du registrerade dig.

Kolla din inkorg för ett välkomstmeddelande.

Tidsstämpel:

Mer från Andreessen Horowitz