Bilim PlatosuBlockchain Veri Zekası için GPT-3 Nasıl Oluşturulur? Dikey Arama. Ai.

Bilim için GPT-3 Nasıl Oluşturulur

Bir görüntü oluşturmak istiyorum 1932'deki "Gökdelenin Tepesinde Öğle Yemeği" tarzında bir gökdelen üzerinde çalışan velociraptorlar? DALL-E'yi kullanın. Hayali bir şey yaratmak istiyorum Peter Thiel, Elon Musk ve Larry Page'in hazırladığı stand-up komedi şovu? GPT-3'ü kullanın. COVID-19 araştırmalarını derinlemesine anlamak ve sorularınızı kanıtlara dayalı olarak yanıtlamak mı istiyorsunuz? Boolean araması yapmayı öğrenin, bilimsel makaleleri okuyun ve belki de doktora derecesi alın çünkü çok sayıda bilimsel araştırma yayınında eğitilmiş üretken yapay zeka modelleri yoktur. Öyle olsaydı bilimsel sorulara kanıta dayalı, sade bir dille yanıt bulmak en basit faydalardan biri olurdu. Bilim için üretken yapay zeka bu durumu tersine çevirmeye yardımcı olabilir bilimde yeniliğin yavaşlaması by gerçekleştirmek kolay ve daha ucuz yeni fikirler bulmak için. Bu tür modeller aynı zamanda başarısızlığı kesin olan terapötik hipotezlere ilişkin veri destekli uyarılar da sağlayabilir, insan önyargısını dengeleyebilir ve milyar dolardan kaçınabilir, onlarca yıllık çıkmaz sokaklar. Son olarak, bu tür modeller savaşabilir tekrarlanabilirlik krizi Araştırma sonuçlarını haritalandırarak, tartarak ve bağlamsallaştırarak güvenilirlik konusunda bir puan sağlayın.

Peki neden bilim için bir DALL-E veya GPT-3'ümüz yok? Bunun nedeni, bilimsel araştırmaların dünyanın en değerli içeriği olduğu kadar aynı zamanda en az erişilebilen ve en az anlaşılan içeriğidir. Bilim için üretken yapay zekayı mümkün kılmak amacıyla bilimsel verilerin geniş ölçekte kilidini açmanın ne gerektiğini ve bunun araştırmaya katılım şeklimizi nasıl dönüştüreceğini açıklayacağım. 

Bilimsel araştırma verilerini zorlaştıran şey nedir?

Araştırma yayınları, şimdiye kadar oluşturulmuş içerik ve bilgi açısından dünyanın en önemli depolarından bazılarıdır. Fikirleri ve bulguları zaman ve disiplinler boyunca birbirine bağlarlar ve bir kütüphane ağı tarafından sonsuza kadar korunurlar. Kanıt, analiz, uzman görüşü ve istatistiksel ilişkilerle desteklenirler. Son derece değerlidirler, ancak büyük ölçüde web'den gizlenirler ve çok verimsiz bir şekilde kullanılırlar. İnternet sevimli, sevimli kedi videolarıyla dolu, ancak büyük ölçüde en ileri kanser araştırmalarından yoksun. Örnek olarak, Web of Science bilimsel bilginin en kapsamlı indekslerinden biridir. Onlarca yıldır ortalıkta dolaşıyor, ancak muhtemelen çoğu okuyucunun bırakın etkileşim kurmayı, adını bile duymadığı bir şey. Çoğumuzun araştırma makalelerine erişimi yok ve erişimimiz olsa bile, bunlar yoğun, anlaşılması zor ve PDF olarak paketlenmiş (web için değil, yazdırmak için tasarlanmış bir format).

Bilimsel makalelere kolayca erişilemediği için verileri GPT-3 veya DALL-E gibi üretken modelleri eğitmek için kolayca kullanamıyoruz. Eğer Can Bir araştırmacının bir deney önerebileceğini ve bir yapay zeka modelinin onlara bunun daha önce yapılıp yapılmadığını anında söyleyebileceğini (ve daha da iyisi, onlara sonucu verebileceğini) hayal edin. Daha sonra, yeni bir deneyden elde edilen verilere sahip olduklarında yapay zeka, sonuca dayalı olarak bir takip deneyi önerebilir. Son olarak, araştırmacının sonuçlarını yükleyebilmesi ve yapay zeka modelinin sonuç taslağını yazabilmesi durumunda ne kadar zaman kazanılabileceğini hayal edin. onlara. Bilimde DALL-E'ye en çok yaklaştığımız nokta Google Akademik'tir, ancak bu sürdürülebilir veya ölçeklenebilir bir çözüm değildir. IBM Watson da burada tanımladığım şeylerin çoğunu başarmak için yola çıktı, ancak çalışmaların çoğu, büyük dil modellerindeki son gelişmelerin öncesinde gerçekleşti ve pazarlama heyecanını karşılayacak uygun veya yeterli verileri kullanmadı.

Tanımladığım değerin kilidini açmak için uzun vadeli yatırıma, bağlılığa ve vizyona ihtiyacımız var. Önerildiği gibi geçenlerde in gelecekBilimsel yayınları geniş ölçekte birleştirilip analiz edilecek materyaller olarak ele almamız gerekiyor. Engelleri kaldırdığımızda, veriye aç, üretken yapay zeka modellerini beslemek için bilimi kullanabileceğiz. Bu modeller, bilimi hızlandırmak ve bilimsel okuryazarlığı artırmak için muazzam bir potansiyele sahiptir; örneğin onları yeni bilimsel fikirler üretme konusunda eğitmek, bilim adamlarının geniş bilimsel literatürü yönetmelerine ve yönlendirmelerine yardımcı olmak, hatalı ve hatta tahrif edilmiş araştırmaları tespit etmeye yardımcı olmak ve karmaşık araştırma bulgularını sentezleyip farklı sonuçlara dönüştürmek gibi yollarla. sıradan insan konuşması.

Bilim için DALL-E veya GPT-3'ü nasıl alırız?

Teknolojiyle ilgiliyseniz, bir arkadaşınıza aşağıdaki gibi üretken yapay zeka modellerinden çıktıları gösterin: DALL-E or GPT 3 onlara sihir göstermek gibidir. Bu araçlar webin yeni neslini temsil ediyor. Üretken kapasiteye sahip araçlar yaratmak için basit bir bağlantının ötesinde, devasa miktardaki bilginin sentezinden elde edilirler. Peki herkesin bilimsel literatüre sade bir dille soru sorabileceği ve kanıtlarla desteklenen anlaşılır bir cevap alabileceği benzer şekilde sihirli bir bilim deneyimini nasıl yaratabiliriz? Araştırmacıların hipotezlerini oluşturmalarına, geliştirmelerine, hassaslaştırmalarına ve test etmelerine nasıl yardımcı olabiliriz? Milyarlarca doların israf edilmesini potansiyel olarak nasıl önleyebiliriz? Alzheimer araştırmasında başarısız hipotezler ve Genetik ve depresyon arasındaki hatalı bağlantılar

Bu soruların çözümleri bilim kurgu gibi gelebilir, ancak bilimsel çalışma yalnızca parçalarının toplamından daha fazlası için kullanıldığında şaşırtıcı ve düşünülemez şeyler yapabileceğimize dair kanıtlar var. Gerçekten de yaklaşık 200,000 protein yapısını kullanan içinde Protein Veri Bankası verdi AlfaKatlama Yetenek protein yapılarını doğru bir şekilde tahmin etmek için yapılan bir şey şimdiye kadar belgelenen her protein (200 milyondan fazla!). Araştırma makalelerinden protein yapılarına benzer şekilde yararlanmak doğal bir sonraki adım olacaktır. 

Kağıtları minimum bileşenlerine ayırın

Araştırma makaleleri; rakamlar, grafikler, istatistiksel ilişkiler ve diğer makalelere yapılan referanslar dahil olmak üzere değerli bilgilerle doludur. Bunları çeşitli bileşenlere ayırmak ve geniş ölçekte kullanmak, makineleri bilimle ilgili farklı türdeki işler, istemler veya sorgular için eğitmemize yardımcı olabilir. Basit sorular, tek bir bileşen türüne ilişkin eğitimle yanıtlanabilir, ancak daha karmaşık sorular veya yönlendirmeler, birden fazla bileşen türünün dahil edilmesini ve bunların birbirleriyle ilişkilerinin anlaşılmasını gerektirir.  

Karmaşık potansiyel istemlerin bazı örnekleri şunlardır:

“Bana bu hipotezin neden yanlış olduğunu söyle”
“Bana tedavi fikrimin neden işe yaramayacağını söyle”
“Yeni bir tedavi fikri üretin”
“Sosyal politika X'i destekleyecek hangi kanıtlar var?”
“Bu alanda en güvenilir araştırmayı kim yayınladı?”
“Verilerime dayanarak bana bilimsel bir makale yaz”

Bazı gruplar bu vizyon doğrultusunda ilerleme kaydediyor. Örneğin, Çıkarmak araştırmacıların sorularını yanıtlamaya yardımcı olmak için GPT-3'ü milyonlarca makale başlığına ve özete uyguluyor - tıpkı Alexa gibi, ancak bilim için. sistem Farklı kavramların ve varlıkların nasıl bağlantılı olduğunu gösteren varlıklar arasındaki istatistiksel ilişkileri çıkarır. astar boya Kendi başına araştırma makalelerine odaklanmaz, ancak arXiv ile çalışır ve şirketler ve hükümetler tarafından birçok kaynaktan gelen büyük miktarda veriyi sentezlemek ve anlamak için kullanılan bir bilgi panosu sağlar. 

Tüm bileşenlere erişin

Ne yazık ki, bu gruplar esas olarak tam metinlere değil, yalnızca başlıklara ve özetlere güveniyorlar çünkü yaklaşık altı makaleden beşine serbestçe veya kolayca erişilemiyor. Verilere veya makalelere sahip olan Web of Science ve Google gibi grupların lisansları ve kullanım kapsamları sınırlı veya tanımsız. Google örneğinde, yapay zeka modellerini Google Akademik'teki tam metinli bilimsel araştırmalara göre eğitmeye yönelik kamuya duyurulan hiçbir çabanın neden olmadığı açık değildir. Şaşırtıcı bir şekilde bu durum, dünyayı durma noktasına getiren COVİD-19 salgınının ortasında bile değişmedi. Google AI ekibi, halkın sorabileceği bir yöntemin prototipini oluşturarak harekete geçti COVİD-19 hakkında. Ancak işin ilginç yanı şu ki, bunu Google Akademik'i değil, yalnızca PubMed'in açık erişimli makalelerini kullanarak yaptılar. 

Makalelere erişim sağlama ve bunları tek tek okumaktan daha fazlası için kullanma konusu, grupların onlarca yıldır savunduğu bir konu. Ben de yaklaşık on yıldır bu konu üzerinde kişisel olarak çalışıyorum ve açık erişimli bir yayın platformu başlattım. Kazanan Doktora çalışmamın son yılında ve ardından geleceğin makalesi denilen başka bir startup'ta Authorea. Bu girişimlerin hiçbiri tam olarak istediğim gibi sonuçlanmasa da beni şu anki işime yönlendirdiler. SciTEdoğrudan yayıncılarla çalışarak erişim sorununu en azından kısmen çözmüştür. 

Bileşenleri bağlayın ve ilişkileri tanımlayın

Amacımız SciTE tanıtmaktır yeni nesil alıntılar - Akıllı Alıntılar olarak adlandırılır - herhangi bir makalenin, araştırmacının, derginin veya konunun nasıl ve neden alıntılandığını ve literatürde daha genel olarak tartışıldığını gösterir. Yayıncılarla çalışarak cümleleri doğrudan metin içinde referanslarını kullandıkları tam metin makalelerden çıkarıyoruz. Bu cümleler, makalelerin daha yeni çalışmalar tarafından nasıl alıntılandığına dair niteliksel bir bakış açısı sunar. Araştırma açısından biraz Rotten Tomatoes'a benziyor.

Bu, tam metin makalelere erişimi ve yayıncılarla işbirliğini gerektirir; böylece alıntı ifadelerini geniş ölçekte çıkarmak ve analiz etmek için makine öğrenimini kullanabiliriz. Başlamak için yeterli sayıda Açık Erişim makalesi olduğundan, kavram kanıtını oluşturmayı başardık ve sistemimizde indekslenen makalelerin keşfedilebilirliğinin arttığını yayıncılara tek tek gösterdik ve onlara bu makaleleri yayınlayabilecekleri bir sistem sağladık. daha iyi ölçümler göster Daha sorumlu araştırma değerlendirmesi için. Bizim uzman açıklamaları olarak gördüklerimizi, onlar makalelerinin önizlemesi olarak gördüler. Yayıncılar artık toplu olarak imza attı ve yayınlanan tüm makalelerin yarısından fazlasından 1.1 milyarın üzerinde Akıllı Alıntıyı indeksledik.

Yapay zeka modellerini eğitmek için ilişkisel verileri kullanın

Makalelerden çıkarılan bileşenler ve ilişkiler, araştırmaya yönelik yeni büyük dil modellerini eğitmek için kullanılabilir. GPT-3 çok güçlü olmasına rağmen bilim ve teknoloji üzerinde çalışmak için tasarlanmamıştır. SAT'ta görebileceğiniz soruları yanıtlamakta yetersiz kalıyor. GPT-2 (GPT-3'ün önceki bir sürümü) piyasaya sürüldüğünde milyonlarca araştırma makalesi üzerinde eğitilerek uyarlanmıştır, belirli bilgi görevlerinde tek başına GPT-2'den daha iyi çalıştı. Bu, modelleri eğitmek için kullanılan verilerin son derece önemli olduğunu vurgulamaktadır. 

 Son zamanlarda bazı gruplar akademik makaleler yazmak için GPT-3'ü kullandıBu etkileyici olsa da, göstermeyi iddia ettikleri gerçekler veya argümanlar çok yanlış olabilir. Model basit SAT tarzı soruları doğru alamazsa, tam makale yazacağına güvenebilir miyiz? SCI genGPT-3'ten yaklaşık 20 yıl öncesine dayanan GPT-XNUMX, gerçek gibi görünen kağıtlar üretmenin nispeten kolay olduğunu gösterdi. Sistemleri çok daha basit olmasına rağmen, çeşitli konferanslara kabul edildi. Sadece bilimsel görünmekle kalmayıp aynı zamanda bilimsel olan ve makineler ve insanlar hakkındaki iddiaları doğrulayacak bir sistem gerektiren bir modele ihtiyacımız var. Meta yakın zamanda bir tanıtım yaptı Vikipedi alıntılarını doğrulama sistemi, bazı yayıncıların sesli olarak dile getirdiği bir şey Keşke bilimsel yayınlar olsaydı.

Mevcut ilerleme

Yine, bu sistemi hayata geçirmenin önündeki en önemli engel, onu oluşturmak için gereken belgelere ve kaynaklara erişim eksikliğidir. Belgelerin veya bilgilerin geniş ölçekte kullanıma sunulduğu durumlarda şunu görüyoruz: Araçlar ve yeni modeller gelişiyor. Google Patent ekibi kullanıldı Patent analizine yardımcı olacak bir sistemi eğitmek için 100 milyon patent, etkili bir şekilde bir GooglePatentBERT. Diğerleri gibi modeller tanıttı BioBERT ve SciBERTve yalnızca belirli konu alanlarındaki bilimsel metinlerin yalnızca ~%1'i hakkında eğitim almış olmalarına rağmen, bilimdeki alıntı sınıflandırma sistemimiz de dahil olmak üzere bilimsel görevlerde etkileyicidirler. 

Daha yakın bir zamanda, bir AkademikBERT BERT'i eğitmek için tüm bilimsel literatürü etkili bir şekilde kullanan model piyasaya sürüldü. Erişim sorununun üstesinden geliyorlar ancak bunun nasıl yapılacağı konusunda özellikle sessizler ve kullanımlarının "tüketim amaçlı olmadığını" vurguluyorlar. Bu kullanım durumu kapıları açabilir diğerlerinin yayıncıların açık izni olmadan makaleleri kullanması, bilimin DALL-E'sini oluşturmada önemli bir adım olabilir. Ancak şaşırtıcı bir şekilde ScholarBERT, çeşitli özel bilgi görevlerinde SciBERT gibi daha küçük bilim dili modellerine göre daha kötü performans gösterdi. 

Daha da önemlisi, BERT tarzı modeller, GPT-3 gibi büyük dil modellerinden çok daha küçük ölçeklidir ve GPT-3 yanıltıcılığının çoğuna güç veren aynı türden genel yönlendirmeye ve bağlam içi öğrenmeye izin vermezler. Geriye şu soru kalıyor: ScholarBERT'ten gelen aynı verileri GPT-3 gibi ölçeği büyütülmüş bir üretken modeli eğitmek için uygularsak ne olur? Peki ya bir şekilde makineden gelen yanıtların nereden geldiğini gösterebilseydik, belki de onları doğrudan literatüre bağlayabilseydik (Akıllı Alıntılar gibi)?

Neden şimdi?

Neyse ki kağıtlar daha açık hale geliyor ve makineler daha güçlü hale geliyor. Artık makalelerde ve bağlantılı veri havuzlarında bulunan verileri, soruları yanıtlayacak ve araştırmaya dayalı yeni fikirleri sentezleyecek makineleri eğitmek için kullanmaya başlayabiliriz. Bu, sağlık hizmetleri, politika, teknoloji ve çevremizdeki her şey için dönüştürücü olabilir. Yalnızca belge başlıklarını değil, özellikle yanıtları arasaydık, bunun tüm disiplinlerdeki araştırmaları ve iş akışlarını nasıl etkileyeceğini hayal edin. 

 Dünyanın bilimsel bilgisini erişilebilirlik ve anlaşılırlık şeklindeki çifte engelden kurtarmak, tıklamalara, görüntülemelere, beğenilere ve ilgiye odaklanan bir web'den kanıt, veri ve doğruluk odaklı bir web'e geçişin sağlanmasına yardımcı olacaktır. İlaç sektörünün bunu gerçekleştirmesi açıkça teşvik ediliyor, dolayısıyla yapay zeka kullanarak potansiyel ilaç hedeflerini belirleyen startupların sayısı artıyor. Ancak ben halkın, hükümetlerin ve Google'ı kullanan herkesin güven ve zaman kazanmak amacıyla ücretsiz aramalardan vazgeçmeye istekli olabileceğine inanıyorum. tasarruf. Dünyanın böyle bir sisteme hem şiddetle, hem de hızla ihtiyacı var. 


 

 

18 Ağustos 2022'de yayınlandı

Onu inşa edenlerin söylediği gibi teknoloji, yenilik ve gelecek.

Üye olduğunuz için teşekkürler.

Karşılama notu için gelen kutunuzu kontrol edin.

Zaman Damgası:

Den fazla Andreessen Horowitz