Cách xây dựng GPT-3 cho khoa học Thông tin dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Cách tạo GPT-3 cho Khoa học

Muốn tạo hình ảnh của vận tốc làm việc trên một tòa nhà chọc trời, theo phong cách "Ăn trưa trên đỉnh A Skyscraper" năm 1932? Sử dụng DALL-E. Muốn tạo ra một hình ảnh tưởng tượng chương trình hài kịch độc lập của Peter Thiel, Elon Musk và Larry Page? Sử dụng GPT-3. Bạn muốn hiểu sâu về nghiên cứu COVID-19 và trả lời câu hỏi của bạn dựa trên bằng chứng? Tìm hiểu cách thực hiện tìm kiếm Boolean, đọc các bài báo khoa học và có thể lấy bằng tiến sĩ, bởi vì không có mô hình AI phổ biến nào được đào tạo trên toàn bộ các ấn phẩm nghiên cứu khoa học. Nếu có, nhận được các câu trả lời bằng ngôn ngữ đơn giản, có bằng chứng cho các câu hỏi khoa học sẽ là một trong những lợi ích đơn giản nhất. Trí tuệ nhân tạo cho khoa học có thể giúp đảo ngược giảm tốc độ đổi mới trong khoa học by lam no dễ dàng hơn rẻ hơn để tìm ý tưởng mới. Các mô hình như vậy cũng có thể cung cấp các cảnh báo dựa trên dữ liệu về các giả thuyết điều trị chắc chắn sẽ thất bại, cân bằng thành kiến ​​của con người và tránh được hàng tỷ đô la, những con hẻm mù kéo dài hàng thập kỷ. Cuối cùng, các mô hình như vậy có thể chống lại cuộc khủng hoảng khả năng tái sản xuất bằng cách lập bản đồ, cân nhắc và bối cảnh hóa kết quả nghiên cứu, cung cấp điểm về độ tin cậy.

Vậy tại sao chúng ta không có DALL-E hoặc GPT-3 cho khoa học? Lý do là mặc dù nghiên cứu khoa học là nội dung có giá trị nhất thế giới, nó cũng là nội dung ít tiếp cận và dễ hiểu nhất trên thế giới. Tôi sẽ giải thích những gì cần thiết để mở khóa dữ liệu khoa học trên quy mô lớn để làm cho trí tuệ nhân tạo cho khoa học trở nên khả thi và nó sẽ biến đổi cách chúng ta tham gia vào nghiên cứu như thế nào. 

Điều gì khiến dữ liệu nghiên cứu khoa học trở nên thách thức

Các ấn phẩm nghiên cứu là một số kho lưu trữ nội dung và thông tin quan trọng nhất thế giới từng được tạo ra. Chúng gắn kết các ý tưởng và phát hiện lại với nhau theo thời gian và các lĩnh vực, và được lưu giữ mãi mãi bởi một mạng lưới các thư viện. Chúng được hỗ trợ bởi bằng chứng, phân tích, cái nhìn sâu sắc của chuyên gia và các mối quan hệ thống kê. Chúng cực kỳ có giá trị, nhưng chúng phần lớn bị ẩn trên web và được sử dụng rất kém hiệu quả. Trên mạng có rất nhiều video về mèo dễ thương, âu yếm nhưng phần lớn không có nghiên cứu về ung thư tiên tiến. Ví dụ, trang web Khoa học là một trong những chỉ số tổng hợp nhất của tri thức khoa học. Nó đã tồn tại trong nhiều thập kỷ, nhưng nó có lẽ là thứ mà hầu hết độc giả thậm chí chưa bao giờ nghe nói đến, chứ đừng nói đến tương tác. Hầu hết chúng ta không có quyền truy cập vào các tài liệu nghiên cứu và ngay cả khi chúng ta làm vậy, chúng dày đặc, khó hiểu và được đóng gói dưới dạng PDF - một định dạng được thiết kế để in chứ không phải cho web.

Bởi vì các bài báo khoa học không thể dễ dàng truy cập, chúng tôi không thể dễ dàng sử dụng dữ liệu để đào tạo các mô hình tổng quát như GPT-3 hoặc DALL-E. Bạn có thể Hãy tưởng tượng nếu một nhà nghiên cứu có thể đề xuất một thử nghiệm và một mô hình AI có thể ngay lập tức cho họ biết liệu nó đã được thực hiện trước đó hay chưa (và tốt hơn là cung cấp cho họ kết quả)? Sau đó, khi họ có dữ liệu từ một thử nghiệm mới, AI có thể đề xuất một thử nghiệm tiếp theo dựa trên kết quả đó. Cuối cùng, hãy tưởng tượng thời gian có thể được tiết kiệm nếu nhà nghiên cứu có thể tải lên kết quả của họ và mô hình AI có thể viết bản thảo kết quả cho họ. Phương pháp gần nhất mà chúng tôi từng tiếp cận với DALL-E của khoa học là Google Scholar, nhưng nó không phải là một giải pháp bền vững hoặc có thể mở rộng. IBM Watson cũng đặt ra để đạt được nhiều điều mà tôi mô tả ở đây, nhưng hầu hết công việc đều đi trước những tiến bộ gần đây trong các mô hình ngôn ngữ lớn và không sử dụng dữ liệu thích hợp hoặc đủ để phù hợp với sự cường điệu tiếp thị.

Đối với kiểu mở khóa giá trị mà tôi đang mô tả, chúng ta cần đầu tư, cam kết và tầm nhìn dài hạn. Theo đề xuất gần đây in Tương lai, chúng ta cần coi các ấn phẩm khoa học như chất nền để được kết hợp và phân tích trên quy mô lớn. Một khi chúng tôi loại bỏ các rào cản, chúng tôi sẽ có thể sử dụng khoa học để cung cấp các mô hình AI sinh sản đói dữ liệu. Những mô hình này có tiềm năng to lớn trong việc thúc đẩy khoa học và nâng cao hiểu biết khoa học, chẳng hạn như thông qua việc đào tạo họ để tạo ra các ý tưởng khoa học mới, giúp các nhà khoa học quản lý và điều hướng các tài liệu khoa học rộng lớn, giúp xác định các nghiên cứu bị sai sót hoặc thậm chí bị làm sai lệch, đồng thời tổng hợp và chuyển các kết quả nghiên cứu phức tạp thành lời nói của con người bình thường.

Làm cách nào để chúng ta có được DALL-E hoặc GPT-3 cho khoa học?

Nếu bạn là người yêu thích công nghệ, hãy hiển thị kết quả đầu ra của một người bạn từ các mô hình AI phổ biến như DALL-E or GPT-3 giống như cho họ thấy ma thuật. Những công cụ này đại diện cho thế hệ tiếp theo của web. Chúng bắt nguồn từ việc tổng hợp một lượng lớn thông tin, vượt ra ngoài một mối liên kết đơn giản, để tạo ra các công cụ có khả năng sinh sản. Vậy làm thế nào chúng ta có thể tạo ra một trải nghiệm kỳ diệu tương tự trong khoa học, nơi ai cũng có thể đặt câu hỏi về tài liệu khoa học bằng ngôn ngữ đơn giản và nhận được câu trả lời dễ hiểu được hỗ trợ bởi bằng chứng? Làm cách nào để chúng tôi có thể giúp các nhà nghiên cứu tạo, phát triển, tinh chỉnh và kiểm tra các giả thuyết của họ? Làm thế nào chúng ta có thể tránh lãng phí hàng tỷ đô la vào giả thuyết thất bại trong nghiên cứu bệnh Alzheimerkết nối sai lầm giữa di truyền và trầm cảm

Giải pháp cho những câu hỏi này nghe có vẻ giống như khoa học viễn tưởng, nhưng có bằng chứng cho thấy rằng chúng ta có thể làm được những điều đáng kinh ngạc và không thể tưởng tượng được khi công trình khoa học được sử dụng nhiều hơn là chỉ tổng hợp các phần của nó. Thật vậy, sử dụng gần 200,000 cấu trúc protein trong Ngân hàng dữ liệu protein đã được cho AlphaFold khả năng để dự đoán chính xác cấu trúc protein, điều gì đó vừa được thực hiện để mọi protein từng được ghi nhận (hơn 200 triệu!). Tận dụng các tài liệu nghiên cứu theo cách tương tự như cấu trúc protein sẽ là một bước tự nhiên tiếp theo. 

Phân chia giấy tờ thành các thành phần tối thiểu của chúng

Các bài nghiên cứu có đầy đủ thông tin có giá trị, bao gồm các số liệu, biểu đồ, các mối quan hệ thống kê và các tham chiếu đến các bài báo khác. Chia nhỏ chúng thành nhiều thành phần khác nhau và sử dụng chúng trên quy mô lớn có thể giúp chúng tôi đào tạo máy móc cho các loại công việc, lời nhắc hoặc truy vấn khác nhau liên quan đến khoa học. Các câu hỏi đơn giản có thể được trả lời khi được đào tạo về một loại thành phần, nhưng các câu hỏi hoặc lời nhắc phức tạp hơn sẽ yêu cầu sự kết hợp của nhiều loại thành phần và sự hiểu biết về mối quan hệ của chúng với nhau.  

Một số ví dụ về lời nhắc tiềm năng phức tạp là:

"Hãy cho tôi biết tại sao giả thuyết này sai"
"Hãy cho tôi biết tại sao ý tưởng điều trị của tôi không hiệu quả"
“Tạo ra một ý tưởng điều trị mới”
"Có bằng chứng nào để hỗ trợ chính sách xã hội X?"
"Ai đã xuất bản nghiên cứu đáng tin cậy nhất trong lĩnh vực này?"
“Viết cho tôi một bài báo khoa học dựa trên dữ liệu của tôi”

Một số nhóm đang tiến bộ trên tầm nhìn này. Ví dụ, Gợi ra áp dụng GPT-3 cho hàng triệu đầu sách và bản tóm tắt trên giấy để giúp trả lời các câu hỏi của các nhà nghiên cứu - giống như Alexa, nhưng dành cho khoa học. WELFARE trích xuất các quan hệ thống kê giữa các thực thể cho thấy các khái niệm và thực thể khác nhau được liên kết như thế nào. Primer không tập trung vào các tài liệu nghiên cứu, nhưng nó hoạt động với arXiv và cung cấp một bảng điều khiển thông tin được các tập đoàn và chính phủ sử dụng để tổng hợp và hiểu một lượng lớn dữ liệu từ nhiều nguồn. 

Truy cập tất cả các thành phần

Thật không may, các nhóm này chủ yếu chỉ dựa vào tiêu đề và tóm tắt, không phải toàn văn, vì khoảng năm trong số sáu bài báo không được truy cập miễn phí hoặc dễ dàng. Đối với các nhóm như Web of Science và Google có dữ liệu hoặc giấy tờ, giấy phép và phạm vi sử dụng của họ là hạn chế hoặc không xác định. Trong trường hợp của Google, không rõ tại sao không có nỗ lực nào được công bố công khai để đào tạo các mô hình AI về nghiên cứu khoa học toàn văn trong Google Scholar. Thật ngạc nhiên, điều này thậm chí không thay đổi giữa đại dịch COVID-19, khiến thế giới rơi vào bế tắc. Nhóm AI của Google đã tăng cường, tạo mẫu một cách để công chúng hỏi về COVID-19. Nhưng - và đây là người khởi xướng - họ đã làm như vậy chỉ sử dụng các giấy tờ truy cập mở từ PubMed, không phải Google Scholar. 

Vấn đề tiếp cận với các tờ báo và sử dụng chúng nhiều hơn là chỉ đọc chúng một lần là điều mà các nhóm đã ủng hộ trong nhiều thập kỷ. Cá nhân tôi đã tự mình nghiên cứu nó trong gần một thập kỷ, tung ra một nền tảng xuất bản truy cập mở có tên là Người chiến thắng trong năm cuối Tiến sĩ của tôi, và sau đó làm việc để xây dựng bài báo của tương lai tại một công ty khởi nghiệp khác được gọi là Tác giả. Mặc dù cả hai sáng kiến ​​đó đều không hoàn toàn diễn ra theo cách tôi muốn, nhưng chúng đã dẫn tôi đến công việc hiện tại của tôi tại châm chích, ít nhất một phần đã giải quyết được vấn đề truy cập bằng cách làm việc trực tiếp với các nhà xuất bản. 

Kết nối các thành phần và xác định mối quan hệ

Mục tiêu của chúng tôi là châm chích là để giới thiệu thế hệ tiếp theo của trích dẫn - được gọi là Trích dẫn thông minh - hiển thị cách thức và lý do tại sao bất kỳ bài báo, nhà nghiên cứu, tạp chí hoặc chủ đề nào đã được trích dẫn và thảo luận chung hơn trong tài liệu. Bằng cách làm việc với các nhà xuất bản, chúng tôi trích xuất các câu trực tiếp từ các bài báo toàn văn, nơi họ sử dụng tài liệu tham khảo trong văn bản. Những câu này cung cấp một cái nhìn sâu sắc định tính về cách các bài báo được trích dẫn bởi công việc mới hơn. Nó hơi giống Rotten Tomatoes để nghiên cứu.

Điều này yêu cầu quyền truy cập vào các bài báo toàn văn và hợp tác với các nhà xuất bản để chúng tôi có thể sử dụng công nghệ máy học để trích xuất và phân tích các câu trích dẫn trên quy mô lớn. Vì đã có đủ bài viết về Truy cập Mở để bắt đầu, chúng tôi có thể xây dựng bằng chứng về khái niệm và từng bài báo một, chúng tôi đã chứng minh cho các nhà xuất bản thấy khả năng khám phá ngày càng tăng của các bài báo được lập chỉ mục trong hệ thống của chúng tôi và cung cấp cho họ một hệ thống để hiển thị các số liệu tốt hơn để đánh giá nghiên cứu có trách nhiệm hơn. Những gì chúng tôi xem là tuyên bố của chuyên gia, họ xem như bản xem trước các bài báo của họ. Các nhà xuất bản hiện đã đăng ký hàng loạt và chúng tôi đã lập chỉ mục hơn 1.1 tỷ Trích dẫn Thông minh từ hơn một nửa tổng số bài báo đã xuất bản.

Sử dụng dữ liệu quan hệ để đào tạo các mô hình AI

Các thành phần và quan hệ trích xuất từ ​​các bài báo có thể được sử dụng để đào tạo các mô hình ngôn ngữ lớn mới cho nghiên cứu. GPT-3, mặc dù rất mạnh mẽ, nhưng không được xây dựng để hoạt động dựa trên khoa học và trả lời kém các câu hỏi bạn có thể gặp trong bài thi SAT. Khi GPT-2 (phiên bản trước đó của GPT-3) là điều chỉnh bằng cách đào tạo nó trên hàng triệu bài báo nghiên cứu, nó hoạt động tốt hơn GPT-2 một mình trên các nhiệm vụ kiến ​​thức cụ thể. Điều này nhấn mạnh rằng dữ liệu được sử dụng để đào tạo các mô hình là cực kỳ quan trọng. 

 Một số nhóm gần đây đã đã sử dụng GPT-3 để viết bài báo học tập, và mặc dù điều này rất ấn tượng, nhưng các sự kiện hoặc lập luận mà họ có thể cố gắng hiển thị có thể rất sai. Nếu mô hình không thể trả lời đúng những câu hỏi kiểu SAT đơn giản, chúng ta có thể tin tưởng nó để viết một bài báo đầy đủ không? KHOA HỌC, ra đời trước GPT-3 gần 20 năm, cho thấy rằng việc tạo ra các giấy tờ trông giống như thật là tương đối dễ dàng. Hệ thống của họ, trong khi đơn giản hơn nhiều, đã tạo ra các giấy tờ được chấp nhận tham gia các hội nghị khác nhau. Chúng ta cần một mô hình không chỉ trông khoa học mà còn phải khoa học, và điều đó yêu cầu một hệ thống xác minh các tuyên bố đối với máy móc và con người. Meta gần đây đã giới thiệu một hệ thống xác minh các trích dẫn Wikipedia, điều mà một số nhà xuất bản đã xưng hô ước gì họ có những ấn phẩm học thuật.

Tiến độ hiện tại

Một lần nữa, một yếu tố cản trở quan trọng để đưa hệ thống này thành hiện thực là thiếu quyền truy cập vào các giấy tờ và nguồn lực để tạo ra nó. Khi giấy tờ hoặc thông tin có sẵn để sử dụng trên quy mô lớn, chúng tôi thấy các công cụ và mô hình mới phát triển mạnh mẽ. Nhóm Google Patent đã sử dụng 100 triệu bằng sáng chế để đào tạo một hệ thống giúp phân tích bằng sáng chế, thực sự là một GooglePatentBERT. Những người khác đã giới thiệu các mô hình như BioBERTkhoa học, và mặc dù thực tế là họ chỉ được đào tạo về khoảng ~ 1% văn bản khoa học chỉ trong các lĩnh vực chủ đề cụ thể, nhưng họ rất ấn tượng trong các nhiệm vụ học thuật, bao gồm cả hệ thống phân loại trích dẫn của chúng tôi tại hiện trường. 

Gần đây hơn, một học giảBERT mô hình đã được phát hành, sử dụng hiệu quả tất cả các tài liệu khoa học để đào tạo BERT. Họ khắc phục được vấn đề truy cập nhưng đáng chú ý là mẹ phải làm thế nào, chỉ đơn giản nhấn mạnh việc sử dụng chúng là “không tiêu thụ”. Trường hợp sử dụng này có thể mở ra cánh cửa cho những người khác sử dụng các bài báo mà không có sự cho phép rõ ràng của nhà xuất bản và có thể là một bước quan trọng trong việc tạo ra một DALL-E khoa học. Tuy nhiên, đáng ngạc nhiên là ScholarBERT lại làm kém hơn ở các nhiệm vụ kiến ​​thức chuyên ngành khác nhau so với các mô hình ngôn ngữ khoa học nhỏ hơn như SciBERT. 

Quan trọng là, các mô hình kiểu BERT có quy mô nhỏ hơn nhiều so với các mô hình ngôn ngữ lớn như GPT-3 và chúng không cho phép cùng một kiểu nhắc chung chung và học theo ngữ cảnh vốn đã hỗ trợ nhiều cho sự cường điệu của GPT-3. Câu hỏi vẫn còn là: điều gì sẽ xảy ra nếu chúng tôi áp dụng cùng một dữ liệu từ ScholarBERT để đào tạo một mô hình phát triển mở rộng như GPT-3? Điều gì sẽ xảy ra nếu bằng cách nào đó chúng ta có thể chỉ ra nguồn gốc của câu trả lời từ máy tính, có lẽ là gắn chúng trực tiếp với tài liệu (như Trích dẫn thông minh)?

Tại sao bây giờ?

May mắn thay, giấy tờ đang trở nên cởi mở hơn và máy móc ngày càng trở nên mạnh mẽ hơn. Bây giờ chúng ta có thể bắt đầu sử dụng dữ liệu có trong các giấy tờ và các kho lưu trữ được kết nối để huấn luyện máy móc trả lời các câu hỏi và tổng hợp các ý tưởng mới dựa trên nghiên cứu. Điều này có thể biến đổi đối với chăm sóc sức khỏe, chính sách, công nghệ và mọi thứ xung quanh chúng ta. Hãy tưởng tượng, nếu chúng ta không chỉ tìm kiếm tiêu đề tài liệu mà đặc biệt tìm kiếm câu trả lời, thì điều đó sẽ tác động như thế nào đến quá trình nghiên cứu và công việc trên tất cả các lĩnh vực. 

 Giải phóng kiến ​​thức khoa học của thế giới khỏi hai rào cản về khả năng tiếp cận và khả năng hiểu sẽ giúp thúc đẩy quá trình chuyển đổi từ một trang web tập trung vào các nhấp chuột, lượt xem, lượt thích và sự chú ý sang một trang web tập trung vào bằng chứng, dữ liệu và tính xác thực. Pharma rõ ràng được khuyến khích để đưa điều này thành hiện thực, do đó ngày càng có nhiều công ty khởi nghiệp xác định các mục tiêu thuốc tiềm năng bằng cách sử dụng AI - nhưng tôi tin rằng công chúng, chính phủ và bất kỳ ai sử dụng Google có thể sẵn sàng bỏ qua các tìm kiếm miễn phí với nỗ lực vì sự tin tưởng và thời gian- tiết kiệm. Thế giới rất cần một hệ thống như vậy, và nó cần nó nhanh chóng. 


 

 

Đăng ngày 18 tháng 2022 năm XNUMX

Công nghệ, sự đổi mới và tương lai, như những gì đã nói với những người xây dựng nó.

Cảm ơn bạn đã đăng ký.

Kiểm tra hộp thư đến của bạn để biết thông báo chào mừng.

Dấu thời gian:

Thêm từ Andreessen Horowitz