과학용 GPT-3을 구축하는 방법

플라톤에 의해 재발행

팔로워 : 0

의 이미지를 만들고 싶습니다. 1932년의 "Lunch Atop A Skyscraper" 스타일로 초고층 빌딩에서 일하는 벨로시랩터? DALL-E를 사용하십시오. 상상을 만들고 싶다 Peter Thiel, Elon Musk, Larry Page의 스탠드업 코미디 쇼? GPT-3를 사용합니다. COVID-19 연구를 깊이 이해하고 증거를 기반으로 질문에 답하고 싶으십니까? 방대한 양의 과학 연구 출판물에서 훈련된 생성 AI 모델이 없기 때문에 부울 검색을 수행하고 과학 논문을 읽고 박사 학위를 취득하는 방법을 배우십시오. 만약 있다면, 과학적 질문에 대한 증거가 뒷받침되고 평이한 답변을 얻는 것이 가장 간단한 이점이 될 것입니다. 과학을 위한 생성 AI는 역전을 도울 수 있습니다. 과학 혁신의 감속 by 그것을 만들기 쉽게 및 저렴 새로운 아이디어를 찾기 위해. 이러한 모델은 또한 실패할 것이 확실한 치료 가설에 대한 데이터 기반 경고를 제공하여 인간의 편견을 상쇄하고 수십억 달러를 피할 수 있습니다. 수십 년의 막다른 골목. 마지막으로, 그러한 모델은 재현성 위기 연구 결과를 매핑, 가중치 부여 및 맥락화하여 신뢰성에 대한 점수를 제공합니다.

그렇다면 과학용 DALL-E 또는 GPT-3가 없는 이유는 무엇입니까? 그 이유는 과학적 연구가 비록 세계에서 가장 가치 있는 콘텐츠인 동시에 세계에서 가장 접근하기 어렵고 이해하기 어려운 콘텐츠이기도 합니다. 과학을 위한 생성 AI를 가능하게 하기 위해 대규모로 과학 데이터를 잠금 해제하는 데 무엇이 필요한지, 그리고 이것이 우리가 연구에 참여하는 방식을 어떻게 변화시킬 것인지 설명하겠습니다.

과학적 연구 데이터를 어렵게 만드는 요인

연구 간행물은 지금까지 만들어진 콘텐츠와 정보에 대한 세계에서 가장 중요한 저장소 중 일부입니다. 그들은 시간과 분야에 걸쳐 아이디어와 발견을 함께 묶고 도서관 네트워크에 의해 영원히 보존됩니다. 증거, 분석, 전문가 통찰력 및 통계적 관계가 이를 뒷받침합니다. 그것들은 매우 가치가 있지만 웹에서 대부분 숨겨져 있고 매우 비효율적으로 사용됩니다. 웹은 귀엽고 꼭 껴안고 싶은 고양이 동영상으로 가득 차 있지만 최첨단 암 연구는 거의 없습니다. 예를 들어, 과학의 웹 과학 지식의 가장 포괄적인 색인 중 하나입니다. 그것은 수십 년 동안 주변에 있었지만 아마도 대부분의 독자들이 상호 작용은 고사하고 들어본 적도 없는 것일 것입니다. 우리 대부분은 연구 논문에 액세스할 수 없으며 액세스할 수 있는 경우에도 밀도가 높고 이해하기 어려우며 웹용이 아닌 인쇄용으로 설계된 형식인 PDF로 포장되어 있습니다.

과학 논문은 쉽게 접근할 수 없기 때문에 GPT-3 또는 DALL-E와 같은 생성 모델을 훈련하는 데 데이터를 쉽게 사용할 수 없습니다. 당신은 할 수 연구원이 실험을 제안할 수 있고 AI 모델이 이전에 수행되었는지 여부를 즉시 알려줄 수 있다고 상상해 보세요(더 나은 방법은 결과를 제공)? 그런 다음 새로운 실험의 데이터가 있으면 AI가 결과를 기반으로 후속 실험을 제안할 수 있습니다. 마지막으로, 연구원이 결과를 업로드하고 AI 모델이 결과 원고를 작성할 수 있다면 절약할 수 있는 시간을 상상해 보십시오. 그들을. DALL-E of science에 가장 가까운 것은 Google Scholar이지만 지속 가능하거나 확장 가능한 솔루션은 아닙니다. IBM Watson도 내가 여기에서 설명하는 것의 많은 부분을 달성하기 시작했지만 대부분의 작업은 최근의 대규모 언어 모델 발전보다 앞서 있었고 마케팅 과대 광고에 맞도록 적절하거나 충분한 데이터를 활용하지 않았습니다.

내가 설명하는 가치 창출을 위해서는 장기적인 투자, 헌신, 비전이 필요합니다. 제안된 대로 최근에 in 미래, 우리는 과학 출판물을 대규모로 결합하고 분석할 기질로 취급해야 합니다. 장벽을 제거하면 과학을 사용하여 데이터가 부족한 생성 AI 모델을 제공할 수 있습니다. 이러한 모델은 새로운 과학적 아이디어를 생성하도록 훈련시키고, 과학자들이 방대한 과학 문헌을 관리 및 탐색하도록 돕고, 결함이 있거나 심지어 위조된 연구를 식별하고, 복잡한 연구 결과를 평범한 인간의 말.

과학을 위한 DALL-E 또는 GPT-3를 얻으려면 어떻게 해야 합니까?

기술 분야에 종사하는 경우 다음과 같은 생성적 AI 모델의 출력을 친구에게 보여줍니다. DALL-E or GPT-3 그들에게 마술을 보여주는 것과 같습니다. 이러한 도구는 차세대 웹을 나타냅니다. 그것들은 생성 능력을 가진 도구를 만들기 위해 단순한 연결을 넘어 방대한 양의 정보 합성에서 파생됩니다. 그렇다면 누구나 과학 문헌에 대해 평이한 언어로 질문하고 증거가 뒷받침하는 이해할 수 있는 답변을 얻을 수 있는 과학 분야에서 이와 유사한 마법 같은 경험을 어떻게 만들 수 있을까요? 연구자들이 가설을 만들고, 개발하고, 수정하고, 테스트하도록 어떻게 도울 수 있습니까? 잠재적으로 수십억 달러의 낭비를 피할 수 있는 방법 알츠하이머 연구에서 실패한 가설 및 유전과 우울증 사이의 잘못된 연결?

이러한 질문에 대한 해결책은 공상 과학 소설처럼 들릴지 모르지만 과학 작업이 부분의 합 이상으로 사용될 때 놀랍고 상상할 수 없는 일을 할 수 있다는 증거가 있습니다. 실제로 거의 200,000개의 단백질 구조를 활용하여 FBI 증오 범죄 보고서 단백질 데이터 뱅크 주어진 알파 폴드 능력 단백질 구조를 정확하게 예측하기 위해 문서화 된 모든 단백질 (200억 이상!). 단백질 구조와 유사한 방식으로 연구 논문을 활용하는 것은 자연스러운 다음 단계가 될 것입니다.

종이를 최소한의 구성 요소로 분해

연구 논문은 그림, 차트, 통계적 관계 및 다른 논문에 대한 참조를 포함한 귀중한 정보로 가득합니다. 이를 다양한 구성 요소로 분해하고 대규모로 사용하면 다양한 유형의 과학 관련 작업, 프롬프트 또는 쿼리에 대해 기계를 훈련하는 데 도움이 될 수 있습니다. 간단한 질문은 하나의 구성 요소 유형에 대한 교육으로 답변될 수 있지만 더 복잡한 질문이나 프롬프트는 여러 구성 요소 유형을 통합하고 서로 간의 관계를 이해해야 합니다.

복잡한 잠재적 프롬프트의 몇 가지 예는 다음과 같습니다.

"이 가설이 왜 틀렸는지 말해봐"
“내 치료 아이디어가 효과가 없는 이유를 말해줘”
“새로운 치료 아이디어 창출”
“사회 정책 X를 지지하는 어떤 증거가 있습니까?”
"이 분야에서 가장 신뢰할 수 있는 연구를 발표한 사람은 누구입니까?"
"내 데이터를 기반으로 과학 논문을 작성해 주세요"

일부 그룹은 이 비전을 추진하고 있습니다. 예를 들어, 이끌 리다 Alexa와 비슷하지만 과학에 대한 연구자의 질문에 답하는 데 도움이 되도록 수백만 개의 논문 제목과 초록에 GPT-3을 적용합니다. 서로 다른 개념과 개체가 어떻게 연결되어 있는지 보여주는 개체 간의 통계적 관계를 추출합니다. 뇌관 연구 논문 자체에 중점을 두지 않지만 arXiv와 함께 작동하며 기업 및 정부에서 많은 소스의 많은 양의 데이터를 합성하고 이해하는 데 사용하는 정보 대시보드를 제공합니다.

모든 구성 요소에 액세스

불행하게도, 이들 그룹은 XNUMX개 기사 중 약 XNUMX개가 자유롭거나 쉽게 접근할 수 없기 때문에 전체 텍스트가 아니라 주로 제목과 초록에만 의존합니다. Web of Science 및 Google과 같은 데이터 또는 논문을 보유한 그룹의 경우 라이선스 및 사용 범위는 다음과 같습니다. 제한적이거나 정의되지 않은. Google의 경우 Google Scholar에서 전체 텍스트 과학 연구에 대해 AI 모델을 훈련시키려는 노력이 공개적으로 발표되지 않은 이유가 불분명합니다. 놀랍게도 이는 전 세계를 마비시킨 코로나19 팬데믹 속에서도 변하지 않았다. Google AI 팀은 대중이 질문할 수 있는 방법의 프로토타입을 제작했습니다. 코로나19에 대해. 그러나 — 그리고 여기 키커가 있습니다 — 그들은 Google Scholar가 아닌 PubMed의 오픈 액세스 논문만을 사용하여 그렇게 했습니다.

한 번에 하나씩 읽는 것 이상으로 논문에 액세스하고 이를 사용하는 문제는 그룹이 수십 년 동안 옹호해 온 문제입니다. 저는 개인적으로 거의 XNUMX년 동안 직접 작업하여 승자 박사 학위 마지막 XNUMX년 동안 미래의 기사 다른 스타트업에서 Authorea. 이러한 이니셔티브 중 어느 것도 내가 원하는 방식으로 완전히 진행되지 않았지만, 그들은 나를 현재 직장으로 이끌었습니다. 사이트, 적어도 부분적으로는 게시자와 직접 작업하여 액세스 문제를 해결했습니다.

구성 요소 연결 및 관계 정의

우리의 목표는 사이트 소개하는 것입니다 차세대 인용 — Smart Citation이라고 함 — 어떤 기사, 연구원, 저널 또는 주제가 문헌에서 인용되고 더 일반적으로 논의된 방법과 이유를 보여줍니다. 게시자와 협력하여 텍스트 내 참조를 사용하는 전체 텍스트 기사에서 직접 문장을 추출합니다. 이 문장은 새로운 작업에서 논문이 어떻게 인용되었는지에 대한 질적 통찰력을 제공합니다. 연구용 로튼 토마토와 약간 비슷합니다.

이를 위해서는 전체 텍스트 기사에 대한 액세스와 게시자와의 협력이 필요하므로 기계 학습을 사용하여 인용문을 대규모로 추출하고 분석할 수 있습니다. 시작하기에 충분한 오픈 액세스 기사가 있었기 때문에 개념 증명을 구축할 수 있었고 하나씩 발행인에게 우리 시스템에 색인된 기사의 검색 가능성 증가를 시연하고 시스템을 제공했습니다. 더 나은 측정항목 표시 보다 책임감 있는 연구 평가를 위해 우리가 전문가의 진술로 본 것을 그들은 기사의 미리보기로 보았습니다. 게시자는 이제 일괄 서명했으며 게시된 전체 기사의 절반 이상에서 1.1억 개 이상의 스마트 인용을 색인화했습니다.

관계형 데이터를 사용하여 AI 모델 학습

논문에서 추출한 구성 요소와 관계는 연구를 위한 새로운 대형 언어 모델을 훈련하는 데 사용할 수 있습니다. GPT-3은 매우 강력하지만 과학 및 SAT에서 볼 수 있는 질문에 잘 대답하지 못함. GPT-2(GPT-3의 이전 버전)가 수백만 건의 연구 논문에 대한 교육을 통해 적응, 특정 지식 작업에서 GPT-2 단독보다 더 잘 작동했습니다. 이것은 모델을 훈련하는 데 사용되는 데이터가 매우 중요하다는 것을 강조합니다.

일부 그룹은 최근 GPT-3를 사용하여 학술 논문 작성, 그리고 이것이 인상적이기는 하지만 그들이 보여주려고 하는 사실이나 주장은 매우 틀릴 수 있습니다. 모델이 간단한 SAT 형식의 질문을 제대로 풀지 못한다면 전체 논문을 작성하도록 신뢰할 수 있습니까? 사이젠GPT-3보다 거의 20년 앞선 , 은 실제처럼 보이는 논문을 생성하는 것이 상대적으로 쉽다는 것을 보여주었습니다. 그들의 시스템은 훨씬 간단하지만 다음과 같은 논문을 생성했습니다. 각종 학회에 접수. 우리는 과학적으로 보일 뿐만 아니라 과학적이며 기계와 인간에 대한 주장을 검증하는 시스템이 필요한 모델이 필요합니다. 메타가 최근에 소개한 Wikipedia 인용 확인 시스템, 일부 게시자가 음성으로 가지고 있는 것 그들이 학술 출판물을 원했다.

현재 진행 상황

다시 말하지만, 이 시스템을 실현하는 데 방해가 되는 한 가지 주요 장애물은 이를 만들기 위한 문서와 리소스에 대한 액세스가 부족하다는 것입니다. 문서나 정보를 대규모로 사용할 수 있게 되면 도구와 새로운 모델이 번성합니다. 사용된 Google 특허 팀 특허분석을 도와주는 시스템 교육을 위한 100억개의 특허, 효과적으로 GooglePatentBERT. 다른 사람들은 다음과 같은 모델을 도입했습니다. 바이오버트 및 사이버트, 그리고 특정 주제 영역에서만 약 1%의 과학 텍스트에 대해서만 교육을 받았음에도 불구하고 그들은 인용 분류 시스템을 현장에서 포함하는 학문적 작업에서 인상적입니다.

최근에는 학자BERT BERT를 훈련하기 위해 모든 과학 문헌을 효과적으로 사용하는 모델이 출시되었습니다. 그들은 접근 문제를 극복했지만 특히 "비소비성"으로의 사용을 강조하면서 방법에 대해서는 침묵합니다. 이 사용 사례는 출판사의 명시적 허가 없이 기사를 사용하는 다른 사람들은 과학의 DALL-E를 만드는 데 중요한 단계가 될 수 있습니다. 그러나 놀랍게도 ScholarBERT는 SciBERT와 같은 소규모 과학 언어 모델보다 다양한 전문 지식 작업에서 더 나빴습니다.

중요하게도 BERT 스타일 모델은 GPT-3과 같은 대규모 언어 모델보다 규모가 훨씬 작으며 GPT-3 과대 광고의 상당 부분을 차지한 동일한 종류의 일반 프롬프트 및 상황 내 학습을 허용하지 않습니다. 문제는 남아 있습니다. ScholarBERT의 동일한 데이터를 적용하여 GPT-3과 같은 확장된 생성 모델을 훈련하면 어떻게 될까요? 어떻게든 기계의 답변이 출처가 어디인지 보여주고 이를 문헌(예: Smart Citations)에 직접 연결할 수 있다면 어떨까요?

왜 지금인가?

다행히 종이는 점점 더 개방되고 기계는 더 강력해지고 있습니다. 이제 논문과 연결된 리포지토리에 포함된 데이터를 사용하여 기계가 질문에 답하고 연구를 기반으로 새로운 아이디어를 합성하도록 훈련할 수 있습니다. 이것은 의료, 정책, 기술 및 우리 주변의 모든 것에 혁신을 일으킬 수 있습니다. 문서 제목만 검색하지 않고 특히 답변을 검색한다면 모든 분야의 연구 및 워크플로에 어떤 영향을 미칠지 상상해 보십시오.

접근성과 이해 가능성이라는 두 가지 장벽에서 세계의 과학적 지식을 해방하면 클릭, 조회수, 좋아요 및 관심에 중점을 둔 웹에서 증거, 데이터 및 진실성에 중점을 둔 웹으로 전환하는 데 도움이 될 것입니다. 제약 회사는 이를 실현하기 위해 분명히 인센티브를 받고 있으므로 AI를 사용하여 잠재적인 약물 표적을 식별하는 신생 기업의 수가 증가하고 있습니다. 절약. 세상은 그런 시스템을 절실히 필요로 하고 있고 그것을 빨리 필요로 합니다.

게시일: 18년 2022월 XNUMX일

기술, 혁신, 그리고 그것을 구축하는 사람들이 말하는 미래.