כיצד לבנות GPT-3 למדע

הועלה מחדש על ידי אפלטון

עוקב: 0

רוצה ליצור תמונה של מהירות מהירות עובדים על גורד שחקים, בסגנון "ארוחת צהריים על גבי גורד שחקים" משנת 1932? השתמש ב-DALL-E. רוצה ליצור דמיוני מופע סטנדאפ של פיטר ת'יל, אילון מאסק ולארי פייג'? השתמש ב-GPT-3. רוצה להבין לעומק את מחקר COVID-19 ולענות על שאלותיך על סמך ראיות? למד כיצד לבצע חיפוש בוליאני, לקרוא מאמרים מדעיים, ואולי לקבל דוקטורט, כי אין מודלים של בינה מלאכותית שאומנו על הגוף העצום של פרסומי מחקר מדעיים. אם היו, קבלת תשובות בשפה פשוטה לשאלות מדעיות מגובות ראיות הייתה בין היתרונות הפשוטים ביותר. AI גנרטיבי למדע יכול לעזור להפוך את המצב האטה בחדשנות במדע by עושה את זה קל יותר ו זול יותר למצוא רעיונות חדשים. מודלים כאלה יכולים גם לספק אזהרות מגובות נתונים על השערות טיפוליות שבוודאי ייכשלו, לאזן את ההטיה האנושית ולהימנע ממיליארד דולר, סמטאות עיוורות ארוכות עשרות שנים. לבסוף, מודלים כאלה יכולים להילחם משבר השחזור על ידי מיפוי, שקילה והקשר של תוצאות מחקר, מתן ציון על אמינות.

אז למה אין לנו DALL-E או GPT-3 למדע? הסיבה היא שלמרות שהמחקר המדעי הוא התוכן היקר ביותר בעולם, הוא גם התוכן הכי פחות נגיש ומובן בעולם. אני אסביר מה יידרש כדי לפתוח נתונים מדעיים בקנה מידה כדי להפוך בינה מלאכותית למדע לאפשרית, וכיצד זה ישנה את הדרך שבה אנו עוסקים במחקר.

מה הופך את נתוני המחקר המדעי למאתגרים

פרסומי מחקר הם חלק מהמאגרים החשובים בעולם לתוכן ומידע שנוצרו אי פעם. הם קושרים רעיונות וממצאים על פני זמן ודיסציפלינות, ונשמרים לעד על ידי רשת של ספריות. הם נתמכים בראיות, ניתוח, תובנות מומחים וקשרים סטטיסטיים. הם בעלי ערך רב, אך הם מוסתרים במידה רבה מהאינטרנט ומשתמשים בהם בצורה לא יעילה. הרשת משופעת בסרטוני חתולים חמודים ומתלטפים, אך נטולת מחקר סרטן חדשני במידה רבה. כדוגמה, ה רשת המדע הוא אחד המדדים המקיפים ביותר של ידע מדעי. זה קיים כבר עשרות שנים, אבל זה כנראה משהו שרוב הקוראים אפילו לא שמעו עליו, שלא לדבר על אינטראקציה איתו. לרובנו אין גישה למאמרי מחקר, וגם כשיש לנו, הם צפופים, קשים להבנה וארוזים כ-PDF - פורמט שנועד להדפסה, לא לאינטרנט.

מכיוון שמאמרים מדעיים אינם נגישים בקלות, איננו יכולים להשתמש בנתונים בקלות כדי לאמן מודלים מחוללים כמו GPT-3 או DALL-E. אתה יכול תאר לעצמך אם חוקר יכול להציע ניסוי ומודל בינה מלאכותית יוכל לומר להם מיד אם הוא נעשה בעבר (וטוב יותר, תן להם את התוצאה)? לאחר מכן, ברגע שיהיו להם נתונים מניסוי חדש, הבינה המלאכותית יכולה להציע ניסוי המשך בהתבסס על התוצאה. לבסוף, דמיינו את הזמן שניתן לחסוך אם החוקר יוכל להעלות את תוצאותיו ומודל הבינה המלאכותית יוכל לכתוב את כתב היד שנוצר עבור אוֹתָם. הכי קרוב שהגענו אי פעם ל-DALL-E של המדע הוא Google Scholar, אבל זה לא פתרון בר-קיימא או להרחבה. יבמ ווטסון גם יצאה להשיג הרבה ממה שאני מתאר כאן, אבל רוב העבודה הגיעה לפני ההתקדמות האחרונה במודלים של שפות גדולות ולא השתמשה בנתונים מתאימים או מספיקים כדי להתאים את ההייפ השיווקי.

לסוג של פתיחת ערך שאני מתאר, אנחנו צריכים השקעה לטווח ארוך, מחויבות וחזון. כפי שהוצע לאחרונה in שלנו, עלינו להתייחס לפרסומים מדעיים כמצעים שיש לשלב ולנתח בקנה מידה. ברגע שנסיר את המחסומים, נוכל להשתמש במדע כדי להזין מודלים של בינה מלאכותית תאבי נתונים. למודלים הללו יש פוטנציאל עצום להאיץ את המדע ולהגביר את האוריינות המדעית, כגון באמצעות הכשרתם ליצירת רעיונות מדעיים חדשים, סיוע למדענים לנהל ולנווט את הספרות המדעית העצומה, לסייע בזיהוי מחקר פגום או אפילו מזויף, ולסנתז ולתרגם ממצאי מחקר מורכבים. דיבור אנושי רגיל.

איך אנחנו משיגים DALL-E או GPT-3 למדע?

אם אתה עוסק בטכנולוגיה, מציג לחבר פלטים מדגמי AI גנרטיביים כמו DALL-E or GPT-3 זה כמו להראות להם קסם. כלים אלה מייצגים את הדור הבא של האינטרנט. הם נובעים מסינתזה של כמויות אדירות של מידע, מעבר לקישור פשוט, ליצירת כלים בעלי יכולת יצירתית. אז איך נוכל ליצור חוויה קסומה דומה במדע, שבה כל אחד יכול לשאול שאלה של הספרות המדעית בשפה פשוטה ולקבל תשובה מובנת מגובה בראיות? כיצד נוכל לעזור לחוקרים ליצור, לפתח, לחדד ולבדוק את ההשערות שלהם? איך נוכל להימנע מבזבוז של מיליארדי דולרים השערות כושלות במחקר אלצהיימר ו קשרים שגויים בין גנטיקה לדיכאון?

הפתרונות לשאלות האלה אולי נשמעים כמו מדע בדיוני, אבל יש הוכחה לכך שאנחנו יכולים לעשות דברים מדהימים ובלתי מתקבלים על הדעת כשעבודה מדעית משמשת ליותר מסתם סכום חלקיה. אכן, ניצול כמעט 200,000 מבני חלבון ב בנק נתונים חלבונים נתן AlphaFold היכולת כדי לחזות במדויק מבני חלבון, משהו שרק נעשה בשבילו כל חלבון שתועד אי פעם (מעל 200 מיליון!). מינוף מאמרי מחקר באופן דומה למבני חלבון יהיה השלב הבא הטבעי.

לפרק ניירות למרכיבים המינימליים שלהם

עבודות מחקר מלאות במידע רב ערך, כולל דמויות, תרשימים, קשרים סטטיסטיים והפניות למאמרים אחרים. פירוקם לרכיבים שונים ושימוש בהם בקנה מידה יכול לעזור לנו להכשיר מכונות לסוגים שונים של עבודות, הנחיות או שאילתות הקשורות למדע. ניתן לענות על שאלות פשוטות עם הדרכה על סוג רכיב אחד, אך שאלות או הנחיות מורכבות יותר ידרשו שילוב של מספר סוגי רכיבים והבנה של הקשר שלהם זה לזה.

כמה דוגמאות להנחיות פוטנציאליות מורכבות הן:

"תגיד לי למה ההשערה הזו שגויה"
"תגיד לי למה רעיון הטיפול שלי לא עובד"
"צור רעיון טיפול חדש"
"איזה ראיות יש לתמוך במדיניות חברתית X?"
"מי פרסם את המחקר המהימן ביותר בתחום זה?"
"כתוב לי מאמר מדעי המבוסס על הנתונים שלי"

כמה קבוצות מתקדמים בחזון זה. לדוגמה, לְהָפִיק מחיל GPT-3 על מיליוני כותרות ותקצירים של מאמרים כדי לעזור לענות על שאלות החוקרים - בערך כמו אלקסה, אבל למדע. מערכת מחלץ קשרים סטטיסטיים בין ישויות המראה כיצד מושגים וישויות שונים קשורים. תחל לא מתמקד בעבודות מחקר כשלעצמן, אבל הוא כן עובד עם arXiv ומספק לוח מחוונים של מידע המשמש תאגידים וממשלות כדי לסנתז ולהבין כמויות גדולות של נתונים ממקורות רבים.

גישה לכל הרכיבים

למרבה הצער, קבוצות אלה מסתמכות בעיקר על כותרות ותקצירים בלבד, לא על הטקסטים המלאים, שכן בערך חמישה מתוך שישה מאמרים אינם נגישים באופן חופשי או קל. עבור קבוצות כמו Web of Science ו-Google שיש להן את הנתונים או המסמכים, הרישיונות והיקף השימוש שלהן הם מוגבל או לא מוגדר. במקרה של גוגל, לא ברור מדוע לא הוכרזו בפומבי מאמצים להכשיר מודלים של AI על מחקר מדעי בטקסט מלא ב-Google Scholar. למרבה הפלא, זה אפילו לא השתנה בעיצומה של מגיפת COVID-19, שהביאה את העולם לקיפאון. צוות הבינה המלאכותית של גוגל עלה מדרגה, יצר אב טיפוס לציבור לשאול לגבי COVID-19. אבל - והנה הבועט - הם עשו זאת רק באמצעות מאמרים בגישה פתוחה מ-PubMed, לא של Google Scholar.

הנושא של קבלת גישה לעיתונים ושימוש בהם עבור יותר מאשר רק לקרוא אותם אחד בכל פעם הוא משהו שקבוצות דגלו במשך עשרות שנים. אני אישית עבדתי על זה כמעט עשור בעצמי, והשקתי פלטפורמת פרסום בגישה פתוחה בשם המנצח במהלך השנה האחרונה של הדוקטורט שלי, ולאחר מכן עובד כדי לבנות את מאמר העתיד בסטארטאפ אחר שנקרא Authorea. אף שאף אחת מהיוזמות הללו לא הצליחה באופן מלא כמו שרציתי שהן יצליחו, הן הובילו אותי לעבודה הנוכחית שלי ב מחורבן, אשר, לפחות חלקית, פתר את בעיית הגישה על ידי עבודה ישירה עם מפרסמים.

חבר את המרכיבים והגדר מערכות יחסים

מטרתנו מחורבן הוא להציג את הדור הבא של ציטוטים - הנקראים Smart Citations - שמראים כיצד ומדוע כל מאמר, חוקר, כתב עת או נושא צוטט ונדונו באופן כללי יותר בספרות. על ידי עבודה עם מוציאים לאור, אנו מחלצים את המשפטים ישירות ממאמרים בטקסט מלא שבהם הם משתמשים בהפניות שלהם בטקסט. משפטים אלה מציעים תובנה איכותית לגבי האופן שבו מאמרים צוטטו על ידי עבודות חדשות יותר. זה קצת כמו Rotten Tomatoes למחקר.

זה דורש גישה למאמרים בטקסט מלא, ושיתוף פעולה עם מפרסמים, כדי שנוכל להשתמש בלמידת מכונה כדי לחלץ ולנתח הצהרות ציטוט בקנה מידה. מכיוון שהיו מספיק מאמרים בגישה פתוחה כדי להתחיל, הצלחנו לבנות את הוכחת הרעיון ואחד אחד, הדגמנו לבעלי אתרים את יכולת הגילוי המוגברת של מאמרים שנוספו לאינדקס במערכת שלנו וסיפקנו להם מערכת ל להראות מדדים טובים יותר להערכת מחקר אחראית יותר. מה שראינו כהצהרות מומחים, הם ראו כתצוגה מקדימה של המאמרים שלהם. מוציאים לאור נרשמו כעת בהמוניהם והוספנו לאינדקס למעלה מ-1.1 מיליארד ציטוטים חכמים מיותר ממחצית מכל המאמרים שפורסמו.

השתמש בנתונים יחסיים כדי לאמן מודלים של AI

ניתן להשתמש ברכיבים וביחסים שחולצו ממאמרים כדי להכשיר מודלים חדשים של שפות גדולות למחקר. GPT-3, למרות שהוא חזק מאוד, לא נבנה לעבוד על מדע ו לא מצליח לענות על שאלות שאתה עשוי לראות ב-SAT. כאשר GPT-2 (גרסה קודמת של GPT-3) הייתה מותאם על ידי הכשרתו על מיליוני מאמרי מחקר, זה עבד טוב יותר מאשר GPT-2 לבדו על משימות ידע ספציפיות. זה מדגיש שהנתונים המשמשים לאימון המודלים חשובים ביותר.

כמה קבוצות עשו לאחרונה השתמש ב-GPT-3 לכתיבת מאמרים אקדמיים, ולמרות שזה מרשים, העובדות או הטיעונים שהם עשויים להתיימר להראות עלולים להיות שגויים מאוד. אם המודל לא יכול לקבל שאלות פשוטות בסגנון SAT נכון, האם נוכל לסמוך עליו שיכתוב מאמר מלא? SCIgen, שקדם ל-GPT-3 בכמעט 20 שנה, הראה שקל יחסית לייצר ניירות שנראים אמיתיים. המערכת שלהם, למרות שהיא פשוטה הרבה יותר, יצרה מסמכים שהיו התקבל לכנסים שונים. אנחנו צריכים מודל שלא רק נראה מדעי אלא מדעי, ושדורש מערכת לאימות טענות למכונות ולבני אדם. Meta הציגה לאחרונה את א מערכת לאימות ציטוטים בויקיפדיה, משהו שיש למוציאים לאור מבחינה קולית הלוואי שהיו להם לפרסומים מלומדים.

התקדמות נוכחית

שוב, חוסם מפתח אחד להבאת מערכת זו לפועל הוא חוסר גישה לניירות ולמשאבים ליצירתה. איפה ניירות או מידע הופכים זמינים לשימוש בקנה מידה, אנחנו כן רואים כלים ודגמים חדשים פורחים. צוות הפטנטים של Google השתמש 100 מיליון פטנטים להכשרת מערכת לעזרה בניתוח פטנטים, למעשה GooglePatentBERT. אחרים הציגו דגמים כמו ביוברט ו SciBERT, ולמרות העובדה שהם הוכשרו רק על כ-1% מהטקסטים המדעיים רק בתחומי נושא ספציפיים, הם מרשימים במשימות אקדמיות, כולל מערכת סיווג הציטוטים שלנו ב-site.

לאחרונה, א ScholarBERT שוחרר מודל, אשר למעשה משתמש בכל הספרות המדעית כדי לאמן BERT. הם מתגברים על בעיית הגישה, אבל הם בעיקר אמא לגבי איך, פשוט מדגישים שהשימוש בהם הוא "לא צרכני". מקרה שימוש זה עשוי לפתוח את הדלתות אחרים משתמשים במאמרים ללא אישור מפורש מבעלי אתרים ועשויים להיות צעד חשוב ביצירת DALL-E של מדע. אולם באופן מפתיע, ScholarBERT הצליח גרוע יותר במשימות ידע מיוחדות שונות מאשר מודלים קטנים יותר של שפות מדעיות כמו SciBERT.

חשוב לציין, מודלים בסגנון BERT הם בקנה מידה קטן בהרבה מדגמי השפה הגדולים כמו GPT-3, והם אינם מאפשרים את אותו סוג של הנחיה גנרית ולמידה בתוך הקשר שהניעו חלק גדול מההייפ של GPT-3. נותרה השאלה: מה אם היינו מיישמים את אותם נתונים מ- ScholarBERT כדי להכשיר מודל מחולל מוקטן כמו GPT-3? מה אם נוכל איכשהו להראות מהיכן התשובות מהמכונה הגיעו, אולי לקשור אותן ישירות לספרות (כמו Smart Citations)?

למה עכשיו?

למרבה המזל, הניירות הופכים פתוחים יותר והמכונות הופכות חזקות יותר. כעת אנו יכולים להתחיל להשתמש בנתונים הכלולים במסמכים ובמאגרים מחוברים כדי לאמן מכונות לענות על שאלות וליצור רעיונות חדשים על סמך מחקר. זה יכול להיות מהפך עבור שירותי הבריאות, המדיניות, הטכנולוגיה וכל מה שסביבנו. תארו לעצמכם, אם לא היינו מחפשים רק כותרות מסמכים אלא ספציפית תשובות, איך זה ישפיע על המחקר וזרימות העבודה בכל התחומים.

שחרור הידע המדעי של העולם מהמחסומים התאומים של נגישות והבנה יעזור להניע את המעבר מרשת המתמקדת בקליקים, צפיות, לייקים ותשומת לב לרשת המתמקדת בראיות, נתונים ואמיתות. לפארמה יש תמריץ ברור להביא את זה לידי מימוש, ומכאן המספר ההולך וגדל של סטארט-אפים שמזהים מטרות סמים פוטנציאליות באמצעות AI - אבל אני מאמין שהציבור, הממשלות וכל מי שמשתמש בגוגל עשויים להיות מוכנים לוותר על חיפושים בחינם במאמץ להשיג אמון וזמן- חִסָכוֹן. העולם זקוק נואשות למערכת כזו, והוא זקוק לה מהר.

פורסם ב-18 באוגוסט 2022

טכנולוגיה, חדשנות ועתיד, כפי שסיפרו הבונים אותו.