Meta בונה AI לבדיקת עובדות בוויקיפדיה - כל 6.5 מיליון המאמרים PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

Meta בונה AI לבדיקת עובדות בוויקיפדיה - כל 6.5 מיליון המאמרים

תמונה

רוב האנשים מעל גיל 30 כנראה זוכרים שעשו מחקר עם אנציקלופדיות מיושנות וטובות. היית שולף כרך כבד מהמדף, תבדוק באינדקס את נושא העניין שלך, ואז תפנה לעמוד המתאים ותתחיל לקרוא. זה לא היה קל כמו להקליד כמה מילים בשורת החיפוש של גוגל, אבל בצד החיובי, ידעת שהמידע שמצאת בדפי בריטניקה או ספר עולמי היה מדויק ונכון.

לא כך במחקר באינטרנט כיום. השפע המכריע של המקורות היה מספיק מבלבל, אבל הוסיפו את ריבוי המידע השגוי וזה פלא שכל אחד מאיתנו מאמין למילה שקראנו באינטרנט.

ויקיפדיה היא דוגמה לכך. נכון לתחילת 2020, הגרסה האנגלית של האתר הייתה בממוצע בערך 255 מיליון צפיות בעמודים ביום, מה שהופך אותו לאתר השמיני הכי מבוקר באינטרנט. החל מחודש שעבר, הוא עלה למקום מספר שבע, והגרסה האנגלית הסתיימה כרגע 6.5 מיליון מאמרים.

אבל עד כמה שמקור המידע הרצוי הזה יהיה עתיר תנועה, הדיוק שלו משאיר משהו לרצוי; ה עמוד לגבי מהימנותו של האתר עצמו נאמר, "האנציקלופדיה המקוונת אינה רואה את עצמה כמקור אמינה ומרתיעה את הקוראים מלהשתמש בה במסגרות אקדמיות או מחקריות."

Meta — של פייסבוק לשעבר — רוצה לשנות את זה. ב בלוג שפורסם בחודש שעבר, עובדי החברה מתארים כיצד AI יכול לעזור להפוך את ויקיפדיה למדויק יותר.

למרות שעשרות אלפי אנשים משתתפים בעריכת האתר, העובדות שהם מוסיפים אינן בהכרח נכונות; גם כאשר יש ציטוטים, הם לא תמיד מדויקים ואפילו לא רלוונטיים.

Meta מפתחת מודל למידת מכונה שסורק את הציטוטים הללו ומצליב את התוכן שלהם למאמרים בוויקיפדיה כדי לוודא שלא רק הנושאים מסתדרים, אלא גם נתונים ספציפיים שצוטטו מדויקים.

זה לא רק עניין של לבחור מספרים ולוודא שהם תואמים; ה-AI של Meta יצטרך "להבין" את התוכן של המקורות המצוטטים (אם כי "להבין" הוא כינוי שגוי, כפי שחוקרת תיאוריית המורכבות, מלאני מיטשל היה אומר לך, מכיוון שבינה מלאכותית נמצאת עדיין בשלב ה"צר", כלומר זהו כלי לזיהוי דפוסים מתוחכמים ביותר, בעוד ש"הבנה" היא מילה המשמשת לקוגניציה אנושית, שהיא עדיין דבר שונה מאוד).

המודל של Meta "יבין" תוכן לא על ידי השוואת מחרוזות טקסט ווידוא שהן מכילות את אותן מילים, אלא על ידי השוואה של ייצוגים מתמטיים של גושי טקסט, אליהם הוא מגיע באמצעות טכניקות של הבנת שפה טבעית (NLU).

"מה שעשינו הוא לבנות אינדקס של כל דפי האינטרנט הללו על ידי חלוקה לקטעים ומתן ייצוג מדויק לכל קטע", פאביו פטרוני, מנהל הטכנולוגיה של מטה Fundamental AI Research, אמר לי מגמות דיגיטליות. "זה לא מייצג מילה במילה את הקטע, אלא את המשמעות של הקטע. זה אומר ששני פיסות טקסט עם משמעויות דומות יוצגו במיקום קרוב מאוד במרחב ה-n-ממדי שנוצר, שבו מאוחסנים כל הקטעים האלה."

הבינה המלאכותית מאומנת על קבוצה של ארבעה מיליון ציטוטים בוויקיפדיה, ומלבד בחירת ציטוטים שגויים באתר, היוצרים שלו היו רוצים שהוא יוכל בסופו של דבר להציע מקורות מדויקים שיתפסו את מקומם, תוך הוצאת אינדקס עצום של נתונים מתעדכן באופן רציף.

נושא אחד גדול שנותר לפתור הוא עבודה במערכת דירוג לאמינות מקורות. מאמר מכתב עת מדעי, למשל, יקבל ציון גבוה יותר מאשר פוסט בבלוג. כמות התוכן המקוון כה עצומה ומגוונת, עד שניתן למצוא "מקורות" התומכים כמעט בכל טענה, אך לנתח את המידע השגוי מהדיס-אינפורמציה (הראשון פירושו שגוי, בעוד שהשני פירושו הונאה בכוונה), והנתח בביקורת עמיתים מהעובדות שלא עברו ביקורת עמיתים, העובדות שנבדקו מהמהר-סטירות-יחד, היא משימה לא קטנה - אבל חשובה מאוד בכל הנוגע לאמון.

Meta רכשה את המודל שלה בקוד פתוח, ומי שסקרן יכול לראות א הדגמה של כלי האימות. בפוסט הבלוג של Meta צוין כי החברה אינה משתפת פעולה עם ויקימדיה בפרויקט זה, וכי הוא עדיין בשלב המחקר ואינו משמש כרגע לעדכון תוכן בוויקיפדיה.

אם אתה מדמיין עתיד לא רחוק שבו כל מה שאתה קורא בויקיפדיה מדויק ואמין, האם זה לא הופך כל סוג של מחקר לקצת יותר מדי קלה? יש משהו בעל ערך בבדיקה והשוואה של מקורות שונים בעצמנו, לא? זה היה קפיצת מדרגה גדולה לעבור מדפדוף בספרים כבדים להקלדת כמה מילים במנוע חיפוש ולחיצה על "Enter"; האם אנחנו באמת רוצים שוויקיפדיה תעבור מנקודת זינוק של מחקר למקור שמקבל את המילה האחרונה?

בכל מקרה, צוות המחקר של AI של Meta ימשיך לעבוד לקראת כלי לשיפור האנציקלופדיה המקוונת. "אני חושב שבסוף היום הניענו אותנו מסקרנות", פטרוני אמר. "רצינו לראות מה הגבול של הטכנולוגיה הזו. לא היינו בטוחים אם [ה-AI הזה] יכול לעשות משהו משמעותי בהקשר הזה. אף אחד מעולם לא ניסה לעשות משהו דומה".

תמונת אשראי: גרד אלטמן החל מ- pixabay

בול זמן:

עוד מ רכזת הסינגולריות