מערך הנתונים המוביל של AI שואב נתונים מ-BitcoinTalk, Steemit ו-US SEC

מערך הנתונים המוביל של AI שואב נתונים מ-BitcoinTalk, Steemit ו-US SEC

Ad

קונצנזוס CoinDeskקונצנזוס CoinDesk

Colossal Clean Crawled Corpus (C4), מערך נתונים של AI המשמש חברות טכנולוגיה גדולות, מכיל נתונים מאתרים שונים הקשורים להצפנה.

מערך הנתונים של C4 שואב מאתרי קריפטו

הוושינגטון פוסט ומכון אלן לבינה מלאכותית לאחרונה ניתח מערך הנתונים של C4, מדרג אתרים לפי מספר ה"אסימונים" או קטעי טקסט שנלקחו מכל מקור.

רשות ניירות הערך האמריקאית - שבחלקה מכילה תוכן על רגולציה של מטבעות קריפטוגרפיים - הייתה בין המקורות הגדולים ביותר של מערך הנתונים. האתר שלה (sec.gov) דורג במקום ה-39 והיווה 36 מיליון, או 0.02%, מהאסימונים של C4.

Bitcointalk.org, לוח דיונים בלוקצ'יין שנוצר על ידי סטושי Nakamoto, מדורג במקום 780. הוא היווה 6.1 מיליון, או 0.004%, מהאסימונים של C4.

גם אתרי חדשות ואתרי צבירה של מטבעות קריפטוגרפיים כמו Cointelegraph ו-Coinmarketcap.com היו מיוצגים. שמונה אתרים כאלה היוו ביחד לפחות 0.008% מהאסימונים של C4, אם כי אתרים אחרים עשויים להגדיל את הסכום האמיתי.

אתרים הקשורים למטבעות קריפטוגרפיים ספציפיים ובורסות היו מיוצגים גם הם במערך הנתונים אך היוו כמות זניחה של אסימונים.

שני אתרי קריפטו סמוכים אף הם מדורגים גבוה. IPFS (ipfs.io) מדורג במקום ה-16 בעוד סטימיט (steemit.com) מדורג במקום ה-594. האתר הראשון הוא רשת מבוזרת של חברת הבלוקצ'יין Protocol Labs, בעוד שהשני עושה שימוש ישיר בבלוקצ'יין. עם זאת, אתרים אלו אינם מכילים בהכרח תוכן הקשור למטבעות קריפטוגרפיים.

אתרי מיינסטרים עמדו בראש הרשימה

מערך הנתונים של C4 משמש במודלים של שפות AI מחברות טכנולוגיה גדולות כולל גוגל T5 ו פייסבוק LLaMA, לפי הוושינגטון פוסט.

למרות שהאתרים הנ"ל הם בין אתרי האינטרנט המשמעותיים ביותר הקשורים לקריפטו של C4, הם נמצאים בדירוג גבוה יותר על ידי אתרי הזרם המרכזי ומקורות חדשות, שלעתים קרובות מכסים נושאים של מטבעות קריפטו והם ככל הנראה המקור העיקרי לכל הנתונים הקשורים להצפנה.

C4 ספגה גם ביקורת על כך שהיא מכילה דברי שטנה ונתונים פיראטיים. למרות ששם מערך הנתונים מרמז על כך שהוא "נוקה", המרכיבים שלו השתמשו רק ברשימה של 400 מילים כדי לצנזר תוכן ספציפי, כלומר תוכן שנוי במחלוקת נותר שלם.

נוכחותם של אתרי קריפטו, כמו גם נוכחותם של נתונים שנויים במחלוקת, עלולים להשפיע על רמת ההטיה הנראית בתוכן המיוצר על ידי צ'אטבוטים של AI.

פורסם ב: AI

בול זמן:

עוד מ CryptoSlate