मेटा फैक्ट-चेक विकिपीडिया-सभी 6.5 मिलियन लेख प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए एआई का निर्माण कर रहा है। लंबवत खोज। ऐ.

मेटा विकिपीडिया को तथ्य-जांच करने के लिए एआई का निर्माण कर रहा है—सभी 6.5 मिलियन लेख

की छवि

30 वर्ष से अधिक उम्र के अधिकांश लोगों को शायद पुराने जमाने के अच्छे विश्वकोशों के साथ शोध करना याद होगा। आप शेल्फ से भारी मात्रा में खींचेंगे, अपनी रुचि के विषय के लिए अनुक्रमणिका की जांच करेंगे, फिर उचित पृष्ठ पर फ़्लिप करें और पढ़ना शुरू करें। Google खोज बार में कुछ शब्द टाइप करना इतना आसान नहीं था, लेकिन साथ ही, आप जानते थे कि जो जानकारी आपको उसके पृष्ठों में मिली थी ब्रिटिश या विश्व पुस्तक सटीक और सत्य था।

आज इंटरनेट अनुसंधान के साथ ऐसा नहीं है। स्रोतों की भारी भीड़ काफी भ्रमित कर रही थी, लेकिन गलत सूचना के प्रसार को जोड़ें और यह आश्चर्य की बात है कि हम में से कोई भी एक शब्द पर विश्वास करता है जिसे हम ऑनलाइन पढ़ते हैं।

विकिपीडिया एक उदाहरण है। 2020 की शुरुआत में, साइट का अंग्रेजी संस्करण औसतन लगभग . था 255 लाख प्रति दिन पृष्ठ दृश्य, यह इंटरनेट पर आठवीं सबसे अधिक देखी जाने वाली वेबसाइट बनाती है। पिछले महीने तक, यह स्थान पर पहुंच गया था नंबर सात, और अंग्रेजी संस्करण वर्तमान में खत्म हो गया है 6.5 लाख लेख.

लेकिन यह जाने-माने सूचना स्रोत जितना उच्च-ट्रैफ़िक हो सकता है, इसकी सटीकता वांछित होने के लिए कुछ छोड़ देती है; पृष्ठ साइट की अपनी विश्वसनीयता के बारे में कहा गया है, "ऑनलाइन विश्वकोश खुद को एक स्रोत के रूप में विश्वसनीय नहीं मानता है और पाठकों को अकादमिक या शोध सेटिंग्स में इसका उपयोग करने से हतोत्साहित करता है।"

पूर्व फेसबुक का मेटा- इसे बदलना चाहता है। में एक ब्लॉग पोस्ट पिछले महीने प्रकाशित, कंपनी के कर्मचारियों का वर्णन है कि एआई विकिपीडिया को और अधिक सटीक बनाने में कैसे मदद कर सकता है।

हालांकि साइट को संपादित करने में हजारों लोग भाग लेते हैं, लेकिन वे जो तथ्य जोड़ते हैं, वे जरूरी नहीं कि सही हों; यहां तक ​​​​कि जब उद्धरण मौजूद होते हैं, तो वे हमेशा सटीक नहीं होते हैं और न ही प्रासंगिक होते हैं।

मेटा एक मशीन लर्निंग मॉडल विकसित कर रहा है जो इन उद्धरणों को स्कैन करता है और विकिपीडिया लेखों के लिए उनकी सामग्री को क्रॉस-रेफरेंस करता है ताकि यह सत्यापित किया जा सके कि न केवल विषय पंक्तिबद्ध हैं, बल्कि उद्धृत विशिष्ट आंकड़े सटीक हैं।

यह केवल संख्याओं को चुनने और यह सुनिश्चित करने का मामला नहीं है कि वे मेल खाते हैं; मेटा के एआई को उद्धृत स्रोतों की सामग्री को "समझने" की आवश्यकता होगी (हालांकि "समझना" एक मिथ्या नाम है, क्योंकि जटिलता सिद्धांत शोधकर्ता मेलानी मिशेल आपको बताएगा, क्योंकि एआई अभी भी "संकीर्ण" चरण में है, जिसका अर्थ है कि यह अत्यधिक परिष्कृत पैटर्न मान्यता के लिए एक उपकरण है, जबकि "समझ" मानव संज्ञान के लिए उपयोग किया जाने वाला एक शब्द है, जो अभी भी एक बहुत ही अलग चीज है)।

मेटा का मॉडल टेक्स्ट स्ट्रिंग्स की तुलना करने और यह सुनिश्चित करने के लिए सामग्री को "समझ" देगा कि उनमें समान शब्द हैं, लेकिन टेक्स्ट के ब्लॉक के गणितीय प्रतिनिधित्व की तुलना करके, जो प्राकृतिक भाषा समझ (एनएलयू) तकनीकों का उपयोग करने पर आता है।

मेटा के फंडामेंटल एआई रिसर्च टेक लीड मैनेजर फैबियो पेट्रोनी ने कहा, "हमने जो किया है, वह इन सभी वेब पेजों को पैसेज में बांटकर और प्रत्येक पैसेज के लिए एक सटीक प्रतिनिधित्व प्रदान करके एक इंडेक्स बनाने के लिए है।" बोला था डिजिटल रुझान. "यह शब्द-दर-शब्द मार्ग का प्रतिनिधित्व नहीं कर रहा है, बल्कि मार्ग का अर्थ है। इसका मतलब है कि समान अर्थ वाले पाठ के दो हिस्सों को परिणामी एन-आयामी स्थान में बहुत करीबी स्थिति में दर्शाया जाएगा जहां ये सभी मार्ग संग्रहीत हैं।

एआई को चार मिलियन विकिपीडिया उद्धरणों के एक सेट पर प्रशिक्षित किया जा रहा है, और साइट पर दोषपूर्ण उद्धरणों को चुनने के अलावा, इसके निर्माता चाहते हैं कि अंततः डेटा के एक विशाल सूचकांक से खींचकर, उनकी जगह लेने के लिए सटीक स्रोतों का सुझाव देने में सक्षम हो। लगातार अद्यतन कर रहा है।

सूत्रों की विश्वसनीयता के लिए ग्रेडिंग सिस्टम में काम करना बाकी एक बड़ा मुद्दा है। उदाहरण के लिए, एक वैज्ञानिक पत्रिका के एक पेपर को ब्लॉग पोस्ट की तुलना में उच्च ग्रेड प्राप्त होगा। ऑनलाइन सामग्री की मात्रा इतनी विशाल और विविध है कि आप किसी भी दावे का समर्थन करने के लिए "स्रोत" पा सकते हैं, लेकिन गलत सूचना को गलत सूचना से पार्स कर सकते हैं (पूर्व का अर्थ गलत है, जबकि बाद का मतलब जानबूझकर धोखा देना है), और सहकर्मी-समीक्षा की गई गैर-सहकर्मी-समीक्षा से, जल्दबाजी में थप्पड़ मारने से तथ्य-जांच की गई, कोई छोटा काम नहीं है - लेकिन जब विश्वास की बात आती है तो यह बहुत महत्वपूर्ण होता है।

मेटा ने अपने मॉडल को ओपन-सोर्स किया है, और जो उत्सुक हैं वे देख सकते हैं डेमो सत्यापन उपकरण का। मेटा के ब्लॉग पोस्ट ने नोट किया कि कंपनी इस परियोजना पर विकिमीडिया के साथ साझेदारी नहीं कर रही है, और यह अभी भी शोध के चरण में है और वर्तमान में विकिपीडिया पर सामग्री को अपडेट करने के लिए उपयोग नहीं किया जा रहा है।

यदि आप एक दूर-दूर के भविष्य की कल्पना करते हैं जहां विकिपीडिया पर आप जो कुछ भी पढ़ते हैं वह सटीक और विश्वसनीय है, तो क्या इससे किसी भी प्रकार का शोध करना थोड़ा आसान नहीं होगा? विभिन्न स्रोतों की जाँच और तुलना करने के बारे में कुछ मूल्यवान है, है ना? भारी किताबों के पेजिंग से खोज इंजन में कुछ शब्द टाइप करने और "एंटर" मारने के लिए यह एक बड़ी छलांग थी; क्या हम वाकई चाहते हैं कि विकिपीडिया एक शोध के शुरुआती बिंदु से एक अंतिम-शब्द स्रोत की ओर बढ़े?

किसी भी मामले में, मेटा की एआई शोध टीम ऑनलाइन विश्वकोश को बेहतर बनाने के लिए एक उपकरण की दिशा में काम करना जारी रखेगी। "मुझे लगता है कि हम दिन के अंत में जिज्ञासा से प्रेरित थे," पेट्रोनीक कहा. "हम देखना चाहते थे कि इस तकनीक की सीमा क्या थी। हमें बिल्कुल यकीन नहीं था कि [यह एआई] इस संदर्भ में कुछ सार्थक कर सकता है। किसी ने भी ऐसा कुछ करने की कोशिश कभी नहीं की थी।"

छवि क्रेडिट: Gerd Altmann से Pixabay

समय टिकट:

से अधिक विलक्षणता हब