Meta는 6.5만 개 기사 PlatoBlockchain 데이터 인텔리전스를 모두 포함하는 Wikipedia 사실 확인을 위한 AI를 구축하고 있습니다. 수직 검색. 일체 포함.

Meta, 6.5만 개 기사 모두를 사실대로 확인하기 위한 AI 구축 Wikipedia

영상

30세 이상의 대부분의 사람들은 아마도 좋은 구식 백과사전으로 조사를 했던 것을 기억할 것입니다. 책장에서 많은 양의 책을 꺼내 관심 주제에 대한 색인을 확인한 다음 해당 페이지로 넘어가 읽기 시작합니다. Google 검색 창에 몇 단어를 입력하는 것만큼 쉽지는 않았지만 플러스 측면에서, 당신은 정보 페이지에서 찾은 정보가 영국의 또는 월드 북 정확하고 사실이었다.

오늘날 인터넷 조사에서는 그렇지 않습니다. 압도적으로 많은 출처는 충분히 혼란스러웠지만 잘못된 정보의 확산을 추가하면 온라인에서 읽은 단어를 믿는 사람이 있다는 것은 놀라운 일입니다.

Wikipedia가 그 예입니다. 2020년 초 현재 이 사이트의 영어 버전은 평균 255 만 일일 페이지 조회수를 기록하여 인터넷에서 XNUMX번째로 많이 방문한 웹사이트가 되었습니다. 지난달 말 현재 정상으로 올라섰다. 일곱 번째, 그리고 영어 버전은 현재 6.5 만 조항.

그러나 이 이동 정보 소스만큼 트래픽이 많을 수 있지만 그 정확성은 약간 아쉬운 부분을 남깁니다. 그만큼 페이지 사이트 자체의 신뢰성에 대해 "온라인 백과사전은 자신을 소스로 신뢰할 수 있다고 생각하지 않으며 독자가 학술 또는 연구 환경에서 이를 사용하는 것을 권장하지 않습니다."라고 말합니다.

이전 Facebook의 Meta는 이것을 바꾸고 싶어합니다. 안에 블로그 게시물 지난 달에 발표된 이 회사의 직원들은 AI가 Wikipedia를 보다 정확하게 만드는 데 어떻게 도움이 되는지 설명합니다.

수만 명이 사이트 편집에 참여하지만 그들이 추가한 사실이 반드시 정확하지는 않습니다. 인용이 있는 경우에도 항상 정확하거나 관련성이 있는 것은 아닙니다.

Meta는 이러한 인용을 스캔하고 해당 콘텐츠를 Wikipedia 기사와 상호 참조하여 주제가 정렬되어 있을 뿐만 아니라 인용된 특정 수치가 정확한지 확인하는 기계 학습 모델을 개발하고 있습니다.

이것은 단순히 숫자를 선택하고 일치하는지 확인하는 문제가 아닙니다. Meta의 AI는 인용된 출처의 내용을 "이해"해야 합니다(복잡성 이론 연구원 Melanie Mitchell에 따르면 "이해"는 잘못된 명칭이지만 당신에게 말할 것입니다, AI는 여전히 "좁은" 단계에 있기 때문에 고도로 정교한 패턴 인식을 위한 도구인 반면 "이해"는 여전히 매우 다른 인간 인지에 사용되는 단어입니다.

Meta의 모델은 텍스트 문자열을 비교하고 동일한 단어를 포함하는지 확인하는 것이 아니라 자연어 이해(NLU) 기술을 사용하여 도달하는 텍스트 블록의 수학적 표현을 비교하여 내용을 "이해"합니다.

Meta의 Fundamental AI Research 기술 수석 관리자인 Fabio Petroni는 "우리가 한 일은 이러한 모든 웹 페이지를 단락으로 나누고 각 단락에 대한 정확한 표현을 제공하여 이러한 모든 웹 페이지의 색인을 구축한 것입니다."라고 말했습니다. 이야기 디지털 동향. “그것은 구절을 한 단어로 표현하는 것이 아니라 구절의 의미를 나타내는 것입니다. 이는 유사한 의미를 가진 두 개의 텍스트 덩어리가 이 모든 구절이 저장되는 결과 n차원 공간에서 매우 가까운 위치에 표시될 것임을 의미합니다.”

AI는 XNUMX만 개의 Wikipedia 인용 세트에 대해 교육을 받고 있으며 사이트에서 잘못된 인용을 찾아내는 것 외에도 제작자는 결국 방대한 데이터 색인에서 가져와 정확한 출처를 제안할 수 있기를 바랍니다. 지속적으로 업데이트합니다.

해결해야 할 한 가지 큰 문제는 출처의 신뢰성에 대한 등급 시스템에서 작업하는 것입니다. 예를 들어 과학 저널의 논문은 블로그 게시물보다 높은 등급을 받습니다. 온라인 콘텐츠의 양은 매우 방대하고 다양하여 거의 모든 주장을 뒷받침하는 "출처"를 찾을 수 있지만 잘못된 정보에서 잘못된 정보를 구문 분석합니다(전자는 잘못된 것을 의미하고 후자는 고의적으로 기만하는 것을 의미함). 동료 검토를 거치지 않은 사람에게서, 급하게 뺨을 맞은 사람에게서 사실 확인을 받는 것은 작은 일이 아니라 신뢰와 관련하여 매우 중요한 일입니다.

Meta는 해당 모델을 오픈소스화했으며, 궁금해하는 사람들은 볼 수 있습니다. 데모 확인 도구의. Meta의 블로그 게시물은 회사가 이 프로젝트에서 Wikimedia와 협력하지 않고 있으며 아직 연구 단계에 있으며 현재 Wikipedia의 콘텐츠를 업데이트하는 데 사용되지 않는다고 언급했습니다.

당신이 Wikipedia에서 읽는 모든 것이 정확하고 신뢰할 수 있는 멀지 않은 미래를 상상한다면, 어떤 종류의 연구도 너무 쉽게 하지 않을까요? 다양한 소스를 직접 확인하고 비교하는 것만큼 가치 있는 것이 있지 않습니까? 무거운 책을 샅샅이 뒤지는 것에서 검색 엔진에 몇 단어를 입력하고 "Enter" 키를 누르는 것은 큰 도약이었습니다. 우리는 Wikipedia가 연구의 출발점에서 마지막 단어를 얻는 출처로 이동하기를 정말로 원합니까?

어쨌든 메타의 AI 연구팀은 온라인 백과사전을 개선할 수 있는 도구를 위해 계속 노력할 것입니다. 페트로니는 "결국 우리는 호기심에 이끌렸다고 생각한다"고 말했다. 말했다. “우리는 이 기술의 한계가 무엇인지 알고 싶었습니다. 우리는 [이 AI]가 이러한 맥락에서 의미 있는 일을 할 수 있는지 확신할 수 없었습니다. 아무도 비슷한 일을 시도한 적이 없습니다.”

이미지 신용 : 게르트 알트만Pixabay

타임 스탬프 :

더보기 특이점 허브