트랜스포머가 뇌의 일부를 모방하는 것처럼 보이는 방법 PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

변압기가 뇌의 일부를 모방하는 것처럼 보이는 방법

뇌가 공간 정보를 조직하고 접근하는 방법(우리가 어디에 있는지, 모퉁이에 무엇이 있는지, 거기에 도달하는 방법)을 이해하는 것은 여전히 ​​어려운 과제입니다. 이 프로세스에는 각각 수천 개의 다른 뉴런에 연결된 수천억 개의 뉴런에서 전체 기억 네트워크와 저장된 공간 데이터를 불러오는 작업이 포함됩니다. 신경과학자들은 다음과 같은 핵심 요소를 확인했습니다. 그리드 셀, 위치를 매핑하는 뉴런. 그러나 더 깊이 들어가면 까다로울 것입니다. 연구원이 이미지, 소리 및 냄새에 대한 위치 기반 기억이 어떻게 흐르고 서로 연결되는지 관찰하기 위해 인간의 회백질 조각을 제거하고 연구할 수 있는 것은 아닙니다.

인공 지능은 또 다른 방법을 제시합니다. 수년 동안 신경 과학자들은 뇌에서 뉴런의 발화를 모델링하기 위해 대부분의 딥 러닝 응용 프로그램을 구동하는 엔진인 다양한 유형의 신경망을 활용해 왔습니다. 최근 연구에서 연구자들은 기억에 중요한 뇌의 구조인 해마가 기본적으로 변압기, 변장. 그들의 새로운 모델은 뇌의 내부 작동과 유사한 방식으로 공간 정보를 추적합니다. 그들은 놀라운 성공을 보았습니다.

"뇌의 이러한 모델이 변압기와 동일하다는 사실을 알고 있다는 사실은 우리 모델이 훨씬 더 잘 수행되고 훈련하기 쉽다는 것을 의미합니다"라고 말했습니다. 제임스 휘팅턴, 스탠포드 대학과 연구실을 오가며 시간을 보내는 인지 신경과학자 팀 베렌스 옥스포드 대학에서.

Whittington과 다른 사람들의 연구에 따르면 변압기는 그리드 셀과 뇌의 다른 부분에서 수행되는 일종의 계산을 모방하는 신경망 모델의 능력을 크게 향상시킬 수 있습니다. 이러한 모델은 인공 신경망이 작동하는 방식과 뇌에서 계산이 수행되는 방식에 대한 이해를 높일 수 있다고 Whittington은 말했습니다.

"우리는 뇌를 재창조하려는 것이 아닙니다."라고 말했습니다. 데이비드 하, Google Brain의 컴퓨터 과학자이자 변압기 모델도 연구하고 있습니다. "하지만 우리는 뇌가 하는 일을 할 수 있는 메커니즘을 만들 수 있습니까?"

트랜스포머는 XNUMX년 전 AI가 언어를 처리하는 새로운 방법으로 처음 등장했습니다. 그것들은 다음과 같이 헤드라인을 사로잡는 문장 완성 프로그램의 비밀 소스입니다. BERT 그리고 설득력 있는 노래 가사를 생성하고, 셰익스피어 소네트를 작곡하고, 고객 서비스 담당자를 가장할 수 있는 GPT-3.

트랜스포머는 단어, 픽셀, 시퀀스의 숫자와 같은 모든 입력이 항상 다른 모든 입력에 연결되는 self-attention이라는 메커니즘을 사용하여 작동합니다. (다른 신경망은 입력을 다른 특정 입력에만 연결합니다.) 그러나 변환기는 언어 작업을 위해 설계되었지만 그 이후로 이미지 분류와 같은 다른 작업에서 탁월해졌습니다. 이제는 뇌를 모델링하는 것입니다.

2020년에는 제프 호흐라이터, 오스트리아의 Johannes Kepler University Linz의 컴퓨터 과학자는 변압기를 사용하여 Hopfield 네트워크라고 하는 강력하고 오래된 메모리 검색 모델을 재구성했습니다. 40년 전 Princeton 물리학자 John Hopfield가 처음 도입한 이 네트워크는 일반적인 규칙을 따릅니다. 동시에 활성화된 뉴런은 서로 강력한 연결을 구축합니다.

Hochreiter와 그의 동료들은 연구자들이 더 나은 메모리 검색 모델을 찾고 있다는 점에 주목하면서 Hopfield 네트워크가 메모리를 검색하는 방법과 변압기가 주의를 기울이는 방법 사이의 연결을 보았습니다. 그들은 Hopfield 네트워크를 업그레이드하여 본질적으로 변압기로 전환했습니다. 이러한 변화로 인해 모델은 보다 효과적인 연결로 인해 더 많은 메모리를 저장하고 검색할 수 있게 되었다고 Whittington은 말했습니다. Hopfield 자신은 MIT-IBM Watson AI Lab의 Dmitry Krotov와 함께 변압기 기반 Hopfield 네트워크가 생물학적으로 그럴듯함을 증명했습니다.

그런 다음, 올해 초, Whittington과 Behrens는 Hochreiter의 접근 방식을 더욱 수정하는 데 도움을 주었습니다. 변환기를 수정하여 기억을 문장의 단어 문자열처럼 선형 시퀀스로 처리하는 대신 고차원 공간의 좌표로 인코딩하도록 했습니다. 연구자들이 부르는 그 "비틀림"은 신경과학 과제에 대한 모델의 성능을 더욱 향상시켰습니다. 그들은 또한 그 모델이 신경과학자들이 fMRI 스캔에서 보는 격자 세포 발사 패턴의 모델과 수학적으로 동등하다는 것을 보여주었습니다.

University College London의 신경 과학자인 Caswell Barry는 "격자 세포는 이러한 종류의 흥미롭고 아름답고 규칙적인 구조를 가지고 있으며 무작위로 나타날 것 같지 않은 놀라운 패턴을 가지고 있습니다. 새로운 연구는 변환기가 해마에서 관찰된 패턴을 정확히 복제하는 방법을 보여주었습니다. "그들은 변압기가 이전 상태를 기반으로 하는 위치와 이동 방법, 기존 그리드 셀 모델에 맞는 방식으로 변압기가 위치를 파악할 수 있음을 인식했습니다."

다른 최근 연구에서는 변압기가 다른 뇌 기능에 대한 이해도 향상시킬 수 있다고 제안합니다. 작년에 매사추세츠 공과대학(Massachusetts Institute of Technology)의 컴퓨터 신경과학자 마틴 슈림프(Martin Schrimpf)는 43개의 다른 신경망 모델을 분석했습니다. fMRI와 electrocorticography에 의해 보고된 바와 같이 인간 신경 활동의 측정을 얼마나 잘 예측했는지 확인했습니다. 그는 트랜스포머가 이미징에서 발견되는 거의 모든 변화를 예측하는 현재 최고의 최첨단 신경망임을 발견했습니다.

그리고 Ha는 동료 컴퓨터 과학자와 함께 탕유진, 최근 인체가 감각 관찰을 뇌에 전달하는 방식을 모방하여 무작위로 무질서한 방식으로 트랜스포머를 통해 의도적으로 대량의 데이터를 보낼 수 있는 모델을 설계했습니다. 그들의 변환기는 우리의 두뇌와 마찬가지로 무질서한 정보 흐름을 성공적으로 처리할 수 있습니다.

Tang은 "신경망은 특정 입력을 수용하도록 고정 배선되어 있습니다. 그러나 실생활에서 데이터 세트는 종종 빠르게 변경되며 대부분의 AI는 조정할 방법이 없습니다. "우리는 매우 빠르게 적응할 수 있는 아키텍처를 실험하고 싶었습니다."

이러한 진전의 징후에도 불구하고 Behrens는 트랜스포머를 탐구의 끝이 아니라 뇌의 정확한 모델을 향한 단계로 보고 있습니다. “나는 여기서 회의적인 신경과학자가 되어야 합니다.”라고 그는 말했습니다. "예를 들어, 가장 최신의 문장 모델을 가지고 있더라도 트랜스포머는 우리가 두뇌의 언어에 대해 생각하는 방식이 될 것이라고 생각하지 않습니다."

“이것이 내가 어디에 있고 다음에 무엇을 보게 될지 예측하는 가장 효율적인 기반입니까? 솔직히 말해서 말하기에는 너무 이르다”고 Barry가 말했습니다.

Schrimpf는 최고 성능의 변환기조차도 제한적이어서 예를 들어 단어와 짧은 구문에는 잘 작동하지만 이야기 전달과 같은 대규모 언어 작업에는 적합하지 않다는 점에 주목했습니다.

Schrimpf는 "내 생각에 이 아키텍처, 이 변압기는 뇌의 구조를 이해할 수 있는 적절한 공간에 배치하고 훈련을 통해 개선할 수 있습니다."라고 말했습니다. "이것은 좋은 방향이지만 필드는 매우 복잡합니다."

타임 스탬프 :

더보기 콴타마진