Как трансформаторы, похоже, имитируют части мозга PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Как трансформеры имитируют части мозга

Понимание того, как мозг организует и получает доступ к пространственной информации — где мы находимся, что находится за углом, как туда добраться — остается сложной задачей. Процесс включает в себя вызов всей сети воспоминаний и хранимых пространственных данных из десятков миллиардов нейронов, каждый из которых связан с тысячами других. Нейробиологи определили ключевые элементы, такие как ячейки сетки, нейроны, которые отображают местоположения. Но копнуть глубже будет сложно: исследователи не могут удалить и изучить срезы человеческого серого вещества, чтобы посмотреть, как воспоминания изображений, звуков и запахов, основанные на местоположении, протекают и соединяются друг с другом.

Искусственный интеллект предлагает еще один способ. В течение многих лет нейробиологи использовали множество типов нейронных сетей — механизмов, обеспечивающих работу большинства приложений глубокого обучения, — для моделирования возбуждения нейронов в мозгу. В недавней работе исследователи показали, что гиппокамп, структура мозга, имеющая решающее значение для памяти, в основном представляет собой особый вид нейронной сети, известной как нейронная сеть. трансформатор, в маскировке. Их новая модель отслеживает пространственную информацию таким образом, который аналогичен внутренней работе мозга. Они добились выдающихся успехов.

«Тот факт, что мы знаем, что эти модели мозга эквивалентны преобразователю, означает, что наши модели работают намного лучше и их легче обучать», — сказал он. Джеймс Уиттингтон, когнитивный нейробиолог, который делит свое время между Стэнфордским университетом и лабораторией Тим Беренс в Оксфордском университете.

Исследования Уиттингтона и других намекают на то, что преобразователи могут значительно улучшить способность моделей нейронных сетей имитировать виды вычислений, выполняемых ячейками сетки и другими частями мозга. По словам Уиттингтона, такие модели могут подтолкнуть нас к пониманию того, как работают искусственные нейронные сети и, что еще более вероятно, как выполняются вычисления в мозгу.

«Мы не пытаемся воссоздать мозг», — сказал Дэвид Ха, ученый-компьютерщик из Google Brain, который также работает над моделями трансформеров. «Но можем ли мы создать механизм, который может делать то, что делает мозг?»

Трансформеры впервые появились пять лет назад как новый способ искусственного интеллекта для обработки языка. Они являются секретным соусом в таких вызывающих заголовки программах для завершения предложений, как БЕРТ и GPT-3, который может генерировать убедительные тексты песен, сочинять шекспировские сонеты и выдавать себя за представителей службы поддержки.

Трансформеры работают с использованием механизма, называемого самовниманием, в котором каждый ввод — слово, пиксель, число в последовательности — всегда связан с любым другим вводом. (Другие нейронные сети соединяют входные данные только с некоторыми другими входными данными.) Но хотя трансформеры были разработаны для языковых задач, с тех пор они преуспели в других задачах, таких как классификация изображений, а теперь и в моделировании мозга.

В 2020 году группа под руководством Зепп Хохрайтер, ученый-компьютерщик из Университета имени Иоганна Кеплера в Линце в Австрии, использовал преобразователь для переоснащения мощной, давней модели извлечения памяти, называемой сетью Хопфилда. Впервые представленные 40 лет назад физиком из Принстона Джоном Хопфилдом, эти сети следуют общему правилу: нейроны, которые активны в одно и то же время, создают прочные связи друг с другом.

Хохрайтер и его сотрудники, отметив, что исследователи искали лучшие модели извлечения памяти, увидели связь между тем, как сети Хопфилда извлекают воспоминания, и тем, как трансформеры управляют вниманием. Они модернизировали сеть Хопфилда, фактически превратив ее в трансформатор. По словам Уиттингтона, это изменение позволило модели хранить и извлекать больше воспоминаний из-за более эффективных связей. Сам Хопфилд вместе с Дмитрием Кротовым из MIT-IBM Watson AI Lab доказал, что сеть Хопфилда на основе трансформатора была биологически правдоподобной.

Тогда, Ранее в этом году, Уиттингтон и Беренс помогли еще больше усовершенствовать подход Хохрайтера, изменив преобразователь таким образом, чтобы вместо обработки воспоминаний как линейной последовательности — как строки слов в предложении — он кодировал их как координаты в многомерных пространствах. Этот «поворот», как назвали его исследователи, еще больше улучшил производительность модели при выполнении нейрофизиологических задач. Они также показали, что модель математически эквивалентна моделям паттернов возбуждения клеток сетки, которые нейробиологи видят на снимках фМРТ.

«Ячейки сетки имеют захватывающую, красивую, регулярную структуру и поразительные узоры, которые вряд ли появятся случайно», — сказал Касвелл Барри, нейробиолог из Университетского колледжа Лондона. Новая работа показала, как трансформеры точно воспроизводят те паттерны, которые наблюдаются в гиппокампе. «Они поняли, что преобразователь может определить, где он находится, на основе предыдущих состояний и того, как он перемещался, и таким образом, который используется в традиционных моделях ячеек сетки».

Другая недавняя работа предполагает, что трансформеры могут улучшить наше понимание и других функций мозга. В прошлом году Мартин Шримпф, вычислительный нейробиолог из Массачусетского технологического института, проанализировал 43 различных модели нейронных сетей чтобы увидеть, насколько хорошо они предсказали измерения нейронной активности человека по данным фМРТ и электрокортикографии. Он обнаружил, что трансформеры являются в настоящее время ведущими современными нейронными сетями, которые предсказывают почти все вариации, обнаруженные в изображении.

И Ха вместе с коллегой-компьютерщиком Юджин Тан, недавно разработал модель, которая может намеренно отправлять большие объемы данных через преобразователь случайным, неупорядоченным образом, имитируя то, как человеческое тело передает сенсорные наблюдения в мозг. Их преобразователь, как и наш мозг, мог успешно справляться с беспорядочным потоком информации.

«Нейронные сети запрограммированы на прием определенных входных данных», — сказал Тан. Но в реальной жизни наборы данных часто меняются быстро, и у большинства ИИ нет возможности приспособиться. «Мы хотели поэкспериментировать с архитектурой, которая могла бы очень быстро адаптироваться».

Несмотря на эти признаки прогресса, Беренс видит в трансформерах всего лишь шаг к точной модели мозга, а не конец поиска. «Я должен быть скептиком-нейробиологом», — сказал он. «Я не думаю, что трансформеры в конечном итоге станут тем, как мы думаем о языке, например, в мозгу, даже несмотря на то, что у них есть лучшая текущая модель предложений».

«Является ли это наиболее эффективной основой для прогнозирования того, где я нахожусь и что увижу дальше? Если честно, пока рано об этом говорить, — сказал Барри.

Шримпф также отметил, что даже самые эффективные трансформеры ограничены, они хорошо работают, например, со словами и короткими фразами, но не с более масштабными языковыми задачами, такими как рассказывание историй.

«Я считаю, что эта архитектура, этот преобразователь, помещает вас в нужное место для понимания структуры мозга и может быть улучшена с помощью тренировок», — сказал Шримпф. «Это хорошее направление, но область очень сложная».

Отметка времени:

Больше от Квантовый журнал