Meta хочет улучшить свой ИИ, изучая человеческий мозг

Машины не всегда понимают, чего мы от них хотим. Могут ли новые языковые модели научить их читать между строк?

Отредактировано 2023-25-06
много книг в разложенном видеКак человеческий и искусственный мозг понимают язык?

Если искусственный интеллект должен напоминать мозг, где сети искусственных нейронов заменяют настоящие клетки, то что произойдет, если сравнить действия в алгоритмах глубокого обучения с действиями в человеческом мозге? На прошлой неделе исследователи из Meta AI объявили, что они будут сотрудничать с центром нейровизуализации Neurospin (CEA) и INRIA, чтобы попытаться сделать именно это.

В рамках этого сотрудничества они планируют проанализировать активность человеческого мозга и алгоритмов глубокого обучения, обученных на языковых или речевых задачах, в ответ на одни и те же письменные или устные тексты. Теоретически, это позволит расшифровать, как человеческий мозг и искусственный мозг находят смысл в языке.

Сравнивая результаты сканирования человеческого мозга, когда человек активно читает, говорит или слушает, с алгоритмами глубокого обучения, которым дается тот же набор слов и предложений для расшифровки, исследователи надеются найти сходства, а также ключевые структурные и поведенческие различия между биологией мозга и искусственными сетями. Исследование может помочь объяснить, почему люди обрабатывают язык гораздо эффективнее, чем машины.

"Мы пытаемся сравнить активность мозга с алгоритмами машинного обучения, чтобы понять, как функционирует мозг, с одной стороны, и попытаться улучшить машинное обучение", - говорит Жан-Реми Кинг, научный сотрудник Meta AI. "За последнее десятилетие в области ИИ был достигнут огромный прогресс в решении самых разных задач - от распознавания объектов до автоматического перевода. Но когда дело доходит до задач, которые, возможно, не очень хорошо определены или требуют интеграции большого количества знаний, кажется, что системы ИИ сегодня остаются довольно сложными, по крайней мере, по сравнению с людьми".

Для этого они используют методы визуализации всего мозга, такие как фМРТ и магнитоэнцефалография (метод, используемый для определения активности мозга в ответ на отдельные слова и предложения с точностью до миллисекунды). Это позволяет им отслеживать реакцию мозга на слова в зависимости от времени. Детальное наблюдение за мозгом позволит исследователям увидеть, какие области мозга активны, когда они слышат слово "собака" или "стол" (например, это может быть угловая извилина, которая предположительно помогает человеку понимать метафоры, или область Вернике, которая обрабатывает значения звуков). Затем они могут исследовать алгоритм, чтобы увидеть, функционирует ли он аналогично той части мозга, которую они анализируют. Например, какие свойства ИИ улавливает у интересующего его слова? Ассоциирует ли он это слово с тем, как оно звучит или как оно использовалось ранее?

В ходе предыдущих исследований им удалось обнаружить области мозга, которые ведут себя аналогично тому, как ведут себя алгоритмы для визуальных представлений, вкраплений слов и языковых трансформаторов. Например, Кинг отмечает, что алгоритмы, обученные распознаванию символов или преобразованию пикселей в буквы, вызывают активацию, коррелирующую с визуальной частью мозга.

В исследовании, опубликованном в журнале Communications Biology в феврале, исследователи Meta AI обнаружили, что алгоритмы глубокого обучения, обученные предсказывать заблокированное слово из контекста предложения, ведут себя наиболее похоже на человеческий мозг по сравнению с другими алгоритмами, не имеющими этой функции.

"Для нас это сильный сигнал - он говорит о том, что попытка предсказать будущее с учетом прошлого, вероятно, сродни тому, что пытается сделать человеческий мозг", - говорит Кинг.

Эти модели также способны хорошо справляться с рядом задач, не связанных с предсказанием пропущенного слова на основе контекста. "И поэтому это тот путь, по которому мы должны пытаться следовать для разработки алгоритмов глубокого обучения", - говорит Кинг. Но все еще остаются вопросы. В частности, в какой степени нам нужны врожденные структуры мозга, а не культурное влияние в период взросления, чтобы эффективно изучать язык? И сколько данных и параметров действительно необходимо для того, чтобы языковая модель работала?

"Дети учатся говорить в течение нескольких лет, а это очень малое количество предложений [к которым они имели доступ], если сравнивать такие данные с теми, на которых обычно обучаются системы искусственного интеллекта", - говорит Кинг. "Это говорит о том, что в нашем мозге есть архитектура, которая позволяет нам более эффективно извлекать из языковых данных структуру мира - смысл того, что люди пытаются передать".

С другой стороны, системы искусственного интеллекта очень хорошо справляются с конкретными задачами, в отличие от общих. Однако, когда задача становится слишком сложной, даже если она все еще конкретная, или "требует привлечения различных уровней представлений для понимания того, как устроен мир и что побуждает людей думать тем или иным образом", они, как правило, не справляются, говорит Кинг. Например, он отмечает, что некоторые модели обработки естественного языка по-прежнему ставят в тупик синтаксис. "Они улавливают многие синтаксические особенности, но иногда не могут спрягать подлежащее и глагол, когда между ними есть вложенные синтаксические структуры. Люди без проблем справляются с такими задачами".

"Плотность информации и глубина, которую она может нести, - это замечательная особенность языка, - добавляет Кинг. Это то, чего в настоящее время не хватает современным ИИ, и это может объяснить, почему они не всегда могут понять, что мы пытаемся донести до них". Способность иметь общее представление о проблеме в дополнение к пониманию эмоционального или ситуационного контекста определенных слов или фраз может стать ключом к разработке более совершенных систем ИИ для естественного общения, которые в один прекрасный день смогут стать основой будущих виртуальных помощников".

Что касается самих моделей обработки естественного языка - программного обеспечения, которое обучается понимать язык - отдельная команда Meta AI создает набор языковых моделей с открытым исходным кодом на основе трансформаторов с миллионами и даже миллиардами параметров. Меньшие модели требуют меньше энергии для работы, но они хуже справляются со сложными текстами и, как правило, не так точны. Самая большая модель, имеющая 175 миллиардов параметров, по размеру схожа с другими отраслевыми языковыми моделями, такими как GPT-3. Команда также выпустила соответствующий журнал, в котором подробно описано, как они строили и обучали модели.

Модель на основе трансформатора "использует как обученный механизм для представления последовательностей информации, так и механизм внимания в плане того, на чем сосредоточиться в данных. Он обучается по принципу самоконтроля. То есть вы скрываете часть данных, предсказываете их, затем раскрываете, что это было, чтобы посмотреть, были ли вы правы или нет. Если вы ошиблись, вы распространяете информацию по своей сети", чтобы исправить ошибку, объясняет Жоэль Пино, директор Meta AI Research Labs. "Он не берет дополнительный контекст, не использует граф знаний. Он смотрит на распределение слов в языке на основе набора данных, на котором он обучался".

Наличие хорошей языковой модели является важным компонентом для чат-ботов, разговорных агентов, машинного перевода и классификации текста, которая может использоваться, например, для сортировки вопросов по обслуживанию клиентов. "Все эти приложения могут быть намного лучше, если используемая вами языковая модель будет намного богаче", - говорит Пино.

Как и Google, Meta AI использует открытые языковые модели для получения отзывов от других исследователей, включая тех, кто изучает поведение и этическое воздействие этих больших систем ИИ. Пино надеется, что это позволит им сделать системы, которые часто работают как "черный ящик", более прозрачными.

В Meta AI исследование активности мозга и создание языковых моделей - две из многих функций, связанных с ИИ. Другие заметные проекты сосредоточены на областях, связанных с восприятием-действием, включая компьютерное зрение, робототехнику и видео. Кроме того, Meta инвестирует в суперкомпьютер для исследований в области ИИ. Хотя Пино говорит, что пока многие из этих тем исследований остаются отдельными друг от друга, вполне вероятно, что все они в конечном итоге пересекутся и сойдутся в метавселенной.