Представьте, что вы идете по ряду комнат, кружась все ближе и ближе к источнику звука, будь то музыка, звучащая из динамика, или разговор человека. Шум, который вы слышите, двигаясь по этому лабиринту, будет искажаться и меняться в зависимости от того, где вы находитесь. Рассматривая подобный сценарий, группа исследователей из Массачусетского технологического института и Университета Карнеги-Меллон работала над моделью, которая может реалистично изобразить, как звук вокруг слушателя меняется по мере его перемещения в определенном пространстве. На прошлой неделе они опубликовали свою работу по этому вопросу в новом препринте.
Звуки, которые мы слышим в мире, могут меняться в зависимости от таких факторов, как тип пространства, от которого отражаются звуковые волны, материал, в который они попадают или через который проходят, и расстояние, которое им нужно преодолеть. Эти характеристики могут влиять на то, как звук рассеивается и затухает. Но исследователи могут проанализировать и этот процесс. Они могут взять образец звука и даже использовать его для вывода о том, что представляет собой окружающая среда (в некотором смысле это похоже на то, как животные используют эхолокацию, чтобы "видеть").
"Мы в основном моделируем пространственную акустику, поэтому [основное внимание уделяется] реверберации", - говорит Илун Ду, аспирант Массачусетского технологического института и один из авторов статьи. "Возможно, если вы находитесь в концертном зале, там много ревербераций, возможно, если вы находитесь в соборе, там много эха, в то время как если вы находитесь в маленькой комнате, там нет никакого эха".
Их модель, названная нейроакустическим полем (NAF), представляет собой нейронную сеть, которая может учитывать положение источника звука и слушателя, а также геометрию пространства, через которое прошел звук.
Чтобы обучить NAF, исследователи скормили ему визуальную информацию о сцене и несколько спектрограмм (визуальное представление шаблонов, отражающее амплитуду, частоту и продолжительность звуков) аудио, собранных из того, что слушатель услышал бы в разных точках обзора и положениях.
"У нас есть небольшое количество точек данных; из них мы строим некую модель, которая может точно синтезировать, как будет звучать звук из любой точки комнаты, и как он будет звучать из новой точки", - говорит Ду. "Как только мы подгоняем эту модель, можно моделировать всевозможные виртуальные проходы".
Команда использовала аудиоданные, полученные из виртуально смоделированной комнаты. "У нас также есть некоторые результаты на реальных сценах, но проблема в том, что сбор этих данных в реальном мире занимает много времени", - отмечает Ду.
Используя эти данные, модель может научиться предсказывать, как изменятся звуки, которые слышит слушатель, если он переместится в другое место. Например, если музыка звучит из динамика в центре комнаты, то звук станет громче, если слушатель подойдет к нему ближе, и станет более приглушенным, если слушатель перейдет в другую комнату. NAF также может использовать эту информацию для прогнозирования структуры окружающего слушателя мира.
Одним из основных применений такого типа моделей является виртуальная реальность, чтобы можно было точно генерировать звуки для слушателя, перемещающегося в пространстве VR. Другим важным применением, по его мнению, является искусственный интеллект.
"У нас есть много моделей для зрения. Но восприятие не ограничивается только зрением, звук также очень важен. Мы также можем представить, что это попытка сделать восприятие с помощью звука", - говорит он.
Звук - не единственный носитель информации, с которым исследователи играют с помощью ИИ. Сегодня технология машинного обучения может принимать 2D-изображения и использовать их для создания 3D-модели объекта, предлагая различные перспективы и новые взгляды. Эта техника особенно полезна в виртуальной реальности, где инженерам и художникам приходится создавать реалистичную архитектуру экранного пространства.
Кроме того, модели, подобные этой, ориентированной на звук, могли бы улучшить работу существующих датчиков и устройств в условиях низкой освещенности или под водой. "Звук также позволяет видеть сквозь углы. В зависимости от условий освещения существует множество вариаций. Объекты выглядят очень по-разному", - говорит Ду. "Но звук в большинстве случаев отражается одинаково. Это другая сенсорная модальность".
На данный момент основным ограничением для дальнейшего развития их модели является недостаток информации. "Одна вещь, которая оказалась на удивление сложной, - это получение данных, потому что люди не так много исследовали эту проблему", - говорит он. "Когда вы пытаетесь синтезировать новые виды в виртуальной реальности, есть тонны наборов данных, все эти реальные изображения. С большим количеством данных было бы очень интересно исследовать больше таких подходов, особенно в реальных сценах".
Посмотрите (и послушайте) проход по виртуальному пространству, ниже: