Акустический отпечаток пальца" не позволит Alexa проснуться во время рекламы Amazon Super Bowl

Этот же прием работает, когда Стивен Колберт озорничает.

Отредактировано 2023-25-06
Echo Dot"Алекса, не обращай внимания на телевизор!".

Если вы смотрите Суперкубок в эти выходные, чтобы насладиться футболом, музыкой и рекламой, вы увидите слишком умную рекламу Alexa, голосового помощника Amazon. Когда знаменитости и актеры в рекламе произносят слово "Alexa", оно не должно срабатывать ни на одном из устройств Echo, которые есть у вас дома. Вот почему.

Такие устройства, как Amazon Echo Dots, колонки Google Home и Apple HomePod, прослушивают слова для пробуждения - "Alexa", "Hey, Google" или "Hey, Siri". В идеале, они должны просыпаться только тогда, когда слышат эти слова или фразы, произнесенные кем-то в вашем доме, кто действительно хочет использовать голосового помощника для того, чтобы сделать что-то, например, узнать погоду. Системы должны избегать ложных срабатываний.

В случае с Amazon, для рекламы Super Bowl (и других моментов на телевидении, когда люди говорят "Alexa") компания использует стратегию под названием "акустические отпечатки пальцев", чтобы попытаться удержать устройство от срабатывания. В рекламе, которую произвела компания, создание отпечатков пальцев и программирование системы Alexa на игнорирование таких моментов может происходить заранее. "Когда мы заранее получаем образцы звука - как в случае с рекламой Super Bowl - мы снимаем отпечатки пальцев со всего образца и сохраняем результат, - сказал в своем блоге Майк Родехорст, специалист по машинному обучению компании Amazon. Затем Amazon может поместить эту информацию и отпечатки пальцев из других рекламных роликов на сами устройства Echo, а не в облако, так что, надеюсь, ваше устройство вообще не проснется".

В целом, аудиоотпечаток - это "связанная последовательность", - говорит Алекс Рудницки, заслуженный профессор-исследователь и эксперт в области обработки речи в Университете Карнеги-Меллон. "Звуки развиваются со временем", - говорит он; этот факт является ключевым аспектом того, что составляет индивидуальность звука. Подумайте о том, что кто-то медленно произносит слово "Alexa", и представьте, как меняется его голос по мере того, как он его произносит. Акустический отпечаток пальца - это последовательность фрагментов, которые накладываются друг на друга и могут начинаться каждые 10 миллисекунд, говорит он. (Amazon дает более техническое объяснение своего подхода в четвертом абзаце своего блога).

Родехорст, представитель Amazon, сказал, что когда они обрабатывают информацию, подобную этой, в облаке от рекламы, о которой они знают, и пытаются избежать этих ложных срабатываний, они также могут использовать "звук, который следует за словом wake", что означает, что у них есть больше данных для работы.

Инструкция устройствам Amazon игнорировать конкретный акустический отпечаток из рекламы, которую сделала сама компания, вероятно, более проста, чем в случае, когда персонаж на телевидении использует слово "Alexa" в органичной, неожиданной манере.

В таких случаях, в облаке, компания может воспользоваться тем, что многие устройства будут слышать одно и то же "Alexa" одновременно. Например, в конце января Стивен Колберт в передаче "Полуночные признания" сказал: "Алекса, купи 20 пачек бумажных полотенец Bounty, доставка ночью!". В подобных случаях "Алекса", задействующая несколько устройств, помогает компании (надеюсь) понять, что происходит, и предотвратить реальный заказ "Алексой" этих бумажных полотенец. Она может хранить эту информацию, чтобы предотвратить пробуждение устройства Echo при последующем воспроизведении того же самого фрагмента; я попробовал воспроизвести тот же самый момент Колберта вслух, и моя точка Echo Dot ненадолго проснулась, услышав слово "wake", а затем выключилась.

Компания Amazon также заявила, что может использовать другие стратегии, чтобы "Alexa", исходящий от вашего телевизора, не разбудил ваше устройство. Например, поскольку телевизор не перемещается по комнате, а вы можете находиться в движении, компания может учитывать время попадания звука в различные микрофоны на вашем устройстве. "Звук, конечно, достигнет более близких микрофонов раньше, чем более удаленных, поэтому разница во времени прибытия указывает на расстояние и направление источника звука", - написали двое других ученых Amazon в блоге в прошлом году.

Amazon, комментирует Рудницки из Карнеги-Меллон, "выясняет, как не облажаться, и мне это нравится".

Amazon - не единственная компания, выпускающая голосовой помощник, который может быть подменен мультимедийными данными, поступающими с вашего телевизора или компьютера; однако ни Apple, ни Google не стали комментировать свой подход к этой проблеме.