Эти модные на вид очки от исследователей из Корнелла обладают особой способностью, и она не связана с близорукостью. В нижнюю часть оправы встроены крошечные динамики и микрофоны, которые могут излучать тихие звуковые волны и принимать ответное эхо.
Эта способность очень полезна для обнаружения движений рта, позволяя устройству распознавать негромкую или даже беззвучную речь. Это означает, что вы можете прошептать или произнести команду ртом, и очки воспримут ее, как устройство для чтения по губам.
Инженеры, создавшие это устройство под названием EchoSpeech, собираются представить свой доклад о нем на конференции Ассоциации вычислительной техники по человеческим факторам в компьютерных системах в Германии в этом месяце. "Для людей, которые не могут произносить звуки, эта технология беззвучной речи может стать отличным входом для синтезатора голоса", - сказал в пресс-релизе Руидонг Чжан, докторант Корнельского университета и один из авторов исследования. Технология также может использоваться пользователями для подачи беззвучных команд на сопряженное устройство, например, ноутбук или смартфон".
В небольшом исследовании, в котором 12 человек носили очки, EchoSpeech доказал, что он может распознать 31 изолированную команду и строку связанных цифр, произнесенных испытуемыми, с коэффициентом ошибок менее 10 процентов.
Вот как работает EchoSpeech. Динамики и микрофоны расположены на разных линзах по разные стороны лица. Когда динамики излучают звуковые волны частотой около 20 килогерц (почти ультразвук), они проходят путь от одной линзы к губам, а затем к противоположной линзе. Когда звуковые волны от динамиков отражаются и дифрагируют после попадания на губы, их характерные особенности улавливаются микрофонами и используются для создания "эхо-профилей" для каждой фразы или команды. Это эффективно работает как простая миниатюрная гидролокационная система.
С помощью машинного обучения эти эхо-профили могут быть использованы для определения речи или произносимых слов. Хотя модель предварительно обучена на определенных командах, она также проходит этап тонкой настройки для каждого человека, который занимает у каждого нового пользователя около 6-7 минут. Это делается для того, чтобы улучшить ее работу.
Датчики звуковых волн подключены к микроконтроллеру с настроенным усилителем звука, который может взаимодействовать с ноутбуком через USB-кабель. В демонстрации в реальном времени команда использовала маломощную версию EchoSpeech, которая могла осуществлять беспроводную связь через Bluetooth с микроконтроллером и смартфоном. Телефон Android, к которому подключалось устройство, выполнял всю обработку и прогнозирование и передавал результаты на определенные "кнопки действий", которые позволяли ему воспроизводить музыку, взаимодействовать с интеллектуальными устройствами или активировать голосовых помощников.
"Поскольку данные обрабатываются локально на вашем смартфоне, а не загружаются в облако, конфиденциальная информация никогда не выходит из-под вашего контроля", - отметил в пресс-релизе Франсуа Гимбретьер, профессор Корнельского университета и один из авторов статьи. Кроме того, для передачи аудиоданных требуется меньшая пропускная способность, чем для видео или изображений, и они также потребляют меньше энергии".
Посмотрите на EchoSpeech в действии ниже: