Искусственный интеллект маскирует лай собак и крики детей от ваших видеозвонков

Google и Microsoft внедряют впечатляющие автоматические функции для удаления фонового шума во время веб-конференций.

Отредактировано 2023-25-06
Подавление шумов MicrosoftТакие громкие перекусы могут не беспокоить вас в будущем.

Когда началось социальное дистанцирование, видеозвонки быстро заняли свое место в качестве основного метода межличностного общения. Этот инструмент не то же самое, что личная встреча, но простое созерцание других лиц заставляло типичные конференц-связи, проводимые только с помощью аудио, чувствовать себя безнадежно устаревшими. Однако теперь, после нескольких месяцев общения на расстоянии, новизна видеозвонков померкла, а раздражающие причуды стали более очевидными. Лающая собака на заднем плане уже не так мила, как раньше, а тот, кто ест из хрустящего пакета во время мозгового штурма, не отключив микрофон, должен отправиться в одну из тех мега-тюрем, где Мстители держат суперзлодеев.

Однако теперь такие компании, как Microsoft и Google, наращивают усилия по устранению раздражающего фонового шума во время видеозвонков с помощью искусственного интеллекта. На самом деле, Google только что начал распространять свою функцию шумоподавления среди некоторых корпоративных клиентов G Suite, и в ближайшие месяцы она станет доступна большему числу пользователей.

На этой неделе компания Google предоставила Venture Beat демонстрацию технологии шумоподавления, которую она начинает внедрять. Демонстрация впечатляет. Ведущий, директор по управлению продуктами G Suite Серж Лашапелла, воспроизводит множество различных звуков, включая хлопанье в ладоши, хруст пакета и даже удары металлическим шестигранным ключом по стеклянному стакану. Когда он включает шумоподавление, качество его голоса звучит слегка приглушенно, но через несколько мгновений проясняется. Что еще важнее, отвлекающие звуки почти полностью исчезают.

Lachapella использует микрофон Blue Yeti, который является довольно распространенным устройством для подкастеров и стримеров, но не аппаратура делает волшебство. Вместо этого Google полагается на облачный алгоритм искусственного интеллекта, который анализирует звук и вычищает неприятные отвлекающие моменты, оставляя ваши слова.

Это отличается от того, когда мы обычно используем фразу "шумоподавление" применительно к наушникам. В этом случае наушники создают звуковые волны, которые физически гасят шум, пытающийся проникнуть в ваше ухо. В случае Google и других компаний, пытающихся сделать то же самое, бот анализирует звук и удаляет шум из сигнала, прежде чем передать его в наушники или динамики.

Google - не новичок в области распознавания речи. Google Assistant уже много лет слушает и разбирает слова, а в прошлом году компания представила удивительно точную функцию Live Transcription, которая воспроизводит разговоры обычным текстом в режиме реального времени. Google использовал эту технологию в своем новом ИИ. При шумоподавлении вычисления происходят в облаке, а не на устройстве пользователя, поэтому они не нагружают локальный процессор сильнее, чем ресурсоемкие видеозвонки.

Функция будет включена по умолчанию, когда она будет распространяться среди пользователей, что означает, что однажды вы можете заметить, что фоновые звуки исчезли. Вы сможете зайти в настройки и отключить ее, если предпочитаете нефильтрованный звук. В некоторых случаях это может понадобиться. Например, пение, скорее всего, пройдет через фильтр, а фоновая музыка - нет.

Google - не единственная компания, работающая над тем, чтобы очистить звук видеозвонков. Еще в апреле компания Microsoft продемонстрировала аналогичную технологию, предназначенную для функции видеочата Teams. Она использует схожую концепцию: анализ аудио и фильтрация звуков, которые не распознаются как разговор.

Как и план Google, система шумоподавления Microsoft будет внедряться в ближайшие месяцы.

Как и в случае с большинством технологий, основанных на искусственном интеллекте, обе компании ожидают, что со временем их системы будут лучше определять нежелательный шум. Благодаря более широкому набору данных и большему времени на изучение того, что следует и что не следует отфильтровывать, система в конечном итоге станет более эффективной. Это хорошо, потому что ваши коллеги по работе, грызущие чипсы, вероятно, не собираются в ближайшее время переходить на более тихие закуски.