Птицеловы смотрят: Приложение Merlin от Cornell теперь является универсальным средством идентификации птиц

Новая функция приложения "Shazam для птиц" стала возможной благодаря гражданской науке. Вот как это работает - и почему вы должны скачать это приложение.

Отредактировано 2023-25-06
Пение краснокрылого дроздаКто здесь поет? Обновленное приложение Merlin от Cornell может прослушать и узнать это за вас.

В прошлом году, когда в США были введены ограничения, связанные с пандемией, новые любители птиц устремились к бесплатному приложению Merlin Bird ID. Приложение, разработанное Корнелльской лабораторией орнитологии, ранее предлагало пользователям возможность определить загадочную птицу по описанию или фотографии. Ранее этим летом оно получило еще более крутую функцию: возможность распознать птицу на основе короткого аудиоклипа ее песни, щебета или зова.

Начиная с марта 2020 года, команда Merlin заметила рост числа загрузок приложения, и эта тенденция сохраняется до сих пор. "Мы не только получали больше загрузок, но и число активных пользователей продолжало расти", - говорит Дрю Вебер, координатор проекта Merlin. Этой весной на Merlin было 1,2 миллиона человек (и не только). "Люди скачивают ее, увлекаются птицами, и в этом году они все еще увлекаются птицами, несмотря на то, что реалии блокировки и тому подобное изменились", - говорит он. "Похоже, это вызвало их интерес и сохранило его".

Это происходит в то время, когда новости о птицах разлетаются на ура, особенно в Нью-Йорке, где некоторые редкие птицы достигли статуса культовых знаменитостей. Барраярские и снежные совы украшают страницы The New York Times, а о мандариновой утке в 2018 году писали в журнале New York Magazine, как о следующем пернатом авторитете, которого нужно знать.

Sound ID, дебютировавшая на Merlin в июне, уже получила положительные отзывы от сообщества любителей птиц. Новая функция звуковой идентификации теперь сопровождает инструмент фотоидентификации на основе машинного обучения, который стал доступен пользователям примерно в 2015 году.

"До выпуска Sound ID, я думаю, самым большим количеством отзывов было "Я думал, что с помощью этого приложения можно определять птиц по звуку!" или "Где Shazam для птиц", так что это действительно здорово, что люди получили такую возможность", - говорит Вебер.

Существует несколько других вариантов идентификации птиц по звуку, включая Bird Genie, Song Sleuth и Smart Bird ID. Многие из них используют алгоритмы машинного обучения, но точность результатов может варьироваться из-за фонового шума и индивидуальных различий в позывах птиц.

Merlin - уже зарекомендовавшее себя приложение-путеводитель по птицам. В дополнение к более продвинутым инструментам оно предлагает процесс обычного определения птиц на глаз, что полезно для начинающих орнитологов.

Вот как работает звуковой идентификатор Merlin

С помощью Merlin любители птиц могут включить микрофон своего телефона и попросить его послушать, что происходит вокруг. Затем приложение выведет на экран предложения о том, какие птицы пели или звали. Звук, улавливаемый приложением, также преобразуется в визуальную картину, называемую спектрограммой, которая отражает амплитуду, частоту и продолжительность звуков.

"Как только у вас появляется изображение реальной птицы на дереве или звуковой сигнатуры в виде спектрограммы, вы можете использовать надежные инструменты компьютерного зрения, чтобы начать строить модель для распознавания этих моделей", - говорит Грант Ван Хорн, ведущий исследователь проекта Merlin.

Помимо звукового идентификатора, другие способы использования приложения для идентификации птицы - это ручной ввод ее физических характеристик и загрузка фотографии.

Масштабный подвиг гражданской науки

Системам искусственного интеллекта нужны данные, и, конечно, эти данные должны существовать в первую очередь.

В данном случае проект потребовал серьезной гражданской науки. Функция идентификации по фотографии и более новая опция идентификации по звуку были бы невозможны без базы данных Macaulay Library Лаборатории орнитологии, которая содержит почти 30 миллионов архивных и аннотированных фотографий птиц и более 1,1 миллиона звуковых фрагментов, загруженных сообществом любителей птиц.

Затем команда приступила к работе по преобразованию носителей в полезные инструменты. Они начали создавать компонент фотоидентификации Merlin в 2012 году, в то же время, когда происходило развитие компьютерного зрения. "Мы знали, что если нам удастся собрать данные, мы сможем использовать эти инструменты для создания довольно полезной функции, которая позволит человеку сделать снимок, а компьютер скажет ему, что изображено на фотографии", - говорит Ван Хорн. К 2015 году лаборатория смогла позволить ученым-гражданам загружать фотографии и аудиозаписи в растущую коллекцию. С тех пор как в приложении появился компонент фотоидентификации, оно постоянно совершенствуется: добавляются новые образцы фотографий, расширяется охват видов в новых регионах Южной Америки, Африки, Азии и Европы. "Машинное обучение хорошо работает только в том случае, если у вас есть хороший фундамент данных, на который можно опираться", - объясняет Ван Хорн.

Источником аудиоклипов и фотографий, поступающих в Библиотеку Маколея, является другая программа лаборатории - eBird, запущенная в 2002 году. Приложение eBird позволяет гражданским ученым и местным организациям по всему миру регистрировать и делиться наблюдениями за птицами, в том числе с учеными, изучающими и составляющими карты популяций птиц.

"Поскольку мы собрали эти данные за столько времени, у нас есть действительно хорошее представление о том, если вы окажетесь в Нью-Йорке 19 июля, какие виды вы, скорее всего, встретите", - говорит Ван Хорн. "Такая информация очень помогает нам в идентификации по звуку и по фотографии, потому что она сразу же позволяет нам решить проблему 450 видов для идентификации по звуку, 8000 видов для идентификации по фотографии, и помогает нам сузить круг до 40 видов, которые здесь действительно рассматриваются".

Прогресс компонента аудио-идентификации был медленнее, чем идентификации по изображениям, "просто потому, что рутинная работа по поиску и записи птичьих голосов не так популярна, как их фотографирование", - говорит Ван Хорн. "Но, безусловно, за последние три года или около того Северная Америка была довольно плотно покрыта аудиозаписями".

Примерно в это время в прошлом году команда решила, что у нее достаточно потенциальных аудиоданных для создания и запуска функции звуковой идентификации популярных видов животных в США и Канаде. Они начали прочесывать все данные и отбирать виды.

Однако проблема фонового шума по-прежнему остается сложной для команды инженеров. Чтобы решить эту проблему, они обратились к существующим аудиоданным. Это могут быть аудиоданные о дорожном движении, городской среде и машинных шумах - обычных звуках, не издаваемых птицами. Мы преобразовывали эти аудиоданные в спектрограммы и использовали их в качестве отрицательных примеров: "Это не птица; если вы видите это, не стоит сообщать о видах птиц", - добавляет Ван Хорн. "Это баланс между созданием высококачественной базы данных по птицам и созданием хорошей базы данных по неавиационным шумам, которые мы можем показать машине и научить ее тому, как не звучат птицы".

Затем началась новая работа. Поскольку успех проекта зависел от высокого качества набора данных, это означало, что Вебер и Ван Хорн должны были организовать и привлечь членов сообщества орнитологов с высоким уровнем знаний, чтобы помочь им просмотреть необработанные аудиофайлы в базе данных и обозначить виды, которые присутствуют в записях.

"В процессе создания нашего набора данных для первоначального выпуска, я думаю, мы потратили около 2000 часов на аннотирование, рисование того, где пела птица, где поют различные птицы", - говорит Вебер. "Это были в основном добровольные усилия многих тех же людей, которые вносят данные и наблюдения в eBird".

Когда приложение было впервые запущено в 2014 году, в нем были представлены только самые распространенные птицы США и Канады. В 2016 году появились первые международные метки, начиная с Мексики, Коста-Рики и заканчивая Европой, Австралией, Новой Зеландией, Африкой и частями Азии. "Мы по-прежнему видим, что около 75 процентов наших новых и активных пользователей находятся в США и Канаде, - говорит Вебер, - но все больше новых видов регистрируется по всему миру".

Поскольку пользователи по всему миру продолжают сообщать о наблюдениях в базу данных eBird, новые наблюдения включаются в приложение Merlin и в понимание исследовательской группы о том, какие виды встречаются, когда и где. "Мы постоянно обновляем фотографии и звуки, которые мы включаем в приложение для каждого вида, чтобы постоянно улучшать контент, который мы показываем с помощью Merlin", - добавляет Вебер.

Вебер отмечает, что некоторые из самых удивительных отзывов они получили от слабослышащих пользователей. "Они просто в восторге от просмотра в реальном времени и спектрограммы, которая позволяет визуализировать песню птиц", - говорит он. "Будь то человек, который всегда плохо слышал, или тот, кто стареет и теряет высокие тона, многие люди очень рады возможности в некотором смысле восстановить утраченный слух".

Команда все еще работает над усовершенствованием приложения и учитывает отзывы пользователей. Ван Хорн считает, что, сотрудничая с региональными сообществами и организациями, они смогут создать разнообразный набор полезных инструментов, которые помогут людям более активно проводить время на природе, особенно с местными птицами. "Это история успеха людей и машин", - говорит Ван Хорн. "Люди играют огромную роль в этой головоломке".