Настроение - это уникальный способ для исследователей попытаться измерить воздействие природных или неестественных катастроф на людей. Однако просто непрактично спрашивать каждого человека в мире о том, как он себя чувствует после масштабного события.
Но ученые из Массачусетского технологического института, Китайской академии наук и Института человеческого развития имени Макса Планка нашли обходной путь. Они использовали методы машинного обучения для сканирования социальных сетей на предмет изменения настроений после первой волны COVID-19 в 100 различных странах и получения в реальном времени информации о том, насколько счастливыми или печальными были события, связанные с пандемией, для людей по всему миру. Представьте себе этот процесс как кольцо настроения, управляемое ИИ, но для миллионов людей. Результаты исследования были опубликованы на прошлой неделе в журнале Nature Human Behavior.
Неудивительно, что исследователи обнаружили, что начало пандемии привело к резкому падению уровня счастья. Чтобы представить этот спад в перспективе, подумайте о том, что в обычную неделю люди, как правило, чувствуют себя наиболее счастливыми в выходные и наименее счастливыми по понедельникам. Падение уровня счастья в начале пандемии в марте 2020 года было в четыре-пять раз больше, чем среднее падение уровня счастья от обычных выходных до понедельника. Общее изменение настроения в связи с пандемией больше, чем изменения настроения, наблюдавшиеся ранее в ответ на стихийное бедствие, такое как ураган, или резкое повышение температуры. Согласно наблюдениям исследователей в социальных сетях, наибольшее снижение настроения наблюдалось в Австралии, Испании, Великобритании и Колумбии, в то время как Бахрейн, Ботсвана, Греция, Оман и Тунис оказались наименее затронутыми пандемией.
Как машины научились оценивать сообщения по настроению?
Для этого исследования команда использовала данные социальных сетей Twitter и Weibo, собранные Гарвардским центром географического анализа Geotweet Archive и Лабораторией устойчивой урбанизации Массачусетского технологического института. В общей сложности их набор данных содержал 654 миллиона сообщений с геометками от 10,56 миллиона человек за первые пять месяцев 2020 года.
Чтобы научить машину измерять настроение, исследователи начали с создания индекса настроения, похожего на шкалу боли на лице в кабинете врача. Этот индекс настроения варьируется от 0 (очень несчастен) до 100 (очень счастлив). Каждое сообщение, собранное командой из Twitter и Weibo, оценивалось по этому индексу. Затем исследователи могут объединить конкретные эмоции в профиль настроения для отдельного человека, района, города или страны.
В отличие от шкалы боли в лице, люди не оценивают свои сообщения и не отвечают на опросы о том, насколько счастливыми они себя чувствуют. Вместо этого исследователи использовали метод машинного обучения для присвоения каждому сообщению темы и рейтинга настроения.
Метод машинного обучения, о котором идет речь, - это метод обработки естественного языка под названием BERT, или двунаправленные кодирующие представления из трансформаторов, который классифицирует сообщения по темам и настроениям. (BERT был разработан инженерами Google).
"Мы хотели провести это глобальное исследование, чтобы сравнить разные страны, потому что они пострадали от пандемии в разное время, у них разные культуры, разные политические системы и разные системы здравоохранения, - говорит Сици Чжэн, профессор Массачусетского технологического института. Все эти факторы могли повлиять на то, как пандемия повлияла на настроение людей".
Поскольку они хотели провести анализ на нескольких языках, они не могли использовать свой предыдущий подход, основанный на словаре, который они использовали в исследовании 2019 года для количественной оценки эмоционального воздействия загрязнения воздуха в Китае. Словарный подход предполагает, что слова имеют коннотации, связанные с определенными эмоциями. Он опирается на такие инструменты, как LIWC (программа Linguistic Inquiry and Word Count) и словари эмодзи. Недостатком этого подхода является то, что исследователям необходимо составлять обширные списки слов, причем для каждого языка, который они хотят изучить, нужно составлять свой список.
Преимущество использования машинного обучения заключается в том, что оно не зависит от конкретного языка. Прежде чем применить эту методику ко всей выборке, исследователи обучили ее на небольшой выборке сообщений и проверили ее работу на людях, попросив ее предсказать настроения на случайных сообщениях и сравнив ее точность со словарной моделью.
Эта статья о реакции социальных сетей на COVID-19 - лишь один из результатов долгосрочного проекта лаборатории Чжэн под названием "Глобальные настроения", целью которого является использование методов обработки естественного языка для извлечения информации о субъективном самочувствии из сообщений социальных сетей. Ее лаборатория использует анализ настроения в социальных сетях для изучения реакции на различные события, включая лесные пожары, экологические угрозы, стихийные бедствия и новые политические решения.
"Это способ обеспечить уникальный угол зрения, другое измерение для количественной оценки влияния потрясений", - говорит она. Чжэн и ее коллеги разместили на сайте Global Sentiment более подробное описание кодов и методов, использованных в их исследованиях.