Машинное обучение наконец-то помогает нам быстрее и точнее отслеживать случаи смерти от COVID

Крупное обновление программного обеспечения, которое CDC использует для кодирования смертей, должно предложить более своевременную информацию о заболеваниях.

Отредактировано 2023-17-06
Черный человек с короткими седыми волосами в красной рубашке в маске COVID смотрит прямо в камеруБолее оперативная статистика смертности может привести к более быстрым действиям на фронте борьбы с COVID.

В 2020 и 2021 годах COVID-19 станет третьей основной причиной смерти в США. В мае этого года страна преодолела мрачный рубеж в 1 миллион известных смертей от COVID. Хотя сейчас от вируса умирает меньше людей, чем во время всплеска Омикрон этой зимой или предыдущих волн, новые штаммы продолжают уносить жизни.

Поскольку пандемия затягивается, понимание того, сколько людей умирает и кто наиболее уязвим, по-прежнему имеет решающее значение для усилий по предотвращению новых смертей. С этой целью Центры по контролю и профилактике заболеваний (CDC) недавно обновили программное обеспечение, которое используется для обработки всех данных о смертности в стране. Это изменение, основанное на передовых вычислительных методах, таких как машинное обучение, может обеспечить работников здравоохранения и общественность более актуальной информацией о заболевании.

"Гражданская регистрация рождений и смертей и понимание причин смерти - это действительно ключ к функционированию системы здравоохранения", - говорит Эмили Смит, доцент кафедры глобального здравоохранения Университета Джорджа Вашингтона. "Существует множество способов использования этой информации".

Отслеживание основных причин смерти в обществе и определение мест концентрации смертей помогает работникам здравоохранения направлять ресурсы, добавляет она. Во время кризиса, подобного пандемии COVID, наличие оперативной информации особенно важно. Однако национальная система статистики медленно обрабатывает и публикует данные о смертности. Когда в начале этого года число умерших от вируса в США перевалило за миллион, система отслеживания CDC все еще отставала на несколько недель.

"Эффективное противодействие эпидемии - это предоставление нужных ресурсов - будь то лекарства, вакцины или профилактические программы - нужным людям в нужное время", - говорит Смит. "Данные помогают нам в этом".

Обновление CDC представляет собой важный шаг вперед. "Приятно видеть, что США продвигаются вперед в этом направлении", - отмечает Смит. "Более прозрачные и быстрые данные - это большой прогресс".

Кодирование COVID-19

В течение десятилетий CDC полагался на компьютеры для анализа свидетельств о смерти и присвоения четырехзначных кодов каждому сообщению на основе основной причины, чтобы их можно было отслеживать в Национальной системе статистики естественного движения населения.

Однако только около 70-75% свидетельств о смерти в стране могли быть закодированы автоматически; остальные были помечены для проверки, что означает, что сотрудник должен был ввести причину смерти в систему вручную. "Когда вы имеете дело с 2-3 миллионами смертей [каждый год], 25-30 процентов записей - это довольно значительное число, требующее больших ресурсов", - говорит Роберт Андерсон, начальник отдела статистики смертности в Национальном центре статистики здравоохранения.

Обновленная система кодирования причин смерти, известная как MedCoder, может обрабатывать большую часть таких записей: В настоящее время она автоматически кодирует 85% записей, а при дальнейшем совершенствовании "имеет потенциал для кодирования более 90% записей", - говорит Андерсон. "Эти записи могут быть автоматически закодированы за несколько минут, в то время как ручной анализ может занять пару недель", - добавляет он. "Это просто означает, что больше информации доступно более своевременно".

По словам Андерсона, MedCoder лучше, чем прежние системы, справляется с различиями в терминах, которые врачи, судмедэксперты и коронеры используют для описания смертей. Компьютер присваивает записи один из 10 000 возможных кодов причин смерти. Например, если в свидетельстве о смерти упоминается COVID, он выбирает U07.1. Чтобы улучшить результаты, Андерсон и его команда использовали методы машинного обучения, опираясь на данные национальных свидетельств о смерти за десять лет, чтобы обучить MedCoder распознавать ошибки и другие отклонения. Таким образом, когда врач заполняет свидетельство о смерти, указывая "коронавирус 2019", "SARS-CoV-2", "вариант Delta" или другое название заболевания, компьютер все равно кодирует его как U07.1. Старая система говорила: "Я не нахожу этого термина в словаре", и выкидывала его на проверку", - объясняет Андерсон. Теперь же компьютер говорит: "Хорошо, я знаю, что с этим делать и какой код присвоить".

Во время установки обновлений с 6 по 24 июня Национальный центр медицинской статистики приостановил обработку данных о смертности, предоставленных штатами, и не обновлял наборы данных наблюдения COVID на публичной странице Национальной системы статистики естественного движения населения. Данные, полученные несколькими неделями ранее в 2022 году, могут временно показаться заниженными, пока система догоняет и перерабатывает эти записи, отмечается на сайте агентства.

"Как только мы преодолеем это отставание, система будет функционировать практически так же, как и старая", - говорит Андерсон. "Я не хочу, чтобы люди беспокоились о том, что данные, которые мы публикуем сейчас, несопоставимы с теми, которые мы публиковали раньше. Они сопоставимы; просто они будут немного более своевременными".

Показатели смертности имеют значение

Обычно в свидетельствах о смерти не указывается, какой именно вариант атипичной пневмонии (SARS-CoV-2) поразил умершего человека. Но поиск закономерностей в более точных данных о смертности может помочь экспертам в области здравоохранения понять, насколько опасным может быть новый штамм и нужны ли дополнительные меры предосторожности.

"Если количество смертей растет, это повышает срочность", - говорит Андерсон. "Если данные поступают не так своевременно, то наша ситуационная осведомленность ухудшается на неделю или две, а может быть, и на три".

Возможно также, что наличие более оперативных данных позволило бы США быстрее осознать, что они достигли 1 миллиона смертей от COVID-19. "Наличие более качественных данных в режиме реального времени гипотетически должно иметь значение на многих различных фронтах", - говорит Смит. "Это важно для общественного восприятия; это важно для политической воли".

Зарегистрированные случаи смерти, как правило, отстают от других тревожных признаков, таких как рост числа положительных тестов на COVID или госпитализации. Однако эти показатели трудно интерпретировать. Увеличение числа госпитализаций может свидетельствовать о том, что все больше людей становятся тяжелобольными, но может не отражать всего масштаба проблемы, поскольку не все люди с тяжелыми заболеваниями имеют доступ к больницам.

"Это более мягкие результаты, которые включают в себя как тяжесть заболевания, так и другие социальные и экономические факторы, в то время как смерть - это жесткий результат". говорит Смит. "Смертность - это окончательный показатель - он черно-белый".