Различные исследовательские группы вынашивали идею создания ИИ-врача на протяжении большей половины последнего десятилетия. В конце декабря компьютерные ученые из Google и DeepMind представили свою версию ИИ-врача, который может диагностировать состояние здоровья пациента на основе его симптомов, используя большую языковую модель под названием PaLM.
Согласно препринту, опубликованному группой, их модель набрала 67,6 процента баллов на эталонном тесте, содержащем вопросы из экзамена на получение медицинской лицензии США, что, по их утверждению, превосходит предыдущее современное программное обеспечение на 17 процентов. Одна из ее версий показала результаты, схожие с человеческими врачами. Однако у этого и подобных ему алгоритмов есть множество предостережений.
Вот несколько кратких фактов о модели: Она была обучена на базе данных, включающей более 3000 часто задаваемых в поисковиках медицинских вопросов, а также на шести других существующих открытых базах данных медицинских вопросов и ответов, включая медицинские обследования и литературу по медицинским исследованиям. На этапе тестирования исследователи сравнили ответы двух версий ИИ с ответами человека-клинициста и оценили эти ответы на точность, фактичность, уместность, полезность, соответствие текущему научному консенсусу, безопасность и предвзятость.
Адриана Портер Фелт, инженер-программист, работающий над Google Chrome, которая не участвовала в написании статьи, отметила в Twitter, что в версии модели, которая отвечает на медицинские вопросы аналогично людям-клиницистам, добавлена функция "настройки подсказок, которая является трудоемким и не масштабируемым процессом". Это включает в себя тщательную настройку формулировки вопроса таким образом, чтобы ИИ мог получить правильную информацию.
Исследователи даже написали в статье, что их модель "работает обнадеживающе, но по-прежнему уступает клиницистам", и что "понимание [медицинского контекста], запоминание знаний и медицинские рассуждения улучшаются с увеличением масштаба модели и настройкой подсказок". Например, каждая версия ИИ пропускала важную информацию и включала в свои ответы неправильный или неуместный контент с большей частотой по сравнению с людьми.
Языковые модели все лучше справляются с разбором информации большей сложности и объема. И, похоже, они хорошо справляются с задачами, требующими научных знаний и рассуждений. Несколько небольших моделей, включая SciBERT и PubMedBERT, расширили границы языковых моделей для понимания текстов, насыщенных жаргоном и специальными терминами.
Но в биомедицинских и научных областях действуют сложные факторы и много неизвестных. И если ИИ ошибается, то кто берет на себя ответственность за недобросовестную работу? Можно ли отследить источник ошибки, когда большая часть алгоритма работает как "черный ящик"? Кроме того, эти алгоритмы (математические инструкции, передаваемые компьютеру программистами) несовершенны и нуждаются в полных и правильных обучающих данных, которые не всегда доступны для различных состояний у разных демографических групп. Кроме того, покупка и систематизация данных о состоянии здоровья может быть дорогостоящей.
Правильные ответы на вопросы стандартного теста с несколькими вариантами ответов не говорят об интеллекте. Аналитические способности компьютера могут оказаться недостаточными, если ему представить реальный клинический случай. Поэтому, хотя на бумаге эти тесты выглядят впечатляюще, большинство этих ИИ не готовы к внедрению. Рассмотрим проект компании IBM "Watson AI health". Даже с миллионами долларов инвестиций, он все еще имел множество проблем и не был достаточно практичным или гибким в масштабе (в итоге он взорвался и был продан на запчасти).
Google и DeepMind признают ограничения этой технологии. В своей статье они пишут, что для того, чтобы эта модель была действительно полезной, необходимо разработать и улучшить несколько областей, таких как обоснование ответов на авторитетных, современных медицинских источниках и способность выявлять и эффективно передавать неопределенность врачу или пациенту.