В паре новых исследований представлена проблематичная дихотомия для программ большой языковой модели ChatGPT компании OpenAI. Несмотря на то, что популярные генеративные текстовые ответы, согласно многочисленным исследованиям и источникам, практически неотличимы от ответов человека, со временем точность GPT, похоже, снижается. Что еще более тревожно, никто не может объяснить причину такого ухудшения.
Группа специалистов из Стэнфорда и Калифорнийского университета в Беркли в опубликованном во вторник исследовании отметила, что поведение ChatGPT со временем заметно изменилось, причем не в лучшую сторону. Более того, исследователи находятся в некоторой растерянности относительно причин такого ухудшения качества ответов.
Для проверки согласованности программ ChatGPT, лежащих в основе GPT-3.5 и -4, исследователи проверили склонность ИИ к "дрейфу", т.е. к ответам разного качества и точности, а также его способность правильно выполнять заданные команды. Исследователи просили ChatGPT-3.5 и -4 решать математические задачи, отвечать на деликатные и опасные вопросы, визуально рассуждать по подсказкам и генерировать код.
В своем обзоре команда обнаружила, что "в целом... поведение "одного и того же" сервиса LLM может существенно измениться за относительно короткий промежуток времени, что подчеркивает необходимость постоянного мониторинга качества LLM". Например, GPT-4 в марте 2023 года определял простые числа с точностью почти 98%. Однако к июню точность GPT-4 снизилась до менее чем 3% при решении той же задачи. В то же время GPT-3.5, выпущенный в июне 2023 года, улучшил показатели определения простых чисел по сравнению с версией, выпущенной в марте 2023 года. Что касается генерации компьютерного кода, то в период с марта по июнь способность обеих редакций генерировать компьютерный код ухудшилась.
Эти несоответствия могут иметь реальные последствия, причем уже в ближайшее время. Ранее в этом месяце в журнале JMIR Medical Education была опубликована работа группы исследователей из Нью-Йоркского университета, в которой говорится, что ответы ChatGPT на вопросы, касающиеся здравоохранения, по тону и формулировкам якобы неотличимы от ответов человека-медика. Исследователи представили 392 людям 10 вопросов и ответов на них, половина из которых исходила от медицинского работника, а половина - от большой языковой модели (LLM) OpenAI. Участники эксперимента оказались "ограниченно способными" различать ответы, написанные человеком и чатботом. Это происходит на фоне растущей обеспокоенности по поводу способности искусственного интеллекта работать с конфиденциальностью медицинских данных, а также его склонности к "галлюцинациям" неточной информации.
Не только ученые отмечают снижение отдачи от ChatGPT. Как отмечает в среду Business Insider, на форуме разработчиков OpenAI постоянно ведутся дебаты о прогрессе LLM - или его отсутствии. "Было ли какое-либо официальное решение этого вопроса? Как платный клиент, он превратился из отличного помощника су-шефа в посудомойку. Хотелось бы получить официальный ответ", - написал один из пользователей в начале этого месяца.
Исследования и разработки OpenAI в области LLM, как известно, закрыты для внешнего обзора, и эта стратегия вызвала резкую критику со стороны экспертов и пользователей. "Трудно сказать, почему это происходит", - написал в среду в Твиттере Матей Захария, один из соавторов документа о проверке качества ChatGPT. Захария, доцент кафедры информатики Калифорнийского университета в Беркли и технический директор компании Databricks, высказал предположение, что обучение с подкреплением на основе человеческой обратной связи (RLHF) может "упираться в стену" наряду с точной настройкой, но также признал, что это может быть просто ошибкой в системе.
Таким образом, несмотря на то, что ChatGPT может пройти элементарный тест Тьюринга, его неравномерное качество по-прежнему вызывает серьезные проблемы и опасения у населения - при том, что мало что мешает его дальнейшему распространению и интеграции в повседневную жизнь.