Острый корги живет в доме из суши. Драконий фрукт в поясе каратиста на снегу. Мозг, летящий на ракетном корабле в сторону Луны. Это лишь некоторые из изображений, созданных искусственным интеллектом с помощью модели диффузии текста в изображение Imagen компании Google, и результаты невероятно точны - иногда даже с юмором. Исследователи из Google недавно представили эти результаты в статье, опубликованной в прошлом месяце, и обсудили моральные последствия использования этой новейшей технологии.
Imagen от Google побеждает конкурентов
В своей исследовательской работе компьютерные ученые Google подтвердили, что существующие предварительно обученные большие языковые модели достаточно хорошо справляются с созданием изображений на основе введенного текста. В Imagen они просто увеличили размер языковой модели и обнаружили, что это привело к более точным результатам.

Для измерения результатов Imagen использовал набор данных Common Objects in Context (COCO), который представляет собой сборник визуальных данных с открытым исходным кодом, на котором компании и исследователи могут обучать свои алгоритмы ИИ распознаванию изображений. Модели получают оценку Frechet Inception Distance (FID), которая рассчитывает их точность при визуализации изображения на основе подсказок из набора данных. Более низкий показатель указывает на большее сходство между реальным и сгенерированным изображениями, а идеальный показатель равен 0,0. Диффузионная модель Imagen от Google может создавать образцы изображений размером 1024 на 1024 пикселя с показателем FID 7,27.
Согласно исследовательской работе, Imagen занимает первое место по показателю FID по сравнению с другими моделями, включая DALL-E 2, VQ-GAN+CLIP и латентно-диффузионные модели. Результаты показали, что Imagen также предпочтительнее для человеческих экспертов.

"Для фотореализма Imagen достигает 39,2%, что указывает на высокое качество генерации изображений", - сообщают компьютерные ученые Google. "На наборе без людей показатель предпочтения Imagen увеличился до 43,6%, что указывает на ограниченную способность Imagen генерировать фотореалистичных людей". По схожести подписей оценка Imagen находится на одном уровне с оригинальными эталонными изображениями, что говорит о способности Imagen генерировать изображения, которые хорошо сочетаются с подписями COCO".
В дополнение к набору данных COCO команда Google также создала свой собственный, который они назвали DrawBench. Эталон состоит из строгих сценариев, которые проверяют способность различных моделей синтезировать изображения на основе "композиционности, кардинальности, пространственных отношений, длинного текста, редких слов и сложных подсказок", выходя за рамки более ограниченных подсказок COCO.

Моральные последствия Imagen и других программ искусственного интеллекта для преобразования текста в изображение
Не зря на всех образцах изображений нет людей. В своем заключении команда Imagen обсуждает возможные моральные последствия и влияние технологии на общество, что не всегда к лучшему. Уже сейчас программа демонстрирует западную предвзятость и точку зрения. Признавая, что существует потенциал для бесконечного творчества, к сожалению, есть и те, кто попытается использовать программное обеспечение во вред. Именно по этой причине, в частности, Imagen недоступен для публичного использования, но это может измениться.
"С другой стороны, генеративные методы могут быть использованы в злонамеренных целях, включая преследование и распространение дезинформации, и вызывают много опасений по поводу социальной и культурной изоляции и предвзятости", - пишут исследователи. "Эти соображения лежат в основе нашего решения не выпускать код или публичную демонстрацию. В дальнейшей работе мы будем изучать рамки ответственной экстернализации, которые уравновешивают ценность внешнего аудита и риски неограниченного открытого доступа".

Кроме того, исследователи отметили, что из-за доступных наборов данных, на которых обучается Imagen, программа проявляет предвзятость. "Аудит наборов данных показал, что эти наборы данных, как правило, отражают социальные стереотипы, угнетающие точки зрения и уничижительные или иные вредные ассоциации с маргинализированными группами".
Хотя технология, безусловно, забавна (кто бы не хотел создать изображение инопланетного осьминога, проплывающего через портал, читая газету?), очевидно, что для ответственного выпуска Imagen (и других программ) в свет необходимо провести дополнительную работу и исследования. Некоторые из них, например, Dall-E 2, используют меры предосторожности, но их эффективность еще предстоит выяснить. Имаген признает, что задача по тщательному смягчению негативных последствий является хоть и необходимой, но очень сложной.
"Хотя мы не рассматриваем эти проблемы напрямую в данной работе, осознание ограниченности наших учебных данных определяет наше решение не выпускать Imagen для публичного использования", - заканчивают они. "Мы настоятельно предостерегаем от использования методов генерации текста в изображение для любых инструментов, ориентированных на пользователя, без пристального внимания к содержанию обучающего набора данных".