Хорошее и плохое в портретах ИИ компании Lensa

Lensa может создать десятки персонализированных изображений в различных художественных стилях.

Отредактировано 2023-25-06
коллаж из портретов сгенерированных искусственным интеллектом ЛинзыВот некоторые из портретов, которые Ленса придумала для меня.

Lensa - это приложение для редактирования фотографий, работающее на основе искусственного интеллекта, которое поднялось на вершины магазинов приложений по всему миру. Хотя оно доступно с 2018 года, только с выпуском функции "Волшебные аватары" в прошлом месяце оно стало мировым хитом в социальных сетях. Если вы были в Twitter, Instagram или TikTok в последние несколько недель, вы почти наверняка видели некоторые из сгенерированных ИИ изображений в различных стилях.

Lensa использует Stable Diffusion (о которой мы рассказывали ранее) для создания своих волшебных аватаров. Пользователи загружают от 10 до 20 снимков головы с помощью приложения для iOS или Android, и Lensa обучает пользовательскую версию модели генерации изображений Stable Diffusion. Используя персонализированную модель искусственного интеллекта, Lensa может создать десятки изображений в различных художественных стилях, которые действительно напоминают реального человека, а не его абстрактную идею. Или, по крайней мере, она способна сделать это достаточно часто, чтобы произвести впечатление. Не зря Magic Avatars продаются только в упаковках по 50, 100 и 200 штук по цене $3,99, $5,99 и $7,99 соответственно.

Конечно, магические аватары Ленса не свободны от артефактов. Модели ИИ могут генерировать невероятно странные изображения, напоминающие монстров или абстрактное искусство вместо человека. Форма глаз, пальцев и других мелких деталей чаще всего несовершенна, чем, скажем, положение рта или носа.

Как и большинство генераторов ИИ, творения Lensa не свободны от гендерных, расовых и других предубеждений. В статье в The Cut под названием "Почему у всех моих ИИ-аватаров огромные сиськи" Миа Меркадо (наполовину белая, наполовину филиппинка) написала, что ее аватары "не впечатляют". По словам Меркадо, "лучшие из них выглядели как довольно точные иллюстрации". Большинство же "показывали неоднозначно азиатскую женщину", часто с "грудью, которую можно описать только как огромную".

В статье для MIT Technology Review Мелисса Хейккиля (которая также является выходцем из Азии) называет свои аватары "карикатурно порнографическими". Из 100 созданных ею портретов 16 были топлесс, а еще на 14 она была "в чрезвычайно скупой одежде и откровенно сексуализированных позах". И эта проблема не ограничивается Ленсой. Другие генераторы изображений с искусственным интеллектом, использующие метод стабильной диффузии, также создали несколько невероятно сомнительных изображений цветных людей.

Эта проблема настолько распространена, что в разделе FAQ на своем сайте компания Prisma Labs, создавшая Lensa, вынуждена была дать ответ на вопрос: "Почему пользователи женского пола, как правило, получают результаты с чрезмерно сексуальной внешностью?". Короткий ответ: "Периодическая сексуализация наблюдается во всех гендерных категориях, хотя и по-разному".

Согласно FAQ, проблема может быть связана с набором данных, на котором изначально обучалась Stable Diffusion. Он использует набор данных Laoin-5B, который содержит почти 6 миллиардов нефильтрованных пар "изображение-текст", взятых из интернета. Компания Stability AI (создатель Stable Diffusion) открыто признала, что "модель может воспроизводить некоторые общественные предубеждения и выдавать небезопасный контент". Сюда входят сексуализированные изображения женщин и общие, стереотипные и расистские изображения цветного населения.

И Stability AI, и Prisma утверждают, что предприняли шаги по минимизации распространенности NSFW-выводов, но эти модели ИИ по своей конструкции являются "черными ящиками", то есть иногда программисты-люди даже не до конца знают обо всех ассоциациях, которые создает модель. Если не создать базу данных изображений без предубеждений для обучения модели ИИ, некоторые общественные предубеждения, вероятно, всегда будут присутствовать в результатах работы генераторов ИИ.

И это при условии, что все действуют добросовестно. TechCrunch смог создать новые NSFW-изображения известного актера с помощью Lensa. Они загрузили смесь настоящих SFW-изображений актера и отфотошопленных изображений лица актера на модели топлесс. Из 100 созданных изображений 11 оказались "более качественными (или, по крайней мере, более стилистически выдержанными), чем плохо отредактированные фотографии топлесс, которые ИИ получил в качестве входных данных". Конечно, это противоречит условиям предоставления услуг Lensa, но это не останавливало людей в прошлом.

Однако самой многообещающей особенностью этих генераторов ИИ является то, как быстро они совершенствуются. Хотя несомненно, что маргинализированные группы уже сейчас видят, как общественные предубеждения отражаются в их результатах, если эти модели продолжат развиваться, и если разработчики останутся такими же восприимчивыми к обратной связи, то есть основания для оптимизма, что они смогут сделать больше, чем просто отразить худшие стороны Интернета.