Новый искусственный интеллект Adobe может превратить 2D-фотографию в 3D-сцену

Предварительный просмотр фильма "За гранью видимого".

Отредактировано 2023-25-06
Adobe За пределами видимого рендерингаПользователи могут добавлять блестящие объекты в сцену с помощью нового инструмента Adobe.

Сегодня на Adobe MAX, ежегодной конференции компании по креативности, Adobe представит новую технологию под названием "Beyond the Seen", которая использует искусственный интеллект для расширения границ двухмерных изображений и даже превращения их в захватывающие трехмерные сцены. Хотя это всего лишь демонстрация, она показывает, как генераторы изображений с искусственным интеллектом, созданные для конкретных целей, могут иметь далеко идущие коммерческие и художественные применения.

Генератор изображений работает, беря пейзаж или фотографию изнутри здания и расширяя ее до полной 360-градусной сферической панорамы вокруг камеры. Конечно, он не может знать, что на самом деле находится за камерой, поэтому он использует машинное обучение для создания правдоподобного и бесшовного окружения - будь то горный пейзаж или интерьер концертного зала. Алгоритмы Adobe также могут оценить 3D-геометрию нового окружения, что позволяет менять точку обзора и даже создавать впечатление, что камера перемещается по окружению.

Хотя расширение изображения или out-painting не является чем-то новым, генератор искусственного интеллекта от Adobe - первый, построенный исключительно на этом. Например, DALL-E 2 позволяет пользователям расширять изображения небольшими блоками, в то время как Stable Diffusion требует обходного пути.

Генератор изображений Adobe AI немного отличается от более общих генераторов изображений, таких как DALL-E 2 и Stable Diffusion, по нескольким ключевым параметрам. Во-первых, он обучен на гораздо более ограниченном наборе данных с конкретной целью. DALL-E 2 и Stable Diffusion были обучены на миллиардах пар текст-изображение, которые охватывают все понятия от авокадо и Аврил Лавин до зебры и Зендайи. Генератор Adobe был обучен исключительно на наборе данных из примерно 250 000 360-градусных панорам высокого разрешения. Это означает, что он отлично справляется с созданием реалистичного окружения из исходных изображений, но у него нет функций преобразования текста в изображение (другими словами, вы не можете ввести текстовую подсказку и получить странный результат) или каких-либо других общих функций генерации. Это инструмент с конкретной задачей. Однако изображения, которые он выводит, значительно больше.

Фотография ИИПользователи также могут превращать изображения в панорамы с помощью инструмента AI. Adobe

В настоящее время генератор Adobe использует метод искусственного интеллекта под названием General Adversarial Network, или GAN, а не диффузионную модель. GAN работают путем использования двух нейронных сетей друг против друга. Генератор отвечает за создание новых результатов, а Дискриминатор должен угадать, является ли любое представленное ему изображение результатом работы Генератора или реальным изображением из обучающего набора. По мере того как Генератор становится лучше в создании реалистичных изображений, он становится лучше в обмане Дискриминатора, и таким образом создается работающий алгоритм генерации изображений.

Между тем, диффузионные модели, которые используются в DALL-E 2 и Stable Diffusion, начинают со случайного шума и редактируют его для создания правдоподобного изображения. Недавние исследования показали, что они могут давать более реалистичные результаты, чем GAN. Учитывая это, Гэвин Миллер, вице-президент и руководитель отдела исследований Adobe, сказал PopSci, что алгоритм может быть адаптирован для использования диффузионной модели до его коммерческого выпуска.

Хотя эта технология все еще находится на ранней стадии разработки, Adobe выделила несколько потенциальных вариантов ее использования. Несмотря на заявления о Metaverse и создании 3D-миров из 2D-снимков, именно функции расширения обычных изображений могут оказаться ценными в первую очередь. Один из примеров, который Adobe продемонстрировала в демонстрационном видео, - это то, как ее алгоритм позволяет вставлять в изображение "спекулярные" (или блестящие) рендеринговые объекты. Генератор искусственного интеллекта использовался для экстраполяции того, что может находиться за камерой и над объектом, чтобы создать реалистичные отражения от блестящего объекта. Подобная вещь позволит архитекторам и дизайнерам интерьеров легче создавать точные, выглядящие реалистично рендеры для своих проектов.

Аналогичным образом, это позволит фотографам и видеографам расширять фон своих изображений более естественным образом. Миллер объяснил, что инструменты content aware, которые присутствуют в приложениях Adobe, таких как Photoshop, с 2010 года, способны генерировать натуралистичную текстуру, в то время как новые генеративные модели способны создавать как текстуру, так и структуру.

По словам Миллера, пока не сообщается, когда эта технология станет общедоступной, но сегодняшнее открытие - это "часть более широкой программы развития генеративных технологий", которую преследует Adobe. Всегда было возможно создавать 360-градусные панорамы с помощью оборудования, но вскоре появится возможность создавать реалистичные панорамы, используя только программное обеспечение. И это действительно может изменить ситуацию - и да, возможно, сделать возможным для мелких создателей создание метавселенной.