ИИ пытается лучше разобраться с руками

Точные изображения рук, как известно, с трудом генерируются искусственным интеллектом, но "NeRF" готов помочь.

Отредактировано 2023-25-06
Непонятные руки созданные искусственным интеллектомТак близко, но так далеко.

ИИ-генераторы текста в изображение прошли долгий и, возможно, тревожный путь за очень короткий период времени, но есть одна часть человеческой анатомии, которую они все еще не могут понять: руки. В беседе с BuzzFeed в начале этого года Амелия Вингер-Беарскин, художница и доцент кафедры искусственного интеллекта и искусства в Университете Флориды, объяснила, что до сих пор программы искусственного интеллекта в основном не знали, что такое "рука". "Руки в изображениях - это довольно тонкий нюанс", - сказала она в то время. "Обычно они держатся за что-то. Или иногда они держатся за другого человека". Хотя за последние несколько месяцев были достигнуты некоторые успехи, все еще есть значительный простор для совершенствования.

Хотя поначалу это может показаться странным, беглый взгляд на сложность наших придатков может быстро показать, почему это так. Если не учесть многочисленные точки сочленения, различные позы, морщины на коже, вены и бесчисленное множество других точных деталей, визуализация рук может быстро превратиться в долину странностей и неточностей. Более того, у программ ИИ просто нет такого количества больших высококачественных изображений рук для обучения, как у лиц и полных тел. Но поскольку ИИ все еще борется с этим - часто с крайне загадочными, смехотворными и откровенно расстраивающими результатами - программисты из Университета науки и технологий в Хэфэй, Китай, работают над удивительно простым решением: обучить ИИ специально изучать и улучшать генерацию рук.

В недавно опубликованной научной статье команда подробно описывает, как они отказались от более распространенной технологии создания диффузных изображений в пользу так называемых нейронных сияющих полей, или NeRF. Как отмечает New Scientist, это 3D-моделирование основано на нейронных сетях и ранее использовалось Google Research и Waymo для создания бесшовных крупномасштабных моделей городских пейзажей.

Фотография ИИКредит: Университет науки и техники Китая

"Внедрив в [NeRF] стратегию отображения рук и композиции лучей, мы сделали возможным естественную обработку контактов взаимодействия и дополнение геометрии и текстуры в редко наблюдаемых областях для обеих рук", - гласит часть аннотации к статье, добавляя, что программа команды "HandNeRF" совместима как с одной, так и с двумя взаимодействующими руками. В этом обновленном процессе многоракурсные изображения руки или рук сначала используются "готовым скелетным оценщиком" для параметризации поз рук изнутри. Затем исследователи используют поля деформации с помощью программы HandNeRF, которая генерирует изображения верхних придатков, более реалистичные по форме и поверхности.

Хотя NeRF-изображение трудно поддается обучению и само по себе не может генерировать цельные результаты преобразования текста в изображение, New Scientist также объясняет, что потенциальное объединение его с технологией диффузии может обеспечить новый путь вперед для поколений ИИ. До тех пор, однако, большинству программистов придется искать способы обойти слабое понимание ИИ человеческой руки.