Руководство по любимым в интернете генеративным ИИ

VALL-E - лишь последний пример. Вот что нужно знать о DALL-E 2, GPT-3 и многом другом.

Отредактировано 2023-25-06
На этой фотоиллюстрации женщина в силуэте держит смартфон с логотипом OpenAI на экране На этой фотоиллюстрации женщина в силуэте держит смартфон с логотипом OpenAI на экране.

Появился новый искусственный интеллект, который может имитировать чей-то голос на основе всего лишь короткого аудиоклипа. Если вам кажется, что в настоящее время существует множество причудливых ИИ, которые могут генерировать разные вещи, включая изображения и слова, то вы правы! И поскольку это может сбить с толку, мы написали для вас краткое руководство. Вот некоторые из наиболее известных ИИ, появившихся за последние 12 месяцев.

VALL-E

Последний участник, VALL-E - это новый искусственный интеллект от исследователей Microsoft, который может создать полную модель голоса человека на основе трехсекундного начального ролика. Он был обучен на более чем 60 000 часов англоязычной речи более чем 7 000 дикторов и работает путем превращения содержимого начального ролика в отдельные компоненты с помощью процесса, называемого токенизацией, который разбивает текст на более мелкие единицы, называемые токенами. Затем нейронная сеть ИИ предполагает, как будут звучать остальные лексемы, необходимые для создания полной модели, на основе тех немногих, которые она получила из короткого ролика. Результаты, с которыми вы можете ознакомиться на сайте VALL-E, просто поразительны.

Из-за очевидного использования модели ИИ, подобной VALL-E, в глубокой подделке, Microsoft не выпустила ее в открытый доступ. (Microsoft ранее инвестировала в DALL-E и ChatGPT-владельца OpenAI, а также, по сообщениям, ведет переговоры об инвестировании еще миллиардов). Тем не менее, он показывает, на какие вещи способны эти генеративные ИИ даже с самым маленьким семенем.

ДАЛЛ-И 2

DALL-E 2 от OpenAI, возможно, положил начало последнему увлечению искусственным интеллектом, когда он был анонсирован в апреле прошлого года. Он может создавать оригинальные изображения на основе текстовой подсказки, независимо от того, хотите ли вы что-то реалистичное или совершенно необычное. Он даже может расширить границы существующих произведений искусства с помощью техники, называемой "outpainting".

Самое лучшее в DALL-E 2 - это то, что его можно попробовать бесплатно. В первый месяц вы получаете 50 кредитов, каждый из которых позволяет вам создать четыре варианта изображений на основе одной текстовой подсказки. После этого вы получаете 15 бесплатных кредитов в месяц.

Стабильная диффузия

В то время как OpenAI контролирует доступ к DALL-E 2, Stability AI применила другой подход к своему генератору изображений Stable Diffusion: она сделала его с открытым исходным кодом. Любой может загрузить Stable Diffusion и создавать невероятно реалистичные изображения и фантастические произведения искусства, используя достаточно мощный ноутбук.

Благодаря открытому исходному коду, другие компании также смогли использовать Stable Diffusion для запуска инструментов генеративного ИИ. Самым известным здесь является приложение Magic Avatars компании Lensa. С помощью приложения для смартфона вы можете загрузить от 10 до 20 фотографий, которые используются для обучения пользовательской модели Stable Diffusion, а затем генерируют десятки необычных художественных аватаров.

Midjourney

Другое крупное имя в генерации изображений, Midjourney, все еще находится в бета-версии и доступно только через канал Discord. За последний год ее алгоритм значительно улучшился. Лично я нахожу изображения, созданные его текущей моделью - версией 4 - наиболее убедительными и натуралистичными по сравнению с другими популярными генераторами изображений. К сожалению, доступ к ней через Discord - странное препятствие, особенно по сравнению со Stable Diffusion или DALL-E 2.

GPT-3

Языковая модель OpenAI Generative Pre-trained Transformer 3 или GPT-3 была выпущена в 2020 году, но в последние пару месяцев она попала в заголовки газет благодаря выпуску ChatGPT - чат-бота, которым может пользоваться любой желающий. Его ответы на различные вопросы и подсказки часто бывают точными и во многих случаях неотличимы от того, что написано человеком. Он положил начало серьезным разговорам о том, как колледжи будут выявлять плагиат в будущем (возможно, с помощью ИИ, который будет находить плагиат). Кроме того, он может писать смешные стихи.

Хотя ChatGPT, безусловно, является наиболее очевидным примером GPT-3 в мире, на нем также работают и другие инструменты ИИ. Из всех генеративных ИИ в этом списке, мы в PopSci подозреваем, что именно о нем вы услышите гораздо больше в ближайшее время.

Кодекс

GPT-3 от OpenAI не только умеет генерировать глупые песни и короткие эссе; он также способен помочь программистам написать код. Модель под названием Codex способна генерировать код на дюжине языков, включая JavaScript и Python, на основе подсказок естественного языка. На демонстрационной странице вы можете увидеть короткое видео о том, как создается браузерная игра без единой написанной строки кода. Это впечатляет! И Codex уже используется в природе: GitHub Copilot использует его для автоматического предложения полных фрагментов кода. Это как автозаполнение на стероидах.