Программное обеспечение AI под названием DALL-E превращает ваши слова в картинки

Программное обеспечение AI под названием DALL-E превращает ваши слова в картинки

Программное обеспечение DALL-E Mini от группы разработчиков с открытым исходным кодом не идеально, но иногда оно действительно эффективно создает изображения, соответствующие текстовым описаниям людей.

Скриншот

В последнее время, просматривая свои ленты в социальных сетях, вы, скорее всего, заметили иллюстрации, сопровождаемые подписями. Они сейчас популярны.

Изображения, которые вы видите, вероятно, стали возможными благодаря программе преобразования текста в изображение под названием DALL-E. Перед публикацией иллюстраций люди вставляют слова, которые затем преобразуются в изображения с помощью моделей искусственного интеллекта.

Например, пользователь Twitter опубликовал твит с текстом «Быть ​​или не быть, раввин держит авокадо, мраморную скульптуру». На прилагаемом изображении, довольно изящном, изображена мраморная статуя бородатого мужчины в мантии и котелке, сжимающего авокадо.

Модели ИИ взяты из программного обеспечения Google Imagen, а также из OpenAI, стартапа, поддерживаемого Microsoft, который разработал DALL-E 2. На своем веб-сайте OpenAI называет DALL-E 2 «новой системой ИИ, которая может создавать реалистичные изображения и искусство из описание на естественном языке».

Но большая часть того, что происходит в этой области, исходит от относительно небольшой группы людей, которые делятся своими фотографиями и, в некоторых случаях, вызывают активное участие. Это связано с тем, что Google и OpenAI не сделали эту технологию широко доступной для общественности.

Многие из первых пользователей OpenAI являются друзьями и родственниками сотрудников. Если вы ищете доступ, вы должны присоединиться к списку ожидания и указать, являетесь ли вы профессиональным художником, разработчиком, академическим исследователем, журналистом или онлайн-создателем.

«Мы прилагаем все усилия, чтобы ускорить доступ, но, вероятно, потребуется некоторое время, прежде чем мы доберемся до всех; по состоянию на 15 июня мы пригласили 10 217 человек попробовать DALL-E», — написала Джоан Джанг из OpenAI на странице справки в компании. Веб-сайт.

Одной из общедоступных систем является DALL-E Mini. он основан на открытом исходном коде слабо организованной команды разработчиков и часто перегружен спросом. Попытки использовать его могут быть встречены диалоговым окном с надписью «Слишком много трафика, попробуйте еще раз».

Это немного напоминает службу Gmail от Google, которая в 2004 году привлекала людей неограниченным пространством для хранения электронной почты. Ранние пользователи могли получить доступ только по приглашению, оставив миллионы ждать. Сейчас Gmail — один из самых популярных почтовых сервисов в мире.

Создание изображений из текста, возможно, никогда не будет таким распространенным явлением, как электронная почта. Но у технологии, безусловно, есть момент, и часть ее привлекательности заключается в эксклюзивности.

Частная исследовательская лаборатория Midjourney требует, чтобы люди заполнили форму, если они хотят поэкспериментировать с ее ботом для создания изображений из канала в чат-приложении Discord. Только избранная группа людей использует Imagen и публикует изображения с него.

Службы преобразования текста в картинку сложны, они определяют наиболее важные части подсказок пользователя, а затем угадывают лучший способ проиллюстрировать эти термины. Google обучил свою модель Imagen с сотнями собственных чипов искусственного интеллекта на 460 миллионах внутренних пар «изображение-текст» в дополнение к внешним данным.

Интерфейсы просты. Обычно есть текстовое поле, кнопка для запуска процесса генерации и область ниже для отображения изображений. Чтобы указать источник, Google и OpenAI добавляют водяные знаки в правый нижний угол изображений с DALL-E 2 и Imagen.

Компании и группы, разрабатывающие программное обеспечение, справедливо обеспокоены тем, что все сразу штурмуют ворота. Обработка веб-запросов для выполнения запросов с помощью этих моделей ИИ может стать дорогостоящей. Что еще более важно, модели не идеальны и не всегда дают результаты, которые точно представляют мир.

Инженеры обучали модели на обширных коллекциях слов и изображений из Интернета, включая фотографии, размещенные людьми на Flickr.

Увеличить значокСтрелки, указывающие наружу

OpenAI, базирующаяся в Сан-Франциско, признает потенциальный вред, который может исходить от модели, которая научилась создавать изображения, по сути, просматривая Интернет. Чтобы попытаться снизить риск, сотрудники удалили из данных обучения материалы, содержащие насилие, и существуют фильтры, которые не позволяют DALL-E 2 создавать изображения, если пользователи отправляют запросы, которые могут нарушать политику компании в отношении наготы, насилия, заговоров или политического контента.

«Идет постоянный процесс повышения безопасности этих систем», — сказал Прафулла Дхаривал, исследователь OpenAI.

Предубеждения в результатах также важно понимать, и они представляют более широкую проблему для ИИ. Борис Дайма, разработчик из Техаса, и другие, работавшие над DALL-E Mini, изложили проблему в описании своего программного обеспечения.

«Профессии, демонстрирующие более высокий уровень образования (например, инженеры, врачи или ученые) или высокий физический труд (например, в строительной отрасли), в основном представлены белыми мужчинами», — написали они. «Напротив, медсестры, секретари или помощники, как правило, женщины, часто также белые».

Google описал аналогичные недостатки своей модели Imagen в академической статье.

Увеличить значокСтрелки, указывающие наружу

Несмотря на риски, OpenAI в восторге от того, что может сделать эта технология. Дхаривал сказал, что это может открыть творческие возможности для людей и может помочь с коммерческими приложениями для дизайна интерьера или оформления веб-сайтов.

Результаты должны продолжать улучшаться с течением времени. DALL-E 2, представленный в апреле, выдает более реалистичные изображения, чем первоначальная версия, анонсированная OpenAI в прошлом году, а модель генерации текста компании, GPT, с каждым поколением становится все более сложной.

«Вы можете ожидать, что это произойдет со многими из этих систем», — сказал Дхаривал.

Бывший прес. Обама борется с дезинформацией и говорит, что с ИИ ситуация может ухудшиться

Ваш адрес email не будет опубликован.