rss_feedEthan Mollick — One Useful Thing ·30.03.2025 open_in_newОригинал

No elephants: Breakthroughs in image generation

#Ai Creative Tools #Ai Products #Generative Models

auto_awesomeКраткое саммари

За две недели сначала Google, а затем OpenAI выпустили мультимодальную генерацию изображений — это качественный скачок. Раньше LLM не создавала картинку сама, а отправляла текстовый промпт во внешний, менее «умный» инструмент, из-за чего, например, на запрос «комната без слонов» система всё равно рисовала слонов. Теперь изображение строится так же, как текст у LLM — по токенам, фрагмент за фрагментом, что даёт точный контроль, читаемый текст и отражает «мышление» модели. Эфан Моллик показывает на примерах GPT-4o (инфографика про настолки, выдра с планшетом, реклама энергетика Speedster, замена мебели на фото, мокап сайта про доставку гуакамоле дронами), как картинки можно итеративно дорабатывать обычными текстовыми указаниями, хотя ошибки вроде «Definc» вместо «Define» ещё случаются. Автор отдельно отмечает сложные вопросы: перенос стиля (Симпсоны, Studio Ghibli), авторские права на обучающие данные, дипфейки и поддельные чеки. Вывод: то, что произошло с текстом, неизбежно случится с изображениями, видео и 3D, и важно осознанно формировать эти изменения.

translate EN + RU EN RU

Без слонов: прорывы в генерации изображений

Когда языковые модели учатся видеть и創 создавать

За последние две недели сначала Google, а затем OpenAI развернули свои возможности мультимодальной генерации изображений. Это важное событие. Раньше, когда ИИ на базе большой языковой модели (LLM) генерировал изображение, на самом деле работу выполняла не сама LLM. Вместо этого ИИ отправлял текстовый промпт в отдельный инструмент генерации изображений и показывал вам то, что приходило в ответ. ИИ создаёт текстовый промпт, но картинку создаёт другая, менее интеллектуальная система. Например, если дать промпт «покажи мне комнату, в которой нет слонов, и обязательно сделай на изображении пометки, объясняющие, почему никаких слонов тут быть не может», менее интеллектуальная система генерации изображений увидела бы слово «слон» несколько раз и добавила бы их на картинку. В результате генерации ИИ были довольно посредственными — с искажённым текстом и случайными элементами; иногда забавными, но редко полезными.

Мультимодальная генерация изображений, напротив, позволяет ИИ напрямую управлять создаваемой картинкой. Хотя вариаций много (и компании держат часть своих методов в секрете), при мультимодальной генерации изображения создаются так же, как LLM создают текст — по одному токену за раз. Вместо того чтобы добавлять отдельные слова и складывать из них предложение, ИИ создаёт изображение отдельными частями, одна за другой, которые собираются в цельную картинку. Это позволяет ИИ создавать гораздо более впечатляющие и точные изображения. Вам не только гарантировано отсутствие слонов — итоговый результат этого процесса создания изображения отражает интеллект «мышления» LLM, а также чёткое письмо и точный контроль.

The results of the prompt “show me a room with no elephants in it, make sure to annotate the image to show me why there are no possible elephants” in Microsoft Copilot’s traditional image generator (left), and GPT-4o’s multimodal model (right). Note the traditional model not only shows multiple elephants but also features distorted text.

Хотя последствия появления этих новых моделей изображений огромны (и некоторых проблем я коснусь позже), давайте сначала на нескольких примерах разберёмся, на что эти системы действительно способны.

Промптинг, но для изображений

В своей книге и во многих постах я рассказываю о том, что полезный способ давать промпты ИИ — относиться к нему как к человеку, хотя он им и не является. Чёткие указания, обратная связь по ходу итераций и подходящий контекст для принятия решения помогают людям — и точно так же помогают ИИ. Раньше это можно было делать только с текстом, но теперь это можно делать и с изображениями.

Например, я дал GPT-4o промпт «создай инфографику о том, как сделать хорошую настольную игру». С прежними генераторами изображений это вылилось бы в бессмыслицу, поскольку не было интеллекта, направляющего генерацию, и слова с изображениями искажались бы. Теперь же я получаю хороший первый вариант с первой попытки. Однако я не дал контекста о том, что именно ищу, и никакого дополнительного содержания, поэтому ИИ сделал все творческие выборы сам. Что, если я захочу что-то изменить? Давайте попробуем.

Сначала я попросил его «сделай графику вместо этого гиперреалистичной» — и вы можете увидеть, как он взял концепции из первоначального наброска и обновил их вид. У меня были и другие правки: «Хочу, чтобы цвета были менее землистыми и больше похожими на текстурированный металл, всё остальное оставь как есть, а также сделай мелкий маркированный текст светлее, чтобы его было легче читать». Новый вид мне понравился, но я заметил, что закралась ошибка: слово «Define» превратилось в «Definc» — признак того, что эти системы, какими бы хорошими они ни были, пока далеки от совершенства. Я дал промпт «Ты написал Define как Definc, пожалуйста, исправь» и получил вполне приемлемый результат.

Но самое увлекательное в этих моделях — то, что они способны создать практически любое изображение: «вложи эту инфографику в лапы выдры, стоящей перед вулканом, это должно выглядеть как фотография, и будто выдра держит её, вырезанную на металлической табличке»

Зачем останавливаться? «сейчас ночь, табличку освещает фонарик, светящий прямо в центр таблички (сам фонарик показывать не нужно)» — результаты этого впечатляют сильнее, чем может показаться, потому что система переделывала освещение без какой-либо лежащей в основе модели света. «Сделай фигурку выдры, в комплекте с упаковкой, и пусть настольная игра будет одним из аксессуаров сбоку. Назови её "Game Design Otter" и добавь ещё пару аксессуаров». «Сделай выдру в самолёте, работающую за ноутбуком, она покупает копию Game Design Otter на сайте под названием OtterExpress». Впечатляюще, но не совсем то: «исправь клавиатуру, чтобы она выглядела реалистично, и убери фигурку выдры, которую он держит.»

Как видите, эти системы небезупречны… но не забывайте и о том, что картинки ниже — это то, как выглядели результаты промпта «выдра в самолёте, пользующаяся wifi» два с половиной года назад. Передовой уровень технологий стремительно растёт.

Но для чего это годится?

Последние пару лет ушли на то, чтобы понять, для чего годятся текстовые модели ИИ, и новые сценарии использования появляются непрерывно. То же будет и с LLM для изображений. Генерация изображений, вероятно, окажется очень революционной — способами, которые мы сейчас не понимаем. Это особенно верно потому, что вы можете загружать изображения, которые LLM теперь может напрямую видеть и редактировать. Несколько примеров, все сделаны с помощью GPT-4o (хотя загружать и создавать изображения можно также в Gemini Flash от Google):

Я могу взять нарисованную от руки картинку и попросить ИИ «сделай из этого рекламу энергетика Speedster, убедись, что упаковка и логотип выглядят шикарно, это должно выглядеть как фотография.» (Это заняло два промпта: в первый раз система неправильно написала Speedster на этикетке.) Результаты не так хороши, как мог бы создать профессиональный дизайнер, но это впечатляющий первый прототип.

Я могу дать GPT-4o две фотографии и промпт «Можешь поменять журнальный столик на изображении с синим диваном на тот, что на изображении с белым диваном?» (Обратите внимание, как новая стеклянная столешница показывает части изображения, которых не было в оригинале. С другой стороны, заменённый столик не совсем такой же.) Затем я спросил: «Можешь сделать ковёр менее выцветшим?» И снова есть несколько деталей, которые не идеальны, но такое редактирование изображений на обычном английском раньше было невозможно.

Или я могу создать мгновенный макет сайта, концепции рекламы и питч-дек для моей потрясающей стартап-идеи, где дрон по требованию доставляет вам гуакамоле (почти уверен, что это будет хит). Видно, что это пока не замена прозрениям человека-дизайнера, но всё же очень полезный первый прототип.

Вдобавок есть множество других применений, которые я и другие открываем, в том числе: визуальные рецепты, главные страницы сайтов, текстуры для видеоигр, иллюстрированные стихи, безумные монологи, улучшение фотографий и визуальные приключенческие игры — и это лишь некоторые из них.

Сложности

Если вы следили за онлайн-обсуждением этих новых генераторов изображений, то наверняка заметили, что я не продемонстрировал их самое вирусное применение — перенос стиля, когда люди просят ИИ превратить фотографии в изображения, выглядящие так, будто их сделали для «Симпсонов» или в Studio Ghibli. Подобные применения высвечивают все сложности использования ИИ для искусства: допустимо ли воспроизводить с трудом выработанный стиль других художников с помощью ИИ? Кому принадлежит получившееся произведение? Кто на нём зарабатывает? Чьи работы попали в обучающие данные ИИ и каков юридический и этический статус использования защищённых авторским правом работ для обучения? Эти вопросы были важны и до мультимодального ИИ, но теперь поиск ответов на них становится всё более неотложным. Плюс, конечно, есть множество других потенциальных рисков, связанных с мультимодальным ИИ. Дипфейки тривиально создавать как минимум уже год, но мультимодальный ИИ упрощает это ещё больше, включая возможность создавать всевозможные другие визуальные иллюзии, например поддельные чеки. И мы пока не понимаем, какие предвзятости и прочие проблемы мультимодальный ИИ может привнести в генерацию изображений.

Тем не менее ясно, что то, что произошло с текстом, произойдёт и с изображениями, а со временем — с видео и 3D-средами. Эти мультимодальные системы перекраивают ландшафт визуального творчества, предлагая мощные новые возможности и одновременно поднимая закономерные вопросы о творческой собственности и подлинности. Грань между человеческим и ИИ-творчеством будет и дальше размываться, заставляя нас переосмыслить, что такое оригинальность в мире, где любой может сгенерировать сложные визуальные образы с помощью нескольких промптов. Одни творческие профессии адаптируются; другие, возможно, останутся неизменными, а третьи могут полностью преобразиться. Как и при любом значимом технологическом сдвиге, нам понадобятся хорошо продуманные рамки, чтобы ориентироваться в сложной местности впереди. Вопрос не в том, изменят ли эти инструменты визуальные медиа, а в том, окажемся ли мы достаточно вдумчивыми, чтобы формировать эти изменения осознанно.