Резюме
- Генерация изображений 4o в ChatGPT обеспечивает фотореалистичные изображения с улучшенной согласованностью и точным выполнением инструкций.
- Пользователи могут преобразовывать изображения в различные стили и улучшать их с помощью подсказок.
- Загруженные изображения можно использовать в качестве ссылок, или ChatGPT может использовать собственную базу знаний.
Когда OpenAI выпускает новую функцию, часто возникает небольшой ажиотаж среди заинтересованных людей, но это редко взрывает интернет. Однако с выпуском обновленной модели генерации изображений ChatGPT сделал именно это.
4o Image Generation заменил DALL-E в качестве инструмента генерации изображений по умолчанию в ChatGPT, и результаты действительно впечатляют. Это привело к тому, что люди заполонили интернет изображениями, которые они сгенерировали с помощью этого инструмента, и его популярность, похоже, даже застала OpenAI врасплох.
Генерация изображений 4o встроена в GPT-4o
Как следует из названия, 4o Image Generation встроен в модель GPT-4o. Пока вы используете эту модель, вам не нужно ничего делать, кроме как попросить ChatGPT создать изображение, и 4o Image Generation приступит к работе. Некоторые модели, такие как o1, вообще не позволяют создавать изображения, но, похоже, 4o Image Generation не ограничивается GPT-4o. Я попробовал создать изображение в GPT-4, и он все еще использовал 4o Image Generation, а не модель DALL-E, которая использовалась ранее.
Если по какой-либо причине вы предпочитаете использовать DALL-E, в общедоступном магазине GPT все еще есть выделенный DALL-E GPT. Вы можете использовать его для генерации изображений с использованием старой, менее мощной модели. Сейчас от него мало пользы, кроме как для того, чтобы увидеть, насколько лучше стала генерация изображений.
Создавайте великолепные фотореалистичные изображения
Одно из самых очевидных улучшений по сравнению с DALL-E заключается в том, что 4o Image Generation может создавать некоторые превосходные фотореалистичные изображения, не беспокоясь слишком сильно о быстром создании. Хотя для создания изображений требуется некоторое время, и они медленно проявляются сверху вниз, что напоминает то, как изображения медленно загружались по коммутируемому соединению, результаты намного превосходят то, что может создать DALL-E.
Я попросил DALL-E сделать фотореалистичное изображение обезьяны в цилиндре, и вот что он мне выдал:
Это изображение, созданное 4o Image Generation с использованием той же подсказки:
Разница ошеломляет и, честно говоря, немного пугает. До сих пор обычно можно было сказать, что изображение было сгенерировано ИИ, если вы достаточно внимательно смотрели на дополнительные пальцы или искаженный текст. Однако изображения, которые генерирует ChatGPT, очень трудно отличить от настоящих, и, как обычно говорят о новых разработках ИИ, это худшее, что они когда-либо будут.
Вы можете конвертировать изображения в разные стили
Одна из вещей, которая взорвала интернет с момента запуска 4o Image Generation, — это возможность попросить ChatGPT преобразовать ваши изображения в разные стили. Например, вы можете загрузить свою фотографию и попросить ChatGPT изменить ее на стиль Ван Гога. Это не что-то новое, но качество результатов — огромный шаг вперед по сравнению с DALL-E.
Это привело к тому, что множество людей начали загружать изображения самих себя или представителей популярной культуры, преобразованные в стиль Studio Ghibli, популярной анимационной студии, стоящей за такими классическими фильмами, как Унесенные призраками и Мой сосед Тоторо. Результаты обычно потрясающие, но это вызвало дискуссию в сети о том, насколько этично использовать ИИ, чтобы фактически украсть стиль художника без его разрешения. Однако на момент написания статьи я все еще мог создавать изображения в стиле Studio Ghibli без проблем.
Легко улучшать изображения с помощью подсказок
Еще одним важным улучшением является то, что 4o Image Generation имеет превосходную согласованность. Это означает, что если в вашем изображении есть одна маленькая проблема, вы можете попросить ChatGPT исправить ее, и он оставит остальную часть изображения в покое. DALL-E часто вносит значительные изменения в остальную часть изображения, когда вы пытаетесь исправить одну его часть.
Это значительно упрощает получение точного изображения, которое вы хотите, что часто является огромным источником разочарования с DALL-E. Вам пришлось бы пытаться несколько раз, чтобы хотя бы приблизиться к желаемому изображению, а иногда вы бы потерпели полную неудачу. Теперь, например, вы можете попросить, чтобы у обезьяны был цилиндр под другим углом, и шляпа изменится, но остальная часть изображения останется прежней.
Эта согласованность также делает его отличным для создания нескольких изображений одного и того же человека или персонажа. Вы можете попросить, чтобы тот же персонаж появился в другой обстановке, и ChatGPT сохранит внешний вид персонажа в его новом изображении.
ChatGPT наконец-то может обрабатывать текст
Это одно из самых больших изменений в 4o Image Generation. DALL-E мог добавлять текст к изображениям, но ему это очень, очень трудно. Обычно вы получали текст, который в основном напоминал нужные вам слова, но был совсем немного не таким. Достаточно, чтобы испортить ваши изображения, по крайней мере. Используя 4o Image Generation, вы можете создать именно тот текст, который вам нужен, и он сгенерирует его безупречно.
Это, в сочетании с улучшенной согласованностью, означает, что вы можете создавать вещи с помощью 4o Image Generation, которые раньше были просто невозможны. Я набросал ужасный рисунок мультяшного инопланетянина и смог создать четырехпанельный мультфильм, который использовал этого персонажа, дополненный речевыми пузырями с идеальным текстом. На ввод подсказки ушло больше времени, чем на создание моего готового мультфильма.
4o Генерация изображения будет фактически следовать инструкциям
Это очень много. Одна из самых больших проблем с DALL-E, с которой я столкнулся, заключается в том, что он часто просто отказывался следовать инструкции, особенно если эта инструкция включала отрицание. Я потратил часы, пытаясь заставить его сгенерировать изображение Санты с усами, но без бороды (просто чтобы посмотреть, как он будет выглядеть, очевидно), и что бы я ни пытался, каждый раз получалась густая борода.
Единственный способ, которым мне удалось приблизиться к успеху, — попросить его сгенерировать изображение Эркюля Пуаро, замаскированного под Санту, и даже тогда потребовалось несколько попыток, прежде чем я получил изображение без бороды и белых усов. Теперь же я могу получить изображение Санты без бороды с первой попытки.
Однако следование инструкциям еще более впечатляет. Вы можете определить до 20 различных объектов, описав каждый из них, и 4o Image Generation будет следовать инструкциям для каждого отдельного объекта. Пример, который дает OpenAI, — это сетка эмодзи 4×4 с определенными формами и цветами, а ChatGPT может создать изображение со всеми 16 эмодзи точно так, как описано.
Вы можете использовать загруженные изображения в качестве ссылок
Один из недостатков создания изображений из подсказок заключается в том, что описать, что вы хотите получить на изображении, может быть сложно, но описать стиль изображения может быть еще сложнее. Приказать ChatGPT создать именно тот вид, который вы имеете в голове, не всегда так просто.
К счастью, вам не нужно использовать только текст. Вы можете загрузить изображения, чтобы указать тип стиля, который вы хотите для своих изображений. Затем ChatGPT будет использовать эти изображения для информирования об окончательном изображении, которое он сгенерирует из вашего приглашения.
Если вы хотите, чтобы на вашем изображении был определенный элемент, например, вы можете загрузить его изображение в ChatGPT. Если вы хотите, чтобы люди стояли в определенной позе, вы можете загрузить изображение людей, стоящих в этой позе. Если вы нашли иллюстрацию, которую вы хотели бы сделать фотореалистичным изображением, вы можете загрузить ее и попросить ChatGPT превратить ее в фотографию.
Вы даже можете нарисовать грубый набросок того, как должно выглядеть изображение, сфотографировать его и загрузить в ChatGPT. Затем он может сгенерировать фотореалистичное изображение на основе вашего ужасного наброска. Это значительно упрощает создание точного изображения, которое вам нужно.
Изображения могут использовать собственные знания ChatGPT
4o Image Generation не ограничивается информацией в вашем запросе или загруженными вами файлами. GPT-4o имеет собственную базу знаний, к которой он может обратиться, чтобы создать нужные вам изображения. Изображения Studio Ghibli являются ярким примером; вам не нужно объяснять, как выглядит анимация Studio Ghibli; ChatGPT уже знает.
Однако это выходит за рамки простого знания различных художественных стилей. Любые знания, которыми обладает ChatGPT, можно применить к вашим изображениям. Например, вы можете попросить схему, поясняющую круговорот воды, и вам не нужно объяснять, что такое круговорот воды; ChatGPT извлечет ключевую информацию из собственных знаний.
4o Генерация изображений пока не идеальна
4o Image Generation невероятно хорош. Фактически, он настолько хорош, что Сэму Альтману, генеральному директору OpenAI, пришлось добавить ограничения по скорости, потому что графические процессоры компании начали таять.
Изначально вы могли создать столько изображений, сколько хотели, но теперь вы часто будете видеть сообщение о том, что вам нужно подождать несколько минут, прежде чем создавать следующее изображение. Это не единственная проблема, с которой вы можете столкнуться при использовании 4o Image Generation.
Также существуют ограничения на создание определенных типов контента. По крайней мере, теоретически вы не должны иметь возможности сгенерировать что-либо оскорбительное или неуместное. Если вы попытаетесь создать изображения с защищенными авторским правом персонажами, ChatGPT также может отклонить. Здесь границы немного размыты. Обычно вы можете создать персонажей в похожем стиле, если не самих персонажей, или обойти ограничения, используя немного расплывчатые подсказки.
Инструкция-следование не всегда работает идеально, и у меня все еще иногда возникают проблемы с текстом. Сейчас это случается очень редко, но иногда он добавляет дополнительную букву, особенно если добавление этой буквы все еще делает текст допустимым словом. Однако вы можете легко исправить эти ошибки с помощью следующего поколения.
4o Image Generation — это значительный шаг вперед в создании изображений с помощью ИИ, с улучшенной фотореалистичностью, лучшей согласованностью и значительно лучшим следованием инструкциям. Теперь невероятно легко создавать фотореалистичные изображения, которые выглядят именно так, как вы хотите.
Однако это поднимает много этических вопросов. Если вы графический дизайнер или фотограф, это обновление вызовет у вас мурашки по коже. Нельзя отрицать, что это обновление значительно облегчило пользователям ChatGPT создание действительно впечатляющих изображений, какими бы ни были этические дилеммы.