Google Style Drop генерирует изображения из текста

Да Винчи потребовалось 16 лет, чтобы написать «Мону Лизу». Некоторые говорят, что ему понадобилось 12 лет только для того, чтобы накрасить ей губы.

Слухи о том, что причиной стал медленный Интернет, не соответствуют действительности.

Но Да Винчи, эрудит, который увлекался ботаникой, инженерным делом, наукой, скульптурой и геологией, а также живописью, несомненно, оценил бы новый преобразователь изображения в текст, разработанный Google Research.

StyleDrop от Google, как описано в статье от 1 июня на сервере препринтов arXiv, позволяет пользователям описывать объекты и указывать художественные стили, которые они хотели бы включить в сгенерированный результат.

StyleDrop возвращает изображения, отражающие требования пользователя, примерно за три минуты.

«Предлагаемый метод чрезвычайно универсален и отражает нюансы и детали пользовательского стиля, такие как цветовые схемы, затенение, шаблоны оформления, а также локальные и глобальные эффекты», — говорится в отчете Google «StyleDrop: преобразование текста в изображение в любом стиле».

StyleDrop также создает типографику, которая точно отражает стилистические особенности изображений.

Например, пользователи могли бы предложить изображение моста, буквы, а затем указать стиль рисования. Такими стилями могут быть «тающий золотой рендеринг», «деревянная скульптура», «3D-рендеринг», «мультяшный рисунок» или любой другой предпочтительный стиль. Единственное ограничение — это воображение человека.
Фото: Google

Затем StyleDrop сгенерирует впечатляющие изображения объектов с капающим мостом, похожим на Dali, или, возможно, мультяшную версию, а также буквы, обладающие теми же характеристиками.

StyleDrop работает совместно с Google Muse, преобразователем генеративного видения, представленным ранее в этом году и обладающим замечательной степенью фотореализма. Muse был обучен 3 миллиардам параметров, что обеспечивает возможность создания высококачественных изображений.

Исследователи оценивали точность и качество выходных данных StyleDrop, используя стандартный текст клипа и оценку стиля, а также отзывы пользователей. Оценки показали, что StyleDrop «убедительно превосходит» другие ведущие методы генерации изображений и текста, включая DreamBooth, Imagen и Stable Diffusion.

Разработчики рассматривают эту программу, которая еще не была представлена широкой публике, как неоценимую помощь арт-директорам и графическим дизайнерам, которые могут создавать фотореалистичные изображения определенных продуктов или тем, включающих текст, отражающий те же цвета, структуру и стиль.

Для рекламной кампании нового продукта, скажем, для нового бренда газировки, художник мог бы всего в нескольких словах предложить стеклянную бутылку изящной формы, расположенную среди тысяч тюльпанов на голландском поле, с сопроводительным текстом, состоящим из букв, выполненных из 3D-рендеринга стекла, в стиле импрессиониста Моне. За три минуты, при правильной формулировке, могла бы родиться новая рекламная кампания с изображением теплого, яркого, живописного небесного пейзажа.

Известный типограф Хельмут Шмидт однажды сказал: «Типографику нужно чувствовать. Нужно иметь опыт работы с типографикой». StyleDrop вполне может помочь дизайнерам привнести в свою работу большую степень интимности и связанности.

Однако в отчете признается, что защита авторских прав вызывает озабоченность.

«Мы признаем потенциальные подводные камни, такие как возможность копировать стили отдельных художников без их согласия, и призываем к ответственному использованию нашей технологии», — говорится в отчете.

И какие именно инструкции использовал бы Да Винчи для StyleDrop? «Нарисуйте привлекательную дворянку, слегка улыбающуюся, но не слишком сильно, сидящую на открытом воздухе на фоне гор. Нарисуйте в стиле … Да Винчи.» Если бы работа была выполнена за три минуты — вместо 16 лет — у Леонардо, который любил ботанику, было бы гораздо больше времени, чтобы выйти на улицу и понюхать эти розы.

Related Posts

Исследование раскрывает идеи политики по восстановлению производства электромобилей

Deep Mind достигает гигантского скачка в скорости сортировки

Команда разрабатывает новую, полностью надежную, перезаряжаемую воздушную батарею

Интерфейс человеко–машинной коммуникации на основе черного фосфора: прорыв в вспомогательных технологиях