Да Винчи потребовалось 16 лет, чтобы написать «Мону Лизу». Некоторые говорят, что ему понадобилось 12 лет только для того, чтобы накрасить ей губы.
Слухи о том, что причиной стал медленный Интернет, не соответствуют действительности.
Но Да Винчи, эрудит, который увлекался ботаникой, инженерным делом, наукой, скульптурой и геологией, а также живописью, несомненно, оценил бы новый преобразователь изображения в текст, разработанный Google Research.
StyleDrop от Google, как описано в статье от 1 июня на сервере препринтов arXiv, позволяет пользователям описывать объекты и указывать художественные стили, которые они хотели бы включить в сгенерированный результат.
StyleDrop возвращает изображения, отражающие требования пользователя, примерно за три минуты.
«Предлагаемый метод чрезвычайно универсален и отражает нюансы и детали пользовательского стиля, такие как цветовые схемы, затенение, шаблоны оформления, а также локальные и глобальные эффекты», — говорится в отчете Google «StyleDrop: преобразование текста в изображение в любом стиле».
StyleDrop также создает типографику, которая точно отражает стилистические особенности изображений.
Например, пользователи могли бы предложить изображение моста, буквы, а затем указать стиль рисования. Такими стилями могут быть «тающий золотой рендеринг», «деревянная скульптура», «3D-рендеринг», «мультяшный рисунок» или любой другой предпочтительный стиль. Единственное ограничение — это воображение человека.
Фото: Google
Затем StyleDrop сгенерирует впечатляющие изображения объектов с капающим мостом, похожим на Dali, или, возможно, мультяшную версию, а также буквы, обладающие теми же характеристиками.
StyleDrop работает совместно с Google Muse, преобразователем генеративного видения, представленным ранее в этом году и обладающим замечательной степенью фотореализма. Muse был обучен 3 миллиардам параметров, что обеспечивает возможность создания высококачественных изображений.
Исследователи оценивали точность и качество выходных данных StyleDrop, используя стандартный текст клипа и оценку стиля, а также отзывы пользователей. Оценки показали, что StyleDrop «убедительно превосходит» другие ведущие методы генерации изображений и текста, включая DreamBooth, Imagen и Stable Diffusion.
Разработчики рассматривают эту программу, которая еще не была представлена широкой публике, как неоценимую помощь арт-директорам и графическим дизайнерам, которые могут создавать фотореалистичные изображения определенных продуктов или тем, включающих текст, отражающий те же цвета, структуру и стиль.
Для рекламной кампании нового продукта, скажем, для нового бренда газировки, художник мог бы всего в нескольких словах предложить стеклянную бутылку изящной формы, расположенную среди тысяч тюльпанов на голландском поле, с сопроводительным текстом, состоящим из букв, выполненных из 3D-рендеринга стекла, в стиле импрессиониста Моне. За три минуты, при правильной формулировке, могла бы родиться новая рекламная кампания с изображением теплого, яркого, живописного небесного пейзажа.
Известный типограф Хельмут Шмидт однажды сказал: «Типографику нужно чувствовать. Нужно иметь опыт работы с типографикой». StyleDrop вполне может помочь дизайнерам привнести в свою работу большую степень интимности и связанности.
Однако в отчете признается, что защита авторских прав вызывает озабоченность.
«Мы признаем потенциальные подводные камни, такие как возможность копировать стили отдельных художников без их согласия, и призываем к ответственному использованию нашей технологии», — говорится в отчете.
И какие именно инструкции использовал бы Да Винчи для StyleDrop? «Нарисуйте привлекательную дворянку, слегка улыбающуюся, но не слишком сильно, сидящую на открытом воздухе на фоне гор. Нарисуйте в стиле … Да Винчи.» Если бы работа была выполнена за три минуты — вместо 16 лет — у Леонардо, который любил ботанику, было бы гораздо больше времени, чтобы выйти на улицу и понюхать эти розы.