Google разработала нейросеть Imagen, которая генерирует изображения по текстовому описанию. Принцип схож с DALL-E 2, но акцент смещен на фотореализм.
Добиться реалистичной картинки удалась за счет того, что нейросеть изначально создает небольшое изображение с разрешением 64×64 пикселей, а затем начинает пошагово его увеличивать, добавляя все больше и больше деталей. В конечном итоге разрешение достигает 1024×1024 пикселей. Кроме того, Imagen точнее понимает запросы, чем DALL-E 2.
Google решила пока не раскрывать исходный код и делать публичную версию из-за рисков злоупотребления возможностями нейросети, но несколько примеров работ показала у себя на сайте. Выбрали лучшие.