Нейросеть Google Imagic научилась редактировать фото по текстовому описанию

Автор: Павел Степанцов

16:56 20-10-2022

Фото: © E. Vartanyan

Основное нововведение заключается в работе алгоритма с «прекурсорами».

Как сообщает «Lenta.ru» в компании Google обучили нейросеть Imagic редактированию фотографий используя лишь метод текстового описания. При этом никаких дополнительных редакторских манипуляций не требуется — алгоритм делает все сам.

Нейросеть исправляет фото используя диффузионный метод — это когда кадр улучшается постепенно на протяжении десятков стадий. Стоит отметить, что главное новшество заключается в работе алгоритма с «прекурсорами». Изначально текст отправляется на кодировщик, где его превращают в эмбеддинг — сжатое векторное прдставление, кодирующее саму идею таким образом, чтобы похожие по смыслу предложения содержат первично заданный эмбенддинг. В результате чего нейросеть Imagic работает только с текстовыми эмбенддингами, не изменяя сам кадр.

Напомним, ранее «Центральная Служба Новостей» сообщала, что Google представила нейросеть Imagen Video, которая генерирует HD-видео по текстовому описанию. Подробнее с темой можно ознакомиться, перейдя по этой ссылке.