17.01.2022

HyperStyle — адаптация системы машинного обучения StyleGAN для редактирования изображений

Группа исследователей из Тель-Авивского университета представила HyperStyle, инвертированный вариант развиваемой компанией NVIDIA системы машинного обучения StyleGAN2, который переработан для воссоздания недостающих частей при редактировании реальных изображений. Код написан на языке Python c использованием фреймворка PyTorch и распространяется под лицензией MIT.

Если StyleGAN позволяет синтезировать реалистично выглядящие новые лица людей, задавая такие параметры, как возраст, пол, длину волос, характер улыбки, форму носа, цвет кожи, очки и ракурс фотографии, то HyperStyle даёт возможность изменять аналогичные параметры в уже существующих фотографиях, не меняя их характерных черт и сохраняя узнаваемость исходного лица. Например, при помощи HyperStyle можно симулировать изменение возраста человека на фотографии, поменять причёску, добавить очки, бороду или усы, придать изображению вид персонажа мультфильма или рисованной картины, сделать выражение лица грустным или весёлым. При этом система может быть обучена не только для искажения лиц людей, но и для любых предметов, например, для редактирования изображений автомобилей.

Предложенный метод нацелен на решение проблемы с реконструкцией недостающих частей изображения при редактировании. В ранее предлагавшихся методах компромисс между реконструкцией и редактируемостью решался через тонкую настройку генератора изображений для подстановки частей целевого изображения при воссоздании изначально отсутствующих редактируемых областей. Недостатком подобных подходов является необходимость проведения длительного целевого обучения нейронной сети для каждого изображения.

Метод на основе алгоритма StyleGAN даёт возможность использовать типовую модель, предварительно натренированную на общих коллекциях изображений, для генерации свойственных исходному изображению элементов с уровнем достоверности сопоставимым с алгоритмами, требующими индивидуальной тренировки модели для каждого изображения. Из достоинств нового метода также отмечается возможность модифицировать изображения с производительностью, близкой к режиму реального времени.

Готовые натренированные модели подготовлены для лиц людей, машин и животных на основе коллекций Flickr-Faces-HQ (FFHQ, 70 тысяч высококачественных PNG-изображений лиц людей), Stanford Cars (16 тысяч изображений машин) и AFHQ (фотографии животных). Дополнительно предоставлен инструментарий для тренировки своих моделей, а также пригодные для использования с ними готовые натренированные модели типовых кодировщиков и генераторов. Например, доступны генераторы для создания картинок в стиле Toonify, персонажей Pixar, формирования скетчей и даже для стилизации под принцесс из диснеевских мультфильмов.


Источник.