«Сбер» представил нейросеть Kandinsky Video

23 ноября, 2023
   ~ 1 мин.
Модель может генерировать видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду.

«Сбер» выпустил Kandinsky Video – первую в стране генеративную нейросеть для создания видеороликов по текстовому описанию. Первый заместитель председателя правления СберБанка Александр Ведяхин заявил на международной конференции AI Journey, что эта модель может генерировать видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду.

В блоге «Сбера» на сайте «Хабр» рассказывают, что архитектура Kandinsky Video включает два блока. Первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй – за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. В основе блоков лежит новая модель синтеза изображений по текстовым описаниям Kandinsky 3.0.

«Формат сгенерированного видео представляет собой непрерывную сцену с движением как объекта, так и фона. Именно это отличает видеоролики, синтезированные моделью Kandinsky Video, от анимационных видеороликов, в которых динамика достигается за счет моделирования пролета камеры относительно статичной сцены. Нейросеть создает видеоролики с разрешением 512 х 512 пикселей и различным соотношением сторон. Модель обучена на дата-сете более чем из 300 тысяч пар “текст – видео”. Генерация видео занимает до 3 минут», – заявляют в пресс-службе «Сбера».

Подписаться
Уведомить о
guest
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии
Fuse
Подпишитесь на еженедельную рассылку, чтобы быть в курсе свежих новостей в мире государственного диджитала
© «Госдиджитал».