«Сбер» выпустил Kandinsky Video – первую в стране генеративную нейросеть для создания видеороликов по текстовому описанию. Первый заместитель председателя правления СберБанка Александр Ведяхин заявил на международной конференции AI Journey, что эта модель может генерировать видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду.
В блоге «Сбера» на сайте «Хабр» рассказывают, что архитектура Kandinsky Video включает два блока. Первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй – за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. В основе блоков лежит новая модель синтеза изображений по текстовым описаниям Kandinsky 3.0.
«Формат сгенерированного видео представляет собой непрерывную сцену с движением как объекта, так и фона. Именно это отличает видеоролики, синтезированные моделью Kandinsky Video, от анимационных видеороликов, в которых динамика достигается за счет моделирования пролета камеры относительно статичной сцены. Нейросеть создает видеоролики с разрешением 512 х 512 пикселей и различным соотношением сторон. Модель обучена на дата-сете более чем из 300 тысяч пар “текст – видео”. Генерация видео занимает до 3 минут», – заявляют в пресс-службе «Сбера».