Компания Runway представила альфа-версию модели искусственного интеллекта Gen-3 для генерации видеороликов из промптов и статических изображений.
Нейросеть отлично справляется с созданием выразительных человеческих персонажей с широким спектром движений, жестов и эмоций, говорится в анонсе. Gen-3 Alpha обучена точно определять ключевые кадры в ролике и создавать переходы.
«Gen-3 Alpha — первая модель из предстоящей серии, обученная на новой инфраструктуре, созданной для масштабного мультимодального обучения. Это значительное улучшение точности, последовательности и движения по сравнению с Gen-2, а также шаг на пути к созданию “Общих моделей мира”», — говорится в сообщении Runway.
Gen-3 Alpha может создавать видео длительностью пять и десять секунд с высоким разрешением. Время генерации — 45 и 90 секунд соответственно. Об этом рассказал соучредитель и технический директор компании Анастасис Германидис в интервью TechCrunch.
Точных сроков публичного релиза Gen-3 нет. Альфа-версия «скоро станет доступна в продуктовой линейке Runway с поддержкой всех существующих режимов (текст-видео, изображение-видео и видео-видео) и некоторых новых», отметил Германидис.
Напомним, в феврале OpenAI представила генеративную ИИ-модель Sora для преобразования текста в видео. В мае сценарист и режиссер Пол Трилло сгенерировал с ее помощью видеоклип.
Google DeepMind разрабатывает технологию на базе искусственного интеллекта для создания саундтреков к видео.