Tora

Tora 27356

阿里巴巴推出的AI视频生成框架,基于轨迹导向的扩散变换器(DiT)技术,能够将文本、视觉和轨迹条件融合,生成高质量且符合物理世界的动态视频。

#Ai工具箱 #Ai视频生成
收藏

Tora简介

阿里Tora视频是阿里巴巴推出的ai视频生成框架,基于轨迹导向的扩散变换器(DiT)技术,能够将文本、视觉和轨迹条件融合,生成高质量且符合物理世界的动态视频。

95bf0862-b428-458c-a97a-239a27e42a61.jpg

Tora主要功能特点:

轨迹导向的视频生成:Tora能够根据给定的轨迹生成视频,保持运动的一致性和准确性。轨迹提取器(Trajectory Extractor, TE)将输入的轨迹转换成层次化的时空运动块,这些运动块与视频内容的潜在空间相匹配。

多模态输入整合:Tora支持文本、图像和轨迹条件的同时输入,实现多维度的视频内容控制。这意味着用户可以通过文字描述、图片或物体移动的路线来生成视频。

高分辨率视频输出:Tora能够在720p的高分辨率下生成长达204帧的视频,保证视频质量。这使得生成的视频不仅画面清晰,而且运动流畅。

物理世界动态模拟:Tora生成的视频运动效果贴近现实世界的物理动态,如重力和动力学原理。通过时空扩散变换器(Spatial-Temporal DiT),Tora能够处理视频数据,使模型理解和生成具有连贯运动的视频。

灵活的内容创作:Tora支持不同时长、宽高比和分辨率的视频生成,满足多样化的创作需求。无论是短视频还是长视频,无论是标准宽高比还是自定义宽高比,Tora都能适应。

运动引导融合器(Motion-guidance Fuser, MGF):该组件负责将轨迹提取器生成的时空运动块整合到DiT模型中,确保生成的视频内容遵循预定的轨迹和动态。MGF通过自适应归一化层将运动补丁整合到DiT块中,精确控制视频内容的动态。

两阶段训练策略:为了让Tora更好地理解和生成运动,通过一个两阶段的训练过程来学习。首先使用密集光流进行训练,然后使用稀疏轨迹进行微调,提高模型对运动控制的灵活性和准确性。

数据预处理:在训练之前,Tora需要对视频数据进行一些处理,比如根据场景检测将长视频分割成短片段,然后根据美学评分和运动分割结果选择适合训练的视频片段。

Tora主要功能模块

轨迹提取器(Trajectory Extractor, TE):将输入的轨迹转换成层次化的时空运动块,这些运动块与视频内容的潜在空间相匹配。

时空扩散变换器(Spatial-Temporal DiT):结合空间和时间的自注意力机制,处理视频数据,使模型能够理解和生成具有连贯运动的视频。

运动引导融合器(Motion-guidance Fuser, MGF):负责将轨迹提取器生成的时空运动块整合到DiT模型中,确保生成的视频内容遵循预定的轨迹和动态。

Tora应用场景:

影视制作:在影视制作中,Tora可以用于生成电影、电视剧或短片中的特效场景,通过轨迹控制生成复杂的动态画面,减少实际拍摄成本和时间。

动画创作:根据脚本自动生成动画序列,为动画师提供初步的动态草图,加速创作过程。

虚拟现实(VR)和增强现实(AR):生成与用户互动的动态环境,为VR和AR应用提供逼真的视觉效果。

游戏开发:快速生成游戏环境和角色动画,提高游戏设计的效率。

Tora访问方法:

Tora项目官网:https://ali-videoai.github.io/tora_video/

Tora GitHub仓库:https://github.com/ali-videoai/Tora

Tora arXiv技术论文:https://arxiv.org/pdf/2407.21705

总的来说,Tora生成的视频质量非常高,能够生成10到60秒的高分辨率视频,并且在不同分辨率和纵横比下表现出色。Tora的视频不仅流畅,而且能够细致地模拟物理世界的运动。Tora的轨迹控制功能也得到了用户的高度评价。

与Tora相关工具