乐鱼网官方网-全国闪式提取器多级闪蒸器厂家直销
当前位置: 首页 > 产品中心 > 闪式高速提取仪
逾越Sora极限120秒超长AI视频模型诞生!
作者:乐鱼网官方网 发布时间:2024-04-02 06:07:35

  从Pika和Runway的4秒,到VideoPoet的理论无限长,各个团队都在经过种种不同的技能途径不断延伸视频生成长度的上限。最近,来自Picsart AI Research,UT Austin和Shi Labs的研讨团队提出了一个新的文生视频技能——StreamingT2,能够生成高度一致并且长度可扩展的视频。

  具体来说,StreamingT2V能够生成1200帧乃至理论上无限长的长视频,并且能保证视频内容过渡十分天然滑润,内容丰富多样。

  帝国战士在烟雾中不断奔驰,尽管动作很诙谐,可是起伏很大,人物一致性很好。

  - 一个短期回忆单元——条件注意力模块(CAM),它能保证视频的衔接性,经过重视前一个视频片段的特征来引导当时片段的生成;

  - 一个长时刻回忆单元——外观坚持模块,它协助模型记住视频最初的场景和方针,避免跟着时刻推移而忘记最初的场景;

  - 一种随机混合技能,使得即使是无限长的视频也能坚持一致性,避免了视频片段之间的不协调。

  并且,StreamingT2V的特色并不限定于运用特定的文生视频模型。

  能够看到,在两分钟的视频中场景的动态作用很好,尽管在纤细原料上仍是有一些粗糙和畸变,可是全体的运动起伏基本上已达到了Sora的水准。

  和其他的「长」视频AI技能比较,StreamingT2V的动态作用显着好太多了。

  整个镜头的晃动感有一种手持开麦拉拍照的风格,并且鸟的动作细节也很实在。

  蜜蜂在花上的运动作用也很传神,镜头运动起伏和动作起伏都很大,并且蜜蜂形状的一致性坚持得也很好。

  航拍镜头的运动也很合理,仅仅场景中的大面积的植物色彩和细节仍是不太安稳。

  尽管珊瑚仍是会呈现惹是生非的状况,可是镜头运动的起伏和场景全体的一致性现已很高了。

  在时刻更短的的视频中,无论是内容的一致性和动作的天然程度和动作起伏作用都很好。

  首要,在初始化阶段,研讨人员运用一个文本到视频的模型来创造出视频的前16帧,这相当于视频的开始阶段。

  接下来,进入Streaming T2V阶段,研讨人员会持续生成视频的后续帧,这一进程是经过一种称为自回归的技能来完成的,意味着每一个新帧的生成都会参阅之前已生成的帧,然后保证视频内容的衔接性。

  最终,在Streaming Refinement阶段,研讨人员对已生成的长视频(无论是600帧、1200帧仍是更多)进行进一步的优化。

  在这一阶段,研讨人员采用了一种高分辨率的文本到短视频模型,并结合了研讨人员共同的随机混合技能,这样不只提高了视频的画质,还增强了视频的动态作用和视觉吸引力。

  StreamingT2V技能经过引进两个要害模块来增强视频的生成质量。

  首要,条件注意力模块(CAM)充任短期回忆,它经过一个特别的编码器剖析前一个视频片段,保证视频的接连性和流经过渡。这个机制十分适合于动作频频的视频,使得视频看起来更天然流通。

  其次,外观坚持模块(APM)作为长时刻回忆,它专心于从视频的某一要害帧中提取重要的视觉特征,并将这些特征贯穿整个视频生成进程,保证视频中的方针或场景坚持一致性和衔接性。

  这两个模块的结合,使得StreamingT2V不只仅能够生成动态衔接的视频,还能在整个视频中坚持高质量的视觉作用。

  它由一个特征提取器和一个特征注入器组成,并将其注入 Video-LDM UNet。

  特征提取器运用帧图画编码器E cond,然后是与 Video-LDM UNet相同的编码器层,直到中间层(并运用UNet的权重初始化)。

  在特征注入方面,研讨人员让UNet中的每个长程跳转衔接经过穿插重视来重视CAM生成的相应特征。

  特征提取器运用帧图画编码器E cond,然后是与Video-LDM UNet相同的编码器层,直到中间层(并运用UNet的权重初始化)。

  在特征注入方面,研讨人员让UNet中的每个长程跳转衔接经过穿插重视来重视 CAM 生成的相应特征。

  CAM运用前一个分块的最终F个条件帧作为输入。穿插重视可将根底模型的F帧条件化为CAM。比较之下,稀少编码器运用卷积进行特征注入。

  为了进一步提高文本-视频成果的质量和分辨率,研讨人员运用高分辨率(1280x720)文本-(短)视频模型(Refiner Video-LDM,见图3)对生成的24帧视频块进行自回归增强。

  运用文本到视频模型作为24帧视频块的提炼器/增强器,是经过在输入视频块中增加很多噪声,并运用文本到视频分散模型进行去噪来完成的。

  更切当地说,研讨人员运用一个高分辨率文本到视频模型(例如MS-Vid2Vid-XL)和一个24帧的低分辨率视频块,首要将其双线性扩大到方针高分辨率。

  然后,研讨人员运用图画编码器E对帧进行编码,然后得到潜码。然后,研讨人员运用T ′ T前向分散过程,使xT′依然包括信号信息(主要是视频结构信息),并运用高分辨率视频分散模型对其进行去噪。

  在定量评价方面,研讨人员采用了一些目标来评价研讨人员办法的时刻一致性、文本对齐和每帧质量。

  在时刻一致性方面,研讨人员引进了SCuts,即运用PySceneDetect软件包中的AdaptiveDetector算法和默许参数,核算视频中检测到的场景切开次数。

  此外,研讨人员还提出了一种名为运动感知翘曲差错(MAWE)的新目标,该目标能衔接地评价运动量和翘曲差错,当视频一起表现出一致性和很多运动时,该目标就会发生一个低值。

  为此,研讨人员运用OFS(光流得分)来丈量运动量,它能够核算视频中恣意两个接连帧之间一切光流向量的均匀值。

  此外,关于视频V,研讨人员还考虑了均匀翘曲差错W(V),该差错丈量了从帧到其翘曲后的均匀L2像素间隔平方。

  其间,c对齐了两个目标的不同标准。为此,研讨人员对数据集验证视频的一个子集进行了回归剖析,得出c = 9.5。

  MAWE要求高运动量和低翘曲差错,以取得较低的目标值。关于触及光流的目标,核算时将一切视频的巨细调整为720×720分辨率。

  在视频文本对齐方面,研讨人员采用了CLIP文本图画类似度得分(CLIP),它适用于视频的一切帧。CLIP核算视频序列中CLIP文本编码与CLIP图画编码之间的余弦类似度。

  关于每个帧的质量,研讨人员在视频一切帧的CLIP图画嵌入根底上核算出美学分数。

  一切目标都是先按视频核算,然后对一切视频求均匀值,一切视频都生成了80帧用于定量剖析。

  研讨人员将StreamingT2V与干流的视频生成模型和构架在这个框架下进行了比较。

  能够看到(上图),在这个针对时刻一致性、文本对齐和每帧质量的测验集上,StreamingT2V的成果确实是最好的。