生数科技发布 Vidu 新版本,解决了视频生成的多主体一致性难题

发布时间:2024-11-25

11 月 13 日,生数科技发布 Vidu 1.5 版本,全新上线「多图参考」功能,官方宣称该版本实现了视频生成模型的新突破:突破「一致性」难题、理解多样化的输入。尤其是,多主体一致性的能力,可以说是解决了视频生成模型的「杀手级」难题。

功能体验地址:www.vidu.studio

01 攻克「多主体一致性」难题

在上线之初,Vidu 便具备了角色一致性生成能力,通过锁定人物面部特征解决了视频生成中的关键痛点,确保了人物面部特征的一致性。此项技术允许用户上传自定义角色图并指定该角色在任何场景中进行特定动作。

9 月,Vidu 又于全球率先发布了「主体一致性」功能,将面部一致拓展至全身一致,并且将范围由人物形象扩展到动物、物体、虚拟角色等任意主体。用户只需上传任意自定义主体的图片,便可通过描述词轻松实现在连续不同场景中的主体特征保持一致。

目前除了 Vidu,其他视频生成模型都无法有效控制面部一致性。少数模型通过大量相似图片的输入进行成本高昂的单点微调,才能实现基本的面部一致性。我们相信,随着基础模型的投入和迭代,整体性能将得到大幅度增强,而无需再依赖复杂的单点微调。

具体来说,Vidu 的技术突破在以下三个方面得到了直观地呈现:

1. 复杂主体的精准控制:无论是细节丰富的角色,还是复杂的物体,Vidu 都能保证其在多个不同视角下的一致性。举个例子,造型复杂的 3D 动画风格角色,无论视角如何变化,Vidu 始终确保头型、服饰的全角度细节一致,避免了传统视频模型在复杂视角切换时产生的瑕疵。                                                                                                                      

2. 人物面部特征和动态表情的自然一致:在人物特写镜头中,Vidu 能够自然且流畅地保持人物面部特征和表情的连贯性,避免了面部僵硬或失真的现象。精细的面部控制使 Vidu 在创作细腻、真实角色时具有显著的优势。

3. 多主体一致性:Vidu 允许用户上传多个主体图像,包括人物角色、道具物体、环境背景等,并在视频生成中实现这些元素的交互。例如,用户可以上传主体、客体和环境的图片,创建定制角色身穿特定服装、在定制空间内自由动作的场景。Vidu 还支持多个主体之间的互动,用户可以上传多个自定义角色,让它们在指定空间内进行交互。此外,Vidu 还支持融合不同主体特征,例如将角色 A 的正面与角色 B 的反面无缝融合,创造出全新的角色或物体。

在官方测试的 Runway、Luma AI 等其他视频模型中,均无法实现以上效果。                                            

02 三张图稳定输出,视频生成告别 LoRA 炼丹

更值得关注的是,这一突破性的工作源自于 Vidu 1.5 背后基础模型能力的全面提升,而非业界主流的 LoRA 微调方案,无需专门的数据采集、数据标注、微调训练环节,一键直出高一致性视频。

要知道,LoRA 微调一直是业界解决一致性问题最主流的方案。

所谓 LoRA(Low-Rank Adaptation)方案,即在预训练模型的基础上,用特定主体的多段视频进行微调,让模型理解该主体的特征,从而能生成该主体在不同角度、光线和场景下的形象,保证其在若干次不同生成时的一致性。

|       简单理解,比如我创作了一只卡通狗的形象,想生成连续一致的视频画面,但模型在预训练过程中并没有学习过该形象,所以需要拿卡通狗的多段视频,让模型进一步训练,让模型认识这只卡通狗长什么样,从而能够生成。

但问题是,通常 LoRA 需要 20~100 段的视频,数据构造繁琐,且需要一定的训练时间,通常需要数个小时甚至更久的时间,成本为单次视频生成的成百上千倍。

另外 LoRA 微调模型容易产生过拟合,即在理解主体特征的同时,也会遗忘大量原先的知识。这导致对于动态的表情或肢体动作的变化,很难有效控制,所以生成的视频容易产生僵硬或不自然的效果,以及在复杂动作或大幅度变换时,微调模型无法很好地捕捉细节,导致主体特征不够精准。

所以 LoRA 主要适用于大多数简单情形下的主体一致性需求,但对于高复杂的主体或问题场景,需要更多的微调数据和更复杂的模型微调策略。

Vidu 1.5 基于通用模型能力的提升,仅靠三张图就实现高可控的稳定输出,直接省去「炼丹」环节,称得上是「LoRA 终结器」了

03 视觉模型也可以理解「上下文」了

直观看,要实现上述类似的多主体一致性生成任务,需要模型能够同时理解「多图的灵活输入」,不仅在数量上实现多图的输入,而且图片不局限于特定的特征,这与语言模型的「上下文学习」能力具有显著的相似性。

在语言模型中,理解上下文不仅仅是处理单一的文本输入信息,而是通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。同样地,视频生成或多图生成任务中,模型需要能够理解多个输入图像的准确含义和它们之间的关联性,以及能够根据这些信息生成一致、连贯且有逻辑的输出。

fr3.1.jpg

通过不断扩展上下文长度,Vidu 从 1.0 迭代到 1.5 后,出现了明显的智能涌现效应,模型能够通过视觉上下文完成大量新任务的直接生成。从单输入主体的文/图生视频,到多输入参考信息,未来还将以更长、更丰富的上下文作为输入,进一步提升模型的能力表现。

参考链接:https://mp.weixin.qq.com/s/DzT4PxDEphGggdFlU6a6NQ

来源:Founder Park