2 月 10 日,豆包大模型团队宣布,与北京交通大学、中国科学技术大学联合提出的,视频生成实验模型「VideoWorld」正式开源。
技术特点
-
纯视觉学习:与主流多模态模型如 Sora、DALL-E 和 Midjourney 等不同,VideoWorld 无需依赖语言或标签数据来学习知识,通过纯视觉信号进行学习和推理,在处理如折纸、打领结等难以用语言清晰表达的任务时优势明显。
-
潜在动态模型(LDM):为核心技术之一,能够高效压缩视频帧间的视觉变化信息,将帧间视觉变化压缩为紧凑的潜在编码,减少冗余,增强对复杂知识的学习效率,还能让模型捕捉视觉序列中的长期依赖关系,更好地进行长期推理和规划。