在这里输入460x120px的广告

当前位置：首页 » AI资讯 » [AI模型]豆包开源视频生成模型「VideoWorld」

[AI模型]豆包开源视频生成模型「VideoWorld」

作者:麦波 AI 导航站发布时间:2025-02-22 203 次浏览

在这里输入230x80px的广告

2 月 10 日，豆包大模型团队宣布，与北京交通大学、中国科学技术大学联合提出的，视频生成实验模型「VideoWorld」正式开源。

技术特点

纯视觉学习：与主流多模态模型如 Sora、DALL-E 和 Midjourney 等不同，VideoWorld 无需依赖语言或标签数据来学习知识，通过纯视觉信号进行学习和推理，在处理如折纸、打领结等难以用语言清晰表达的任务时优势明显。
潜在动态模型（LDM）：为核心技术之一，能够高效压缩视频帧间的视觉变化信息，将帧间视觉变化压缩为紧凑的潜在编码，减少冗余，增强对复杂知识的学习效率，还能让模型捕捉视觉序列中的长期依赖关系，更好地进行长期推理和规划。

上一篇: 自然语言处理技术

下一篇: 知识图谱技术

《[AI模型]豆包开源视频生成模型「VideoWorld」》等您坐沙发呢！

发表评论

-->