在这里输入460x120px的广告
当前位置:首页 » AI资讯 » [AI模型]豆包开源视频生成模型「VideoWorld」

[AI模型]豆包开源视频生成模型「VideoWorld」

   作者:麦波 AI 导航站   发布时间:2025-02-22   203 次浏览

在这里输入230x80px的广告
2 月 10 日,豆包大模型团队宣布,与北京交通大学、中国科学技术大学联合提出的,视频生成实验模型「VideoWorld」正式开源。
技术特点
  • 纯视觉学习:与主流多模态模型如 Sora、DALL-E 和 Midjourney 等不同,VideoWorld 无需依赖语言或标签数据来学习知识,通过纯视觉信号进行学习和推理,在处理如折纸、打领结等难以用语言清晰表达的任务时优势明显。
  • 潜在动态模型(LDM):为核心技术之一,能够高效压缩视频帧间的视觉变化信息,将帧间视觉变化压缩为紧凑的潜在编码,减少冗余,增强对复杂知识的学习效率,还能让模型捕捉视觉序列中的长期依赖关系,更好地进行长期推理和规划。

《[AI模型]豆包开源视频生成模型「VideoWorld」》等您坐沙发呢!

发表评论

亲,不支持纯字母、符号评论哦~
-->