百度发布自研视频生成模型 MuseSteamer：一张图即可生成电影级高清有声视频

2025-07-02 16:37IT之家 - 远洋

感谢IT之家网友西窗旧事、华南吴彦祖的线索投递！

IT之家 7 月 2 日消息，百度商业研发团队发布自研视频生成模型“MuseSteamer”及创作平台“绘想”，MuseSteamer 是全球首个实现中文音视频一体化生成的视频模型。该技术可实现画面与音效、人声台词的协同创作，打破传统 AIGC 视频“先画面后配音”的割裂流程。

据悉，MuseSteamer 在权威榜单 VBench I2V 中以 89.38% 总分登顶全球第一，支持一张图生成 10 秒 1080p 电影级画质视频，人物微表情与运镜效果达专业影视水准。其核心能力源于亿级中文多模态数据清洗、精细化视频结构化描述语言，以及多目标强化学习等技术优化。

据IT之家了解，MuseSteamer 模型家族包含 Turbo、Lite、Pro 及全系列有声版，覆盖从普通创作者到专业影视机构的需求。其中 Turbo 版已上线绘想平台开启限时免费公测，其余版本将于 8 月陆续开放。平台同步启动“跨次元捏合”AI 视频创作大赛，用户通过单图输入可生成动态捏捏乐视频进行参赛。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。