nightclub 2025-09-14 21:27:59

腾讯开源HunyuanWorld-Voyager：一张图片就能生成3D场景与移动视角视频

中国科技大厂腾讯在GitHub上公开了全新的AI框架HunyuanWorld-Voyager，能从单张图片生成具一致性的3D场景，并且在该场景中制作镜头移动的视频。

HunyuanWorld-Voyager采用自动化的重建流程，结合相机姿态估计与深度预测，训练数据来自真实拍摄形象与Unreal Engine合成画面，总计超过10万段视频。

其架构包含两大核心：

依输入图片生成RGB与深度对齐的视频串行，确保场景一致性。

通过自回归推论与平滑采样，实现具上下文的场景扩展与不必要点的移除。

因此，模型不仅能从单张图片推导出合理的3D场景，还能生成移动视角的视频，甚至可重建3D点云（point cloud）。

在GitHub上，腾讯公开了多个实例：

用户输入一张静态图片，系统能生成一段镜头在3D场景中移动的视频。

镜头路径可由用户指定，视频效果近似游戏引擎内的场景探索。

生成的视频还能进一步转换为3D点云，尽管粗糙，但能清楚看出场景深度与立体感。

登录或者注册查看/发表评论

品牌推荐