视觉生成大模型在近年来取得了显著进展,但在模拟真实物理世界方面仍存在难题。
本文详细探讨了这一领域的发展现状,包括 VAE、GAN 等模型的应用。同时指出,像 Sora 等模型在几何、光照等方面存在失败案例。
为解决这些问题,文章提出应用确定性条件的思路,并介绍了相关成功应用,这些成果有望推动视觉生成技术更接近真实场景的需求,在多个领域发挥更大作用。