文本生成视频模型Sora发表时间:2024-02-23 15:19 在2024年2月,Open AI 推出了一款创新的AI模型——"Sora"。这款模型能够根据文本指令生成长达60秒的高质量视频,视频中不仅包含精细的背景和复杂的多视角镜头,还融入了富有情感的角色表现。本课程探讨了现有视频生成方法及优缺点,Sora如何突破限制及制作高质量视频。 Sora是OpenAI发布的一款文生视频工具,它能够根据用户输入的提示词、文本指令或静态图像,生成长达一分钟的视频,其中既能实现多角度镜头的自然切换,还包含复杂的场景和生动的角色表情,且故事的逻辑性和连贯性极佳。 简单来说,Sora是通过学习视频,来理解现实世界的动态变化,并用计算机视觉技术模拟这些变化,从而创造出新的视觉内容的工具引擎。它的出现不只是一个新的技术突破,而是一个世界模型,这意味着,多模态和机器人的进步。 Sora生成视频画面节选 视频生成建模是计算机领域的重要研究方向,现有的许多工作采用循环网络、GAN、自回归变换器等方法进行视频生成,但主要集中在短视频或固定大小视频上。具体的来说:
OpenAI 认为,之前在大语言模型上的成功,得益于 Token( 可以翻译成令牌、标记、词元都可,翻译为词元会更好理解一些 ),Token 可以优雅的把代码、数学以及各种不同的自然语言进行统一进而方便规模巨大的训练。于是,他们创造了对应 Token 的 “ Patche ” 概念( 块,如果 Token 翻译为词元理解的话,Patche 或许可以被我们翻译为 “ 图块 ” )用于训练 Sora 这个视频模型。 实际上,在大语言模型中,Token 的应用之所以会如此成功,还得益于 Transformer 架构,他与 Token 是搭配着来的,所以 Sora 作为一个视频生成扩散模型,区别于主流视频生成扩散模型采用了 Transformer 架构。 也就是说,OpenAI 赢在了经验与技术路线的选择上。 |