虚拟和现实世界已分不清！OpenAI首个AI视频模型-开放智能

OpenAI Sora宣传视频(00:59)

“一名时尚女子走在充满霓虹灯和广告牌的标志性东京街头，她穿着黑色皮夹克、红长裙和黑靴子，拎着黑色手袋，戴着太阳镜，涂着红色口红，走路自信又随意。街道潮湿且反光，在灯光映射下形成镜面效果，行人走来走去。”这段60秒的视频，并非真实拍摄，而是OpenAI最新的“文生视频”模型Sora，这一段文字描述就是段Prompt（提示词）。

当地时间2月15日，人工智能（AI）巨头OpenAI宣布，正在研发“文生视频”模型Sora，可以创建长达60秒的视频，其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色，也可以根据静态图像制作动画。OpenAI称，目前红队成员（red teamers）可以使用Sora来评估关键的危害或风险，还向一些视觉艺术家、设计师和电影制作人提供访问权限，以获取有关如何改进该模型以对创意专业人士最有帮助的反馈。

根据OpenAI官网，Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。Sora不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。

无人机拍摄的海浪拍打大苏尔加雷角海滩崎岖悬崖的景象。(00:08)

在部分场景中，Sora的效果足以“以假乱真”，例如一段8秒的东京地铁车厢窗户视频，除了行车过程中，列车窗户上的反射外，视频中间人物倒影也非常逼真。

提示词：穿过东京郊区的地铁窗外倒影(00:08)

再来看另一段视频，官方提示词为：“雪后的东京城熙熙攘攘。镜头穿过繁忙的城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。”Sora生成的视频呈现了所有要素，且镜头不再是单镜头，而是一直向前且会变换方向的运动镜头。

东京雪景AI视频(00:17)

需要注意的是，目前Sora属于半成品，OpenAI称，它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕。还可能会混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

Sora生成的错误案例(00:19)

OpenAI官网介绍，Sora是一种扩散模型，它从看起来像静态噪声的视频开始生成视频，然后通过多个步骤消除噪声来逐渐对其进行转换生成视频。Sora能够一次生成整个视频或扩展生成的视频以使其更长。通过一次为模型提供多个帧的预见，OpenAI解决了一个具有挑战性的问题，即确保主题即使暂时离开视野也保持不变。

与GPT模型类似，Sora使用Transformer架构。Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述技术，该技术涉及为视觉训练数据生成高度描述性的标题。因此，该模型能够更精准遵循生成用户的文本指令。

OpenAI表示，Sora是能够理解和模拟现实世界的模型基础，相信这一功能将成为实现AGI（通用人工智能）的重要里程碑。

Sora视频一出，立刻震惊业界。尽管这不是首个AI视频，其他企业也有类似文本生成视频的AI模型，谷歌正在测试名为Lumiere的模型，Meta则有名为Emu的模型，还有人工智能初创企业Runway也在开发相应产品来帮助制作视频，但外媒指出，工智能专家和分析师表示，Sora 视频的长度和质量超出了迄今为止所见的水平。

美国伊利诺伊大学香槟分校信息科学教授Ted Underwood指出，没想到在两三年内还会有如此持续连贯水平的视频生成技术，OpenAI的视频可能展现了该模型的最佳性能。

多名AI从业者称，从Sora公布的预览视频来看，简直太“疯狂”。在国外Reditt社区，有个网友提问，今天OpenAI公布的Sora模型是否会成为自动化对于经济影响的里程碑？下面有将近100条回复，有网友称，起初ChatGPT的发布让用户看到了一切皆有可能，而现在人工智能正在不断进步发展，让用户看到了强大的技术能力。

X平台网友截图

有海外网友评论称，Sora的出现是一项改变世界的产品，但同时也指出，Sora生成的视频或许让人工智能专家也难以分辨真假，这或许是个棘手的问题。

X平台网友截图

外媒援引布法罗大学Media Forensic Lab主任Siwei Lyu的话称，随着像Sora这样的人工智能程序不断出现，除了由图像和音频深度伪造构成的现有挑战之外，视频伪造技术将带来更多挑战。卡内基国际事务伦理委员会研究AI和监控技术的高级研究员Arthur Holland Michel则表示，当像Sora这样的工具落入那些确实想利用新技术迭代造成伤害的老谋深算者手中时，事情会变得更加糟糕，“每当有功能更强大的新产品发布时，其可能被滥用的方式也会越多。”

不过，AI视频或许能给电影制作带来不少惊喜。电影导演和视觉特效专家Michael Gracey说，看看仅仅在图像生成的一年里就取得了如此成就。“一年之后，我们会在哪里？”Gracey预测，不久之后，像Sora这样的人工智能工具将使电影制作者能够仔细控制他们的输出，从头开始制作各种视频。

Gracey认为，以后或许不再需要一个由100-200名艺术家组成的团队来用3年时间完成动画长片，但他也提醒，AI工具是根据现实生活中艺术家的作品进行训练，而不给予他们补偿，这是一个大问题。“当它剥夺了其他人的创造力、工作、想法和执行力，而不给予他们应有的荣誉和经济报酬时，那就不好了。”

需要指出的是，实现AGI的背后需要大量的算力来支持，也就是足够多的GPU（图形处理芯片），目前英伟达是全球生产GPU的霸主，但芯片市场一直面临供不应求的局面。也正是因此大模型的算力需求，OpenAI首席执行官山姆·奥特曼（Sam Altman）正试图筹集万亿美元来重塑全球半导体产业。

就在一周前，据外媒报道，奥特曼正与包括阿联酋政府在内的投资者洽谈，希望筹集到数万亿美元的资金来提高全球芯片制造能力，为其AI研发提供充足动力，有知情人士称，该项目可能需要5-7万亿美元。

7万亿美元是什么概念？

英伟达CEO黄仁勋12日曾在公开场合有些讽刺地回应称，“（7万亿美元）显然能买下所有的GPU……如果你认为计算机无法发展得更快，可能会得出这样的结论：我们需要14颗行星、3个星系和4个太阳来为这一切提供燃料。但是，计算机架构其实在不断地进步。”

外媒援引知情人士的话称，奥特曼正在建议OpenAI、投资者、芯片制造商和能源供应商之间建立合作，将共同出资建造芯片工厂。最近数周时间，奥特曼已经与多位人士进行了会谈，包括软银和台积电等，甚至包括阿联酋的谢赫·塔农·本·扎耶德·阿勒纳哈扬（Sheikh Tahnoun bin Zayed Al Nahyan），他是阿联酋总统的兄弟，也是阿布扎比多个主权财富基金的主席。

按照奥特曼的想法，未来数年内要建立数十家芯片代工工厂，建造所需的资金由中东投资者提供，而台积电来制造和运营这些工厂。

THE END