Sora强势来袭，广告导演要失业了？别急，让子弹先飞一会儿

原创赞26 收藏19 评论22

举报 2024-02-19

扫描,分享朋友圈

(封面由midjourney生成）

家人们，谁懂啊……

ChatGPT还没闹明白，一觉醒来，OpenAI又开始搞事情了，这次直接来了个王炸：Sora。

不认识它没关系，简单来讲，它的功能就是根据描述性的文本提示，生成高质量的视频内容。你可以理解为，你把你想要的场景以文本的形式写下来给它，它就能给你生成对应的视频，最高能生成60秒。

我当时听到这玩意儿出来的第一反应是：厉（N）害（B）。

第二反应：好家伙，影视人要失业了。

不过这一幕，好像似曾相识：

ChatGPT刚出来时第一反应：同上。第二反应：好家伙，文案人要失业了。

midjourney刚出来时第一反应：同上。第二反应：好家伙，设计师要失业了。

好嘛，合着OpenAI跟广告行业杠上了（bushi)。

1、sora有多强？功能介绍

Sora模型的诞生时间是在2024年2月15日，就是春节上班前两天。

可能是觉得CNY的余热不够，Sora提供话题素材了来了，就像在春节的尾巴抛下一颗炸弹，一时间大家都在讨论Sora。

看看这暴增的搜索量，别说简单别说破圈层了，那是直接击穿了地球层。

能引起这么高全民关注度，Sora还真得有两把刷子。鉴于我对它技术的认知确实肤浅，在功能介绍这块，我找我的AI小助手问了问，首先，请它介绍一下Sora：

Q：
可以介绍一下Sora的具体情况吗？
A：
Sora是由OpenAI开发的一种先进的文本到视频生成模型。Sora模型的诞生时间是在2024年2月15日。OpenAI在这一天发布了Sora，这一模型能够根据用户输入的文本提示生成长达一分钟的高清视频。Sora模型采用了扩散型变换器（diffusion transformer）架构，这是一种基于深度学习的模型，能够将随机噪声逐渐转化为有意义的图像或视频内容。
Sora模型的核心优势在于其能够处理和生成具有复杂动态和空间关系的高质量视频，这在以往的视频生成技术中是难以实现的。与传统的视频生成模型相比，Sora在多模态输入处理、视频连贯性、逼真度等方面展现出了显著的优势。它可以生成具有多个角色、特定类型的运动以及精确的主题和背景细节的复杂场景。
尽管Sora模型展示了令人印象深刻的效果，OpenAI也承认它存在一些局限性，例如可能难以准确模拟复杂场景中的物理现象，可能无法理解具体的因果关系，以及可能混淆提示的空间细节等。目前，Sora模型尚未公开使用，OpenAI正在与第三方安全测试人员共享该模型进行红队测试，并在模型中包含了过滤器，以阻止暴力、色情、仇恨内容以及特定人物的视频输出。此外，OpenAI还在尝试将C2PA技术标准嵌入到Sora的输出视频中，以帮助鉴别视频是否为AI深度伪造内容。

哦，我悟了——它能够根据用户输入的文本提示生成长达一分钟的高清视频，其他技术性文字，分开不认识，合在一起更是看不懂（扶额苦笑。

但这也够了，毕竟你只需要知道电脑怎么用就行，不用知道它背后运行的逻辑不是。

但是这个具体的功能，还是有点不太明白，于是我就接着问了问AI小助手，毕竟它比我懂得多：

Q：
Sora有哪些功能？
A：
OpenAI的Sora是一个文本到视频的生成模型，它可以根据描述性的文本提示生成高质量的视频内容。Sora的主要功能和特点包括：
1. 文本到视频生成：Sora能够理解自然语言描述，并根据这些描述生成与之相符的视频。用户可以提供文本提示，Sora会生成相应的视频场景。
2. 视频时长和分辨率：Sora能够生成长达60秒的高清视频，支持不同的视频时长、分辨率和纵横比。
3. 视频压缩网络：Sora使用了一个压缩网络，将原始视频数据降维到一个潜在空间，然后通过变换器网络将潜在空间分割成时空块，作为输入。
4. 扩散模型：Sora采用了基于扩散的生成方法，从一个随机噪声开始，逐步恢复出目标视频。这种方法在语言建模、计算机视觉和图像生成等领域已经显示出显著的扩展性。
5. 语言理解：Sora能够理解自然语言，并根据语言的语义和语法生成合理的视频内容。
6. 图像和视频编辑：Sora不仅可以基于文本提示生成视频，还可以基于现有图像或视频进行提示，生成与之相关的视频，或者在其基础上进行修改或延续。
7. 模拟能力：Sora在大规模训练时展现出了一些新兴能力，能够模拟物理世界中的某些方面，如动态相机运动、长期一致性和对象持久性等。
8. 多模态理解：Sora能够处理和理解多模态数据，即同时处理文本、图像和视频信息，这使得它在生成视频时能够更好地理解和模拟现实世界。
Sora的这些功能使得它在视觉艺术、电影制作、教育、娱乐等领域具有广泛的应用潜力。然而，Sora目前仍在开发中，存在一些局限性，例如在处理复杂物理场景时可能会有不准确的表现，以及在理解因果关系方面可能存在挑战。OpenAI正在与专家团队合作，以确保模型的安全性和准确性，并开发工具来检测和拒绝不当的输入。

哦，我又悟了：原来它不仅能根据文本生成视频，还能根据现有的图像或者视频，生成相关的视频，或者在此基础上进行延续，也就是说，它是具备内容连贯性的。

也就是说，所有和视频相关的行业、平台之类的，都有可能被它颠覆。

我甚至看到有评论说：这下好了，喜欢的小说可以自己生成影视作品了——这么一看，普通人也很有机会嘛。

2、Sora还没用上，课程先出来了
别割了，让本韭菜长一会吧

Sora出来后，也诞生了很多魔幻的段子，比如，有些人还没用上Sora，课程大纲已经列好了：

有没有一种可能，它们连页面都打不开。

您的sora拒绝了您的访问
请稍后再试

还有各种抢注域名的、做落地页的：

图片来源于网络

不知道是不是真的在这个赛道上赚到钱了，但我看完这些抢跑选手只想说两点：

这钱你们赚吧，我是赚不到一点儿。以及，

都别吵了，咱先用上Sora再说吧。

3、Call back一下：
如果Sora真的行，我们该具备哪些能力来应对它？

就像开头说的那样，来了个啥新技术，就要传“xx要失业了”，这话不合理，但也合理，毕竟工具总要迭代，但不是说一来就让你失业了，它要有个过程。

你想想，就像之前手写广告文案，到电脑打字，变得只是方式，不变的是你的想法、创意。

那咱这Sora大概也差不多嘛，你要用文本描述，还不得人有想法才行，你没想法，给你你也用不了。难肯定是有点难度的，毕竟是个全新的东西，那就慢慢摸索呗。

其实从ChatGPT到midjourney再到Sora，有一个比较核心的点就是：它们都依赖“文本提示”。

ChatGPT是，你要想方设法调整你的提问，不管是模拟专家也好，对提问进行限制也好，考验的是逻辑思维和文本能力；
midjourney则是要用各种提示词，来描述场景，有时候意思相近的两个词，可能生成的图像结果不同，这也考验文本能力。

咱就是说，这么一看下来，做文案的朋友赢麻了，毕竟平常没少想破脑袋想词来着。

不过，既然AI都这么发达了，那不用用它帮我解答真是说不过去了，于是，我把这个问题喂给了AI小助手，它告诉我：

1. 精确的文本提示：Sora模型依赖于文本提示来生成视频内容。因此，提供清晰、具体且详细的描述性文本提示对于生成高质量视频至关重要。尝试使用生动的语言和具体的场景描述，以便模型能够理解并生成符合预期的视频。
2. 理解模型限制：了解Sora模型的局限性，例如它可能在处理复杂物理现象、因果关系和空间细节方面存在挑战。在设计提示时，尽量避免这些领域的复杂性，或者为模型提供足够的上下文信息来帮助它克服这些挑战。
6. 原始尺寸和时长训练：OpenAI在训练Sora时选择了原始尺寸和时长，这使得生成的视频能够更好地自定义时长和尺寸。在设计提示时，考虑视频的最终用途，以便生成适合特定场景的视频。
7. 利用GPT进行提示扩写：在输入提示词时，OpenAI使用了GPT模型来扩写用户的提示词，以提高视频生成的准确性。这意味着在输入提示时，简洁明了的描述可能更有助于GPT进行有效的扩写。
3. 利用多模态输入：略
4. 视频压缩网络和潜空间：略
5. 利用Transformer架构：略
8. 关注模型的伦理和安全问题：略
（复杂的技术性的东西我就不放了哈，真的很占位置就是说）

你看，新技术来了，别慌，可以关注一些最新的信息，也要让子弹先飞一会，看看到底有哪些可以帮助你的。