官方微信
手机客户端
设为首页
收藏本站
扫一扫,关注我们
QQ登录
微信登录
登录
注册
我的空间
我的消息
我的积分
我的收藏
我的好友
我的相册
我的道具
帐号设置
退出登录
免费发布信息
首页
Portal
新闻资讯
论坛
BBS
城事杂谈
求职招聘
房屋出租
织里跳蚤
房产资讯
关于我们
导读
首页
房产
装修
亲子
婚嫁
美食
汽车
旅游
娱乐
信息
求职
租房
二手房
招聘
拼车
二手车
服务
生活服务
城事杂谈
跳蚤市场
便民服务
社区
城事杂谈
情感天空
户外旅游
房产楼市
装修装饰
美食天地
当前位置:
»
论坛
›
城市服务
›
电脑维修
›
帖子
师傅,不好了!“二师兄”掉在高速
台风“贝碧嘉”逼近!湖州将有大到
金店来了一位“豪客”,店员却选择
[ 房产资讯 ]
为何越来越多人买老旧小区顶楼的房子?原
[ 汽车天地 ]
终于升级碟刹,新款朗逸新锐上市发售将近
[ 电脑维修 ]
四川唯一一只圈养金猫步入老年 和它一起
[ 房产资讯 ]
房地产新政首日,上海七盘齐开:21万/平
[ 汽车天地 ]
曝路特斯武汉全球总部停工!
返回列表
发帖
回复
查看:
180
|
回复:
0
OpenAI全新发布的Sora,究竟厉害在哪里?
[复制链接]
admin
admin
当前在线
积分
309451
关注TA
发消息
发表于 2024-3-22 19:02:29
|
来自:中国浙江湖州
|
显示全部楼层
|
阅读模式
最近爆火的sora
模型究
竟是何方神圣?
作为OpenAI的新一代产品,让我们先来问问它的大哥GPT-4:
看来做大哥的消息确实灵通,不妨让我们去Sora的官网一探究竟。
进入sora的官网,映入眼帘的就是
Sora的个人简介
,来让GPT-4重新认识一下小弟:
看来,
Sora是一种利用文本生成视频的AI模型
。但是在众多AI模型中,
为什么只有Sora火出圈了?
Sora究竟厉害在哪里?
下面让我们一起来阅读一下Sora的技术报告:
标题就是:
作为
世界模拟器
的
视频生成
模型
。
换句话说,
So
ra模型可以通过生成虚拟视频,来模拟现实世界
中的各种情境、场景和事件
,是不是还挺科幻的,有点意思!
接着我们来看看摘要:
该研究尝试在
大量视频数据
上训练视频生成模型。他们使用了
不同长度、分辨率和长宽比的视频和图像
来共同训练一种名为“
文本条件扩散模型
”的模型。
他们使用了一种名为Transformer的架构来处理视频和图像的潜在代码。他们最大的模型名为Sora,能够生成
一分钟的高质量
视频
。研究结果表明,扩展视频生成模型是建立
通用物理世界
模拟器的一个很有前途的方法。
我们先简单地理解一下这段话,
看完下面的视
频
或许会有更深的理解和思考。
先来看一下最近刷屏的一段视频,根据下面这段文本生成:
“
一位时尚的女士走在东京的街道上,街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人走来走去
。”
可以看出来,这段
长达一分钟
的高清视频
几乎完美呈现了文字中所描述的内容!
视频中不仅有
多角度的镜头,分镜切换也符合逻辑
。视频中的女人在移动时,与后面的街道背景一直保持
高度
稳定和流畅
;而且视频中对光影反射、运动方式、镜头移动等细节都处理得更好,
让观众看起来跟真实拍摄的一样
。
对比其他的AI模型,Pika是3秒,Runway是4秒,Sora生成的视频目前可以达到
一分钟
,可谓一骑绝尘,而且
分辨率十分高
,视频中
基本物理现象
也比较吻合,仿佛真的可以
以假乱真
!
怪不得有网友担忧这样逼真的技术会被用来伪造视频,甚至被用来在法庭上作伪证:
但上面的视频没有展示出来
Sora的全部实力
,看完整个报告之后,小编确确实实地感觉到:
“魔法”世界可能真的存在
!
首先,根据OpenAI给出的这篇非完全技术报告,我们可以大致知道:
Sora模型是怎么把文本转化为视频的
。
简单来说,
Sora整合了自家的GPT和DALL-E模型
。其中,GPT-4就是基于Transformer架构的大型神经网络,目前在自然语言处理领域独树一帜,而最新的DALL-E 3是基于文本提示生成图像的图像生成模型。
Sora使用了DALL·E 3中的
重新标注
技术,准备了
大量
带有文本标题的视频数据,通过训练一个
高度描述性的标题模型
,为所有视频生成文本标题,来提高文本准确性,改善了视频质量。同时,Sora利用GPT将用户
简短的提示转化为更长、更详细的标题
,指导视频的生成过程,从而使
Sora能够生成高质量的视频,并准确地遵循用户的指示
。
比如下面的案例:
根据横线上的
文本提示词
,
Sora可以连接成一段完整的话,或者增加相关的语义信息,
从而生成下面的视频:
这视频真的是看不出什么毛病啊,连女生的面部表情都有点惟妙惟肖了。
除了从文本到视频,Sora还可以使用其他输入格式进行提示,比如
图像,或视频
。
比如
将静态图像转换为动画
,
下面是:一只穿着贝雷帽和黑色高领衫的柴犬
。
我们输入这张图片,就可以让狗狗动起来。
是不是在哪儿见过,《哈利波特》里面,墙壁画像里的人可以活过来和人类互动,或者是神奇的魔法报纸,照片上的人物能动起来。
以前以为麻瓜的世界不可能看到魔法,
现在有了Sora,加上最近的Vision Pro
,让照片里的人重获新生,也不再只是一句玩笑话了。
再比如下面的照片:“
在一座华丽的、历史悠久的大厅中,一股巨大的海啸达到了顶峰,并开始下降。两名冲浪者抓住机会,熟练地驾驶着浪头
。”
如果只是静态的图片可能
无
法重现当时的紧张感
,换成视频,可就真的
代入感十足
了。
除了照片输入,Sora还可以
基于原视频来扩展视频
,向前还是向后都可以。
下面的视频,是由一个视频片段向前扩展得到的。两个视频前面的两种情景,过渡到最后同一个原视频片段:
有趣的是,sora可以使用这种方法向前和向后扩展视频,生成一个
无缝的无限循环
。比如下面的环山骑行,你根本无法分清哪里是片头还是片尾。
这还没完,Sora下面的功能,才是真的让视频从业者
汗流浃背
。
Sora利用SDEdit技术,
可以
零样本
地转换输入视频的风格和环境,进而
编辑视频!
比如下面的案例,可以对主题内容(赛车,跑道),环境背景,风格等元素进行替换。
我们选中“
让视频变成水下驾驶
”,看一下效果:
不仅是视频编辑,Sora还可以在完全不同的主题和场景之间
创建
无缝的转场
。虽然还没那么丝滑,但是这脑洞和技术,已经可以
让视频小白直接上手
了。
从编辑,到转场,震惊小编的是,
Sora竟然会自己运镜“拍电影”,属实是
力大砖飞
,类似于前面的“东京女人”视频,Sora还可以
模拟摄像机视
角
,比如航拍的运镜,由远及近,环绕拍摄等等拍摄技巧,
保证人物和场景元素在三维空间中移动一致
。
此外,
Sora生成的视频具有
长距离的一致性和物体永恒性
。换句人话就是:可以在人、动物和物体被遮挡或离开画面时保持它们的
持续存在
,比如:
当路人经过时,
下
面
的狗狗
一直完整地存在视频中
。同样,可以在单个样本中生成同一角色的多个镜头,保持他们在整个视频中的外观。
甚至,视频中可以存在类似于
真实世界的互动
。例如,
一位画家可以在画布上留下持续一段时间的新笔触
,这真的看不出来是真画师还是假画师了。
类似于DALL-E,作为三维的视频生成模型的Sora也可以根据文本提示生成图像。
简直就是降维打击,Sora可以把
照片的空间感塑造很逼真
。
比如:
一张女性的特写肖像,拍摄于秋季,呈现出极致的细节和浅景深
。
这照片的质量,
立省一套相机+大光圈镜头
。加上AI换脸,
足不出户就可以体验全世界拍大片
,人像摄影直接get!
再比如下面的提示词:
一幅雪山村庄的画面,温暖的小木屋和北极光在天空中舞动,采用高细节和逼真的单反相机拍摄,使用50mm f/1.2镜头
。
u1s1,见过极光的都觉着你真见到极光了
,属实有模有样,风光摄影顺便拿下。
不过,看完上述报告,
震撼之余还有些小确幸
(最后的一丝倔强了),身为物理专业的小编对Sora模型的原理虽然不是特别明白,但是Sora的物理好像学的也不是很好。
例如,
它不能准确地模拟许多基本交互的物理现象
,比如
玻璃破碎
。
还有一些基本的物理现象,目前Sora还无法准确地呈现。但是,Sora强大的视频生成模型已经足够颠覆了。连著名的五星上将麦克阿瑟都评论说:
Sora,将给视频行业带来巨大的冲击
!
总之,
Sora通过对现实世界的学习,已经开始模拟人类去观察世界、描绘世界和表现世界
。当有了足够的数据和算力,Sora可能会开始对现实世界的物理、因果关系和物体持久性有更深刻的理解。
借用大佬的评论:
“
Sora表面上是一个文生视频的工具,实际上是一个现实世界模拟器。它也不仅仅是用来模拟现实世界,它意味着通用人工智能对这个世界的理解能力又一次得到了突破。
GPT对人类语言和知识的理解达到了一个突破点,而除了人类的语言和这个世界的人类之间做交互的知识之外,这个世界还有很多规律,人工智能对物理世界的规律缺乏理解的话,那么它是残缺的,不可能真正变成通用人工智能
。”
不仅是sora(现在还未对外完全开放),像GPT、DALL-E等生成式的AI产品已经在潜移默化地改变我们的生活、工作方式。
或许,
每一个人都应该开始思考,AI如何更好地为我们服务,让AI变成我们的第三只手,助力我们的生活和工作
。
所以,让我们拭目以待吧…
以上文本提示输入时,均是以英文的形式;
以上数据均源自OpenAI官方网站。
编辑:TT
来源:
https://view.inews.qq.com/k/20240225A031GD00
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
post_newreply
回复
使用道具
举报
返回列表
发帖
回复
发表回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点击附件文件名添加到帖子内容中
描述
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
精选推荐
师傅,不好了!“二师兄”掉在高
名单公布!
首个全国生态日主场活动在湖州举
2023绿色低碳创新大会在湖州举行
《焦点访谈》关注湖州!
市共同富裕领导小组召开第五次会
织里镇家园志愿广场本周活动预告
防诈骗小课堂,提高警惕!
7天1检!常态化核酸检测提醒!
友情链接
浙沪导航
网站目录
关闭
站长推荐
/1
关注织里资讯微信公众号
关注织里资讯微信公众号
查看 »
浙江网络警察报警平台
经营性网站备案信息
湖州市公安局网监备案
不良信息举报中心
联系客服
关注微信
下载APP
返回顶部
返回列表
点击联系客服
在线时间:8:30-17:00
客服电话
13362228119
电子邮件
511400718@qq.com
扫一扫,关注我们
下载APP客户端