以下文字资料是由(历史认知网 www.lishirenzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!
摘要:人工智能研究的许多最新进展都得益于一种被称为深度学......。人类直观地理解世界是如何工作的,这使得人们比机器更容易想象一个场景将如何上演。但是,研究人员说,静止图像中的物体可以以多种不同的方式移动和相互作用,这使得机器很难完成这一壮举。[超级智能机器:7机器人未来]这种设置被称为“生成性对抗网络”,系统之间的竞争导致越来越逼真的视频。
根据一项新的研究,一种新的人工智能系统可以拍摄静止图像并生成模拟下一步发生的事情的短视频,类似于人类可以直观地想象场景将如何演变。
人类直观地理解世界是如何工作的,这使得人们比机器更容易想象一个场景将如何上演。但是,研究人员说,静止图像中的物体可以以多种不同的方式移动和相互作用,这使得机器很难完成这一壮举。但是,一种新的所谓的深度学习系统能够在20%的时间里欺骗人类,与真实的视频相比,麻省理工学院的
研究人员将两个神经网络相互对立,一个试图区分真实的视频和机器生成的视频,另一个试图创建那些逼真到足以欺骗第一个系统的视频。[超级智能机器:7机器人未来]
这种设置被称为“生成性对抗网络”(GAN),系统之间的竞争导致越来越逼真的视频。研究人员说,当研究人员要求亚马逊Mechanical Turk众包平台的工作人员挑选哪些视频是真实的时,用户在20%的时间里选择了机器生成的视频,而不是真实的视频,初出茅庐的电影导演可能还不需要太担心机器接管他们的工作——这些视频只有1到1.5秒长,分辨率为64 x 64像素。但研究人员表示,这种 ... 最终可以帮助机器人和自动驾驶汽车在动态环境中导航并与人类互动,或者让Facebook自动标记视频,并用标签描述正在发生的事情。
“我们的算法可以生成一个相当逼真的视频,显示它认为未来会是什么样子,麻省理工学院计算机科学与人工智能实验室的博士生卡尔·冯德里克(Carl Vondrick)领导了这项研究我们的工作是一个令人鼓舞的发展,它表明计算机科学家可以给机器灌输更先进的情境理解。
系统也可以在无人监督的情况下学习,研究人员说。这意味着这个系统所训练的200万个视频——相当于一年的录像——不必被人贴上标签,这大大缩短了开发时间,使其能够适应新的数据。
在一项将于12月5日至10日在西班牙巴塞罗那举行的神经信息处理系统(NIPS)会议上提出的研究中,研究人员解释了他们是如何使用海滩、火车站的视频来训练系统的,医院和高尔夫球场。
“在早期的原型中,我们发现的一个挑战是模型可以预测背景会扭曲和变形,”Vondrick告诉Live Science。为了克服这一点,他们对设计进行了调整,以便系统在合成视频之前,先学习静态背景和移动前景的独立模型。
人工智能电影 ... 人麻省理工团队并不是第一个尝试使用人工智能从头开始生成视频的团队。但是,研究人员说,以前的 ... 倾向于逐帧构建视频,这使得错误在每个阶段都会累积。相反,新 ... 一次处理整个场景——通常一次32帧。
发明GAN的非盈利组织OpenAI的研究科学家伊恩·古德费罗(Ian Goodfellow)说,在这个领域做前期工作的系统不能像这种 ... 那样同时生成清晰的图像和运动。不过,他补充说,谷歌的De上个月,epMind AI的研究部门,称为视频像素网络( ... ),能够产生清晰的图像和运动。“与GANs相比, ... 更容易训练,但生成视频需要更长的时间,”他告诉Live Science ... 必须一次生成一个像素的视频,而GANs可以同时生成多个像素。
Vondrick还指出,他们的 ... 可以处理更具挑战性的数据,比如从web上抓取的视频, ... 是在专门设计的描述弹跳数字或机器人手臂的视频基准训练集上演示的。
虽然结果远非完美。研究人员说,通常情况下,前景中的物体看起来比应该的要大,而人类可以在镜头中出现模糊的斑点。他们还说,物体也可以从场景中消失,而其他物体则可能不知从何处出现。
“计算机模型一开始对世界一无所知。”。它必须了解人们的长相,物体如何移动,以及可能发生的事情模特还没有完全学会这些东西。扩展其理解高级概念(如对象)的能力将极大地提高生成能力。
向前发展的另一个大挑战将是创建更长的视频,因为这将需要系统跟踪场景中对象之间的更多关系,并在更长的时间内,据冯德里克所说,
“为了克服这个问题,添加人工输入可能会有助于系统理解场景的元素,而这些元素对系统本身来说是很难学 ... ,”他说,
是关于生命科学的原始文章。
特别申明:本文内容来源网络,版权归原作者所有,如有侵权请立即与我们联系(devmax@126.com),我们将及时处理。