首页>新闻中心>正文

人工智能大牛的新年启示:未来要看无监督学习、自然语言处理

2015-02-28 23:38


摘要:Facebook人工智能负责人Yann LeCun和香港科技大学教授杨强都认为,过渡炒作可能会导致人工智能出现周期性的寒冬,那么我们应当如何避免寒冬的到来呢?如何正确地期待人工智能的应用?请看大牛们的解释。

过去的新春佳节让程序员们迎来了一个难得的长假休息,但人工智能在假期一直在进步,我们看到了Facebook人工智能负责人Yann LeCun、香港科技大学计算机与工程系主任杨强等人工智能大牛对人工智能热潮的冷静思考,也看到谷歌研发出特定条件下超越人类水平的人工智能游戏系统。下面就来看看大牛们给我们的人工智能新年启示(同时也感谢“机器之心”和36kr的翻译工作)。

Yann LeCun:IBM True North是“草包族科学” 无监督学习是未来 

Facebook人工智能负责人Yann LeCun与IEEE Spectrum的Lee Gomes日前进行了一次关于深度学习的深度对话,谈到了人工智能领域目前存在的一些炒作以及深度学习的发展方向,他认为将深度学习与大脑进行类比给它赋予了一些神奇的光环将可能导致人工智能的寒冬。微信公众号“机器之心”已将该对话全部译为中文,现将译文中Yann LeCun的一些主要观点摘录如下:

IBM True North是“草包族科学” 

Spectrum:你看起来一直在竭尽全力的将你的工作与神经科学和生物学拉开距离。例如,你提到了“卷积网络”,而不是“卷积神经网络”。你在你的算法里提到了“单位/个体”(units),而非“神经元”。

LeCun:的确如此。我们模型中的一些部分从神经科学中获得了灵感,但还有相当多部分与神经科学毫不相干,相反,它们是来源于理论、直觉和经验探索。我们的模型不希望变成大脑的模型,我们也没有宣称神经科学方面的相关性。但同时,如果说卷积网络的灵感来源于一些关于视觉皮质的基础知识,我也可以接受。有些人间接从神经科学获得灵感,但他却不肯承认这一点,我承认,这(神经科学)很有帮助。但我会小心翼翼的不去触碰那些会引发大肆宣传的词语,因为这个领域已经出现了疯狂炒作,这非常危险。因为这给基金会、公众、潜在客户、创业公司和投资者带来了预期,他们会因此相信我们正处在风口浪尖——我们正在建造一些像大脑一样强大的系统,但实际上我们离这个目标还差的很远。这很容易导致另一次的“寒冬周期”。

这里会出现一些“草包族科学”(cargo cult science),在“草包族科学”下,你往往是复制了机器的表象,却没有深入理解机器背后的原理。或者,在航空领域,你制造飞机时会完全复制鸟类的样子,它的羽毛、翅膀等等。19世纪的人们很喜欢这么做,但取得的成就非常有限。

在人工智能领域也是如此,他们尝试着对我们所知晓的神经元和神经突触的所有细节进行复制,然后在一台超级计算机上启动一套庞大的模拟神经网络,希望从中孕育出人工智能,这就是“草包族科学”的人工智能。有许多拿到大笔基金支持的严肃的研究者基本上快要相信这些了。

Spectrum:你认为IBM的True North项目(译者注:IBM的类人脑芯片,集成了 54 亿个硅晶体管、 4096 个内核、100 万个“神经元”和2.56 亿个“突触”)属于“草包族科学”吗?

LeCun:这听起来会有些刺耳。但我的确认为,IBM团队所声称的东西有点偏差并容易造成误解。从表面上看,他们的公告令人印象深刻,但实际上没有实现任何有价值的东西。在True North之前,那个团队用IBM的超级计算机来“模拟了一个老鼠级别的大脑”,但这只是一个随机的神经网络,除了消耗CPU运算周期以外没有发挥任何作用。

True North芯片的悲剧在于它本来可以很有用,如果它当初没有坚持与生物学走的太近以及没有使用"spiking integrate-and-fireneurons"模型的话。因此在我看来——我曾是一个芯片设计者——当你在开发一个芯片之前,你必须确信无疑它能做些有用的事情。如果你打造了一个卷积网络芯片——很清楚如何去做——它能立刻应用到计算设备中。IBM创造了错误的东西,我们无法用它去完成任何有用的事情。

Spectrum:还有其他例子吗?

LeCun:从根本上说,欧盟人脑计划(Human Brain Project)中的很大部分也是基于这样一种理念:我们应该建造一种模拟神经元功能的芯片,越接近越好,然后将芯片用于建造超级计算机,当我们用一些学习规则来开启它时,人工智能就出现了。我认为这纯属胡说八道。

诚然,我刚才指的是欧盟人脑计划,并不是讽刺参与这个项目的每个人。许多人参与该项目的原因仅仅是因为它能获得巨额资助,这是他们所无法拒绝的。

无监督学习是未来 

Spectrum:对于一般意义上的机器学习,还有多少是有待发掘的?

LeCun:太多了。我们在实际的深度学习系统中使用的学习方式还是存在局限的。在具体实践中发挥作用的其实是“有监督学习”。你将一张图片展现给系统并告诉它这是一辆车,它就会相应调整它的参数并在下一次说出“车”。然后你再展现给它一把椅子、一个人。在几百个例子、耗费几天到几周的计算时间(取决于系统规模)之后,它就弄明白了。

但人类和动物不是这种学习方式。当你还是婴儿时,你并没有被告知你所看到的所有物体的名字。然而你却能学会这些物体的概念,你知道世界是三维的,当我把物体放在另一个的后面,你还是知道它的存在。这些概念不是与生俱来的,是你将它们学会了。我们把这种类型的学习称作“无监督”学习。

2000s中期,我们中的许多人参与到了深度学习的复兴运动中,包括Geoff Hinton、Yoshua Bengio和我自己——这就是所谓的“深度学习团体”——还有Andrew Ng,从此使用无监督学习而非有监督学习的理念开始兴起。无监督学习可以帮助特定的深度网络进行“预训练”。我们在这方面取得了不少成果,但最终能够应用于实践的还是过去那些能与卷积网络相结合的出色的有监督学习,我们在20年前(1980s)所做的事情。

从研究的角度来看,我们一直感兴趣的是如何恰当地做好无监督学习。我们现在已经拥有了可以实用的无监督技术,但问题在于,我们仅需要收集更多数据,再配合有监督学习就能击败它。这就是为什么在现阶段的产业中,深度学习的应用基本上都是有监督的。但将来不会再是这种方式。

从本质上来说,在无监督学习方面,大脑远好于我们的模型,这意味着我们的人工智能学习系统缺失了许多生物机理学习的基本原则。

下一个前沿课题是NLP

Spectrum:Facebook最近公布了一个人脸识别算法DeepFace,很多报道称人脸识别技术的准确性已经接近于人。但那些结果难道不是在精心策划的数据库中跑出来的么?如果在互联网上遇到随机的图片,这个系统报告还能取得同样的成功么?

LeCun:相比于人类,系统对图片质量更为敏感,这是肯定的。人们能通过不同的面部胡须等特征识别出众多不同构造的人脸,计算机系统在这方面鲜有优势。但是系统可以在非常大的人类集合中识别出某个人,这个集合会远远超出人类的处理能力。

Spectrum:在图片识别之外的领域,深度学习表现如何,尤其是当涉及到诸如自然语言等通用智能相关问题的时候?

LeCun:我们在Facebook的很大一部分工作都是集中于此。我们如何将深度学习的优势,与其通过学习描绘世界的能力、从短暂的信号中积累知识的能力(伴随着语言出现)、推理能力、与当前深度学习系统采取不同方式的知识存储能力结合起来?在当前深度学习系统下,就像学习一项运动技能,我们训练它们的方式类似于我们自学骑自行车。你学到了一项技能,但实际上却不涉及大量事实记忆或知识。

但你学的其他一些事情,就必须要求你记住事实,你必须记住并储存一些东西。在Facebook、Google和其他许多地方,我们做的大量工作是一边建立神经网络,一边建立一个独立的存储器模块,这能被运用于自然语言理解等领域。

我们开始看到,经由存储器模块强化的深度学习帮助自然语言处理取得了令人印象深刻的结果。该系统基于这样的理念,即用连续向量描述词语和句子,经由深层架构的多层级完成对这些向量的转化,并将它们存储在一种联合型存储器里。这对问答和语言翻译都非常有效。这种模式的一个范例是存储网络(Memory Network),这个模型是Facebook科学家Jason Weston、Sumit Chopra和 Antoine Bordes最近提出的。Google/Deep Mind的科学家也提出了一个相关概念“神经图灵机”(Neural Turing Machine)。

Spectrum:所以你不认为深度学习将会成为解锁通用人工智能的那把钥匙?

LeCun:它将是解决方案中的一部分。在一定程度上,这一解决方案看上去像一张巨大而复杂的神经网络。但这与人们迄今在文献中看到的有很大不同。我说的这些东西,你已经可以开始看到一些相关论文了。许多人正在研究所谓的“周期神经网络”(recurrent neural nets)。在这些神经网络中,输出被反馈到输入端,这样你就能形成一个推理链。你可以借此来处序列信号,像语音、音频、视频和语言,初步结果相当不错。深度学习的下一个前沿课题是自然语言理解。

Spectrum:如果一切顺利,我们可以期待机器很快能做到哪些它们现在做不到的事情吗?

LeCun:你或许能看到更好的语音识别系统,但在某种程度上它们是隐藏起来的。你的数字伴侣将会变得更完善;将会有更好的问答和对话系统;你可以和你的计算机进行对话;你可以向计算机发问而它会从知识库中为你寻找答案;机器翻译将会更精准;你还能看到自动驾驶汽车和更聪明的机器人,自动驾驶汽车将会使用卷积网络。

如何让机器获得常识?

Spectrum:改进图灵测试的Winograd Schemas挑战不仅仅涉及自然语言和常识,还包括对于现代社会运行机制的理解。计算机可能会采取何种办法来应对这些挑战?

LeCun:这个问题的关键是如何表达知识。在“传统的”人工智能里,事实知识以图形(是一套符号或实体及相互关系)的方式被手工输入。但我们都知道人工智能系统是可以通过学习自动获取知识的。所以问题就变成了“机器如何才能学会表达有关事实和关系的知识?”

深度学习毋庸置疑是解决方案的一部分,但不是全部。符号的问题在于它只是一串毫无意义的比特,在深度学习系统里,代表实体的是大规模的向量,而它们是从数据和反应这些数据的特征中学习而来的。学习推理要归结于学会对使这些向量运算的函数。Facebook的研究人员Jason Weston、RonanCollobert、Antonine Bordes和Tomas Mikolov等人已经率先开始尝试用向量来表达单词和语言。

Spectrum:人工智能的一个经典问题是让机器获得常识。深度学习领域对这个问题有什么见解?

LeCun:我认为通过使用预测式无监督学习可以获得某种常识。例如,我可以让机器观看大量的关于物体被抛掷或下落的视频。我训练它的方法是给它看一个视频,然后问它:“接下来会发生什么?一秒钟之后画面将如何?”以这种方式训练机器去预测一秒钟后、一分钟后、一小时后或一天后世界将会如何,它将获得很好的对世界的描述。这会使得机器了解物理世界的众多限制,如“抛向空中的物体在一段时间后将下落”、或者“一个物体不能同时在两个地方”、或者“物体被挡住后仍然存在”。了解物理世界的限制将使机器能够“填补空白”,以及在被告知包含一系列事件的故事后对世界的状态进行预测。 JasonWeston、Sumit Chopra和Antoine Bordes正在利用我刚才讲到的“记忆网络”建造这样一个系统。

杨强:依赖计算力和大数据会导致人工智能的冬天?

百度首席科学家吴恩达教授说: “结合大数据,新的人工智能的算法越来越好, 我们可以第一次在未来人工智能虚拟圈里完成整个循环。”确实,随着计算能力的提升和计算成本的下降,大数据推动了当前人工智能的“夏天”,但长期研究人工智能和大数据的香港科技大学计算机与工程系主任杨强却在2015年的冬季达沃斯会议之后反思了人工智能依赖这两个条件的另一种隐患:夏天来了,冬天还会远吗? 

杨强教授在人工智能的集体狂欢中冷静地分析道:

现在人工智能所取得的成就还都集中在人和计算机的接口:语音,视觉,文字。然而,人类智慧的最高表现却是抽象的推理和联想,可以让我们从一个事件关联到另外一个事件,从一种知识迁移到另外一种知识。以上的这些所谓的“强人工智能”的能力,是不是由众多的单一方向的“弱人工智能”的大量叠加可以得到的呢?我们尚不得而知。 如今,计算机的这种跨领域的学习能力还远远没有得到实现,甚至连知识殿堂的入口都不知道在哪里。纠其主因,是我们至今的计算能力还不够强大,在这些领域还是无法得到全面反应人类思维的大数据。我们的学习算法还需要无数的大数据来提供人工智能机器运转的“燃料。” 而这些大数据的准备工作还是需要昂贵的人工来提供, 并不能形成滚雪球式的规模效应。这些缺陷很可能阻碍我们得到真正智能的工具,使得吴恩达博士所说的“虚拟闭环”有很大的缺口。
这些缺口的致命之处很可像我们在30年前的那个冬天面对没有汽油的宝马所带来的尴尬:只是今天在我们面前的是一辆漂亮的特斯拉,但却怎么也找不到加电站!

相信IBM的Watson、百度的Minwa计算平台都还有很大的提升空间,但要支持无穷无尽的数据计算恐怕还是容易达到瓶颈,更何况要找出全面反应人类思维的大数据还很困难。

所以,让我们在研究深度学习的应用之余,也要适时思考杨强教授的问题:“我们会不会在人工智能的集体狂欢中忽略了最本质得东西, 以至于不小心穿越到30多年前的那个人工智能的冬天?”

Google:DNN+强化学习让AI的复杂任务表现逼近人类

Google DeepMind的AI靠自学(靠着对游戏视频的观察来寻找出模式,然后操作控制器,并获得得分的反馈结果,在反馈中不断调整自己的控制)玩会了49种游戏,甚至在23种游戏中击败了人类职业玩家。Google DeepMind团队在《自然》杂志发表论文,公布玩游戏比人厉害的AI如何实现:

DeepMind 的 AI 的设计核心是如何让计算机自行发现数据中存在的模式。其解决方案是深度神经网络与强化学习等方法的的结合。AI 并不知道游戏规则,而是用深度神经网络来了解游戏的状态,找出哪一种行为能导致得分最高。

这一方面是得益于现在计算能力的提高使得 AI 可处理规模要大得多的数据集,要知道,观察 Atari 游戏相当于每秒处理 200 万像素的数据。另一方面则是得益于 DeepMind 结合了强化学习来训练 AI,而且是在高维度感觉输入中采用的端到端强化学习。相对于以往计算机会玩的游戏,如国际象棋等,这次计算机玩的游戏更接近现实世界的混沌状态。Google的智能设计师Demis Hassabis称,这是第一种能在一系列复杂任务当中与人类表现相当的算法。