天涯书库 > 人机平台:商业未来行动路线图 > 02 最像人脑的机器 >

02 最像人脑的机器

我相信到20世纪末,词汇的用法和一般教育理念会发生很大改变,因此那时将可以谈论机器思维而不再怕造成矛盾了。

艾伦·图灵(Alan Turing),1950年

我们刚刚开发数字化电脑时,就尝试让它们像我们一样思考。从一开始就显而易见的是,电脑对于进行常规数学计算非常有用,但这并不稀罕。毕竟,人类一直在开发计算的机器,远在公元元年之前,就有了日本和巴比伦的算盘,以及神秘的希腊安提凯希拉机械装置。[1]

令人耳目一新的是新式数字化电脑的编程能力,也就是让它们执行任意复杂的指令。[2] 正如我们在前一章所看到的那样,电脑程序是执行算法的理想选择,它们是用于完成任务的精确的、按部就班的指令。但许多学科领域中的卓越思想家很快就开始尝试让这种新机器做更多事情,而不仅仅是“萧规曹随”。这些先驱想要创建一个自主的软硬件组合,换句话说,它可以和人类一样进行推理,从而变成人工智能。

分叉的人工智能

达特茅斯学院的数学教授约翰·麦卡锡(John McCarthy)将人工智能定义为“制造智能机器的科学与工程”。他于1956年在校园举办了第一次专题研讨会。几年之后,该领域最大、最为持久的争论开始了。要了解它本身及其重要性,我们可以考虑小孩子学习语言的方式与大多数成年人学习第二种语言的方式之间的区别。

本质上,孩子们通过倾听学习一门语言。他们听周围的人说话,吸收一些组成语言的词语和规则,然后在某个时间开始说出自己的话。他们说错时得到反馈和纠正,最终,他们变得善于处理用人的口吻说话这么一件困难的事情。

成人学习者则知道这件事有多难。当他们开始掌握第二种语言时,马上会面对一堆规则:把代词放在句子的什么地方,用什么介词,动词如何变化,名词是否有性别之分,如果是的话,又有多少,如何区分主体和对象,以便我们知道是狗咬人还是人咬狗,等等。记忆词汇很难,而使大多数成人语言学习者咬牙切齿的,是诸多复杂的、偶尔不一致的规则。

幼儿牙牙学语不需要明确的规则指导。[3] 大多数成年人不能在没有规则的情况下学习。当然,这两种方法有一些重叠,很多孩子最终会修语言课,而大人们也会耳熟能详,但两者毕竟截然不同。幼儿的大脑专门用来学习语言:他们用统计原理来辨别语言模式。[4] 例如当妈妈谈论自己时,她用“I”作为主语,并把它放在一句话的开头,她用“me”作为宾语并放在后面。大人的大脑是不同的,因此他们在学习新的语言时通常明确地学习规则。

与以上对比类似,早期的人工智能社区分为两个阵营。一个追求所谓基于规则的,或者说符号型人工智能,[5] 另一个则建立模式识别的统计系统。前者试图以成人学习第二语言的方式发展人工智能,后者试图使人工智能的发展与儿童学习第一语言的方式大致相同。

一开始,符号型的方法似乎占主导地位。例如,在1956年达特茅斯会议上,艾伦·纽维尔(Allen Newell)、J. C. 肖(J. C. Shaw)和未来的诺贝尔奖得主赫伯特·西蒙(Herbert Simon)演示了他们的“逻辑理论家”程序,它使用形式逻辑的规则自动地证明数学定理。该程序证明了阿尔弗雷德·诺斯·怀特海(Alfred North Whitehead)和伯特兰·罗素(Bertrand Russell)在数学基础方面的里程碑之作《数学原理》(Principia Mathematica )第二章中的38个定理。事实上,关于“逻辑理论家”的一个证明比原书优美很多,引来了罗素本人的“愉快回应”。西蒙宣称他和同事“发明了一台思维机器”。

然而,其他的挑战使基于规则的方法捉襟见肘。语音识别、图像分类、语言翻译等领域的数十年研究结果并不令人满意。这些领域取得的最好结果与人类的表现仍相距甚远,最糟糕的结果则给人留下了很坏的印象。例如,据一本1979年的逸事集记载,研究人员对“英译俄”翻译程序输入“心有余而力不足”这句话。程序给出的俄语翻译却意为“威士忌不错,但肉坏了”。也许这故事是杜撰的,但它并不夸张。作为一个群体,符号型人工智能产生的结果使人伤感困惑,以至20世纪80年代末,主要的企业和政府的研究资助来源枯竭,“人工智能的冬季”降临在这一领域。

无解的规则

是什么使符号型人工智能败绩累累呢?有两个主要障碍。其中一个对这一领域构成了严重挑战,而另一个显然是无法逾越的。首先,简单地说,如成人语言学习者所知,世上有很多规则,了解大多数规则并按规则行事通常是不够的。相反,人必须掌握几乎所有规则,才能有好的表现。一个语法正确率为80%的句子可能很可笑,甚至让人完全无法理解。

规则中还有规则。例如在英文句子中,知道形容词通常放在名词之前是不够的。正如马克·福赛思(Mark Forsyth)在其《口才元素》(The Elements of Eloquence )一书中所言:“英文的形容词绝对必须按照这个顺序:意见—大小—年代—形状—颜色—来源—材料—目的,再跟着名词。因此,你可以有一把可爱的小的老式的长方形的绿色的法国白银刀,但是,如果你稍稍弄错用词顺序,听起来就会很怪。每个说英语的人都使用这个规则,但几乎没人把它写出来,这真是一件奇怪的事情。”

此外,我们所处的物质世界和精神世界做不到只服从一种规则。椅子有腿,但当它有底座或软座,又或者它挂在天花板时则是例外。在2002年,两名男子不能在美国结婚,但2015年他们就可以这样做了。松鼠不能高飞,但那些滑翔飞行的除外。在英语中,否定加否定可以变成肯定,比如说“她从未不开朗”,但肯定加肯定永远不会变成否定。是的,就是这样。

为语言、家具等复杂事物的所有相关规则编码,输入电脑系统,然后让系统做些有用的事,这类尝试大多不成功。电脑科学家恩内斯特·戴维斯(Ernest Davis)和神经科学家加里·马库斯写道:“截至2014年,很少有商业化的系统在自动化常识推理方面有重大应用……还没人造出一个令人满意的常识推理器。”如上一章所述,常识有偏见、有错漏,但即便如此,对于绝大多数人来说它已经做得很棒了,它引领我们通过了世上纷繁复杂的考验。我们还没有设计出可以了解世界如何实际运行、人类自己的生物系统1又如何工作的符号型数字化系统。我们的系统越来越精于狭义的人工智能,如围棋、图像识别等特定领域,但是我们还远未实现DeepMind共同创始人谢恩·莱格(Shane Legg)所说的通用人工智能,即未能将智能应用于各种意想不到的问题。

又见波兰尼悖论

戴维斯和马库斯讨论了建立以上系统的最大障碍:“进行常识推理时,人们……借鉴的是……基本上无法自省的推理过程。”换句话说,人类经由多如牛毛的规则而驾驭自如的认知工作,其实不间断地体现着波兰尼悖论,也就是“我们所知的多于我们所能说的”。如第一章所述,直到最近,这一悖论使任何人都无法开发可以像人类顶尖高手一样下围棋的软件。我们必须谨记这一悖论随处可见。在很多重要的情况下,我们根本就不知道,也无法知道自己正在用什么规则来做对某些事。

这似乎是任何自动化或人工智能的绝对障碍。如果包括人类本身在内,地球上没有实体知道人类成就某事的规则,那么我们又如何创建一个基于规则的系统,或者说创建任何电脑系统,然后用它来模拟这些成就?波兰尼悖论似乎对可以自动化的人类工作类型设置了极大限制。正如我们麻省理工学院的同事、经济学家戴维·奥托(David Autor)所说:“电脑对人的替代范围是有限的,因为一个人能够意会很多任务,做起来也毫不费劲儿,电脑程序和其他人却不能确切表述相关的规则或程序。”

机器学习

人工智能研究者的另一个主要阵营——避开符号型方法的阵营,自20世纪50年代末以来一直在尝试攻克波兰尼悖论,其方法就是建立用小孩子学语言的方式学任务的系统,要点是经验、重复以及获取反馈。这些学者开创了机器学习领域,这恰恰体现了该阵营所做的事情。

以这种方式学习的首批数字化机器之一,就是美国海军资助的“感知器”(Perceptron),它是一台思考和学习的机器,由康奈尔航空实验室的科学家弗兰克·罗森布拉特(Frank Rosenblatt)领衔开发。“感知器”于1957年首次亮相,其目标是能够将看到的东西分类,例如区分狗类与猫类。为此,它被设置成有点儿像缩微版大脑的样子。

我们大脑中的大约1 000亿个神经元并没有以任何整齐的方式排列。相反,它们是深度关联的:典型的人类神经元从多达1万个的相邻神经元获取输入或信息,然后将输出发送给数目大致相等的神经元。每当足够的输入发出足够强的电信号时,神经元就将自己的信号发送到其所有的输出。在这里,“足够”和“足够强”的定义随着时间的推移而变化,它们取决于反馈以及重要性,也就是神经元给予其每个输入的权重。透过这个奇怪、复杂、不断展开的过程,产生了记忆、技能、系统1和系统2、思想火花和认知偏见,以及其他所有的脑力活动。

“感知器”并没有尝试做这么多的事情。它只想做简单的图像分类。这台机器有400个光电池,它们为刺激杂乱的机器大脑而随机连接到一层人造的神经元。通过这个神经网络的早期演示,以及罗森布拉特的自信预测,《纽约时报》在1958年报道说:“它是(海军)所希望的电脑的胚胎,它将会走路、谈话、观看、写作、复制自己并意识到自己的存在。”

然而,说好的突破并没有很快到来,1969年,马文·明斯基(Marvin Minsky)和西蒙·派珀特(Seymour Papert)发表了一篇题为“感知器:计算几何学导论”的毁灭性评论。他们以数学方式表明,罗森布拉特的设计不能完成一些基本的分类任务。对于人工智能领域的多数人来说,这足以让他们不仅疏远“感知器”,而且疏远神经网络和一般意义上的机器学习等广义概念。对于两个阵营的研究人员来说,人工智能的严冬降临了。

坚持总有回报

有几个团队继续研究机器学习,他们仍然相信,让电脑像人类一样思考的正确方法,就是建立可以通过实例学习的脑启发神经网络。这些研究人员终于了解并克服了“感知器”的局限性。他们的做法结合了高深的数学、功能更强大的电脑硬件和一种实用的方法,此举从大脑的工作方式获得启发,但又不受其约束。例如,电信号只能沿着大脑神经元的一个方向流动,而由保罗·沃伯斯(Paul Werbos)、杰夫·辛顿(Geoff Hinton)和扬·乐坤(Yann LeCun)等人在20世纪80年代建立的成功的机器学习系统则允许信息通过网络向前及向后传播。

这种“反向传播”带来了更好的表现,但进展仍然非常缓慢。到20世纪90年代,扬·乐坤开发的用于识别数字的机器学习系统阅读了美国20%的所有手写支票,但是几乎没有其他的现实应用。

阿尔法狗最近的胜利表明,现在的情况已经大不相同。诚然,阿尔法狗包含了对大量可能性的高效搜索,这是基于规则的人工智能系统的典型元素,但它的核心是机器学习系统。如其创建者所述,它是“一种新的电脑围棋方法,它使用深层神经网络,其训练融合了与人类专家对弈的监督式学习和自我对弈的强化式学习”。

阿尔法狗远不是一个孤立的例子。过去几年,神经网络处于蓬勃发展之中。它们现在是人工智能的主要类型,而且似乎有可能保持一段时间。由此,人工智能领域终于兑现了其早期的一些承诺。

为什么有人工智能

这个蓬勃发展的局面是如何发生的?为什么它来得如此之快,如此出人意料?通常情况下,这样的进步汇聚了一些因素,它既是恒力所致,也是机缘使然。许多业内人士认为,其中最重要的因素是摩尔定律。神经网络随着规模的增加而变得更加强大、多能,而且直到最近,规模足够大的神经网络才变得足够便宜,可供许多研究人员之用。

云计算帮助预算较小的项目开启了人工智能研究之路。技术企业家埃利奥特·特纳(Elliot Turner)估计,到2016年秋天,开展前沿性机器学习项目所需的计算能力可从亚马逊云服务(AWS)等云计算提供商那里租用,成本约为1.3万美元。奇怪的是,现代视频游戏的普及也大大推动了机器学习。驱动流行游戏机的专用图形处理器(GPU)非常适合神经网络所需的各种计算,因此被用于大量的相关任务。人工智能研究者吴恩达(Andrew Ng)告诉我们:“前沿的研究团队用图形处理器做了我两三年前无法想象的超级复杂的事情。”

对机器学习来说,与摩尔定律同等重要的是大数据,即数字化的文本、图片、声音、视频、传感器读数等在近期的大爆发。像幼童需要听很多词语和句子来学习语言一样,机器学习系统需要接触许多实例,以便改进语音识别、图像分类和其他任务。[6] 我们现在有了有效的、源源不断的数据,而且随时都在生成更多的数据。辛顿、扬·乐坤和吴恩达等人建立的系统具有非常理想的性能,其性能随着接触越来越多的实例而日趋改善。关于这个美妙的现象,辛顿淡定地说:“回想起来,(机器学习的成功)只是数据量和计算量的问题。”

辛顿可能过谦了。他对神经网络的多项进展都有贡献,其中一项甚至使研究领域改名。2006年,他与西蒙·奥辛德罗(Simon Osindero)和郑怀宇(Yee-Whye Teh)合作发表论文《一种深度信念网络的快速学习算法》,表明足够强大并适当配置的神经网络本质上可以自己学习,无须人类的培训或监督。例如,如果阅读了大量的手写数字,这些网络就可以正确地推断10个不同的数据类型(对应于数字0到9),然后还可以准确地对其读到的任何新的手写数字分类,归入其所确定的10个类别。

在机器学习领域,这种无人监督的学习仍相对少见。最成功的系统依赖于监督式学习,在其中,系统被输入一组问题和配对的正确答案,然后被要求自己回答任何新的问题。例如,某个机器学习系统可能被输入一大组人类演讲的语音文件和相应的书面文本文件。该系统使用这组配对数据来建立神经网络的内部关联,使其能够解释新的录音实例。由于监督和无监督的机器学习方法都使用辛顿及其同事在2006年论文中描述的算法,所以它们现在通常被统称为深度学习系统。

演示和部署

除了扬·乐坤建立的用于识别支票上手写数字的系统等少量案例,深度学习的商业应用其实只有几年,但是这种技术正在以超常的速度传播。谷歌负责该项技术的软件工程师杰夫·迪恩(Jeff Dean)[7] 指出,截至2012年,该公司还压根儿没有用它来改进搜索、Gmail、YouTube及Google Maps等产品。然而到了2015年第三季度,深度学习已经用于公司大约1 200个项目之中,超过了其他方法的表现。

DeepMind在深度学习与另一种被称为“强化学习”的技术相结合方面特别有效,[8] 它不仅将注意力和技术放到公司向客户提供的信息产品上,而且还应用于物理世界的关键过程。谷歌运行着一些世界上最大的数据中心,它们是非常耗能的设施。建筑物必须向多达10万台服务器供电,同时保持冷却。冷却方面的挑战更加复杂,因为设施的计算负载(服务器被要求工作的总量)因时而异,无法预测。室外的天气也有关系,它显然影响了建筑物的冷却方式及冷却程度。

人通常控制着保持数据中心正确温度的泵、冷却器、冷却塔和其他设备。他们监测温度计、压力表和其他许多传感器,并随时间推移决定如何最好地冷却设施。DeepMind团队想看看是否可以用机器学习取而代之。他们拿来多年的历史数据,涵盖了数据中心的计算负载、传感器读数以及诸如温度和湿度之类的环境因素,然后使用这些信息训练一组神经网络,以此控制所有可用的冷却设备。在某种意义上,他们把数据中心看成巨大的视频游戏,并指示其算法尝试获得更高分数,在这里,分数意味着更好的能源效率。

有一个数据中心的实际控制权交给了这些系统,带来立竿见影、面目一新的结果。用于冷却的能源总量下降了40%,设施能耗(那些不直接用于信息技术设备的能源,包括辅助负载和电气损耗)改进了大约15%。DeepMind联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman)告诉我们,这是谷歌数据中心团队见过的最大改进之一。

苏莱曼还强调,DeepMind的方法具有很高的可推广性。团队使用的神经网络无须为每个新的数据中心进行完全重新配置。神经网络只需要接受尽可能详尽的历史数据的训练。这种训练是微妙而艰巨的,[9] 但回报是显而易见的。

事实上,目前投入使用的数据中心能源管理、语音识别、图像分类和自动翻译等机器学习系统中,那些表现最好的系统非常相似。它们都是深度学习的变体,不因应用领域而异。这一点很重要,因为它表明这种人工智能方法可以在各个行业和经济体中迅速扩散。新的神经网络可以复制,几乎可以立即扩充,并接受新数据的训练,然后得以应用。

包括微软、亚马逊、谷歌和IBM在内的科技巨头通过云和应用程序编程接口的组合,将其内部开发的机器学习技术提供给其他公司,这些应用程序编程接口是关于软件如何交互的基本明确的、一致的公开规则。应用程序编程接口使不同来源的代码整合到单个应用程序变得更加容易,而云则可以在全球范围内按需提供该代码。

通过这种基础架构,机器学习有机会在全球范围内快速而深入地进行部署。然而,由于第一章所讨论的原因,我们也预期,随着领先企业的业务流程重组和新商业模式的出现,机器学习会不均匀地传播。它已经在一些意想不到的地方发生了。

小池真野(Makoto Koike)2015年回到父母在日本的黄瓜农场时,看到了应用机器学习的机会。他以前曾是汽车行业的硬件和软件工程师,善于开发代码和机械相结合的设备。小池发现自己的才能可以用在黄瓜分选工作中,这本是他母亲一手包办的活计。她根据多年的经验将农场的所有农产品手工分为9个品级。因为农场很小,所以她能做好(日本的非谷类农场平均只有1.5公顷,面积约为一个半棒球场或两个足球场),但这是件苦力活,在收获旺季期间,每天要工作8个小时。

小池对阿尔法狗的模式匹配能力印象深刻,对谷歌2016年11月推出的机器学习技术包TensorFlow也非常着迷。他决定使用它们,看看能否将家庭农场的黄瓜分选工作自动化。小池之前没有机器学习方面的经验,但自学了如何使用TensorFlow,接着用7 000张不同等级的黄瓜图像对系统进行了培训。他用现成的廉价相机、电脑和硬件控制器组装了一个全自动的评分机器,第一年运行达到了70%的准确率。几乎可以肯定,利用更高分辨率的图像和下一代的云端机器学习软件,就能实现更高的准确率,小池说:“我迫不及待地想试一把。”鉴于他和其他人的工作,我们同意谷歌公司佐藤贺(Kaz Sato)的说法:“毫不夸张地说,机器学习和深度学习的应用只受我们想象力的限制。”

直至我们写这本书时,人工智能领域几乎所有的商业成功例子都使用监督式学习技术,也有少数使用了强化学习技术(例如DeepMind优化的数据中心)。然而,人类学习的主要方式是无监督的学习。蹒跚学步的小孩学习日常生活中的物理,靠的是玩积木、从玻璃杯倒水、扔球、从椅子跌落等,而不是靠学习牛顿的运动定律或记住“F = ma ”之类的方程。扬·乐坤用一个蛋糕的比喻,生动地强调了无监督学习尚未触及的广泛而重要的内容。他说:“如果智能是一个蛋糕,那么无监督学习就是蛋糕本身,监督式学习只是蛋糕上的糖衣,而强化学习则是蛋糕上的樱桃。我们知道如何制作糖衣和樱桃,但我们不知道如何制作蛋糕。”他认为,如果我们要实现通用人工智能,那么开发更好的无监督学习算法将是至关重要的。

人脑与学习机

我们不止一次听到,当代神经网络的开发者不情愿地将以前基于规则的方法称为过时的“特征工程”。许多人现在认为,那种试图将所有相关规则纳入任务,然后将它们编入电脑的方法是误导。他们相信,建立可以自己学习规则的系统显然更有成效。人工智能研究者的统计学阵营现在居于优势地位,其至少兑现了该学科半个多世纪前做出的一些承诺。

在这种情况下,人脑和机器将如何融合在一起?有几种不同的方式。一种方式是沿着保罗·米尔和汤姆·达文波特在前一章倡导的方式,将两者结合,让拥有常识的人类监视人工智能的决策和行为,并在发现错误时出手干预。这是DeepMind神经网络接管数据中心的优化工作时所做的。人类控制员总在决策过程之中,能够随时接管控制。

截至目前,引进自动驾驶技术的汽车制造商也采取这种做法。它们强调,人坐在驾驶员座位既是字面所指,也是形象所在,即使启用了自主驾驶技术,人也要负责汽车的安全运行。决策过程中总有人在,这在许多人看起来是稳健的,因为稍有不慎就会致命。2016年夏天,乔书亚·布朗(Joshua Brown)驾驶的特斯拉汽车撞在一辆卡车的拖车旁边,他死于非命。这辆带白色拖车的卡车当时正准备左转,从高速公路驶入地面公路。布朗在高速公路另一边迎着卡车行驶。特斯拉汽车在撞车之前并没有启动刹车,很明显,由于迎着明亮的佛罗里达天空,布朗和汽车的摄像头都没有发现白色拖车。也许布朗在许多先例中看到了自动驾驶系统有效的运行能力,对它过于自信了,于是对道路的关注越来越少。

谷歌认为,人为疏忽是一直存在的问题,所以人要完全脱离驾驶的决策过程。正如该公司自动驾车项目前任主管克里斯·乌尔森(Chris Urmson)所说:“传统的观念认为,我们只是采用这些驾驶员辅助系统,推动它们,并逐步改良它们,随着时间的推移,它们会自动驾驶车辆。嗯,我在这里告诉你,这就像我说‘如果我拼命学跳高,终有一天我能飞起来’。实际上,我们需要做一些稍微不同的事情。”因此,该公司正在努力打造100%的自动驾驶汽车,它们不需要人为干预,业内称之为“第5级自主权”。

这些汽车的能力给人留下深刻印象。正如乌尔森在2015年TED(技术、娱乐、设计)大会上所说,“我们的车辆正在驶过山景城,这就是我们所遇到的。这是一位坐在电动轮椅上的女士,她在路上绕圈追鸭子。现在,事实证明,美国车辆管理局手册没有告诉你如何应对这种情况,但我们的车辆能够处理——减速,然后安全行驶”。在所有情况和条件下都可以安全驾驶的自主汽车尚未面世,但我们认为它们很快就会出现。

机器语言攻克波兰尼悖论的能力开始被用于后台的白领工作。迄今为止,这类工作对完全自动化具有惊人的抵抗力。后台是知识性工作的一个广泛术语,它发生在客户的视线之外,包括采购、会计和信息技术等。如前所述,后台工作中任务量最大、标准化程度最高的元素早就被企业信息系统自动化了,但是在大多数企业中,仍然有大量的手工作业。

把这些工作部分自动化的一种方法,就是向从事这些工作的人询问他们使用什么规则、这些规则有什么例外、什么时候会改用不同的规则或指南,等等。然而,通过面谈抽取知识的过程耗时甚多,会使人没法干活,而且也可能不奏效。从事非日常性后台工作的人很可能无法准确、完整地告诉别人如何做好自己的工作。

日本富国保险公司用的是不同的方法。2016年12月,该公司宣布了一项使用IBM的人工智能沃森的计划,旨在使人类医疗保险索赔处理工作实现部分自动化。系统将首先从医院和其他保健服务提供商提供的文件中提取相关信息,并把它编入适当的保险理赔代码,然后将信息提供给人工。但是从长远看,系统的目的是“学习付款评估的历史,以便继承评估员的工作经验和专业知识”。换句话说,技术将边用边改进,久而久之,它将能够接管更多的人类工作。

我们期待今后有更多类似的工作,期待深度学习和其他机器学习方法能迅速传播。例如,客户服务的大部分工作是倾听并了解客户所想,然后向他们提供解答或者服务。一旦现代技术学会了交流的规则,它们就可以接管后一项工作。

但是,客户服务自动化最难的那部分还没有解决方案,即倾听和理解。基于本章在前面讨论的各种原因,语音识别和自然语言处理的其他方面一直是人工智能诞生之后面临的非常棘手的问题。以前居于主导的符号型方法根本没有奏效,而基于深度学习的新方法的进展却如此迅速,甚至令专家也感到惊讶。

2016年10月,微软研究团队宣布,他们建立的神经网络已经实现了“交谈时的语音识别方面与人类平起平坐”,一如其论文标题所示。无论是给定主题的讨论还是朋友家人之间的开放式对话,该系统都比专业的记录员更准确。语言学教授杰夫瑞·普勒姆(Geoffrey Pullum)在评论这个结果时写道:“我必须承认,我从来没想过会看到这一天。在20世纪80年代,我曾认为完全自动化的连接语音识别(听取连接的会话语音,准确地写下所说的话)对机器来说太难了……而语音工程师已经实现了它,甚至无须依赖任何语法分析[10] :它纯粹是关于工程的,辅以基于海量原始数据的统计建模……我不仅没想到会看到这结果,而且还会自信地否定它。”

传奇电脑科学家弗雷德里克·杰林克(Frederick Jelinek)的评论捕捉到了人工智能领域从基于规则的方法向统计方法大范围转型背后的原因。杰林克在20世纪80年代中期观察到:“每当我辞退一名语言学家,语音识别器的表现就随之改善。”到2015年左右,处理语音翻译相关问题最为成功的团队里面没有语言学家,而他们的研究结果震惊了全世界。我们坚信,更多类似的惊喜即将出现。

我们同意赛富时首席执行官、技术行业先驱马克·贝尼奥夫(Marc Benioff)的观点,即我们正在进入他所说的“人工智能为先的世界”。像我们一样,他看到了取代HiPPO人士决策、让事情做得更好的无数机会。他写道:“许多企业仍然根据本能而不是信息做出重要决策……这将在未来几年内发生变化,因为人工智能变得越来越普遍,它们可能使每家公司和每个员工更聪明、更快、更高效。”几年前,这样的预测听起来像天方夜谭,现在它却像一个没有风险的赌注。

本章总结

• 现在,基于规则的符号型人工智能方法趋于式微。除了几个狭窄的领域之外,它似乎不太可能卷土重来,甚至在那些领域也难以翻盘。

• 机器学习终于兑现了早期的承诺并完成了有用的工作,它是打造通过建立和观察多个实例来检测模式并制定取胜战略的软件系统的艺术和科学。

• 机器学习系统越来越大,它们在运行速度越来越快、越来越专业的硬件上运行,能够获得更多数据,容纳改进的算法,因此变得越来越好。所有这些改进都在发生,所以机器学习正在迅速发展。

• 神经网络在标识了学习实例的监督性学习方面最为成功,但在无监督学习方面进展甚微,而后者则是人类了解世界的主要途径。

• 监督性学习非常适合把目前由人工完成的许多工作自动化,特别是在模式匹配、诊断、分类、预测和推荐等方面。机器曾经对视觉、语音识别等功能束手无策,但目前在许多领域表现出与人类相当的水平。

• 我们还处于机器学习传播的早期阶段。它将在社会和经济中变得普遍,特别是因为它现在可以从云端按需获取。

• 机器学习系统(和所有其他形式的人工智能)仍然缺乏常识。

问题

A 你手头最重要的模式匹配、诊断、分类、预测和推荐活动是什么?你是否正在探讨上述活动的机器学习解决方案?

B 你会考虑把哪些关键决策或操作(如果有的话)完全交给人工智能系统,又会在哪些工作中确保决策过程中存在人类?

C 如果明天早上让你乘坐自动驾驶汽车去上班,你感到自在吗?你认为5年内你能自在地这样做吗?为什么能,或者为什么不能?

D 填空:如果我们的竞争对手为_______部署了成功的机器学习系统,我们将面临严峻的挑战。

E 你的机器学习战略是什么?在将机器学习引入组织方面,你走了多远?

[1] 这种时钟大小的装置被用来预测太阳、月亮和行星的运动。它很令人费解,主要是因为它在当时太先进了。正如2015年乔·马尔尚(Jo Marchant)写的一篇文章所说:“自古以来就没发现过这样的事物。1 000多年来,再也没出现像它一样复杂的事物,甚至与它相近的也没有。”Jo Marchant, “Decoding the Antikythera Mechanism, the First Computer,” Smithsonian , February 2015, http://www.smithsonianmag.com/history/decoding-antikythera-mechanism-first-computer-180953979.

[2] 艾伦·图灵证明:存储程序的基本电脑可以被认为是一种通用的计算机,原则上,可以指示它来解决算法能解决的任何问题。

[3] 正如1994年语言学家史蒂芬·平克(Steven Pinker)在其《语言本能》一书中所指出的那样,一个对父母睡前阅读感到不高兴的孩子会构建一个复杂的句子,如“爸爸,你怎么把这本我不想听的书带上来了呢”。Steven Pinker. The Language Instinct (New York: HarperCollins, 1994), 23.

[4] 一个悲剧性案例研究提供的有力证据表明,在一定年龄之后,孩子们已经不能再学会语言了。1970年,南加州当局了解到有一位化名吉尼(Genie)的13岁小女孩,她饱受可怕的虐待和疏于照管之害。从蹒跚学步的孩提时代开始,她就一直被父亲禁锢,几乎完全与社会隔离。她被关起来,独自待在一个寂静的房间里,没人跟她说话。吉尼获救之后,许多施以援手的研究人员和治疗师相信她并非先天迟钝,尽管做了很多努力,她还是学不了什么东西,只能用简单的句子说话。她学不了更复杂的语法规则。吉尼目前在加州某地一所为存在精神缺陷的成人服务的机构里生活。

[5] 基于规则的人工智能被称为符号型人工智能,因为它以人类可以理解的词语、数字和其他符号进行表达。

[6] 正如我们为《哈佛商业评论》撰写的文章所讨论的,大数据和数据分析还改变了人类的决策。Andrew McAfee and Erik Brynjolfsson. “Big Data: The Management Revolution,” Harvard Business Review , 90, no. 10 (2012): 61–67.

[7] 迪恩的许多贡献使他成为谷歌的传奇。他的同事收集了一系列夸张的“杰夫·迪恩的事实”来表达他的能力。“真空中的光速曾经是每小时35英里,然后,杰夫·迪恩花一个周末优化了物理学”就是一个代表性的例子。Kenton Varda. Google+ post, January 28, 2012. https://plus.google.com/+KentonVarda/posts/TSDhe5CvaFe.

[8] 强化学习牵涉到建立能够在环境中采取有效行动以使回报最大化的软件代理。DeepMind首次公开展示其在这一领域的能力时,用的是“深度Q网络”(DQN)系统,开发它是为了玩经典的雅达利2600视频游戏,如《太空侵略者》《乒乓球》《突围》和《战地》等。程序员并没有告知“深度Q网络”系统正在玩什么游戏、规则是什么、哪些战略可能有效、哪些控件和操作可用。事实上,它根本就没有被告知正在玩游戏。它只是看着每个游戏的屏幕,然后被告知移动控制器以取得最高分。在给出的49场比赛中,“深度Q网络”系统很快就击败了一半以上的专家级人类玩家。Volodymyr Mnih et al., “Human-Level Control through Deep Reinforcement Learning,” Nature 518 (February 28, 2015): 529–33, https://storage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdf.

[9] 建立一个运作良好的神经网络可能听起来很简单——只需输入数据,然后让系统建立关联——但是截至目前,它实际上是耗时和微妙的工作,甚至连有强大计算机科学背景的人也望而生畏。

[10] 换句话说,就是以规则为本。