科大讯飞胡国平：如果AI企业的研发只停留在文字层面可能会有着极矮的天花板

2020-12-21 20:40:01

相关推荐

新智元 AI World 2018 世界人工智能峰会全程回顾新智元于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会，邀请机器学习教父、CMU教授 Tom Mitchell，迈克思·泰格马克，周志华，陶大程，陈怡然等AI领袖一起关注机器智能与人类命运。爱奇艺上午：https://www.iqiyi.com/v_19rr54cusk.html下午：https://www.iqiyi.com/v_19rr54hels.html新浪：http://video.sina.com.cn/l/p/1724373.html新智元AI WORLD 2018 演讲：胡国平整理：木青

【新智元导读】在认知智能领域，AI企业如何才能取得进一步的突破？科大讯飞高级副总裁、研究院院长胡国平在AI WORLD 2018峰会上分享了关于认知智能最新进展及下一步方向的思考：若想在认知智能上走得更远，不能只停留在文字层面，更需要关注的是语言之下智慧本质。

01:37

震撼！AI WORLD 2018世界人工智能峰会开场视频

计算智能、感知智能和认知智能，是探索人工智能道路上的三大台阶。

在计算智能方面，机器早已远远超过人类。而在感知智能方面，机器也已达到可媲美人类的水平。科大讯飞在语音识别错误率方面每年相对下降30%以上。在2018年CHiME-5国际多通道语音分离和识别大赛上，当面对更难、更复杂的语音识别任务时，科大讯飞依然获得第一名。

基于深度网络学习、语音合成、语义理解、图像合成等技术，深耕语音识别19年的科大讯飞作为“中国智造”的影响力持续扩大。不仅认知智能国家重点实验室已经在讯飞落户，科大讯飞还在人工智能+脑科学等诸多领域展开了探索。

9月20日，AI WORLD 2018世界人工智能峰会重磅发布AI领域年度大奖——AI Era创新大奖，评选出2018年度对AI领域作出重大贡献，切实推动AI进步和发展的人物、企业和产品。科大讯飞凭借领先世界的智能语音技术成功登榜「中国AI领军企业TOP10」，科大讯飞创始人、董事长刘庆峰也被评选为「华人AI人物TOP10」。

中国AI领军企业TOP10：阿里巴巴、腾讯、百度、华为、科大讯飞、字节跳动、蚂蚁金服、京东、海康威视、小米

AI华人影响力TOP10：陈天石、胡郁、黄仁勋、李飞飞、刘庆峰、王海峰、王小川、吴恩达、颜水成、余凯

此外，本次峰会同时也颁发了「AI产品影响力TOP10」，讯飞翻译机2.0成功入围。目前，讯飞翻译机2.0具备中文与33种语言即时互译、离线翻译、拍照翻译、方言翻译、以及全球上网等功能，英文翻译水准达到大学六级水平。

AI产品影响力TOP10：寒武纪智能芯片MLU100、华为麒麟980、旷视Brain++、讯飞翻译机2.0、百度Apollo3.0、阿里云ET城市大脑、英伟达Drive Xavier、百度大脑3.0、浪潮AI服务器、阿里量子计算云平台

科大讯飞已经在感知智能以及认知智能领域中的自然语言处理技术上领先世界，科大讯飞高级副总裁、研究院院长胡国平在AI WORLD 2018世界人工智能峰会上说：“机器的自然语言理解能力已经超过人类的平均水平，这是认知智能重大的突破。”

然而当谈到AI企业该如何彻底地迈上人工智能的最高台阶——认知智能时，胡国平表示：“在强调知识、推理能力的认知智能方面，机器与人类仍有差距。”自然语言处理技术的确是认知智能的重要技术基石，但即便是自然语言处理技术在特定领域已经超过人类，AI在认知智能层面依旧面临艰巨挑战。

现在多数产业在认知智能上面的做法大多停留在纯文字层面，但语言只是人类智慧的载体和表层，如果只纯粹在文字层面做认知智能，可能会有着极矮的天花板。胡国平针对这一问题在本次峰会上分享了认知智能下一步方向：若想在认知智能路上走得更远，需要关注的是语言之下智慧本质。

下面就是科大讯飞高级副总裁、研究院院长胡国平在AI WORLD 2018世界人工智能峰会上的演讲《认知智能最新进展及下一步思考》的主要内容：

胡国平：人工智能现在大家都习惯分为三个台阶，计算智能、感知智能和认知智能。计算智能方面，机器已经远远超过人类，而在感知智能方面，机器也可与人类媲美，而认知智能则强调知识、推理等相关的技能，要求能理解、会思考，这些方面机器与人之间依然存在差距。

全球首次通过国家执业医师资格的机器人：自然语言理解能力强，分数赶超人类考生

关于感知智能，这里有两个例子。首先是语音识别，大家都知道包括科大讯飞在内的很多公司都把语言识别做得非常厉害，在过去的六年里，语言识别每年错误率相对下降30%。换言之，大概识别率从2012年的85%左右一路飙升到现在的97-98%。

语音合成亦是如此，现在远远超过一般自然人的说话水平，今年1月份人工智能语音合成已经在中央电视台《创新中国》节目上正式上岗应用：可以将已故播音员李易老师的声音合成之后再现荧屏。

另外一方面，认知智能，涉及到语义理解、知识表达、联想推理、智能问答、自主学习，大部分都认为认知智能是更难的任务，而且是至关重要的任务。未来十年最重要的任务、也是认知智能方面最典型的任务就是阅读理解：目前机器的阅读理解在精确匹配指标上已经超过人类的水平，机器的阅读理解指标达到82.48，人类平均水平则是82.3，这也是认知智能重大的突破。

当机器具有阅读能力后，科大讯飞训练机器人阅读医学书籍，2017年，科大讯飞机器人“智医助理”参加了中国真正的全国临床执业医师综合笔试测试，并以456的高分轻松通过该考试，从而成为中国首台通过此类考试的人工智能机器人。

此外，现在不仅认知智能国家重点实验室已经在讯飞落户，科大讯飞还在人工智能+脑科学等诸多领域展开了探索。

如何在认知智能路上走得更远？不能只停留在纯文字方面，更要重视语言之下的智慧本质

人工智能跟脑科学其实有非常多的结合地方，我下面要分享的内容则是关于认知智能下一步方向的思考。

先举几个例子，我们认为认知智能在现在的做法属于纯文字层面，甚至是把文字当做符号的层面。当我们看这样一些例子，例如父爱如山，我们知道父爱如山是重的意思不是陡峭的意思。这里就存在着一个我们认为很重要的概念——语言的Grounding问题。

平头哥，所有人知道云栖大会上发布的平头哥，如果不了解这个词汇肯定会去查，如果查到是这样一段文字的描述，其实又叫蜜獾，你可能无法真正形成对这样一个词汇的真实理解或者大脑中的真实印象。于是乎，你需要一张图片，甚至可能会去看一下它跟毒蛇搏斗的视频，才能形成对平头哥的概念、印象、知识。这个叫语言管理，你必须要有这样的能力。Grounding之后才能理解这个世界，人类的智能基于多模态，不是能够闭环自洽的，或者我们认为语言只是人类智慧的载体和表层，如果纯粹在文字层面做认知智能，可能会有着极矮的天花板。

再举一个例子，苹果大还是鸡蛋大？你绝对不会说想想苹果10公分的长度，鸡蛋5公分的长度，哦，苹果比鸡蛋大。其实你在脑袋中有一个苹果的印象，有一个鸡蛋的印象，直接问这两个哪个大，自然而然基于多模态甚至物理的印象中直接能够判断出来。我们认为语言只是智能的表层和载体，更多的智能在语言之下，这是有关语言之下的智慧本质的一些思考。

认知智能的挑战：难以像人类做到基于物体与时空感知的序列记忆和预测

生活在城市中的乌鸦为了吃到坚果，充分利用马路上的汽车能够把坚果碾碎以及红绿灯会让车停下来的知识，把坚果安全地吃到，在这样一个观察和运用，乌鸦实现了自己的智慧。没有任何语言，通过观察习得。我们认为语言之下智慧的本质还有一个通式，这个通式定义为对物体在三维空间加以时间坐标下序列的感知、记忆和预测的能力。在三维空间里，无论是人还是乌鸦，都在观察过程中掌握了物体的移动或者变化的规律。

人类也是这样一个学习的过程，在过程中实现了对物体、空间和时间的感知，并且把它融到一起，形成了智慧本质的通式的概念。无论是我们今天各位在座的也好，包括网上直播的网友也好，都在利用这种通式做很多的智能。

比如说一根火柴点燃之后，也许没有书上写出来这个火柴点燃之后会怎样，但是所有人其实都很清楚，这根火柴点燃之后它燃烧的形状，在你的脑中已经有了记忆。如果火柴点一根烟，烟会点着，这是你在记忆上掌握的知识。所有和环境的互动过程中就自然而然记下来了很多的智慧智能，而且我们这种智能在使用中或者预测的时候就有潜意识。

科技馆有无源的自来水，一个空的水龙头不停往下流水。所有小孩一开始都会很惊讶，他们在正常环境的训练里已经认识到：水龙头一定后面有根管子。这个概念其实也是整个记忆序列和预测中在实际人们工作生活中重复使用的概念。预测序列潜意识不自觉自动工作，这是人类智慧包括动物智慧很重要的一种模式。脑科学研究者认为，学习和记忆是大脑工作的基本机理。我们也认为，序列的预测和相应预测能力也是人类大脑工作很重要的模式。

未来展望：训练AI机器的建模和预测能力，从而获取智慧本质的通式

我们有一个猜想：最复杂的人类大脑本身的智慧也存在大道至简的通式，多模态序列的记忆建模和预测的能力。这是有很大的可能性，虽然人类大脑中有很多能力或者功能包括多巴胺、逻辑思考等，但生活中很多的能力其实是靠多模态序列记忆和预测来实现知识的积累和智慧的应用。

我们也在想一件事情，如果让我们的AI看了一亿个比如车水马龙道路的视频之后，它到底能不能预测下一秒的路面会是什么样？事实上，我并不清楚。这是验证刚才所说的通式的比较理想的任务。我们希望这样一个机器看了很多的视频之后，在深度学习的方式下去做，这个任务的好处是什么？它解决了有监督训练数据的问题，在所有的序列预测里面，它的答案一定程度上是在那里的，基于前面所有的路况去预测下一秒的路面情况的话，其实它的标注答案在那里，过了一秒之后答案还在那里。也许可以利用这次人工智能热起来的深度学习端到端的模式，包括用抽象的能力去实现这样一个任务上的建模和预测。

在未来科大讯飞希望用更有效的方法去训练机器的建模和预测能力，探寻智慧的本质，从而获取智慧本质的通式。例如，让机器拥有路况的预测能力，把摄像头换成驾驶员视角的高拍仪或者行车记录仪，那么也许我们在无人驾驶或者很多其它场合下的应用上可以不止基于当前的路况来做预测，而是基于一秒钟甚至更长时间之后路况进行准确预测，无人驾驶会因此变得更智能更安全。

当“Thanks”出现在演讲屏幕的时候，其实你的序列预测能够判断出来我已经讲完了，我会说谢谢，我会说下台，序列预测中你们应该会鼓掌。

谢谢！

更多阅读：

马斯克：人类极有可能生活在更高文明模拟的矩阵游戏中

强化学习重大突破：DeepMind用一个AI在57个游戏中全面超越人类

新智元AI WORLD 2018世界人工智能峰会

全程回顾

新智元于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会，邀请机器学习教父、CMU教授 Tom Mitchell，迈克思·泰格马克，周志华，陶大程，陈怡然等AI领袖一起关注机器智能与人类命运。

全程回顾新智元 AI World 2018 世界人工智能峰会盛况：

爱奇艺

上午：https://www.iqiyi.com/v_19rr54cusk.html

下午：https://www.iqiyi.com/v_19rr54hels.html

新浪：http://video.sina.com.cn/l/p/1724373.html

阅读剩余内容

胡国平矮的企业文字层面

科大讯飞胡国平：如果AI企业的研发只停留在文字层面可能会有着极矮的天花板

小学六年级作文：最矮的女生

变矮的秘密_看图写话作文150字

外国名人故事世界上最矮的棒球王

《高的是麦子,矮的是豆荚》优秀教学设计

专家解析：产后妈咪变矮的忧伤真相竟是缺钙……