当前,单纯以数据驱动的人工智能(AI)技术暴露出不可解释、不安全、难以信赖的缺陷,如何补齐短板,让人工智能展现出安全、可信、可靠、可扩展的全新能力呢?近日,清华大学人工智能研究院院长,中国科学院院士张钹围绕“迈向第三代人工智能”分享了两个关键词:企业与安全,现将其观点整理如下:
如今,频频提及的人工智能独角兽企业主要分布在交通、金融、医疗、健康、社区服务等领域,估值在70亿~500亿元之间。与此同时,人工智能独角兽企业也暴露出一些问题,比如估值高、销量少。
举个例子,一家估值100亿元的人工智能独角兽企业销售值不到1亿元,意味这家企业没赚钱。其实大部分人工智能独角兽企业没赚到钱,或者说这些企业没有找到合适的市场,为什么会出现这种情况?
究其原因,并不完全是人工智能独角兽企业没做好,问题出在当前人工智能的技术上。这些人工智能独角兽企业的主要技术支撑来自大数据深度学习方法。我们先看一下大数据的深度学习方法有什么优势和问题。其优势在于可以为图像处理、语音处理、文本处理等提供一体化的解决方案。借助该优势,人工智能独角兽企业搭建了自己的深度学习平台。
目前,这样的深度学习平台有TensorFlow、PyTorch、百度飞桨、清华校友办的OneFlow等,呈现出一派欣欣向荣的趋势,为什么不赚钱?问题出在哪里?算法(模型)和数据的不安全性是重要的原因。数据的不安全性在于人工智能的发展需要大量数据,但由于产业发展初期的无序竞争,忽略了知识产权和个人隐私信息如何保护。
早期数据已经存在被滥用的情况,数据安全性也就缺乏有效保障。如果现在开始整治,企业就不好受了。比如网络产业利用了掌握用户数据的优势,相关行业的网购几乎拖垮实体经济,显然这并不合理。网络垄断了用户的数据,进而垄断了销售,这就需要治理。
下面重点讲人工智能算法的安全性。AI算法的安全性是传统信息处理里没有的,或者说传统信息处理不突出,人工智能算法的不安全性,是人工智能所特有的。算法为什么不安全?
比如,马和石头语义上相差很远,小孩都可以识别,但计算机可能不行,稍加干扰甚至会将马识别为石头,为什么会出现这种情况?究其原因是,算法很脆弱、易受干扰、易受攻击、会犯严重的错误,这就是人工智能算法的不安全。
如何克服算法不安全性?我们提出第三代人工智能的想法,进而发展安全、可信、可靠和可扩展的人工智能技术。如何发展第三代人工智能?基本思路是一句话,把数据驱动与知识驱动加起来。
我们意识到,现在的人工智能并不是真正的智能,人类智能的源泉是知识,而不是数据。为什么当今社会如此重视数据,因为计算机处理数据的能力比人类强得多,这也是我们必须承认的计算机具备的优势。虽然机器有比人类强大的数据处理能力,但也存在着对知识处理办法不多、问题很多的现状。
因此,发展第三代人工智能就需要充分利用4个要素:知识、数据、算法和算力,这4个要素都是不可缺少的。从当前的发展情况来讲,更要强调重视知识。
尽管知识处理给我们带来很大的挑战,但从基础研究到产业应用都需要积极面对这个挑战。首先,知识是多样的,知识非常多,特别抢手。往深里研究,我们会发现由于机器缺乏常识,本质上是很笨的,很多情况下都是鹦鹉学舌,不是机器自己的理解,因此我们需要帮助机器建立知识库。
一直以来,人工智能做得不够好的原因之一是,知识表达和知识推理的研究缺乏重要进展。不论是用符号还是向量表示知识,计算机处理起来都存在着不少困难和缺陷,目前还没有找到有效的解决办法。
为了克服人工智能算法的脆弱性,办法之一是增加知识,这也是扩大应用场景和促进人工智能产业化的重要途径。为了处理知识,目前普遍采用的方法是将知识用向量来表示,“向量”计算机很容易处理,因此取得很好的效果。但是,将知识以向量形式表示时,丢失了语义,也出现了不少新的问题。因此,发展第三代人工智能是一项长期的任务。
另外,发展第三代人工智能技术的基础性研究工作不建议由企业来开展,应该让研究所和高校来做,这就需要产校合作,可以研究一些新的办法,解决当前和长远需要解决的问题,推动人工智能技术在基础研究和产业应用上的共同发展。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:
[email protected]。