>首页> IT >

中科院院士何积丰:人工智能需要告诉我们为什么会是这样的决策结果

时间:2023-07-08 17:20:16       来源:腾讯网

腾讯科技讯 7月7日,在“2023世界人工智能大会丨聚焦·大模型时代AIGC新浪潮论坛-可信AI专场“上,中国科学院院士、上海华科智谷人工智能研究院院长何积丰表示安全和可信是两个不同概念,可信人工智能要有两个基本要素:第一,数据安全可靠、系统行为正确·可追责、决策结果可解释;第二,数据模型在开放环境工作,包括不确定扰动、不可控环境行为、恶意攻击等。基于现状,何积丰建议:第一,数据方面强调隐私保护;第二,算法方面推进可解释性;第三,整个体系中要存在可信度量。


【资料图】

以下为演讲实录:

关于可信的概念有些混淆,通常大家都说这个是不是安全,安全跟可信是两个不同概念,因为早期我们的计算机系统,它里面的软件都是程序员,把我们现实世界中的一些物理规律变成一个数学模型,然后他通过编程序办法把数学模型“喂“给我们计算机,所以计算机程序去按照这个模型做了,当然“喂”的过程可能会有错误。因此我们有个测试任务,说这个程序是不是可靠,安全可靠可信,对我们一般的软件代码也是会有的,但人工智能这个系统跟传统软件是有极大的不同、根本的不同。首先整个模型是他自己学习而来的,不是我们教他的,你是第一个问题问他,他到底学到了什么?为什么会这么想?我们这里一个简单例子就是20年以前, Alpha zero软件他帮助 IBM确立了他们在人工智能方面一种新的突破。

国际象棋方面,Alpha zero打败了国际比赛的冠军,但是编这个系统的专家,他不清楚Alpha zero是怎么工作的,为什么下这步棋而不那一步?换句话说,他不知道它的工作原理,那么很多情况下,如果工作人员你不清楚了,你心中就有一些怀疑了,将来可能会发生什么事情,这是一种。

那么第二类我们发生的情况就是人工智能技术突破,它是一种真正意义下的创新。过去我们做技术创新,它实际上是一个创新的帽子,人们本质上并不认为他们是创新,比如说我们有汽车,相对于马车来说是个创新,当然我们要觉得无非是一个发动机代替了一匹马,我们有坦克,人家说是很好的战车,本来也有。换句话说,过去创新都对现有东西的一个延伸,当然人工智能是另开辟一个天地,因此我们不知道为什么他会发现这样一些新的成果是超出人们想象的。

一个典型例子,大家在文献中看到,通过用智能学习办法,我们发明了新的一种药叫海森,它就是一个建筑学校,产生了一个机器血液模型,开始科学家把2000多个分子结构喂给了我们的血液系统,告诉他没有分子结构,它有哪种抗菌性能,然后就让我们在学模型,在2万多分结构中间,要选择一种新的药,满足以下两个特征:第一,杀菌率要高,第二副作用要小。结果学习系统果然是发现一种新的,但是我们专家不知道他为什么挑中这个,而不是挑中其他的,那么这些都是一种非确定性的问题。我们去从这些问题中间提出一些新的科学期望。

什么叫可信人工智能?我们这边有两个要素:第一要素是从学术界的人,我们怎么理解呢?我们第一数据安全可靠,第二你这个系统行为应该是正确的,如果发生问题要追求责任了,能够追溯这个过程。第三部分,决策结果很多大模型给你一些选择余地,你告诉我为什么选这个而不选那个,这是一种情况。第二就是考虑到我们这个模型是在一个不确定环境下工作的,因此我们希望能够解决,如果我们环境里面一些小的扰动会影响你这个系统工作等等,总结起来我们应该他组里面提到6种品质,提到它应该是正确的,鲁棒性的有公平性的,它结果可以解释,安全性的、伦理性的,每一样代表东西很不一样的,我们不能笼统都说安全可信,要求是差别很大的。

那么当前我们状态怎么样呢?从几个方面来看,第一个就是关于数据科学问题,这个问题大家就不要说了,因为你像数据不可信的话,用你的数据训练我们的机器它绝对不会可靠的。第二是算法可信,那么现在算法可信有两条问题可能是比较困难,就关于算法本身的可解释性问题,那么这个问题前面已经有不少工作做了,那么下面还是为继续推进这方面的工作。第三是网络可信,这个就不解释了,因为做网络空间安全的专家都知道,网络可信是我们长期安全中的工作目标。第四是系统可信,我们希望从芯片、硬件、软件、服务等各方面之间的广泛应用中间发现一些问题,什么问题?就系统被攻击的面更加大,安全风险比过去突出。最后是法律伦理问题,我们中国例子比较少。最近美国有个例子,就是新冠期间,他们大家普遍用了脉搏的血氧仪,测大家心率,根据血里面含氧的程度,结果发现白人吃下来血氧总是比较低,黑人总是比较高,后来发现什么?他在本身收集数据里面,他收集的是白人数据,没有黑人数据,是这样的一个伦理问题,在通常的安全可行范围里面是很少能顾及到。

我们看我们这个能力跟法律部分,我们说个人隐私数据保护,数据垄断跟数据的霸权问题,现在还没提了,实际上不少地方有很多霸王条款,一般用户也不会感到数据的污染跟投毒到迁到最高层面,就是说这会影响到国家政治跟国家安全。第二方面是关于算法方面,我们说在伦理方面,我们是希望能够推进黑盒决策的可解释性、算法的歧视问题、算法乱用跟误用、商业垄断与不正当的竞争。

那么这里想讲几句关于大模型的问题,大模型用了以后,我们教育部门很担心,一给学生布置论文,可能他们不需要自己做了,他把这个题目给我们大模型,大模型可以给他写了一篇很好的文章,然后不少法律方面的人也在说,很多图片可能是假的,伪造的作为法律证据,那么这个就跟我们算法里面不安全是密切相关,已经影响到我们的业务了。

对社会短期的影响,主要是我们要解决智能系统责任划分问题,这类工作主要是在一些智能系统,我们的智能机器人跟我们用的无人驾驶汽车,万一有什么事故,谁负责任的划分条例。那么最后就是长期的影响,长期影响以后可能主要是一个就业问题。昨天主论坛上联合国的一个官员说了,他们估计在5年里面会有1,400万人由于大模型使用而失去他们的位置,我希望这个数字是假的,因为这个数字看起来就比较可怕了,占全世界就业人口5%,这是关于可信人工智能,我们在伦理法律上现状。

那么该做哪些事情,我们这里有一个建议,这建议毕竟是非常科学跟可实施,但是我们每一方面还是提一下,我们从数据方面我们是强调数据隐私保护,充分利用我们现有的一些it技术,无论是我们的区块链跟密码应该用在很多金融数据处理方面。还有通过联邦学习,包括我们数据中间一些安全机密部分,那么这个方面我们前面跟上海证券所也事先做一些项目,看看联邦学习对它整合各方面数据是不是会有促进作用。第二是关于算法理论,我们还是主要推进可解释性,我最后有几张片子会专门谈这个问题。然后关于整个体系里面,我们希望有个可信度量,有些安全等级是比较多,但是实际上我们没有很精密的度量体系。

然后从应用系统方面,我们现在做的这几个主要的一些行业应用,:比如工业控、生物制药、智慧交通等等,他对安全可行要求是很高的,尤其是像那种工厂部门里面,他用的机器人,他就说当机器人跟人在同一生产线上,大家关心他们交互之间是不是有危险性。

我下面有一个关于工作的一个规划目标,我们这里分成两部分,一部分从技术方面来说,第二部分是从建设的目标来说,我们分成两个部分,第一个目标是因为上海要建立国际金融中心,然后我们说金融是长三角一体化的,那么对我们安全做什么?主要是做数据的大数据的区块链的可行治理。

另外我再举个例子,我们要做智能系统的可信验证的平台,一种是有一个中心专门负责这个工作,那么这里面他要做什么?可行分析,认证跟评测。建设目标就是上海国家新一代人工智能创新发展试验区,所以我们这里面提了一些建议,那么这个建议各部门都在推进,希望这个工作有效果。

下面我讲一下关于可解释性问题,可解释性大概有三种不同类型的可解释性,不是一个简单的可解释性。

第一是基于这个理论模型的可解释性,这个事情很多都是高校的研究院的老师在做,今天你看清华大学也有不少教授在的,我相信这方面工作他们都是会有基础的。第二是关于机器学习的可解释性,这里面既有定性的,也有定量的,也有可视化的。最后一个是基于知识推理的可解释性方法研究,这是关于研究现状,那么我们自己想通过个片子跟大家介绍一下,它到底对我们实体经济会有什么应用。大家看一下左边这个图,我们说可信,可解释人工智能怎么用到我们这个产业部门,它有这样一个全生命周期的迭代过程,它从市场需求分析开始来支撑它的产品设计。

换句话说,市场数据对它产品设计提需求是所有工作的一个启动点,然后在设计过程中间,他希望有一个国际化的分工,换句话说整个供应链不是全部自己做了,要考虑到合作伙伴怎么做,在这基础上我们有个很好的生产管理过程,既有生产制造的过程,也有对用的设备的管理过程。

然后我们对销售维护也是它整个生命周期中间很大一部分。那么这样我们通过产品对客户的应用,客户对你提的意见为我们有个反馈,因此我们希望有个需求分析的重新的迭代过程。那么中间他讲了一个迭代里面反映了哪几个问题,他有关于怎么订单采购的,有生产管理的,有物流的,换句说我们人工智能一些技术不是用在一个环节,是用在整体上是有这样的一个过程。

我们说我们科学设立公司有三个方面的挑战,一个是关于方法研究方面要挑战,这属于基础研究的。第二部分是应用方面,因为各行业对这个可行要求也不完全一样。第三个管理层面上,因为搞可解释性可能要牺牲点效率的,那么这个事情领导是不是能够支持这样做法的,右面我们提到了可解释人工智能能够面向决策方面的支撑,他对决策支撑跟赋能管理,对我们推进模式,对知识管理都有决策导向。因此我相信可信人工智能我们已经走了好几年,现在这个行业需求也会越来越多,我希望各行各业会进一步的总结经验,看到哪些是我们应该工作聚焦的地方,我的讲话完了,谢谢大家。

关键词: