走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

为什么ChatGPT的诞生意义非凡?当下发展第三代人工智能需要解决哪些关键问题?中国模式和国外有什么区别?4月23日晚7点,人文清华讲坛,中国人工智能奠基人、清华大学计算机系教授、中国科学院院士张钹发表演讲《走进“无人区”-探索人工智能之路》,为大家解读人工智能的发展历程,指出实现通用人工智能任重道远,提醒大家要在人工智能热中保持清醒进行冷思考,中国要大力加强基础理论研究,聚天下英才而用之,坚持不懈地努力。

线上线下超过300万观众跟随张钹院士一起共同思考如何迎接人工智能时代的挑战。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

张钹,清华大学计算机系教授,中国科学院院士,清华大学人工智能研究院名誉院长。2011年德国汉堡大学授予自然科学名誉博士,获2014年度CCF(中国计算机学会)终身成就奖,2019年度吴文俊人工智能科学技术奖最高成就奖。

他从事人工智能、人工神经网络和机器学习等理论研究,和模式识别、知识工程和机器人等应用技术研究。在上述领域共发表学术论文200多篇和5部(章)专著。其科研成果获ICL欧洲人工智能奖等。此外,他是智能技术与系统国家重点实验室创建者之一,并于1990-1996年担任该实验室主任。

以下为演讲实录整理稿,约16000字。(全文读完约20分钟)

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

大家好,很高兴来到讲堂,今天我讲的题目是《走进“无人区”探索人工智能之路》。什么是人工智能?很多人认为,人工智能是用机器,特别是计算机来模拟人类的智能。这个理解肯定是不对的。迄今为止,全世界对于什么是智能没有统一的认识,因为我们对自己的大脑了解非常少。2019年,有人问美国非常有名的脑科学家科赫(Christof Koch),“到现在为止,我们对人类的大脑了解多少呢?”他回答,“我们甚至不了解一条蠕虫的脑子”。一条蠕虫的脑子那么简单我们都没有了解清楚,对人类大脑的了解更是太少。因此,这就遇到一个问题,我们都说不清楚“智能”,如何搞人工智能?

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

人工智能的两条路径

1.唯物主义学派

人工智能经过多年的探索走出了两条道路,一条道路叫做行为主义道路或者行为主义学派,或者唯物主义学派。这个学派的主张是用机器模拟人类的智能行为。“智能”跟“智能的行为”是两个完全不同的概念。“智能”是指在我们大脑里面的过程,我们对它的了解非常少。“智能的行为”是智能的外部表现,我们可以观察到它,就可以模拟它。因此,人工智能追求的目标是什么?追求机器的行为跟人类的行为相似,而不是追求内部工作原理的一致。例如,ChatGPT已经达到了这个目标,因为跟ChatGPT对话与跟真人对话很相近。在ChatGPT跟我们对话的过程中,它内部的工作原理跟大脑工作原理一样吗?我可以明确告诉大家是不一样的。因此,我们现在的人工智能走的是一条机器智能的道路,跟人类的智能并不完全一样,它只是行为上相似,这是目前人工智能的主流。

2.唯心主义学派

人工智能还有另外一派,我们称之为内在主义学派或唯心主义学派。它主张必须用机器模拟人类大脑的工作原理,这样才是真正的智能,即类脑计算。这两个学派不存在谁对谁错的问题,因为大家按照不同的思路去走人工智能的道路。前者主张除了人类这条道路外,机器或其它方法也可以走出一条智能的道路;后者主张走向智能道路只有人类这一条,这两个目前都处于探索阶段。

我们人类是如何探索这条道路的呢?最开始是1956年,在美国召开了人工智能研讨会,参加会议的10个主要人物来自数学、计算机科学、认知心理学、经济学和哲学等不同领域。他们经过八周的讨论,定义了人工智能,认为要做一个会思考的机器,也即,希望机器能像人那样思考。与会者主张用符号推理、符号表示来做这件事。在这个会议上,Newell和Simon表演了一个程序,叫做“逻辑学家”。该程序是用机器证明数学原理第二章中的部分原理,这表明,机器能做类似推理的工作。因为数学定理的证明与推理相似。在这个会议上定义了什么是“人工智能”。

人工智能的三个阶段

从1956年到现在,人工智能是我们现在遇到的非常年轻的领域,因为它的历史不到70年。这个过程分成三个阶段,分别是第一代人工智能、第二代人工智能和第三代人工智能。

1. 第一代人工智能

第一代人工智能想做什么事情呢?——想让机器像人类一样思考,换句话讲,要设计一个会思考的机器。思考是指推理、决策、诊断、设计、规划、创作、学习等,思考实际上决定我们白领工作的基础。任何一个白领工作都需要这样一个思考能力(行为)或理性行为。

人类的思考是什么基础决定的?也就是说,人类白领工作做得好,思考能力一定要很强,那么怎么才能让我们的思考能力变强呢?比如,医生在医疗诊断上的思考能力比我们在座的人都强。医生跟我们的差别在哪儿?医生跟我们的差别在两个方面,一是医生有丰富的医学知识和临床经验,我们没有,因此我们看不了病;除掉知识和经验这个基础之外,还需要有运用知识的能力。运用知识的能力是推理,由此及彼、由表及里,叫做推理。也即,从已有的知识出发推出新的结论、新的知识。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

无论是做管理工作或者做技术工作需要的能力也分为两个方面。一是在某个领域具有丰富的知识和经验,二是具有很强的推理能力。根据这样的分析,人工智能的创始人提出了“基于知识与经验的推理模型”。这个思想非常简单,也即我们要实现机器会思考,只要把相应的知识放在计算机里。比如,我们要让计算机看病,只要把医生的知识和经验放到知识库里,医生看病的推理过程放在推理机制里,计算机就能看病了。如果要让计算机做一些其它的思考工作,比如设计工作,我们把某个领域的设计知识和经验输入知识库,把设计的推理过程放在推理机制里,计算机就能帮你设计。所以基于知识和经验的推理模型是所有理性行为共同的计算模型,我们用这个计算模型就可以让机器像人类那样思考。

这个模型的核心思想是知识驱动,换句话讲,知识是人类智慧的源泉,知识就是力量。这些知识我们通常叫它理性知识,理性知识来自学习,所以所有做白领工作的人必须要接受教育。因为不接受教育,你就不可能有理性知识,没有理性知识就不可能做任何一个白领的工作。所以好多人要接受教育,而且最好能接受更高等的教育,这样才可能保证理性工作做得好。有的时候我们也把它叫做符号主义,因为我们把人类的知识和经验以符号的形式表达在计算机之中。

我们看一下最早的例子。70年代初,美国人根据这个思想做出一个名为MYCIN的医疗诊断系统,主要用于看血液传染病、开抗生素的药。内科医生的知识、传染病专家的知识都被搁在里面,因为这个知识非常有限,所以这个系统可以像医生那样看血液传染病,最后开出抗生素的药。同时,这里增加了传染病专家的知识,因此它的看病水平要比一般的内科医生强。在发达国家必须要这么做,也就是说,它的医疗诊断系统必须比一般医生水平要高才有用处。但是在发展中国家不一定要有这个要求,因为我们还有好多社区医生,所以达到三甲医院医生的水平就可以推广应用。此外,它还可以帮助全科医生进行医疗辅助诊断。

这个系统看起来有很多优势,因为它能像人类那样进行推理,人类完全可以理解它的诊断过程,所以这个系统是可理解、可解释的。但是最大的缺点是,所有的知识都要靠人类告诉它,它不可能从客观世界去学习知识。在第一代人工智能时,计算机没有自学能力,这是很难的。因为我们平常传授知识是用自然语言进行,但是当我们要把知识传授给计算机时,当时的计算机还不懂自然语言,必须要想出一个计算机能理解的办法跟它进行交流,才有可能构造这种系统。所以这种系统在当时构造起来很困难,费时费力,因此其应用和产业化相对较差。因为所有知识都靠人类去告诉它,所以它永远超不过人类。

第一代人工智能模型基于非常难构造的知识和经验推理模型。美国人做的MYCIN医疗诊断系统的知识非常有限,只开抗生素药、只看血液传染病,但是这么小的一个系统也花了三年半时间才构成。所以第一代人工智能走过的路是比较曲折的,最开始的时候应用有限,后来有了专家系统以后,虽然在窄的领域里得到一些应用,但总的来讲应用较窄,所以那时候叫做“人工智能的冬天”。

2. 第二代人工智能

在第一代人工智能处于低潮时,第二代人工智能开始。第二代人工智能主要是从人工神经网络出发,1943年提出人工神经网络模型,它主要想模拟人类脑神经网络的工作原理。这个模型最早很简单,所以能做的事情比较少。第二代人工智能初期进展也很缓慢。清华大学从1978年开始进入人工智能领域,相当一段时间里我们处于第一代人工智能结束,第二代人工智能开始的阶段,遇到了人工智能的冬天。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

1978年,我们成立了人工智能与智能控制教研组,这是中国最早的研究人工智能的机构。当时差不多有30位老师参与,这些老师绝大部分来自于自动控制领域,原来并不是搞人工智能的。1978年时,我们招收了头一批硕士生;1980年至1982年间,我代表教研组到美国访问了两年,最主要的目的是学习人工智能。因为我当时虽然选择了这个方向,实则对人工智能很不了解。我去美国伊利诺斯大学香槟分校综合科学实验室访问了两年。那个时候综合科学实验室的主任是华人科学家钱天闻,他的方向是人工智能。他那时有6位博士生,其中1位已经做了8年,因为没有选到好的题目,所以没法再做下去;有一个做了不到一年就转到计算机的其他方向去了;还有一个台湾来的做了4年,也没选到合适的方向。从这些情况来看,当时人工智能确实处于低潮。

(1)作为主要方向的“智能机器人”

我们从1985年开始招收第一批博士生。当时我回国以后,也感觉到虽然可以开展一些和人工智能有关的教学,但科研几乎没法开展。所以我们在1982年至1984年期间就做了调查研究,在兵器工业部的支持下到西南、东北,访问了大量跟兵器有关的研究所和工厂。经过这个调查,我们感觉必须要发展智能机器人。因为国外装引信、弄炸药都是自动化的,但在国内当时还是人工,所以当时我们把智能机器人作为一个主要的研究方向。

我们在此基础上开始建立智能机器人实验室,当时困难非常多。一是没钱,当时要买PUMA560机器人,在美国所有搞人工智能的大学里都有这个设备,但是机器人是巴黎统筹委员会对中国禁运的物资,所以我们当时买不着这个设备。我们通过跟福建合作,从香港买人家的二手货,用机床的名义运到国内来。我们在非常困难的情况下把这个设备买下来,上面没有任何说明书,这是全国进口的第一台机器人设备。当时这个设备要十几万块钱,但我们一分钱没有,所以就跟福建省计算机研究所合作,说咱们各出一半钱,另一半钱我们先从他们那里借,所以实际上完全是他们出的钱买的。后来因为这个工作搞得很好,他们也没再向我们要钱。所以就把这个实验室建起来了。

1985年建立实验室,1986年国家设立了“863”发展计划,这个发展计划把智能机器人作为了一个主题。从那时开始,清华大学就参加了第一届智能机器人主题的“863”高技术研究。我们从第一届到第四届都是作为专家参加委员会,到了第五届,清华大学成为开展智能机器人研究的组长单位。1997年,设立了空间机器人,清华大学也是空间机器人的组长单位。在这种情况下,我们从1987年开始筹建,到1990年正式成立了一个叫“智能技术与系统”国家重点实验室,这个实验室搞得很好,每4至5年评估一次,我们连续3次全得到优。因为得到优以后,运行费就给1000万,当时1000万还是很大的一个数目。正是由于这两个工作的支持,我们的工作得以开展。在低潮期时,不管国内还是国外,好多单位都难以继续这方面的研究,但从78年代一直到90年代末,由于国家重点实验室对清华大学的支持,我们的研究工作一直做得不错。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

首先我们建立了两个理论。一是建立了问题求解的商空间理论和粒计算理论,这个当时在国际上有相当影响。2005年,我们在清华大学发起、组织了国际粒计算会议,后来每年开一次,延续至今。我们确立了这个研究方向,直到现在持续进行研究。二是在人工神经网络方面,我们也做了早期的很多工作。当时人工神经网络的发展也很困难,在模型和学习算法方面,我们做出了很好的成果。此外,1990年开始,我们主要做了自动驾驶车,那个时候叫移动机器人,这在国际上都算是开展很早的单位,在国内当然也算是最早的。1992年,我们又承担了军用移动机器人项目,这个项目后来也得到国家和部门的奖励。这个工作一直延续至今,虽然现在很多单位都在开展自动驾驶的研究工作,但其实清华大学是最早进行自动驾驶研究工作的单位之一。

(2)第二代人工智能面临的问题:感性知识的传授

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

第二代人工智能的初期发展阶段出现了一个问题。因为模型本身比较简单,好多学习算法还没有发现,因此最开始进展比较慢。本世纪初开始,第二代人工智能蓬勃发展。第一代人工智能主要在符号主义指导下进行,它的目的是模拟人类的理性行为。但是人类除了理性行为之外还有大量的感性行为,这个感性行为要用人工神经网络来进行模拟。我们刚才说过了知识是人类智慧的源泉,知识是我们理性行为的基础。这个知识指的是理性知识、分析问题的方法等,这些知识来自教育。人类除了理性知识以外,还有大量感性知识。比如,我们认识马牛羊、张三李四,这属于感性知识。感性知识来自何处?它绝对不是来自于学习,也不是来自于传授。大家想一想,我们怎么用自然语言去传授什么是“马”?马有马头、马尾巴、四条腿。那么什么是“四”、什么是“条”、什么是“腿”?你说细长的叫腿,什么是“细”?什么是“长”?换句话讲,你要传授一个感性的概念,你必须要用很多新的概念去描述它,那么最初的概念如何传授?实际上是很难的。因此感性的知识是不可以用语言来传授的,也无法从书本上学来。那我们的感性知识来自何处?我们每一个人最初得到的感性知识是认识我们的母亲。我们什么时候认识我们的母亲?怎么认识我们的母亲?到现在还是说不清楚的。那么感性的知识来自何处?如果真能知道这些,我们就知道如何去教计算机认识马、认识牛、认识羊。

(3)深度学习的底层逻辑:观察与倾听

我们观察一下小孩,小孩在很小的时候(特别是2岁以前),除了吃喝拉撒睡以外都做什么事呢?其中四项重大任务必须在2岁以前完成,这个工作完成的不好,孩子的认知、智商、情商的发展都会受很大影响。第一项任务就是观察,孩子要利用所有时间、抓紧每分每秒去认真观察周围的事物。小孩醒来以后都盯着东西看,目不转睛,为什么这样?因为他必须抓紧每分每秒去观察周围的世界,建立视觉基础。第二项任务是倾听,建立听觉基础。大人看着孩子没有不吭声的,因为你要给他创造声音,不断让他倾听,建立听觉基础。所有这些感性知识都在不断观察、不断倾听的过程中学习。所以我们在第二代人工智能里深度学习就是用这个办法。

过去,我们主要通过编程的方法告诉计算机,马牛羊有什么特征,这个方法是不正确的,用这个办法来教它,结果教不会。语音也是这样,过去,我们通过告诉它“我有什么特征”来教它听懂“我”,效果很不好。最后怎么完成的呢?就是基于大数据的机器学习。我们把网上所有马牛羊的照片拿来,把中间的大部分做成训练样本,让它观察和学习。学习完毕后,将剩下的样本作为测试样本去测它,识别率达到95%等等。语音也是这样,我们收集了大量语音,把中间大部分作为训练样本,让计算机倾听、学习,最后把剩下的部分作为测试样本去测它。这也是用同样的办法,即观察和倾听。那么用什么东西来观察和倾听呢?就是人工神经网络。也就是说,把识别的问题作为分类问题来进行,利用人工神经网络来分类,马这组数据分成一类,牛这组数据又分成一类,这样就实现了识别。所以这个神经网络是采取多层的神经网络,这个神经网络叫深度神经网络,即很深的神经网络,而用这个神经网络进行学习的,叫做深度学习。所以深度学习不是学很深的意思,而是用很深的神经网络来学它,这样效果会很好。

(4)通过深度学习进行分类和预测

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

我们看一下这样做的效果。过去都是用同样的图像库、图像网进行图像识别,一共有2万多个种类,1千5百万张图。过去,我们用一个编程的办法告诉它什么是马、什么是羊,这样做误识率是50%。后来我们用机器学习的办法来做,结果误识率降到3.57%。从50%降到3.57%,而人类的误识率是5.1%,降到3.57%是超过人类的水平的。

通过人工神经网络进行分类,也可以找数据中间的关联关系。机器翻译就是这么做的。过去的机器翻译怎么做的呢?用语法分析、语义分析,效果非常不好。现在换成机器学习的方法,效果非常之好。因为我们只要找中文和英文之间的关联关系,不去仔细分析它的语法语义,也就是说,这个中文输入对应的是这个英文。在学了大量的结果以后,我们给一个中文它就会翻成英文,所以是利用这个模型学习数据中间的关联关系,通过学习把中文和英文关联起来,因此它能够进行翻译。

还可以用这个做预测。什么叫预测呢?用过去的数据预测未来的变化,也可以用人工神经网络或机器学习的办法来做,例如传染病预测、产品预测、股票预测等。所有这些预测都是用过去的数据来预测未来的变化。所以,大数据下的机器学习有这么多用处,除掉分类关联关系的学习跟预测以外,还可以做生成。

深度学习出来后,也即第二代人工智能繁荣兴起后,国内也兴起高潮。清华大学有很多年轻人参加,以朱军为代表的年轻队伍做了很多这方面的工作。一是理论工作,他们提出一个概率学习的理论和模型,就是在贝叶斯原来的理论上加一个维度,即后验分布。原来贝叶斯理论是靠先验分布和似然函数,现在加上后验分布以后,学习质量和学习效率提高。基于这个理论,我们做了一个开源的编程库,可以供全世界使用。这个工作也得到了大家的好评。

(5)深度学习的不安全性

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

还有一个非常重要的问题,我们一个博士生比较早发现深度学习的不安全性,他做了一个非常典型的例子。左边这张雪山图,原来计算机看起来是雪山,人看起来也是雪山,只要把它加一点噪声,变成右边这张图(右边这张图比左边的图多了一点噪声)。人看起来是雪山,当计算机却看成是一条狗。这就充分说明,深度学习的模式识别跟人类的视觉完全不同,尽管它能够把雪山和狗分开,但实际上它既不认识狗,也不认识雪山。为什么是这样的情况呢?关键问题是——什么叫做狗?我们怎么定义一只狗?通常用人类视觉来区分,主要看它的外形,狗的外形跟猫的外形不一样,但问题是什么是狗的外形?狗有各种各样,我们为什么在众多狗的外形里能够分辨出来这就是狗,而且同样一只狗站着、躺着、跑着,前面、背面都不一样,为什么人类的视觉能够在千变万化的外形里确定它是狗?到现在为止我们没搞清楚。我们对脑科学的研究很差,因为不知道人类的眼睛为什么在千变万化的狗的外形里能够断定它是狗,而且有时把狗挡住了,挡了很多,我们还认识它。人类的视觉是怎么解决这个问题的?到现在还是个谜,所以计算机不知道怎么做。计算机看狗,最早的时候,狗在这边它认识,挪了位置就不认识了,这就是位移的不变性,这个问题现在已经解决。但是没有解决的问题还有很多。例如,计算机识别固定尺寸的狗,把狗变大了不认识,变小了也不认识,这就是大小的不变性。现在机器认识狗,变大变小,它都不认识。所以现在机器怎么做呢?只能用局部的纹理来区分狗和雪山。因此,我们把雪山中间的某个纹理改成皮毛的纹理,形状一点不变,它就认为是狗,这就是它的实质。所以我们可以看到深度学习是非常不安全、不可靠的,而且也是不可信的。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

我们比较早发现了人脸识别的不安全性。如上面这个图所示,计算机能够识别左边的人和右边的人不是同一个人。但我们只要给它加一点噪声,它就把右边这个人认为是左边的人,所以现在为什么人脸识别那么不安全?因为我们只要改变一点它的局部特征,人还是认为是原来的人,但计算机完全看成是不同的人,所以人脸识别是非常不安全的。现在用它来付钱还可以,但问题是用它来取钱就有问题了,你在网上是不可以刷脸取钱的,这就说明它的不安全性。

根据CSRanking统计,清华大学的团队在全球人工智能顶刊发表高档文章数,2017-2019年排在第一位。这说明,清华大学或者我们中国的平均水平是不低的,平均水平是先进水平。问题出在我们的最高水平跟人家差距大,很难出出类拔萃的人才。换句话说,我们的创新能力不如人家。而往往最高水平是决定科技发展的主要因素,所以这一点我们还需努力。

(6)第二代人工智能的缺陷:不安全、不可信、不可控、不可靠、不易推广

第二代人工智能也有它的缺点,它的所有数据(图像、语音等)来自客观世界,所以它实际很有用处,但是难以提升到认知水平。它识别东西只能区别不同的物体,并不能真正认识这个物体,这是它的最大问题,即不安全、不可信、不可控、不可靠、不易推广。2016年,根据这个情况我们提出,必须发展第三代人工智能。

3. 第三代人工智能

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

(1)亟待发展的人工智能理论

第三代人工智能的基本思路是必须要发展人工智能理论。人工智能跟信息科技相比,为什么信息科技发展得那么快且持续,人工智能却发展得相对较慢且相当曲折?最主要的原因是,信息科技的理论从一开始就已经建立起来。计算机理论于1936年建立,通讯理论于1948年建立。它的理论已经建立了,所以技术发展和应用非常顺利。人工智能到现在为止没有理论,只有我们刚才给大家介绍的几个模型、几个算法,而且我们前面分析过第一代人工智能的模型和第二代人工智能的模型、算法都有很多缺陷。因此,我们必须要去发展它的理论,这样才能发展出安全、可控、可信、可靠和可扩展的人工智能技术。换句话讲,在这个理论没有建立之前,人工智能的算法基本上是不安全的,所以如果将来在工作当中要用人工智能的,始终存在着安全性的问题。有些银行的领导跟我讨论银行系统智能化的问题,问我最主要要注意什么问题?我说最主要要注意安全问题。因为对人类来讲,一个是生命,一个是财产,如果涉及到生命和财产的处理要智能化,首先要考虑安全性。对目前的人工智能技术而言,系统越信息化、智能化,就越不安全。好多人以为搞了人工智能就更安全了,实则是搞了人工智能更不安全了。那我们为什么还去搞它?因为它会提高效率和质量,但是安全性会受影响。在这种情况下,才能推动我们的应用和产业化发展。

第一代人工智能用了知识、算法、算力三个要素,其中最主要运用的是知识。第二代人工智能主要用数据,即数据、算法和算力三个要素。这两代人工智能都有它的缺点,因为它只用了中间三个要素。为了克服这个缺点,唯一的办法是把知识、数据、算法和算力这四个要素同时用起来,这就是我们提出来的主张,全世界也很赞成我们这个主张。但是外国人跟我们不同的是强调数据的作用,而我们是强调知识的作用。我们认为,知识是人类智慧的源泉,而非数据。但同时也一定要注意数据,因为计算机处理数据的能力比人类强得多,所以我们强调数据是强调机器的作用,强调知识是强调人类的作用。我们认为,人类对人工智能的作用应该比机器更加重要,这一点与国外观点不同。但是我可以告诉大家,ChatGPT这么大的成功就是因为它充分的利用了“知识、数据、算法、算力”这四个要素。

(2)大语言模型:大模型

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

大语言模型就是LLM。我们首先在语言上突破,ChatGPT为什么有这么强大的性能?主要依靠两个“大”,一个大模型,一个大文本。第一个“大”是一个大的人工神经网络,人工神经网络可以用来做分类,用来学习数据中间的关联关系,也可以用来做预测。现在,在ChatGPT里用它做语言生成。这个巨大的人工神经网络叫“转换器”,就是GPT的那个“T”。G是生成式,P是预训练,T是转换器,它是靠这三个东西的。

大模型在这里起什么作用?大模型的“大”体现在哪里?深度神经网络是很深的神经网络,它的中间层一般是几层、十几层。在ChatGPT里是非常深的神经网络,有96层。其次是非常宽的神经网络,一次能够输入2000多字(一个token,粗略地讲相当于一个汉字)。原来的神经网络是逐字输入,现在是一大段文本输入。GPT4可以满足12万8千个汉字同时输入,即300多页文本同时输入,它能看到全文,这是第一个“大”。最主要的问题是文本的语意表示。过去,文本在计算机里用符号表示,计算机看到符号不知道它说什么?比如,“我打他”,计算机看到的是ABC三个符号,所以我们必须帮它做语法分析,告诉它“我”是主语,“打”是谓语,“他”是宾语,它才知道是什么意思。现在文本不是用符号表示,而是用语意向量表示,这是人类从1957年到2013年花了56年时间才解决的。也就是说,所有的文本不管它是词、句子、段落都是用向量来表示,计算机看到这个向量就知道它说什么。因为它把同样语意的向量放在一起,不同语意向量放在空间的不同位置。所以它看到“我打他”这个向量,它马上知道说的是“我打他”,因为“我打他”,“你打他”,“他打他”,同样意思的东西放在一起。过去计算机处理文本只能把它当数据处理,现在可以把它当知识来处理,可以处理文本的内容,这是最重要的一个突破,即向量表示。向量就是一个数,所以计算机算起来非常容易。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

第二个是我们花了74年的时间解决了巨大的人工神经网络。这个巨大的人工智能神经网络叫“转换器”,“转换器”很长的文本可以同时输入。最后一个是“自监督学习”,这是OpenAI的贡献。大家不要认为ChatGPT是OpenAI花四年时间做出来的,而是世界的科学家、工程师花了六七十年时间才研究出来ChatGPT。前面两个成果都主要是大学做的,只有最后一个成果“自监督学习”是OpenAI提出来的,OpenAI的主要贡献就提出了“自监督学习方法”,另外把它实现一共花了四年时间。过去要它学习都要做预处理、预先标注,这个工作量太大,无法大量学习。“自监督学习”是原来的文本不经过任何处理就可以学习,用前面的文本预测后面的词,输入后预测下一个,预测下一个又把下一个变成输入,就像接龙式学习。

(3)大语言模型:大文本

第二个是大文本。自监督学习后,所有文本不用经过任何的预处理就可以学习。文本原来是GB量级,现在是TB量级的。现在OpenAI差不多学了45个TB,相当于1351万本牛津辞典。而且它的读不是死读,而是理解它的内容,读它内部的知识。

这就使得我们进入了新的时代,这个时代我们就叫做生成式人工智能时代。这个时代有什么样的结果呢?ChatGPT里最重大的成果是强大的语言生成能力,而强大的语言生成能力表现在开放的领域,不受领域限制。当我们跟ChatGPT对话时,不是只能谈医疗问题,不能谈农业问题,而是什么问题都能谈,这是人工智能的重大进步。无论是第一代人工智能还是第二代人工智能,它做的事情必须受三个限制——特定领域用特定模型完成特定任务。“三个特定”就是所谓窄人工智能,专用人工智能。ChatGPT将这个问题完全打破,跟它对话的时候没有领域限制。二是生成多样性的输出,这是ChatGPT的灵魂。它的一个输入是多样化的输出,给它多样化的输出就给它创新的机会。它有多样化的输出,就有可能创新,如果要它创新,必须允许它犯错误。因为它多样化的输出,不能保证每个输出都是对的。所以越希望它输出有创造性,就越要允许它犯错误。所以我们看到ChatGPT有的时候回答问题非常机智、非常聪明,有的时候又胡说八道,这个问题就是我们要求它多样化输出的结果。

它生成的是连贯的、类似人类的文本,也就是说,它说的全是人话。这一点非常奇怪,它学了那么多文本,为什么不会乱?如果它说的是鬼话就麻烦了,它说出来的东西我们不知道它说什么,那么后面的工作就没法做了。现在它说出来的全是人话,胡说八道也是人话。我们为什么要肯定OpenAI,因为没有人敢去做这个事。OpenAI花了几亿美金去做这个系统,而且大多数人认为是不大靠谱的,以为输出会很乱,居然输出全是人话,这一点非常重要,就是语意上连贯的类似人类的文本,这是了不起的。第二个重大突破是在开领域实现了人机自然语言对话,我们现在跟ChatGPT对话的时候不受领域限制的。ChatGPT没出来以前,大家估计我们需要经过几代人的努力才可能实现开领域跟机器进行自然语言对话,我们过去那么小的领域都没办法实现跟计算机进行自然领域对话,现在居然一夜之间可以不受领域限制进行对话,我觉得这两个是非常了不起的。人工智能原来打算用几代人的努力来完成它,居然在2022年完成,这是人工智能里非常了不起的事情。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

我对人工智能系统做过一个测试:请用小学三年级学生的身份写一篇作文,作文题目叫“会飞的房子”。这非常考验系统好不好。首先,写的时候是不是以三年级学生这个身份写的。有的系统不好,大人的话都出来了,写成非常深的科幻故事,那就不对了。其次,“会飞的房子”给了非常大的创造性、想象力。有的系统会写出来想象力非常高的文章,比如说它飞到城市、农村,看到的全是童话世界而非现实世界,都是想象出来的。所以大语言模型是向通用人工智能迈出的一步。微软说大语言模型是通用人工智能的火花,西方舆论里大多数说是通用人工智能的曙光,但是有少数人认为它就是通用人工智能,我认为这个意见是错的。我们通向通用人工智能的道路依然任重道远,换句话讲,人工智能还有很长的路要走,因为要达到通用人工智能必须满足三个条件。

(4)通用人工智能的三个条件

第一个条件是,系统必须跟领域无关。ChatGPT做到了领域无关,但是它只是在对话、自然语言处理的问题上做到和领域无关,其它大量的问题现在还做不到跟领域无关。我们现在做出来的医疗诊断系统只能看一个具体的病,能不能做出来一个系统什么病都会看?现在还不知道怎么做。所以在领域无关上,ChatGPT只是走了一步。第二,跟任务无关,什么任务都会干。ChatGPT现在能对话,也能够算四则运算,也能作诗、写代码,可以是多任务,但是也不是什么任务都能干,复杂环境下的复杂任务它是干不了的。第三,要建立一个统一的理论。所以人工智能还有很长的路要走。

(5)大语言模型迈向通用人工智能的四个步骤

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

我们认为,从大语言模型迈向通向人工智能首先需要走四个步骤。第一步是跟人类进行交互、跟人类对齐,第二步是多模态生成,第三步是跟数字世界交互,第四步是跟客观世界交互。但也不是说这四步做了就完成了通用人工智能,但至少是向通用人工智能迈出这四步。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

第一步:与人类对齐。尽管现在ChatGPT说的都是人话,但是不见得是正确的。如何克服这个问题呢?必须靠人类去帮助它克服,跟人类对齐。我们看一下上图的结果,GPT-3时的错误率是40%(40%错,60%对)。经过两年人类的调整,帮助它改正,到ChatGPT时降到20%,GDP-4的时候降到10%,从这里可以看到,它的错误需要人类帮助进行纠正,而且这个纠正的速度是很快的。迭代的速度很快,但我们要看到错误仍然存在,不可能把它变成零。我们要它具有创造性就得允许它犯错误。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

第二步:多模态生成。我们用大模型生成文本,我们把它叫ChatGPT,现在可以用大模型来生成图像、声音、视频、代码。生成声音里包括语音、音乐,所以可以用大模型生成各种各样模态的东西。上图是我们学生做的,关于如何用扩散模型。用图形时一般要加上扩散模型,这样图形的结果质量会更高,这个扩散+转换器的模型是我们提出来的。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

这个是生数科技做的文本生成图像,也就是说,你随便写一个文本,它就根据这个文本生成出来图。我们看中间这张图,中秋节的月兔和月饼,它画出来兔子和月饼。大家看一下兔子,它的胡须、细节非常之好。当然我们也可以让它按照某一个画家的风格画出来图,左边的图是按照某一个画家的风格画出来的桌上的向日葵,它也画得很好,质量非常高,可以说达到人类的水平甚至画家的水平。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

这一张图是美国Midjourney的文生图,它是说画一张“穿着夹克衫和牛仔裤的情侣坐在屋顶上,背景是90年代的北京”的图。请大家看这个图,它画出来人的神态、衣着和背景完全是北京90年代的感觉。它居然完全理解了,北京90年代的人就是这个样子。这一方面反映了它绘画的水平,另一方面给造假形成了极大的空间。大家想一想,如果它将来画出来的画说这是你在这儿干坏事当场被我拍下来的,你到什么地方去说理?说我没有干坏事,这是计算机生成的。所以我们现在专门开了一个公司去鉴别文本究竟是机器生成的还是人写出来的、图像究竟是机器画的还是人画的、视频究竟是人做的还是机器做的。我可以告诉大家,非常困难。随着技术的进步,会越来越困难,给造假提供了非常好的机会,这个造假专门有个名字叫做“深度造假”。用深度学习的办法来造假,而不是说造的很深的意思。大家想一想,如果以后网络上的文本95%都是机器写出来的,我们还能从网络上看到真相吗?一个事情出来以后,网络上一片反对声音,究竟是多数人在反对还是少数人操纵机器写出来的?将来很容易用这个去制造舆论、混淆视听,所以这个问题是非常严重的。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

这个是我们做的3D图像,完全由计算机生成。视频是多生成几张图像,但是时间上要有关联性。

我们现在实现了三项突破,这个突破是在开领域里生成语意上连贯的类似人类的文本。语意上连贯是最重要的突破,有了这个突破以后就有了图像的突破,因为图像只要求在空间上连贯即可。视频是什么?时空上连贯即可,所以大家要看到这三个是不同层次的问题。最重要的是,我们在语言上突破,紧跟着肯定会有图像的突破,有了图像突破后,肯定会有视频的突破。它中间计算的资源要求越来越多,计算的硬件也多。

这里有个现象,我们把这个现象叫做涌现,当系统规模没有达到一定程度时,不会出现这个现象。也就是说,规模没有达到一定程度时,画出来的图画很糟糕,马也没有马头,画得很不像,突然间,规模达到一定程度,画出来的画大多数都很好,这就叫做涌现,即从量变到质变。这个现象到现在为止,全世界还没有完全搞清楚,这是大家产生恐慌的重要原因。许多人吓唬大家,规模越来越大后,将来计算机会不会有意识?会不会主动攻击人类?会不会出来统治人类?都是因为涌现难以解释,所以大家就觉得非常恐慌。但是大家不要恐慌,我们看到它还有弱点。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

第三步:AI智能体。必须跟数字世界连起来,大语言模型再好,只能说不会干,很多事情要干了才行。首先,先在数字世界里具体干活,干完活以后就可以解决这样的问题,它就知道自己这个东西做得怎么样。因为它据有反馈,这个工作对促进它的性能有很大的好处。原来说了以后不知道说得对不对,现在照着你说的来干,一干就知道对不对,所以有了反馈以后可以推动大模型往前发展。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

第四步:具身智能。接下来就跟客观世界连在一起,你必须得有手,光动口不动手怎么能干活,跟物理世界连接需要机器人,这就是“具身智能”,即具有身体的智能。智能光有脑袋还不够,还必须具有身体,这样你才能动口又动手,所以第四步就要和客观世界连在一起。

人工智能的产业发展

信息产业的发展非常迅猛,原因在于它建立了理论。有了这个理论后,在理论指导下做的硬件和软件全是通用的。通用是什么意思?市场非常之大,因此英特尔、IBM、微软等大企业出现,然后再把这些技术进行应用推广,实现信息化,这整个链条发展非常迅速。人工智能没那么幸运,它没有理论,只有算法和模型。根据这个算法和模型建立的硬件和软件全是专用的。“专用”是什么意思?市场很小,所以到现在为止,还没有产生人工智能的IBM、英特尔、微软。所以人工智能产业的发展必须跟垂直领域深度结合才有可能发展。但是现在这个情况发生变化,具有一定的通用性的基础模型出现,它肯定会影响我们产业的发展。下面我们探讨一下这个有什么样的影响。

我们先看一下现在人工智能产业的发展。2020年,10亿美金以上的全世界独角兽企业一共有40家,2022年变成117家,2024年初时到126家,从这个情况来看,它是逐步增长的。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

大模型今后怎么发展?到现在为止,中国的大模型是“百模大战”,有100甚至200家,而美国基本上是几家(如Meta、谷歌和OpenAI)。我们有这么多人做基础研究,现在大部分状况不佳,他们的出路在哪儿呢?我这里画了三个出路。第一个出路是向各行各业转移,做各个垂直领域的大模型。现在有很多行业在考虑这个问题,石油行业肯定要考虑石油行业里的大模型,金融肯定要考虑金融行业的大模型,所以将来做通用大模型的数量越来越少,最后大多数做大模型的就转向各个垂直领域。第二个也是最重要的,经过微调,到产业里应用。它提供了公开的大模型软件,让大家开发应用。第三个是跟其他的技术结合,发展新的产业。比如原来用软件做文字编辑,现在加上大模型后,它可以帮你写稿。所以很多记者都利用这个工具,先帮忙写一个稿,然后我们再编辑,这样方便得多,把其它技术结合起来发展成新的产业。很多独角兽企业都这么去做,有的向各个行业转移,有的专门做图像,有的专门做视频,有的专门做语音,这是国外的情况。我们也可以看到国内的情况,例如清华大学智谱AI做的大模型,国内也有一些大模型现在已经发展得比较好。

那么这个肯定要推动产业的变革,今后无论做硬件还是软件,一定要放到这个平台上。过去在什么基础上做软件呢?比如,在毫无基础的计算机里做一个服务软件,我们该怎么教计算机做呢?计算机里什么都没有,所以相当于教白痴做这个事,效率肯定很低。现在如果把这个工作放到基础模型的平台上,这个平台已经学过1351万本牛津辞典,至少相当于一个高中生,所以采用它是不可阻挡的趋势。这些“高中生”谁提供呢?大模型企业提供公开的平台给大家用。

大模型的局限性

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

大模型是不是什么东西都会干?大模型的局限性、最大的问题是什么?大模型的所有工作都是外部驱动的,即在外部提示下做的。它不会主动干事,那么在外部提示下面来做时,它是用概率预测的方法来做,所以就会出现一些人类没有的缺点,即输出的质量不可控,而且它不知道自己是对或错,所以它的输出不可信。第三,它受外部影响太大,我们要它怎么干它就怎么干。人类完全不一样,即使这件事是别人交给他的,人类也是在自己的意识控制下完成,所以整个是可控、可信的。机器根本不知道自己在做什么,我们举两个例子。

案例一:我问ChatGPT,清华大学校歌的歌词是什么?它不知道,胡编了一套,无中生有。我告诉它:“清华大学校歌不是这个,是‘西山苍苍,东海茫茫……’”。我把这两句抄给它,后面写省略号,让它去做。它说:“对不起,我刚才错了,清华大学校歌是‘西山苍苍,东海茫茫’。”结果下面又胡编下去。后来我告诉它:“你错了,清华大学校歌不是这个。”我把整个原文抄给它,它马上说:“对不起,上面全说错了,应该是这个。”但是你退出后再进去、再问它,它又胡编。我就问大家,为什么不能让它改?为什么它不能自己改?它自己不能判断对错,只能人类在后台去帮它改。这就排除了一个问题,大家说它逐步迭代,迭代后会不会越来越好?它不可能迭代,因为它自己不能改自己,它也判别不了正确和错误。所以这一点大家放心,现在为止,它基本上在人类操纵下做事。有朝一日它会不会主动去干?这个问题也在研究,我可以告诉大家,现在还不行。它有没有自我激励去干这个事情?它会不会产生这种动力?现在仍在研究过程中,一时半会儿不会有。所以请大家放心,迭代是人帮助它迭代,目前它还不可能自我迭代。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

案例二:它的输出不一定都是好的。大家看到的Sora等,都是拿好的给大家看。上图是美国非常好的一个图形生成器DALLE.2生成的6张图。我输入“他愤怒地踢开门,扬长地走出”,生成的前面三张不错,但后面的不仅是主题不对,画的画也很糟糕,所以它也会输出质量不好的,这就是造成不可信的重要原因。所以未来它最多像中间这个情况一样,做我们的助手帮助我们。我们监控它干,最终采取什么样的设计我们来决定,未来只有少数工作可以完全交给机器干,独立完成。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

高通全球投资研究做了一个统计图,统计人工智能对各行各业的影响如何。这个图里面列出来大量行业,左边深度比较深的表明影响小,比较浅的蓝色表明影响大。灰色部分表明会被代替,我们这里看到被代替的是属于少数,即灰色的部分较少。将来会被代替的是行政工作、秘书工作及法律工作,因为法律有大量文档的整理工作。所以大家放心,人工智能对各行各业都有重大的影响,但是大多数是帮助大家提高工作质量,被取代的是少数。

第三代人工智能的三空间模型

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

我们如何去发展这个理论呢?这是我们提出的一个想法,过去文本在一个空间里处理,图像语音又在另一个空间里处理,这两个空间不联系。现在我们有了大模型,组成了中间的空间,把整个感知、认知这一套连起来,为发展人工智能的理论提供了非常好的条件。

人工智能是探索“无人区”,我常常说人工智能的魅力就在于它永远在路上。我们不能因为它的进展而过于乐观,也不能因为它的挫折而沮丧,而是需要坚持不懈地努力。我就说这些,谢谢大家。

走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录
走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录
走进“无人区”探索人工智能之路——人文清华讲坛张钹演讲实录

本次讲坛通过人民日报客户端、新华网、央视频、中新网、中国教育新闻网、澎湃新闻、腾讯新闻、搜狐教育、凤凰网、百度新闻、知乎知学堂、清华大学出版社、虎嗅、长安街读书会、中国出版传媒商报、抖音、B站、今日头条、西瓜视频、微博、快手、小红书、视频号等媒体和平台在线同步直播。

“人文清华”讲坛是清华大学发起的大型思想传播活动,推动建设更创新、更国际、更人文的清华新百年。讲坛定期邀请优秀人文学者,在标志性建筑新清华学堂发表公众演讲,阐述其经典学说、独特思考和重大发现。