该系列是由亚利桑那州大學(xué)(ASU)和中(zhōng)國(guó)官方授权合作(zuò)伙伴职學(xué)CinLearn携手推出的中(zhōng)文(wén)公(gōng)开课系列。每一期公(gōng)开课将邀请领导与管理(lǐ)硕士、心理(lǐ)學(xué)硕士、计算机与科(kē)技(jì )工(gōng)程硕士和教育學(xué)硕士的授课老师,為(wèi)學(xué)生们带来精(jīng)彩分(fēn)享。
大数据是AI时代的基石。据前瞻产(chǎn)业研究院报告数据显示,2020年全球人工(gōng)智能(néng)(AI)市场规模达2万亿美元,预计到2030年将达15.7万亿美元。不难预见,未来几年必定是大数据和AI双向繁荣、双向促进的时代。
本期ASU公(gōng)开课,特邀Ira A.富尔顿工(gōng)程學(xué)院陈以农教授倾情呈现。陈教授围绕《大数据和AI前沿领域的课程概述》,生动地為(wèi)我们讲述了关于大数据和AI的方方面面。
△ 陈以农教授 / 图源ASU
陈以农教授(Prof.Yinong Chen)简介:
· Ira A. 富尔顿工(gōng)程學(xué)院教學(xué)教授、博士生导师
· 物(wù)联网与机器人教育实验室主任
· 中(zhōng)文(wén)计算机与科(kē)技(jì )工(gōng)程硕士项目教學(xué)主任(Faculty Directo)
以下為(wèi)陈教授的讲述——
人工(gōng)智能(néng)领域简介
1.1前沿计算技(jì )术——从一张图,读懂AI发展史
我们的前沿技(jì )术,最早从互联网开始,之后我们把互联网变成了计算平台。在服務(wù)器与计算层面,我们进一步发展了云计算、大数据。
△ 图源陈以农教授
形成了比较成熟的大数据算法和平台之后,20世纪50年代我们迎来了第一代人工(gōng)智能(néng),80年代是第二代人工(gōng)智能(néng),今天的数字人工(gōng)智能(néng),是第三代人工(gōng)智能(néng),基于大数据分(fēn)析而非人脑模拟。在此基础上,我们进入了实體(tǐ)人工(gōng)智能(néng)阶段,即不仅限于数字平台,而是走向实體(tǐ),走向生活,走向社会。
再进一步的增强智能(néng)阶段,我们称之為(wèi)“互联网+”;另一方面,互联网也在向下发展為(wèi)物(wù)联网。
围绕计算和技(jì )术,我们开发各种各样的应用(yòng)领域,比如電(diàn)信工(gōng)业、钟表工(gōng)业、汽車(chē)工(gōng)业等都在智能(néng)化、電(diàn)子化。这就是今天我们信息技(jì )术所涉及的各个领域,美國(guó)75%以上的经济增長(cháng)都源于此。
1.2机器學(xué)习与人工(gōng)智能(néng)——ChatGPT的划时代意义
我们刚才讲到的数字人工(gōng)智能(néng)、实體(tǐ)人工(gōng)智能(néng)和增强人工(gōng)智能(néng),反映出我们今天所说的人工(gōng)智能(néng)和机器人技(jì )术领域.
△ 图源陈以农教授
第一层的两个领域虽然不同,但几乎相互覆盖;第二层包括机器學(xué)习、专家系统、自然语言处理(lǐ)(NLP)等;到第三层,机器學(xué)习包含深度學(xué)习、监督學(xué)习和无监督學(xué)习等。初级的人机对话很(hěn)早就已出现,但几个月前的ChatGPT,遠(yuǎn)遠(yuǎn)超越我们任何一个人的知识和智能(néng),这就是在自然语言的处理(lǐ)之上,增加了机器學(xué)习。ChatGPT经过十多(duō)年的深度學(xué)习、监督學(xué)习和无监督學(xué)习之后,还将继续发展下去。
我们今天的机器學(xué)习是基于大数据,并通过各种平台、设备来收集数据,选择目标数据為(wèi)我所用(yòng)。通过将数据进行预处理(lǐ),把它转换成键值对(key-value pair),之后进行数据挖掘、机器學(xué)习、构建模型。
大家注意到,这和我们第一代的人工(gōng)智能(néng)模型完全不一样。第一代、第二代是试图先找到模型,再通过模型进行预测;现在是通过对数据的大量分(fēn)析反推模型,用(yòng)机器學(xué)习的算法来學(xué)习模型。因為(wèi)我们人脑的模型实在太复杂,再经过几十年,上百年也不一定能(néng)真正模拟人脑。
我们最后找到的模型,不一定真正就是我们大脑的思维模型,而是能(néng)够反映我们所有(yǒu)收集数据的模型,然后再用(yòng)这样的模型对我们新(xīn)录入的数据进行测试,这就是机器學(xué)习。
还有(yǒu)就是增强學(xué)习。模型是一个不断改进的过程,就像新(xīn)一代ChatGPT4或5,一边让用(yòng)户使用(yòng),一边通过用(yòng)户搜集新(xīn)数据,自我迭代。
1.3从大数据到智能(néng)决策——AI可(kě)以帮助人,但无法替代人
今天我们从数据收集、数据预处理(lǐ),来寻找模型、建立模型;通过机器學(xué)习,分(fēn)类和回归;然后我们会建立知识本體(tǐ),并把知识和模型进行整合以及数据处理(lǐ)。
△ 图源陈以农教授
但并不是所有(yǒu)的人工(gōng)智都是自主决策,因此我们往往还需要人来做决策,比如医(yī)生用(yòng)人工(gōng)智能(néng)来辅助诊断,显然医(yī)生不可(kě)能(néng)记住或见过所有(yǒu)的病例。如果我们拥有(yǒu)医(yī)生使用(yòng)的药物(wù)、病人测试的结果,最终治疗的效果等大数据,就能(néng)够调用(yòng)出来帮助我们训练模型,对新(xīn)病人的情况给出建议。
整个过程,我们还是需要医(yī)生来最终决策。我们不可(kě)能(néng)把大量数据给医(yī)生,需要用(yòng)一种可(kě)视化的方法,让医(yī)生能(néng)够理(lǐ)解人工(gōng)智能(néng)大数据的决策。这就是从大数据到智能(néng)决策的完整过程。
这些成果和计算平台是分(fēn)不开的。进行实时的大数据处理(lǐ),需要超级计算机,不是简单的快,而是有(yǒu)针对性地进行软件硬件共同设计,以更匹配人工(gōng)智能(néng)的机器學(xué)习。
1.4量子计算与量子机器學(xué)习——发展前景广阔
这就要讲到云计算这个虚拟平台,它能(néng)够提供从理(lǐ)论上无限的计算能(néng)力,还有(yǒu)一个方向是量子计算,他(tā)们的计算能(néng)力是線(xiàn)性增長(cháng),需要处理(lǐ)的数据量是指数级增長(cháng)。我们要让计算能(néng)力匹配数据增長(cháng),就需要找出新(xīn)的计算模式。
△ 图源陈以农教授
其实,上世纪50年代,物(wù)理(lǐ)學(xué)家Richard Feynman就提出了量子计算机的概念,经过一代代到了超大规模集成電(diàn)路。虽然主流的電(diàn)子计算机一直在发展,但是我们一直在寻找新(xīn)的计算模型,真正有(yǒu)希望取代電(diàn)子计算机的就是量子计算机。
量子计算涉及到量子比特(位),它具(jù)有(yǒu)超级位置和量子纠缠两大属性。
相比数字位(Bits),量子位(Qubits)可(kě)以是0和1的超级位置。数字计算,是用(yòng)确定性的数字去模拟一个不确定的结果;量子计算,算出来的是一个概率,比如推算面前的物(wù)體(tǐ)99%是辆車(chē)。
量子纠缠的特性更加神奇。如测量了孪生对的第一个量子位,则立即知道第二个量子位的值。量子计算的超级力量来自超级位置和纠缠。
这个非常关键,我刚才提到我们今天数据量的增長(cháng)就是指数增長(cháng),将来要能(néng)够真正驾驭数据增長(cháng),计算机最终需要实现量子计算。它可(kě)以用(yòng)在需要超计算能(néng)力的地方:
实现更快的机器學(xué)习。如满足ChatGPT对指数级数据的需求,让机器學(xué)习更快完成训练。
打破当前的安(ān)全系统。比如网络安(ān)全、操作(zuò)系统安(ān)全、软件安(ān)全的复杂算法,電(diàn)子计算机可(kě)能(néng)需要上百年才能(néng)破解。一旦量子计算出现,以前所有(yǒu)為(wèi)数字计算设计的安(ān)全系统就可(kě)能(néng)被打破。美國(guó)已经开始布局要对所有(yǒu)的安(ān)全系统进行重新(xīn)评估和升级。
设计与发现新(xīn)药物(wù)。量子计算能(néng)够更快、更好地帮助我们设计出新(xīn)药物(wù)。还有(yǒu)金融、股市、保险等领域,其实都需要超级计算。
前一段时间我参加國(guó)际会议,未来量子计算机可(kě)以用(yòng)于优化通讯网络。比如航空领域用(yòng)量子计算来做通讯系统,可(kě)以让超音速飞机,在天空与地面保持实时通讯。通常要保持实时通讯,会有(yǒu)五六秒(miǎo)的时间差,量子计算极大地提升了飞机对障碍物(wù)等风险的预判能(néng)力。
ASU现在已经在研究用(yòng)量子位搭建机器學(xué)习的模型。希望在若干年后,我们的量子机器學(xué)习能(néng)够赶超机器學(xué)习。
FSE598《前沿计算技(jì )术》,会覆盖旗舰课CSE571《人工(gōng)智能(néng)》。因為(wèi)所有(yǒu)大数据、人工(gōng)智能(néng)都是基于算法,所以需要很(hěn)强的算法基础,CSE551讲得就是《算法基础》。而《软件验证、确认和测试》,会教你學(xué)习软件开发。
由于面向职场人士,我们特地开发了《技(jì )术创业》课程。《高级计算机网络》会讲到互联网及各种计算机网络,还有(yǒu)《云计算》、《数据可(kě)视化》等课程。其中(zhōng),《社交媒體(tǐ)挖掘基础》由我们的董事教授刘欢来讲,在ASU只有(yǒu)不到3%的老师获此殊荣。
大数据与人工(gōng)智能(néng)在工(gōng)业界的应用(yòng)
大数据和人工(gōng)智能(néng)最早用(yòng)于银行和证券,也是最為(wèi)广泛的应用(yòng),目前形成了Top10应用(yòng)领域:
1. 银行和证券
2. 通讯媒體(tǐ)和娱乐
3. 医(yī)疗保健机构
4. 教育
5. 制造和自然资源
6. 政府
7. 保险
8. 零售和批发贸易
9. 运输
10. 能(néng)源和公(gōng)共事业
教育行业,如ASU是美國(guó)最大的公(gōng)立大學(xué),線(xiàn)上線(xiàn)下學(xué)生共13.5万,会经常用(yòng)到大数据和人工(gōng)智能(néng)。
U.S.News发布《100 Best Jobs US News2021》排名(míng)显示,在前12名(míng)中(zhōng),信息相关的工(gōng)作(zuò)收入是医(yī)疗工(gōng)作(zuò)的1.39倍。大流行病过去后,《100 Best Jobs US News2023》发布的数据显示,软件开发重回Top1,Top5是信息安(ān)全分(fēn)析师,Top8是信息经理(lǐ),Top9是网页(yè)设计,前12名(míng)中(zhōng),信息相关的工(gōng)作(zuò)收入增為(wèi)医(yī)疗工(gōng)作(zuò)的1.53倍。
△ 图源陈以农教授
Q&A互动答(dá)疑
ASU:我本科(kē)是计算机相关,硕士课程对于我们的难易度怎么样?
陈以农:我们课程的难度是按照研究生的课程来设计的,相比你是不是计算机专业,会更加注重你是否有(yǒu)数學(xué)基础。我们会讲授数据结构算法、程序设计语言等计算机行业方面的主要内容,如果你有(yǒu)数學(xué)基础,那么这个课程不会太难。
那么会不会太简单呢(ne)?中(zhōng)文(wén)课程是按照ASU英文(wén)课程设计的,學(xué)生需要在本科(kē)基础之上才能(néng)學(xué)习,不会太难,也不会太简单,你一定会學(xué)到很(hěn)多(duō)新(xīn)的东西。我要强调的是ASU非常注重创新(xīn),我们的课程不只是理(lǐ)论概念,而是需要學(xué)生动手编程实践。
ASU:中(zhōng)文(wén)硕士课程和英文(wén)硕士课程会不会有(yǒu)很(hěn)大的差别,大概什么样的差别?
陈以农:我们有(yǒu)2种方式。一种是直接把英文(wén)老师的课翻译成中(zhōng)文(wén),大概有(yǒu)4门课是这样;一种是直接请会讲中(zhōng)文(wén)的老师,让他(tā)用(yòng)中(zhōng)文(wén)把课再讲一遍。在ASU中(zhōng)英文(wén)的课程可(kě)以相互转换。FSE598算是例外,是我直接用(yòng)中(zhōng)文(wén)讲的,主要针对非计算机的理(lǐ)工(gōng)科(kē)學(xué)生。在線(xiàn)英文(wén)课程的很(hěn)多(duō)學(xué)生也是相似的背景,负责英文(wén)招生的老师,邀请我把课程用(yòng)英文(wén)再讲一遍。
感謝(xiè)陈教授深入浅出的讲解,将计算机理(lǐ)论与实际应用(yòng)结合起来,抽丝剥茧,层层深入,让我们对大数据和AI前沿领域方面的知识获益匪浅。
关闭