行业洞见

行有(yǒu)疆 思无界

CinLearn前瞻视角 与你同享

李玉箫:打开深度學(xué)习黑盒,进一步理(lǐ)解AI

深度學(xué)习发展至今,带来了人工(gōng)智能(néng)(AI)的发展热潮。现实情况是由于核心AI算法,尤其是深度學(xué)习算法,通常运行在类似于“黑盒”中(zhōng)的工(gōng)作(zuò)模式下,使得AI在高效高性能(néng)的同时,相应的可(kě)解释性很(hěn)难得到同等保证。
 
本期马德(dé)里欧洲大學(xué)(UEM)计算机公(gōng)开课的分(fēn)享主题為(wèi)《深度变分(fēn)推断框架下的无線(xiàn)感知与AI可(kě)解释性》,分(fēn)享嘉宾李玉箫為(wèi)清华大學(xué)電(diàn)子工(gōng)程系的在读博士,研究方向為(wèi)深度变分(fēn)推断理(lǐ)论和算法框架,针对包含复杂分(fēn)布的推断问题,结合深度學(xué)习和变分(fēn)推断方法,设计新(xīn)的算法方案,主要应用(yòng)于5G、6G的无線(xiàn)感知技(jì )术以及AI的可(kě)解释性。

 

李玉箫介绍

 

· 清华大學(xué)電(diàn)子系信息与通信工(gōng)程方向博士在读

· 目前在巴斯克应用(yòng)数學(xué)研究所访學(xué)

· 发表过十余篇所在领域顶刊顶会文(wén)章

· 國(guó)内外多(duō)个大厂、研究组织实习经历

 
李老师将从自己博士论文(wén)的研究课题入手,联系行业火爆的ChatGPT,带领我们探索深度學(xué)习的黑盒。以下為(wèi)李老师的讲述——
 
 
01
 
深度學(xué)习的背景知识——统计推断
 
 
计算机专业会较多(duō)接触概率论与数理(lǐ)统计,其中(zhōng)贝叶斯推断由来已久。它能(néng)做很(hěn)多(duō)预测问题,比如说天气预测,是否下雨、湿度温度等;學(xué)术一点的,可(kě)以进行基因癌症的诊断。
 
同时,传统推断也面临着现代挑战。伯努利分(fēn)布是机器學(xué)习中(zhōng)的常用(yòng)分(fēn)布,比如说我掷一个硬币,正反面的概率都是二分(fēn)之一,该随机变量满足伯努利分(fēn)布。目前更為(wèi)复杂的问题是,深度學(xué)习涉及图像、音视频等信息,那传统的高斯分(fēn)布或伯努利分(fēn)布这些简单的参数化分(fēn)布,就不易解释,即难解分(fēn)布( intractable distributions)。

 

主要有(yǒu)以下三种表现:
 
一是隐式分(fēn)布具(jù)有(yǒu)难解分(fēn)布。就无線(xiàn)感知应用(yòng)而言,室外容易定位,能(néng)测出距离;室内由于多(duō)径效应影响,有(yǒu)桌子等障碍物(wù)的反射波,就不易观测。
    
二是目标变量具(jù)有(yǒu)难解分(fēn)布。就无線(xiàn)感知而言,例如环境分(fēn)析就是这样一个问题,比如我站在画廊,想知道自己的周围环境,譬如障碍物(wù)、房间结构,这时环境变量的分(fēn)布是难解的,无法像距离一样去物(wù)理(lǐ)定义。 
  
三是隐变量具(jù)有(yǒu)相互依赖关系。例如无線(xiàn)感知中(zhōng)的多(duō)智能(néng)體(tǐ)协作(zuò)定位,多(duō)个智能(néng)體(tǐ)提供的信号之间俱有(yǒu)耦合关系,对于推理(lǐ)结果有(yǒu)影响,可(kě)以做更复杂的图推理(lǐ)。
 
 

02

 
无線(xiàn)感知与AI可(kě)解释性
 
 

结合深度學(xué)习的数据知识,以及传统推断的模型知识,让我们可(kě)以解读复杂信息。举个例子:

 

问:“我到最近柱子的距离是多(duō)少?”那么,传统统计推断的物(wù)理(lǐ)模型就可(kě)以解读,通过识别波峰,用(yòng)電(diàn)磁波的传播速度乘以时间就能(néng)知道距离;

 

如果问:“这幅图的场景有(yǒu)哪些?”图像信号是隐式的,无法建模,无法多(duō)步推理(lǐ),这时通过深度學(xué)习可(kě)以解出;

 
又(yòu)问:“如何判断我的位置和周围环境的关系?” 这时候需要分(fēn)析多(duō)径信号与复杂场景的关系,用(yòng)到统计推断和深度學(xué)习,破解位置和场景的关系。
 

我的研究领域侧重无線(xiàn)感知,在对环境感知后,结合各类其他(tā)技(jì )术,如AI进行后续的处理(lǐ),实现对物(wù)理(lǐ)环境的重建,对环境进行分(fēn)析,对环境中(zhōng)的人与物(wù)进行识别、分(fēn)析,触发后续的动作(zuò)等。

 
 
03
 
深度变分(fēn)推断框架是什么?
 
 

谈及深度变分(fēn)推断框架(Deep Variational Inference Framework),主要分(fēn)為(wèi)三类。

 

第一类是易解概率(Tractable Likelihood)和独立潜在变量( Independent Latent Variables) 。比如说盲图像超分(fēn)(Blind Image Super-resolution),旨在对未知退化类型的低分(fēn)辨率图像进行超分(fēn)增强,由于其对于实际应用(yòng)的重要促进作(zuò)用(yòng)而受到越来越多(duō)的关注。主要分(fēn)為(wèi)显示建模(Explicit Modelling)和隐式建模(Implicit Modelling)两类方法,目前最新(xīn)的方法BSRGAN,通过对多(duō)种模糊核、下采样、噪声退化进行随机置换,在不同类型真实退化数据上取得了非常好的效果。 

 
第二类是难解概率(Intractable Likelihood)和独立潜在变量( Independent Latent Variables) 。传统方法只能(néng)做距离估计,通过网格和深度學(xué)习,可(kě)以把环境变量做一个二维显示,即信号样本点,随着训练的进行,点会做相应变化。
 
第三点是独立潜在变量( Independent Latent Variables) 。比如传统定位每一个点都有(yǒu)一个波形,然后三点画圆,推测位置。现在我想通过图推理(lǐ),输入一个有(yǒu)连接关系的图,再直接通过深度學(xué)习网络,推出图模型。损失函数,由统一模型推出来。  
 
 

04

 
為(wèi)什么ChatGPT能(néng)脱颖而出?
 
 

刚刚我是从无線(xiàn)通信的角度探讨深度學(xué)习,能(néng)為(wèi)传统的统计推断框架做什么。接下来我们反其道行之,讨论统计推断可(kě)以為(wèi)深度學(xué)习提供什么灵感,联系ChatGPT和大语言模型,来谈一谈。

 

统计阶段能(néng)為(wèi)深度學(xué)习做什么?深度學(xué)习本身,比如说大语言模型,它需要加入第一性原理(lǐ),加入经典的推断算法吗?我认為(wèi)是需要的。

目前的大语言模型主要基于2017年提出的Transformer架构搭建,算法本质(zhì)上没怎么变,區(qū)别在于框架和训练方法。它面向的任務(wù)是机器翻译,当然现在也有(yǒu)一些图像,还有(yǒu)强化學(xué)习方面的研究。大语言模型分(fēn)為(wèi)三类:Encoder-Decoder、Encoder-only、Decoder-only(主流大模型)。ChatGPT4就属于Decoder-only。
 

ChatGPT4脱颖而出主要源于指令微调(Instruction Tuning),在多(duō)个以Instruction為(wèi)指导的大量任務(wù)进行學(xué)习,让模型在理(lǐ)解这些具(jù)體(tǐ)的指令后给出答(dá)案。

 

ChatGPT4的升级之处在于,不用(yòng)GPT3.5的反馈奖励模型,而采用(yòng)句式奖励模型GPT4。这也和我的研究联系起来,我会认為(wèi)把模型知识加进去,比添加新(xīn)的网络结构去诱导网络更有(yǒu)用(yòng)、更安(ān)全以及更具(jù)可(kě)解释性。

 
 

05

 
互动答(dá)疑
 
 

UEM:请问李老师,如何将深度學(xué)习应用(yòng)于不同的领域?

 

李玉箫:理(lǐ)论领域,目前深度學(xué)习应用(yòng)比较好的是图像和自然语言。再比如带编码的信息信号,机器學(xué)习其实很(hěn)容易在数据集上过拟合,因為(wèi)自然信号它本身就没有(yǒu)很(hěn)好的数學(xué)模型。但是在传统的,比如脑電(diàn)信号,还有(yǒu)人體(tǐ)的物(wù)理(lǐ)信号,包括我研究的无線(xiàn)信号,UWB、Wi-Fi、蓝牙这种情况下,机器學(xué)习现在必须基于传统的方法做一些增益,因為(wèi)它无法直接使用(yòng)。

 
然后从更广义的应用(yòng)层面。我会觉得比如医(yī)疗保健,我们可(kě)以用(yòng)医(yī)學(xué)图像分(fēn)析疾病诊断、药物(wù)发现或者基因學(xué)研究,来提高医(yī)疗保健的准确性和效率;金融服務(wù)领域,可(kě)以做一些风险评估、投资管理(lǐ);交通运输领域,比如智能(néng)交通、自动驾驶、交通流量预测;制造业领域,比如智能(néng)制造、质(zhì)量控制,包括能(néng)源维护或者开采方面。
 

UEM:未来想进入科(kē)技(jì )大厂,學(xué)习哪些领域能(néng)帮助我更好地实现职业发展目标? 

 

李玉箫:依据我所了解的情况,如果是博士的话,可(kě)能(néng)更看重方向一点,但有(yǒu)时候需要看是否契合具(jù)體(tǐ)的某一个部门的业務(wù)方向。就这几年而言,5G、无線(xiàn)通信、物(wù)联网这一块比较火,但这一块科(kē)研界也还比较欠缺。智能(néng)驾驶这几年挺波动的,企业开的薪酬高,需承担一定风险。

 

另外的话,图像自然语言这一块,一个是纯的AI赛道,譬如图像、音视频、自然语言处理(lǐ)等任務(wù),薪酬高,竞争也非常激烈。但是如果拿(ná)自然语言去做一些别的事情,比如说医(yī)疗、风险评估、城市规划,那这些完全可(kě)以应对,市场也有(yǒu)很(hěn)大的需求。

  
——
 
最后,李老师提到:“对于纯AI 研究,我很(hěn)感兴趣AI在推理(lǐ)和扩展性方面的理(lǐ)论研究,它们有(yǒu)助于帮我们界定深度學(xué)习的适用(yòng)范围和潜在风险。”
 

当一个深度學(xué)习网络可(kě)以识别公(gōng)园中(zhōng)的一只小(xiǎo)狗,我们并不知道这个學(xué)习系统到底是聚焦在环境中(zhōng)狗的尾巴上,还是狗所在的草(cǎo)坪。如果机器學(xué)习具(jù)备举一反三、触类旁通的能(néng)力,相信AI的可(kě)解释性会大大增强。

 

感謝(xiè)李老师的精(jīng)彩分(fēn)享,让我们得以窥探AI深度學(xué)习的黑盒子!也欢迎你申请马德(dé)里欧洲大學(xué)的计算机科(kē)學(xué)与管理(lǐ)硕士,在职學(xué)习,斩获前沿的计算机知识。

 
 
关于【马德(dé)里欧洲大學(xué)】的硕士专业,如果您想了解更多(duō)信息。欢迎关注我们的官方公(gōng)众号【UEM Online】,在公(gōng)众号菜单栏的“课程选择”中(zhōng)获取。
 
撰文(wén) | Anna Wei
编辑 | Anna Wei

关闭