Nonparametric optimality for large compressible deep neural networks under quadratic loss functions

时间:2020-12-31         阅读:

光华讲坛——社会名流与企业家论坛第5618


Nonparametric optimality for large compressible deep neural networks under quadratic loss functions

主讲人南京审计大学 吕绍高教授

主持人统计学院 林华珍教授

时间2021年1月4日(周一)下午4:00-5:00

直播平台及会议ID腾讯会议,293 380 936

主办单位:统计研究中心 统计学院 科研处

主讲人简介:

吕绍高,现为南京审计大学统计与数学学院教授,兼校外博士生导师。2011年毕业于中国科大-香港城市大学联合培养项目,获得理学博士学位。主要研究方向是统计机器学习,当前主要研究兴趣包括联邦学习、再生核方法以及深度学习的理论分析。迄今为止在SCI检索的国际杂志上发表论文20多篇,包括国际统计或人工智能类期刊 《Annals of Statistics》、《Journal of Machine Learning Research》、《Neural Computation》与《Journal of Econometrics》。主持过国家自然科学基金项目2项。长期担任人工智能顶级会议“NeurIPS”、“ICML”、“AAAI”以及“AIStat”程序委员或审稿人。详情请见其个人主页:


内容提要:

Establishing theoretical analysis that explain the empirical success of deep learning have attracted increasing attention in modern learning literature. Towards this direction, we evaluate excess risk of a deep learning estimator based on fully connected neural networks with ReLU activation function. In this paper, we establish optimal excess bounds under the quadratic loss and the composite structures of the true function. The obtained excess bounds are built upon so called compressible conditions on over-parameterized neural networks, including widely-used sparse networks, low rank networks associated with weight matrices as special cases. The core proof is based on advanced empirical processes and new approximation results concerning deep neural networks.

对解释深度学习的经验成功理论的研究在现代机器学习理论中受到广泛的关注。对于这个研究方向,我们基于ReLU激活函数的全连接神经网络来研究深度学习估计量的超出风险。 在本文中,我们在二次损失函数和真实函数的复合结构下建立了最优的风险界,其中我们所得到的风险界是建立在过参数化神经网络(所谓的可压缩条件)上的,其中包括广泛使用的稀疏网络与权重矩阵相关的低秩网络作为特例。另外,理论的核心证明技术来自高级经验过程和有关深度神经网络的最新逼近结果。