免费下载!
[!--downpath--]当前,深度神经网路在各种任务中都明显赶超了传统机器学习算法的性能,在计算机视觉、自然语言处理等多个人工智能领域的主流研究方面具有重要的研究价值。但是,深度模型带来了巨额的估算负担,且当模型拓展到一定程度后甚至会使性能下滑。为此,在不扩大模型复杂度的前提下研究高性能的子模块、子结构、乃至最底层神经元,可以方便植入已有的神经网路,具有比拓展模型规模更强的泛用性。
(a)
(b)
图1.(a)两物体碰撞模型;(b)模拟碰撞过程设计神经元
据此,北京学院人工智能大学申富饶院士领导的RINC研究组深入研究了神经元模型与神经网路泛化性能之间的关系,借鉴化学碰撞模型中数学量的变换过程,设计了一种被称为层间碰撞(Inter-layer,IC)神经元的高性能人工神经元。如图1所示,两物体碰撞后速率的变化依循动量和能量守恒定理,IC神经元则将速率作为神经元间传递的信息量,用前后层的两个神经元建立一个碰撞过程,并在同一层内扩充。IC神经元结构如图1(b)所示,其物理表示为(其中表示ReLU函数,f表示任意激活函数):
IC神经元保留了当前主流MP神经元结构重型、易于拓展和训练的特性,同时具有更强的非线性表示能力和泛化能力。比如,在精典的线性不可分XOR问题上,单个IC神经元提供了一种良好的解决方案,而单个MP神经元则未能解决该问题。
IC神经元将输入空间沿某一超平面切分成两部份,再在每部份空间执行不同的线性变换。这些方法降低了输入数据的变换模式大学物理实验弹性碰撞大学物理实验弹性碰撞,因而,和相同规模的MP神经网路相比,IC神经网路可以学习到更复杂的输入分布。申富饶院士团队将该新型人工神经元应用到三种主流神经网路结构(全联接、卷积、循环神经网路)和多个深度模型(、、等)中进行了实验验证。实验结果显示,在不改变MP神经网路结构的条件下,IC神经元可以应用于各类模型和任务中,并能提高多个任务下各种神经网路的性能,尤其在深度模型中,IC神经元使几种模型在图象分类上的精度显著提高,且几乎没有引入新的估算负担。图2展示了IC神经元在几个分类任务和回归任务中的表现。
(b)
(c)(d)
(e)
图2.(a)IC全联接结构在YEAST数据上的训练曲线;(b)IC循环网路在IMDB上的训练曲线;(c)IC频域网路在上的训练曲线;(d)IC加法网路在AUST数据上的回归曲线
(e)全联接神经网路在多个任务中的分类精度比较(只用IC神经元替换M-P神经元,不做其他任何操作)
该工作探求了神经元设计的全新思路并为神经网路模型使用者提供了一条简单有效的优化方法。成果以《IC:Anunitto》为题发表在(DOI:10.1016/j..2021.10.005)上。北京学院计算机与科学系2018级博士生安俊朗为该论文第一作者,通信作者为申富饶院士。该工作同时也得到了北京学院电子大学赵健副院长的指导与支持,以及国家自然科学基金()项目的捐助。
论文链接: