免費下載!
[!--downpath--]當前,深度神經網路在各種任務中都明顯趕超了傳統機器學習算法的性能,在計算機視覺、自然語言處理等多個人工智能領域的主流研究方面具有重要的研究價值。但是,深度模型帶來了巨額的估算負擔,且當模型拓展到一定程度后甚至會使性能下滑。為此,在不擴大模型復雜度的前提下研究高性能的子模塊、子結構、乃至最底層神經元,可以方便植入已有的神經網路,具有比拓展模型規模更強的泛用性。
(a)
(b)
圖1.(a)兩物體碰撞模型;(b)模擬碰撞過程設計神經元
據此,北京學院人工智能大學申富饒院士領導的RINC研究組深入研究了神經元模型與神經網路泛化性能之間的關系,借鑒化學碰撞模型中數學量的變換過程,設計了一種被稱為層間碰撞(Inter-layer,IC)神經元的高性能人工神經元。如圖1所示,兩物體碰撞后速率的變化依循動量和能量守恒定理,IC神經元則將速率作為神經元間傳遞的信息量,用前后層的兩個神經元建立一個碰撞過程,并在同一層內擴充。IC神經元結構如圖1(b)所示,其物理表示為(其中表示ReLU函數,f表示任意激活函數):
IC神經元保留了當前主流MP神經元結構重型、易于拓展和訓練的特性,同時具有更強的非線性表示能力和泛化能力。比如,在精典的線性不可分XOR問題上,單個IC神經元提供了一種良好的解決方案,而單個MP神經元則未能解決該問題。
IC神經元將輸入空間沿某一超平面切分成兩部份,再在每部份空間執行不同的線性變換。這些方法降低了輸入數據的變換模式大學物理實驗彈性碰撞大學物理實驗彈性碰撞,因而,和相同規模的MP神經網路相比,IC神經網路可以學習到更復雜的輸入分布。申富饒院士團隊將該新型人工神經元應用到三種主流神經網路結構(全聯接、卷積、循環神經網路)和多個深度模型(、、等)中進行了實驗驗證。實驗結果顯示,在不改變MP神經網路結構的條件下,IC神經元可以應用于各類模型和任務中,并能提高多個任務下各種神經網路的性能,尤其在深度模型中,IC神經元使幾種模型在圖象分類上的精度顯著提高,且幾乎沒有引入新的估算負擔。圖2展示了IC神經元在幾個分類任務和回歸任務中的表現。
(b)
(c)(d)
(e)
圖2.(a)IC全聯接結構在YEAST數據上的訓練曲線;(b)IC循環網路在IMDB上的訓練曲線;(c)IC頻域網路在上的訓練曲線;(d)IC加法網路在AUST數據上的回歸曲線
(e)全聯接神經網路在多個任務中的分類精度比較(只用IC神經元替換M-P神經元,不做其他任何操作)
該工作探求了神經元設計的全新思路并為神經網路模型使用者提供了一條簡單有效的優化方法。成果以《IC:Anunitto》為題發表在(DOI:10.1016/j..2021.10.005)上。北京學院計算機與科學系2018級博士生安俊朗為該論文第一作者,通信作者為申富饒院士。該工作同時也得到了北京學院電子大學趙健副院長的指導與支持,以及國家自然科學基金()項目的捐助。
論文鏈接: