發(fā)布時間:2025-12-08
2025年12月5日, Neurocomputing期刊在線發(fā)表了題為《Towards Biologically Plausible DNN Optimization: Replacing Backpropagation and Loss Functions with a Top-Down Credit Assignment Network》的研究論文。該研究由中國科學院腦科學與智能技術卓越中心、腦認知與類腦智能全國重點實驗室王佐仁研究組王佐仁研究組聯(lián)合中國科學院自動化研究所劉成林研究組共同完成。團隊提出了一種全新的類腦學習框架:自頂向下信用分配網(wǎng)絡框架(TDCA,Top-Down Credit Assignment Network),首次利用腦啟發(fā)的自頂向下調(diào)控網(wǎng)絡,同時替代傳統(tǒng)人工智能中的損失函數(shù)與反向傳播算法,在多種任務中實現(xiàn)了更快收斂、更強穩(wěn)定性和更低計算成本的學習性能。

圖1:不同的學習方式比較:傳統(tǒng)人工智能優(yōu)化,生物大腦以及TDCA網(wǎng)絡方法
長期以來,人工智能的成功依賴“損失函數(shù)+ 反向傳播”這一經(jīng)典訓練范式。然而,一個根本性問題始終存在:人腦并不是通過反向傳播學習的,那么大腦究竟是如何實現(xiàn)高效學習的?如果人工智能也不使用反向傳播,它還能否學會復雜任務?在傳統(tǒng)人工智能中,損失函數(shù)由人類顯式設計,誤差信號通過反向傳播逐層精確計算。然而,神經(jīng)科學研究表明:大腦中并不存在顯式的數(shù)值損失函數(shù);也不存在類似反向傳播那樣的精確梯度回傳機制;真正起關鍵作用的,很可能是來自前額葉、扣帶回等高級認知腦區(qū)的自頂向下調(diào)控信號。這提示,除了傳統(tǒng)“誤差回傳”機制之外,大腦中可能還存在一種內(nèi)源性的學習調(diào)控方式。

圖2.TDCA網(wǎng)絡整體訓練框架
基于上述神經(jīng)生物學證據(jù),研究團隊提出了TDCA 自頂向下信用分配網(wǎng)絡框架。該框架由兩個網(wǎng)絡構(gòu)成:一個負責執(zhí)行任務的底層任務網(wǎng)絡,以及一個負責生成學習信號的自頂向下調(diào)控網(wǎng)絡。不同于傳統(tǒng)方法中“先定義損失函數(shù)、再進行反向傳播”,TDCA 框架中:自頂向下網(wǎng)絡直接生成用于更新參數(shù)的學習信號,從而整體替代了損失函數(shù)和反向傳播。該框架在機制上模擬了大腦中高級腦區(qū)對低級腦區(qū)的調(diào)控作用,使人工神經(jīng)網(wǎng)絡的學習方式在整體結(jié)構(gòu)上更接近生物大腦。
研究團隊在多個代表性任務中對TDCA 框架進行了系統(tǒng)驗證,包括:非凸函數(shù)優(yōu)化任務(傳統(tǒng)算法易陷入局部最優(yōu))、圖像分類任務(MNIST、Fashion-MNIST)、和強化學習任務(CartPole、Pendulum、BipedalWalker、MetaWorld 機械臂控制)。實驗結(jié)果表明,TDCA 框架具有以下顯著優(yōu)勢:收斂更快,更容易跳出局部最優(yōu);對初始參數(shù)不敏感,穩(wěn)定性更強;可遷移到新任務,具備良好泛化能力;在多項任務中整體性能優(yōu)于傳統(tǒng)反向傳播算法及多種生物可實現(xiàn)學習方法。尤其在強化學習和機器人控制任務中,同一個自頂向下網(wǎng)絡可以同時指導多個不同任務的學習,展現(xiàn)出類似大腦“通用學習策略”的特征。
該研究不僅在算法層面實現(xiàn)重要突破,也在類腦人工智能與計算神經(jīng)科學領域具有深遠意義:為下一代類腦人工智能系統(tǒng)提供全新訓練范式;為低功耗智能芯片提供適配型學習機制;為真實大腦學習機制建模提供新的計算框架;并且為機器人與強化學習系統(tǒng)提供更高效的學習策略。從長遠來看,該工作為構(gòu)建真正“像大腦一樣學習”的人工智能系統(tǒng)提供了一條全新的技術路徑。
腦智卓越中心特聘研究助理陳建輝博士為該論文的第一作者,王佐仁、劉成林研究員為該論文的共同通訊作者,楊天明研究員對論文做出重要貢獻。該工作得到中國科學院戰(zhàn)略先導專項、科技創(chuàng)新2030重大項目的支持。
附件下載: