江溪中文 > 重生之AI教父 > 162. 網絡的重參數化

      162. 網絡的重參數化

          “自動駕駛的熱度確實也快起來了,我專門針對這方面做點優化工作,也不算虧。”

          孟繁岐一邊利用著重生優勢開始抄底一些車企的股票,一邊開始著手實現一個巧妙的加速并且節省內存的方式。

          這個新的優化辦法叫做網絡結構的重參數化。

          這半年來,視覺方法性能的突飛猛進來自于孟繁岐提出的殘差方法,也就是將y=F(x)變為y=F(x)+x。

          這里的寫法比較簡便,將一系列復雜的操作,抽象歸納為F(),在實際運算過程中,這個F()還是比較復雜的,往往需要算上好一會。

          但在計算的時候,就有一個問題了,原本y=F(x)運算開始的時候,就不再需要繼續存儲x這個變量了,因為它已經在參與F(x)的運算。

          在運算過程當中,它會變成其他的中間變量,然后最終變為我們所想要的y。

          可在殘差辦法當中,y=F(x)+x,x這個原始的輸入,是不能夠舍棄的。

          必須有空間一直被占用著,用來存放這個x,因為它還等著最后加上去呢。

          在比較復雜,分辨率比較高的任務當中,這個變量的大小是相當可觀的。

          這種情況有沒有辦法可以規避?規避之后,殘差方法帶來的性能提升能不能不要被影響?

          答案當然是肯定的,完全可以做到。

          孟繁岐準備實現的這種結構重參數化,其最核心的思想就是模型訓練和實際使用推理的分離。

          首先構造一系列結構(一般用于訓練),并將其參數等價轉換為另一組參數(一般用于推理),從而將這一系列結構等價轉換為另一系列結構。

          在現實場景中,訓練資源一般是非常豐富的,可以在大型的服務器上得到。

          而推理的時候,計算資源往往會比較有限,因此大家更在意的是推理時的開銷和性能。

          想要訓練時的結構較大,具備好的某種性質,比如性能特別好,準確率特別高。

          但在推理的時候,則把結構變小變快,同時在數學上等價于大型的結構。

          孟繁岐的這個新辦法,就提供了這種可能,他相信,重參數+移動端網絡的算力削減,將會成為自動駕駛領域的一大催化劑。