江溪中文 > 重生之AI教父 > 第222章 224. 范式一統

      第222章 224. 范式一統

          “我之前所說的驚喜,一是一款新的模型結構,它將會終結目前序列相關的問題領域的混亂現象。另一個我們放到最后再揭曉。”孟繁岐開門見山,這是寫論文摘要的習慣,先說領域有什么不足有什么問題,自己通過了什么辦法解決了什么難題。

          這樣有助于受眾快速理解三要素,缺陷,方法和結果。

          “序列問題,這個詞可能對不少人來說,顯得稍微有些晦澀。我把事情說得直白一點,在這里主要指的就是像自然語言和語音聲音那一系列問題,當然了,如同基因序列這樣一維的問題也可以歸在其中。”

          “最近一年多的時間,深度學習在圖像領域一枝獨秀,爆發性地突破了很多任務的極限水平。但在自然語言領域,目前的局面仍舊顯得比較混亂。”

          孟繁岐說到這里,不少稍微懂得一些領域內幕的人心中免不了有些腹誹,“什么叫深度學習在圖像領域一枝獨秀,整個兒就是你一個人在秀。”

          “在目前的序列問題領域,傳統的語言技術,效果也還不錯,有著不少的應用。基于深度學習的卷積網絡和循環網絡,相互之間各有千秋。我個人的感覺是,我們學界總體還是非常迷茫,不知道未來應該主要發展哪個方向,不知道哪個方向才是正確的。”

          “對于這個現象,這個問題,我給出的答案是,它們都是不夠好的。目前序列問題發展的最好方向既不是卷積網絡,也不是循環網絡,而應該是注意力機制。”

          “基于這種機制,我們放棄了卷積和循環的模式,提供了一種全新的建模方式,它的名字叫做Transformer,T方法。”

          孟繁岐說到這里,就沒有再繼續詳細解釋T方法的結構和原理了,這一次的宣布,主要目的還是為了流量和關注度,大部分民眾,以及現在現場的人員,都是不大可能能夠理解其中原理的。

          繼續往下說,只會是對牛彈琴,多說無益。

          只有少部分在現場的人懂得這個新范式的意義,比如DeepMind的同事們。

          不過他們早就已經接觸到代碼了,此刻并不會感到驚訝,也不需要孟繁岐過多的解釋。

          “具體的原理和推導,我們很快會有論文公布出來,在這里就不耽誤大家的時間了。”孟繁岐非常清楚,這次最核心的地方還是要展現這種方法在海量問題和數據上的強大能力,應該抓著實驗結果多吹一吹,如果盡量能用普通人可以感受到的方式,那就更好了。

          “Transformer模型是一種先進的深度學習模型,既可以用于語音處理任務,也可以用于自然語言處理任務。我們已經在諸多領域使用它取得了巨大的進展,我在這里借用大家幾分鐘,做一個快速的展示。”

          所有的觀眾們剛剛消化了阿爾法圍棋這個圍棋神明的事實,正是對人工智能有濾鏡的時候。

          “首先,機器翻譯。我大量采用了注意力機制來捕獲輸入句子和輸出句子之間的關聯,從而使翻譯質量得到了很大的提升。”

          說著,孟繁岐的背后顯示出了一個表格,旁邊是不同大小的T方法對傳統最佳辦法的對比柱狀圖圖。

          列舉了幾種常見語言之間,翻譯效果的指標。