江溪中文 > 重生之AI教父 > 第206章 208. 真的嗎?我不信

      第206章 208. 真的嗎?我不信

          傳統的循環類模型對比較長的句子處理能力較差,這在翻譯任務中是比較影響用戶體驗的。相信嘗試機翻過長篇文章的人都有類似的體會。

          “我直接整篇文章復制黏貼進去,然后把翻譯結果再復制黏貼出來。”

          這是大多數人第一時間的想法,直接一步到位,這是墜吼的。

          只可惜,如果這么做,最后翻譯出來的結果只能是一團糟。只要是超過四五十字的文本,就很容易翻譯得非常混亂了。

          稍微聰明一點的人會發現,如果一段一段去復制翻譯,得出的翻譯結果就會好很多。

          如果一句一句去翻譯,質量又會再次上升一些。

          雖然有點麻煩,操作也更繁瑣了,但勝在不用動腦子。總歸還是比自己辛辛苦苦哼哧哼哧地去翻譯要輕松。

          這里面有很大的一部分原因,就是翻譯技術在長距離上容易遺忘。

          “模型結構變得簡單其實沒什么奇怪的,數據的數量、質量以及訓練的策略更加重要。讓人眼花繚亂的那些算子們大部分情況下并不解決實際問題,只是在特定的任務上抽獎罷了。”

          對于同事們的將信將疑,孟繁岐也能理解。若是大家都很容易能接受,那早就有人做了類似的事情了。

          “思想和方法的改變才是根本的東西,比如AlexNet之后,許多人都在魔改那一套網絡,各種算子改來改去,這個小一點那個大一點,這里多一點那里少一點。”

          “縫縫補補只有非常微小的提升。”

          “而殘差鏈接則是全新的思想,應用了這個技術之后,各種算子反而不需要那么花里胡哨,就統一使用相同的設置和配置,一樣能夠力壓群雄。”

          伊利亞總體來說還是支持這種革命式的改變的,只是大家都覺得合理的細微變化,自然就無法取得真正的突破。

          “我先試試看,不知道好不好用。”伊利亞是非常講數據和實驗結果。

          別說是他覺得這個思路有機會,就算是他本人覺得這玩意不靠譜。只要能有一套理論邏輯把它解釋通順,伊利亞都愿意實現它嘗試一下看看效果。

          “不過,純注意力機制的T方法在早期有不小的缺陷,模型小了效果不好,數據少了效果不好,訓練方式不對效果還是不好。”

          看伊利亞和幾個將信將疑的同事開始了嘗試,孟繁岐心中清楚,他們恐怕是很難直接取得成功的。但這并不是方法本身的問題,而是諸多因素一起的限制。