江溪中文 > 科技入侵現代男主 > 第148章 你們能比我更懂機器翻譯(5k)

      第148章 你們能比我更懂機器翻譯(5k)

          再者,如果你不好好記下來,到時候被開除只是教授一句話的事。

          “好了剛才我們講了一些簡單的內容,現在才是最難的。

          因為ibm的機器不是那么強大,我們只能引入一些比較簡單的統計學方法來提高我們翻譯的準確度。

          我把它叫做基于頻率的詞對齊。

          這也是我們引入統計模型的核。

          我們先要手動分析平行句子,標注俄語詞或短語與英語翻譯的對應關系。

          俄語句子mыгoвopnmomnpe

          英語翻譯:“wespeakaboutpeace

          對齊結果:“mы”對應“we”

          “гoвopnm”對應“speak”

          “o”對應“about”

          “mnpe”對應“peace”

          然后我們需要對這種對齊的頻率進行統計。

          統計每個俄語詞或短語在英語中的對應翻譯出現的頻率。

          例如,在語料中,“гoвopnm”在80%的句子中翻譯為“speak”,20%翻譯為“talk”。

          這樣對于我們就可以構建概率表了。

          將這些概率整理成表格,供機器進行查詢。由于內存空間有限,我們暫時只存儲高頻詞對,像出現次數前1000的詞對,忽略低頻情況。