江溪中文 > 重生之AI教父 > 第206章 208. 真的嗎?我不信

      第206章 208. 真的嗎?我不信

          “他們到時候不信,這倒也沒什么關系,等英偉達的那批泰坦顯卡到了,我給他們整個大的。”

          語言模型,就是要大!相比現在流行的辦法,只要模型做大,別的技巧就算不用那也是降維打擊。

          切到自己的工作這邊來,文字合成語音,實際上和語音識別技術是一對孿生兄弟。

          一個是從文本生成語音,讓機器說話,另一個則是識別語音成為文本,讓機器在比較熟悉的語言領域處理這些信息。

          孟繁岐既然動了手,自然兩兄弟都打包一起做了。

          先做公司有任務的文字生成語音這一邊,這個技術當然不僅僅只限于在翻譯界面上進行簡單的發音。

          “文字生成語音的應用范圍還是比較廣泛的,比如谷歌剛剛收購的智能家居公司,其中就可以有各種語音助手,或者是有聲讀物,乃至于23年開始有些起色的AI歌手和AI主播這種泛娛樂方向。”

          尤其是AI歌手,通過大量語音素材學習到一個人的嗓音特色之后,就完全可以生成海量的各種歌曲,突破了語言的限制,想讓他唱什么就讓他唱什么。

          妙,實在是妙啊!

          “現在的語音合成系統主要分三步走,前端預處理,聲學模型和聲碼器。雖然深度神經網絡可以更加激進地舍棄其中一些環節,但同樣也會帶來新的問題。”

          “我的目的只是為了完成奠基之作,推廣T方法出去,不必給自己加那么大的工作量,語音不是我非常關注的方向。”

          孟繁岐的思路比較清晰,雖然重生了,倒也不必要什么工作都要復現那么到位。

          “前端處理主要是給定一個文本生產它的發音信息及語言學信息,這部分現在比較成熟,直接根據處理好的信息去學聲學模型會容易不少,可以顯著降低我的工作量。”

          所謂的發音信息,可以理解為字形轉音形。

          比如【滾】,音形就哥悟嗯,其實就是類似拼音的一種記錄方式,它比字形更接近最后的發音情況,更加一一對應。

          并且,如果只看字形,就很難處理多音字的問題,前端處理的過程中,就可以根據前后文判斷這個多音字在這里到底是如何發音。

          轉換成為音形之后,就不會讀錯了。