江溪中文 > 重生之AI教父 > 第206章 208. 真的嗎?我不信

      第206章 208. 真的嗎?我不信

          再有就是語言的韻律和節奏了,最初文本生成的語音,都是機械冰冷的同一個音調,毫無感情可言,與人類相去甚遠。

          目前,在感情上發音技術還是有很大的上升空間,但在節奏停頓上,已經進步很大了,不會斷句斷在非常奇怪的位置上。

          模型的輸入是被語言系統標注后的音素,輸出則是梅爾頻譜。頻譜最后通過聲碼器,才會變成語音。

          小學二年級的同學們都知道,信號有兩種表示方式,時域和頻域。一般的語音、音樂都是時域信號,對這些信號做傅里葉變換,就能夠得到信號的頻域表示。

          梅爾頻譜就是一種壓縮之后的頻譜,為了盡量減少數據的大小,同時也更加適配人耳的需求。

          比如人耳對低頻敏感,對高頻則分不太清,因而梅爾頻譜對不同的范圍做了不同程度的取舍,用更小的數據量盡可能地還原了聲音的信息。

          這項80多年前的技術,仍舊被廣泛使用當中。

          “雖然我主要做的東西是第二步中的聲學模型,但現在的第三步聲碼器有些太落后了,我最好同時也做一版更新,搭配使用。”

          聲碼器是根據梅爾頻譜圖生成聲音波形的生成式模型,這正好在孟繁岐已經做了不少工作的方向上。

          順手為之,直接把文本和語音之間的來回轉換一步給它做到位了。

          此時此刻,若是伊利亞等人知道了孟繁岐的打算,肯定會化身魯豫,本能地說出:“真的嗎?我不信。”

          哪有進入一個不大一樣的領域之后,不造螺絲直接造飛機的?

          只是讓你做一個翻譯頁面上的本文發聲功能,你小子怎么直接就想著給整個技術方向都顛覆了呢?