亚洲中文字幕久久精品无码喷水 ,亚洲av永久中文无码精品综合 ,亚洲一区中文字幕在线观看

    再有就是語言的韻律和節奏了，最初文本生成的語音，都是機械冰冷的同一個音調，毫無感情可言，與人類相去甚遠。

    目前，在感情上發音技術還是有很大的上升空間，但在節奏停頓上，已經進步很大了，不會斷句斷在非常奇怪的位置上。

    模型的輸入是被語言系統標注后的音素，輸出則是梅爾頻譜。頻譜最后通過聲碼器，才會變成語音。

    小學二年級的同學們都知道，信號有兩種表示方式，時域和頻域。一般的語音、音樂都是時域信號，對這些信號做傅里葉變換，就能夠得到信號的頻域表示。

    梅爾頻譜就是一種壓縮之后的頻譜，為了盡量減少數據的大小，同時也更加適配人耳的需求。

    比如人耳對低頻敏感，對高頻則分不太清，因而梅爾頻譜對不同的范圍做了不同程度的取舍，用更小的數據量盡可能地還原了聲音的信息。

    這項80多年前的技術，仍舊被廣泛使用當中。

    “雖然我主要做的東西是第二步中的聲學模型，但現在的第三步聲碼器有些太落后了，我最好同時也做一版更新，搭配使用。”

    聲碼器是根據梅爾頻譜圖生成聲音波形的生成式模型，這正好在孟繁岐已經做了不少工作的方向上。

    順手為之，直接把文本和語音之間的來回轉換一步給它做到位了。

    此時此刻，若是伊利亞等人知道了孟繁岐的打算，肯定會化身魯豫，本能地說出：“真的嗎？我不信。”

    哪有進入一個不大一樣的領域之后，不造螺絲直接造飛機的？

    只是讓你做一個翻譯頁面上的本文發聲功能，你小子怎么直接就想著給整個技術方向都顛覆了呢？

第206章 208. 真的嗎？我不信