江溪中文 > 重生之AI教父 > 第222章 224. 范式一統(tǒng)

      第222章 224. 范式一統(tǒng)

          有了這種直觀的圖表,即便不理解其中技術(shù)原理的人,也能夠直觀地對(duì)比不同方法性能之間的差距。

          “然后,是語音識(shí)別,T方法可將音頻頻譜轉(zhuǎn)換為文本形式。”孟繁岐點(diǎn)擊了一下幻燈片上預(yù)設(shè)好的按鈕,然后拿起麥克風(fēng)說了一長(zhǎng)串話:“語音識(shí)別的精確程度固然驚艷,但大家將會(huì)大為震撼的,其實(shí)是T方法在下一個(gè)任務(wù)上的能力。”

          非常迅速地,T方法將該段音聲轉(zhuǎn)換成了文本。由于孟繁岐刻意控制了語速和發(fā)音質(zhì)量,吐字比較清晰,因而這一次語音的轉(zhuǎn)換分毫不差。

          在場(chǎng)的人們雖然前面翻譯的部分聽得是云里霧里的,但在這里還是看得明白的,紛紛鼓掌致意。

          “接下來,我剛才所說的驚艷能力,便是語音合成能力,它同樣可以反過來根據(jù)輸入的文本生成相應(yīng)的語音內(nèi)容。”

          孟繁岐說著,直接把剛剛T方法識(shí)別出來的文本復(fù)制了一下,直接交由T方法去生成。

          很快,一個(gè)知性地女聲響起,若不是這個(gè)句子太長(zhǎng),在幾個(gè)地方發(fā)音仍有一些瑕疵,人們幾乎不敢相信這是由電腦合成出來的聲音。

          雖然T方法在諸多任務(wù)上均取得了不小的提升,但是那些大都是在表格上對(duì)比展示,大家其實(shí)也看不懂一個(gè)點(diǎn)兩個(gè)點(diǎn)意味著什么。

          沒辦法理解其中的技術(shù)含量和突破的難度。

          但這一次語音和文本的來回轉(zhuǎn)換,則直觀了太多。

          “臥槽,他的意思是剛剛那個(gè)聲音是假的?是合成出來的?”戰(zhàn)鷹的嘴再次因驚訝而成一個(gè)O型,她最開始沒有想到這一點(diǎn),后知后覺,半晌才回過神來。

          “我以前聽到的那種機(jī)器語音,都是冷冰冰一個(gè)調(diào)的,一開口就知道是老機(jī)器人了。孟繁岐這個(gè)效果完全不一樣啊,語音語調(diào)都有,語速、停頓的特性都和人類像了很多。要不是偶有一點(diǎn)雜聲,我都快分辨不出來了。”

          語音合成這里,孟繁岐專門對(duì)網(wǎng)絡(luò)做了許多的改動(dòng)調(diào)整,專門設(shè)置了一些音高音準(zhǔn)的調(diào)節(jié)器結(jié)構(gòu),為得就是語音生成出來可以更像是人類在說話。

          此外,還專門做了一個(gè)全新的聲碼器,用來匹配新辦法。在一系列任務(wù)中,屬于是下了較多功夫的,效果自然非常驚艷。

          其實(shí)這個(gè)領(lǐng)域,一直以來也沒有一個(gè)特別好的指標(biāo)來評(píng)價(jià)合成出來的語音到底效果和質(zhì)量怎么樣。

          通常都是使用一個(gè)指標(biāo)叫做MOS,其實(shí)就是人類的平均打分。我找二三十個(gè)志愿者,然后讓他們盲聽一下真實(shí)的語音和幾個(gè)生成出來的版本,讓志愿者打分。

          沒想到吧,在這個(gè)深度學(xué)習(xí)飛速發(fā)展的時(shí)代,竟然還是有少數(shù)領(lǐng)域采用的是如此古老且不好控制均值方差的打分辦法。