谷歌同聲翻譯Translatotron原理
背景介紹
作為中國人,學好英語這件事從小學開始就讓人苦惱,近些年隨著AI的快速發(fā)展,語言差異是否會縮小甚至被消滅成了熱門話題。在5月15日,谷歌AI在博客平臺發(fā)出一篇文章,正式介紹了一款能保留原聲的“同聲傳譯”黑科技,消息一出,迅速席卷網(wǎng)絡,為科技發(fā)燒友帶來了更多曙光,下面,讓我們來揭開這個叫做“Translatoron”的神秘面紗。
Translatotron的出現(xiàn)
目前市面常用的語音翻譯產(chǎn)品的翻譯過程包含三個步驟,首先將語音轉(zhuǎn)換為文字,再由機器將文字轉(zhuǎn)換為目標語言文字,最后將目標語言的文字轉(zhuǎn)化為語音(文字轉(zhuǎn)語音全稱Text-To-Speech,也叫TTS)。
而谷歌的Translatotron有很大不同,它通過某種手段實現(xiàn)了語音到語音的直接轉(zhuǎn)譯,避免了上述的三個步驟。除此之外,它還有一些其它的優(yōu)勢,比如更快的推理速度、更容易識別不需要翻譯的名稱及專業(yè)名詞等,最牛的是它可以保留原說話人的聲音特征,做到原聲輸出其它語言,幻想一下用自己的聲音說出了連本人都聽不懂的外語,是不是有點像《流浪地球》中的同聲翻譯,多刺激啊,在此向大劉致敬!
Translatotron的原理
其實端到端的語音翻譯在2016年就出現(xiàn)了,當時研究者們發(fā)現(xiàn)用“序列到序列模型”來做“語音到文字”的翻譯可行性很高,到了2017年,研究者們證明出它果然很吊,但是這還不夠,Translatotron的出現(xiàn)又向大家證明了“序列到序列模型”不僅可以轉(zhuǎn)文字,還可以不依賴任何中間文本,直接幫你轉(zhuǎn)為語音。
上面部分的名詞有些含糊不清,這里來解釋一下,首先是端到端學習,英文名為end-to-end,它就像一個黑盒子,人們把數(shù)據(jù)丟進去后只關(guān)心結(jié)果是否與期望的結(jié)果一致,不關(guān)心中間的實現(xiàn)過程。這個黑盒子的實現(xiàn)原理是,當結(jié)果和期望的結(jié)果出現(xiàn)誤差后,它會將誤差反傳回訓練模型的每一環(huán)節(jié),讓它們根據(jù)誤差來自我調(diào)節(jié),直到結(jié)果與預期相符為止。
而序列到序列模型,英文為Sequence to Sequence,它是端到端理念的一種實現(xiàn)框架,最早出現(xiàn)于Bengio在2014年的論文,Bengio是蒙特利爾大學的教授,他與另外兩位朋友被AI領(lǐng)域的人戲稱為“加拿大黑手黨”。
“序列到序列”模型的目的是“將一個領(lǐng)域(比如中文)的序列轉(zhuǎn)化為另一個領(lǐng)域(比如英文)的序列”,它是通過聯(lián)合兩個循環(huán)神經(jīng)網(wǎng)絡(RNN)來實現(xiàn)的,而聯(lián)合的這種結(jié)構(gòu)又被叫做編碼-解碼(Encoder-Decoder)結(jié)構(gòu),結(jié)構(gòu)的兩端支持多種數(shù)據(jù)類型,比如文字、語音、圖像、視頻等,非常適用于機器翻譯。
Translatotron正是利用了圖像這種數(shù)據(jù)類型,它通過聲譜圖作為輸入,再生成出目標語言的聲譜圖,然后通過一個叫做Vocoder的語音編解碼器(用于分析和合成用于音頻數(shù)據(jù)壓縮,多路復用,語音加密,語音轉(zhuǎn)換等的人類語音信號)將新生成的光譜圖轉(zhuǎn)換為時域波形(一種表達信號與時間關(guān)系的波浪形狀)。另外,它還可以選擇使用一個編碼器在合成翻譯語音中維護原來的語音特征。
這項研究是由谷歌大腦、谷歌翻譯和谷歌語音團隊共同完成的,由于目前的訓練數(shù)量較少,Translatotron所展示出的翻譯質(zhì)量以及原聲匹配度沒有預想中那么好,但隨著更多數(shù)據(jù)的訓練相信會有非常光明的前景。感興趣的同學可以去官方博客了解一下。

浙公網(wǎng)安備 33010602011771號