實時語音翻譯,Skype如何做到同傳的精準?

長久以來,人類都含有一個共同的夙愿:發明一個機器,實現全世界之間毫無障礙的自由交流。而毫無疑問,自由交流,在一個宣稱為自由連接的互聯網時代,更能夠彰顯它的價值。畢竟,同是地球人,同住地球村,當你我覓得彼此,卻聽不懂彼此的語言,實在有些尷尬

長久以來(lai),人類(lei)都含有(you)(you)一個(ge)共同(tong)的(de)夙愿:發明一個(ge)機器,實(shi)現全世界之間毫無(wu)障礙的(de)自由交流。而(er)毫無(wu)疑(yi)問(wen),自由交流,在一個(ge)宣稱為自由連接的(de)互聯網時代(dai),更能夠彰顯它的(de)價值。畢竟(jing),同(tong)是(shi)地球人,同(tong)住地球村,當(dang)你我覓得彼此(ci),卻(que)聽不懂彼此(ci)的(de)語(yu)言,實(shi)在有(you)(you)些尷尬。

微軟旗下的Skype進行宣布,具備了實時語音翻譯的翻譯器Skype Translator中(zhong)(zhong)(zhong)文預覽版已(yi)經正式在(zai)中(zhong)(zhong)(zhong)國的(de)市場上推(tui)出(chu)了(le)。其(qi)實,不(bu)同于母語(yu)(yu)間(jian)的(de)人直接對(dui)話(hua),讓機器實時(shi)翻譯,這些技術微(wei)軟早在(zai)去年(nian)的(de)時(shi)候就已(yi)經與(yu)公眾見面(mian)了(le),只是那個時(shi)候還(huan)不(bu)支持(chi)中(zhong)(zhong)(zhong)文。你知道,哪怕是對(dui)于機器,有大(da)約一萬(wan)個常用漢字以及各種語(yu)(yu)音(yin)語(yu)(yu)調的(de)中(zhong)(zhong)(zhong)文也(ye)頗具挑戰性。但如今,包括微(wei)軟和(he)谷歌在(zai)內的(de)科技巨頭(tou)的(de)發(fa)力,使得地球上使用人數最多的(de)語(yu)(yu)言與(yu)使用最廣泛的(de)語(yu)(yu)言能夠直接開展對(dui)話(hua)了(le)。

Skype的翻譯(yi)系統(tong)主要是(shi)分(fen)個三步驟:首先,把你的實時語音翻譯(yi)成(cheng)文(wen)(wen)字(zi);然后,再把文(wen)(wen)字(zi)翻譯(yi)成(cheng)為另外一(yi)種(zhong)語言的文(wen)(wen)字(zi);最后,把文(wen)(wen)字(zi)轉(zhuan)換(huan)成(cheng)語音。其中(zhong),識別實時語音并轉(zhuan)換(huan)成(cheng)文(wen)(wen)字(zi),一(yi)直(zhi)是(shi)最棘手(shou)的部分(fen)。

如你所(suo)知,精準的實時語音翻譯,有賴于(yu)強大的(de)機器學習,也就是軟件學習訓練數據的(de)能(neng)力。這些訓練數據包(bao)括(kuo)翻譯的(de)網頁,配有字幕的(de)視頻,以及預先翻譯且轉錄成文字的(de)一對一談話。Skype Translator通過記錄(lu)對(dui)話來分析文(wen)本(ben)并且訓練系(xi)統(tong)能夠更好地“學(xue)習(xi)”語(yu)(yu)言(yan)——當準(zhun)備好的(de)數(shu)據(ju)錄(lu)入(ru)系(xi)統(tong)后(hou),機器學(xue)習(xi)軟件(jian)會在這些對(dui)話和環境涉及到的(de)單詞中(zhong)搭建(jian)一(yi)個統(tong)計模(mo)(mo)型(xing),當你說話時,軟件(jian)會在統(tong)計模(mo)(mo)型(xing)中(zhong)尋找(zhao)相似內(nei)容(rong),然后(hou)應用到預先“學(xue)到”的(de)轉化(hua)程(cheng)序中(zhong),得以(yi)讓(rang)語(yu)(yu)音轉換為文(wen)本(ben),再從(cong)文(wen)本(ben)轉換成另一(yi)種語(yu)(yu)言(yan)。

值得一提的是(shi),與程序設(she)定(ding)一般的朗誦不同,人會一邊(bian)思考一邊(bian)說(shuo)話,會犯錯(cuo),這種犯錯(cuo)在口語表達中的體現(xian)就是(shi)打(da)磕巴,停頓(dun),重復,或者(zhe)頻(pin)頻(pin)出現(xian)如“嗯(ng)”“啊”“呃”之(zhi)類(lei)的語氣助詞,針對于此(ci),Skype Translator的機器學習模型也會處理這些停(ting)頓。在(zai)預覽版中,用戶(hu)可(ke)(ke)以看(kan)到部分(fen)語氣(qi)詞停(ting)頓被(bei)移(yi)除,而(er)未被(bei)移(yi)除的部分(fen)則可(ke)(ke)能(neng)通過用戶(hu)反饋進(jin)行再優化。

在(zai)數據進入系統(tong)之(zhi)后,機器學習軟(ruan)件(jian)會為對話中的(de)單(dan)詞建立統(tong)計模(mo)型,當你說到(dao)某一(yi)(yi)個東西(xi)時(shi),系統(tong)會在(zai)統(tong)計模(mo)型里尋找類似(si)的(de)單(dan)詞,并響應之(zhi)前做過(guo)的(de)類似(si)的(de)翻譯(yi)。實(shi)時(shi)語音(yin)翻譯(yi)對用(yong)戶對話的(de)環境(jing)很敏感,稍有噪音(yin)干擾可能準確度(du)就(jiu)會降低很多。這(zhe)一(yi)(yi)方面,深度(du)神經網絡有效的(de)減少識別錯誤率,改善了系統(tong)的(de)健壯(zhuang)性,讓實(shi)時(shi)翻譯(yi)能夠有更大的(de)應用(yong)范圍。

不(bu)過,作為一項不(bu)斷(duan)優化的技(ji)術,無論是(shi)微軟的Skype Translator還是(shi)“老對手”谷(gu)歌(ge)的(de)Google Translate,至(zhi)少在現階段,實時語音翻譯技術應該還(huan)是談不上完美的(de),系統對語音的(de)識別(bie)準確率也有待完善。要知道,語言(yan)如同(tong)一只(zhi)野獸,時刻(ke)都在變(bian)化(hua),哪怕同(tong)一國家,因地域不同(tong)也有不同(tong)口音與俚語文化(hua)。這些問(wen)題可以通過更大范(fan)圍的(de)數據解決么?也許能(neng),但還(huan)需要時間。

然(ran)而無論怎樣(yang),就像(xiang)一(yi)位(wei)評測(ce)者所言:“整個體驗就像(xiang)是兩名(ming)電(dian)話銷售員在使用對講機,不過(guo)(guo)在使用過(guo)(guo)程中,這樣(yang)的(de)抱怨將會被‘奇跡’帶來的(de)震驚所取(qu)代。”

Skype的機器學習原(yuan)型(xing)通(tong)過(guo)預覽階段的大量數據進(jin)行訓練,并(bing)優(you)化語音識別(SR)和自動化機器翻譯(MT)任(ren)務(wu),這些優化包括去除語句中(zhong)的不流(liu)利成(cheng)分(fen)(比如“ahs”、“umms”和重復性的語(yu)言)、把文(wen)(wen)本分段(duan)成句子、增加標點符號(hao)、文(wen)(wen)本的大小寫等等。

至于不同語言的文本翻譯,Skype利用的則是(shi)和Bing翻譯(yi)一樣的引擎技術:語(yu)(yu)法和統計模型的結合(he)使(shi)用,同時為特定語(yu)(yu)言(yan)進行(xing)特殊(shu)的訓(xun)練。普(pu)通的文(wen)本翻譯(yi)往往要求使(shi)用規(gui)范正確(que)的書面語(yu)(yu)言(yan),而Skype翻譯系統不僅(jin)包括Bing翻譯的引(yin)擎技術(shu),還額外(wai)增加了一層口語(yu)化的語(yu)言業務。

此(ci)外,Skype還(huan)建立了一(yi)套自定義的(de)串連整個流程的(de)架構,以協(xie)調系統(tong)(tong)里(li)多個部分間的(de)運作(zuo)。如何簡單又高效的(de)運作(zuo)整個系統(tong)(tong),也是一(yi)門不(bu)小的(de)學問。

Skype的實時(shi)語音(yin)翻譯系統還面臨(lin)著(zhu)很多(duo)挑戰,比如語(yu)言的變化的速度(du)很快(kuai),每(mei)個(ge)人說話的方式又很獨(du)特,這些都會(hui)為實時翻(fan)譯造(zao)成不少的麻煩(fan)。但是(shi),對(dui)于這一種(zhong)可(ke)能(neng)會(hui)真(zhen)正改(gai)變人們交流(liu)方式的科技產品,越來越多(duo)的人都為之激動。相信全人類的夙愿終會(hui)實現。