2、電商機器翻譯技術體系的特點
在線上快速發(fā)展以及隨著集團開始全面國際化的背景下,電商機器翻譯平臺經過多年的打磨逐漸形成自己的體系。
2.1高性能高并發(fā)服務能力
當前在線機器翻譯系統(tǒng)提供SMT和NMT兩種翻譯模型,近兩年來由于硬件計算能力的大幅提升和深度機器學習的廣泛使用,在翻譯質量上NMT翻譯質量已經遠超傳統(tǒng)的SMT模型,不過NMT在計算上的復雜使得NMT在速度上也遠慢于SMT。NMT解碼速度的提升是系統(tǒng)提供高吞吐,低延遲服務的關鍵。
2.1.1 分布式并行翻譯
當前機翻平臺承接的業(yè)務相當大的一部分翻譯需求為大本文和網頁,將這些請求按照對應的格式進行結構化的解析,然后通過分句模型把篇章級的請求分隔為句子級別,然后再分布式批量調用解碼服務,這樣不僅能大幅提高分布式緩存的命中率,環(huán)節(jié)性能壓力同時也能大幅降低長文本的翻譯延遲。
2.1.2 Inference優(yōu)化
今年NMT已經成了翻譯行業(yè)的一個標配,隨著這種技術的普及也給系統(tǒng)性能帶來了新的挑戰(zhàn)。這一年多基于GPU的NMT優(yōu)化極大的提高了系統(tǒng)的解碼速度,對系統(tǒng)的解碼速度有數倍的提升。
2.1.3 SMT和NMT混合解碼
根據實際業(yè)務場景,我們發(fā)現在處理商品頁的時候會出現大量短句,而且這些短句的NMT翻譯結果還不如SMT的翻譯結果,所以在調用decoder前通過一個策略模塊來決策調用SMT或者NMT,從而減少NMT的吞吐量,極大的減少了GPU資源的消耗同時也提升了翻譯質量。
2.2 服務全球化以及高可用的保障
2.2.1 全球多機房部署
電商集團的涉及到的多語言翻譯業(yè)務需求遍布全球,為了更好的支持不同地域的翻譯需求同時能盡量減小由于地域帶來的訪問延遲,翻譯平臺實現了全球中國、俄羅斯、美國、新加坡多機房部署。 不僅實現了單地域的多機房容災同時還支持跨地域全球容災。
2.2.2 多場景差異化支持
電商翻譯接入的場景比較多情況也比較復雜,不同的應用場景對系統(tǒng)的要求也不盡相同,所以針對不同的應用場景實現了同步和異步兩套處理機制,架構上實現兩種不同的對外接口,但是機翻引擎保持同一套代碼同一套服務,
同步:
接收到請求后實時的調用后端引擎,能夠做到實時返回,用于對rt要求高的場景,另外通過多級緩存進一步的提高吞吐量和降低rt。
異步:
大文本商品翻譯和離線翻譯場景。通過metaq消息隊列實現異步化,通過不同的消息隊列來對應用設置不同的優(yōu)先級,使用信號量來控制不同隊列消費的線程數,動態(tài)的解決翻譯熱點時消息堆積問題。
2.3 Transformer 新型神經網絡結構
電商機器翻譯基于業(yè)界最新的Transformer結構進行了網絡結構的改進和對詞語位置信息的充分利用,全面改進了機器翻譯的性能。
2.4 多模態(tài)服務能力
現階段的機器翻譯已不僅僅局限于文字到文字的翻譯, 多模態(tài)的翻譯已成為發(fā)展趨勢。將多模態(tài)的信息如語音、圖像、類目等通過神經網絡進行融合,并利用Attention機制將信息加以聚焦,可以獲得良好的效果。電商翻譯實時語音翻譯demo在云棲大會、CES展會上都有亮眼的表現。