技术的提高,往往象征着行业的退化发现了新的方向。翻译行业也不例外。随着环球化进程不时放慢,人们在启动涉外优惠时都离不开跨言语的交换。机器翻译的出现极大地扩大了翻译的运行场景,诚然它还远远称不上完善,但却在人类应战巴别塔的路上跨出了松软的一步。特邀字节跳动AI Lab机器翻译担任人王明轩,聊一聊机器翻译开展的这些年、那些事。
从基于规定,到基于统计模型,再到基于神经网络
机器翻译的开展与计算机技术、消息论、言语学等学科的开展严密相关。进入21世纪,随着配件才干的优化和算法的优化,机器翻译技术迎来了绝后的跃进,并成功迈出象牙塔,走上了普惠之路。
:纵观历史,机器翻译教训了哪些关键的开展节点?
王明轩: 机器翻译实质是一个十分新鲜的疑问,机器翻译的历史可以追溯到17世纪笛卡尔、莱布尼茨等哲学家提出的「通用言语」。1946年等计算机正式降生后,人们希冀计算机能将一种言语翻译成另一种言语。美国迷信家瓦伦·韦弗在《翻译备忘录》中正式定义了机器翻译的概念和思维。这一时间,在热战背景下,美苏两国也基于搜集消息的要求,投入了少量资金用于机器翻译相关钻研。
一开局大家相对较失望,感觉这事很快就可以搞定了。第一版的翻译系统十分便捷,关键是基于词典,比如把“太阳”翻译为“sun”,但这种词对词的翻译很快遇到了瓶颈,由于一词多义的现象比拟多,比如“bank”,既可以是“银行”,也可以是“河岸”,详细语境中会面临很多选词的困境。 结合言语学家制订的语义规定可以处置一局部歧义,但开展到前期,规定越多,抵触的中央也会越多,系统会越来越复杂,依然无法处置疑问。
1966年美国发布了报告《言语与机器》,片面否认了机器翻译的可行性,并倡导中止对机器翻译名目的资金允许。受此影响,机器翻译堕入高潮期。
直到90年代,IBM提出基于词对齐的翻译模型,标记着现代统计机器翻译方法的降生。基于统计的机器翻译原理很便捷,比如要在语境中判别bank应该翻译成“银行”还是“河岸”,那就启动少量的相关语料统计,会发现高低文里有“钱”相关的,那就更有或许翻译成“银行”,高低文里提到“河流”,那更或许对应的是“河岸”。如此一来, 不用词典与文法规定,而是依照概率来判别详细场景下的语义。这是划时代的变动,机器翻译的品质失掉了渺小的优化。 很快,机器翻译开局在很多适用场景落地。
从1993到2014年基本都属于统计的时代,但虽说是基于统计,还是要求人工去定义很多特征、模板,再进一步设计细节,因此也不是十分灵敏,模型的能量也不是很弱小。
然后到了神经网络时代,神经网络翻译从模型上说关键蕴含编码器和解码器。编码器把源言语经过一系列神经网络变换后示意成一个高维向量,解码器担任把这个高维向量从新解码成目的言语。2014年Seq2Seq的提出,让神经网络翻译缓缓开局比统计机器翻译做得更好。
到2017年时,谷歌提出Transformer,模型更大、结构更灵敏、并行化水平更高,这进一步优化了翻译品质。同年,AlphaGo的胜利也让大家对人工智能的信念更充沛。 也正是在2017年之后,机器翻译的产业化迎来了迸发期 ,直到如今,全体大框架没有出现太大变动,但小细节上出现了很多翻新。
应战“巴别塔”
从词典婚配,到结合言语学专家常识的规定翻译,再到基于语料库的统计机器翻译,以及目前干流的神经网络机器翻译,相比之前,机器翻译的品质有了飞跃式的优化,但照旧面临着重重应战。
:目前机器翻译面临的关键应战在哪里?
王明轩: 应战其实还比拟多。
第一, 如何做稀缺语种的机器翻译 。这是机器翻译从降生以来不时就面临的疑问。语种越小,数据量越少,语料的稀缺会是常年的应战。
第二, 如何做多模态的机器翻译 。近年来,咱们经常要求做语音翻译、视频翻译,理想上这类翻译要求AI做一些前处置之后再做翻译。假设AI处置错了,翻译就或许出现失误。再比如,在同声传译的场景,通常是边说边翻,拿不到完整的高低文消息。这在多模态翻译中都是经常出现疑问。
第三, 最为实质的疑问在于,目前的机器翻译还是基于数据驱动,并没有无了解层面做得更为深化 。模型的学习照旧是依托言语的奉献,而非真正地理解语义。这一点极大地局限了机器翻译的下限。
:火山翻译作为字节跳动旗下机器翻译品牌,如何应答语料稠密疑问?
王明轩: 有两个比拟间接的方法。
第一种是扩大语料,努力让稀缺语料“不再稀缺”。这种思绪是,经过一些模型,尽或许从互联网上失掉语料。比如冰岛语,咱们能搜集少量冰岛语的单语语料,在互联网上就可以去搜集与单语语料相近的英文文本,咱们去找这种或许对齐的语料,构成双语去对。当然咱们有时也用人工标注,但更多的是靠智能的方法自行参与。
第二种是应用言语的特性。大家生存在同一个星球,只管经常使用的言语不同,但其真实形容同一个环球,因此言语在上档次上是有很多特性的。咱们会借助一些迁徙学习或许预训练的方法来处置这类疑问,比如让英语的模型去协助法语的模型,或许让德语的模型协助法语的模型。关键就是这两个思绪。
:在多模态的机器翻译中,要缩小噪声搅扰的话,火山翻译采取了哪些应答战略?
王明轩: 应答噪声搅扰的话,首先,启动了多种模态的 联结建模 。咱们会拿语音信号和文本信号一同去做下游的义务,这样一来,失误传递会缩小很多。,构建多模态的一致语义在学术界也是十分炽热的话题,所以咱们也会排汇其余畛域的很多物品。
其次,咱们在文本这块也会做很多鲁棒性训练,尽量让模型在有失误输入的状况下,还能保障正确的输入,或许不扩展这种失误,相当于把智能纠错和机器翻译做到了一个模型外面。由于人其实是有这种智能纠错才干的,比如人工译员在听到失误的消息时,会启动智能纠正,所以咱们在模型外面也会思索这些消息。
:同声传译对延时的要求很高。然而假设没有结合高低文的语境或许听完完整的语义,准确率又很难保障。机器翻译如何平衡这两者之间的矛盾?
王明轩: 这一点在工业界很有应战性,由于不只关乎延时和准确率的trade off,实践上要求优化的中央更多。
比如在某些会议场景中,翻译字幕要求展如今大屏幕上,观众接受字幕的速度也是关键疑问之一,包括每次字幕展现的长度、字幕弹出的频率,都相关到如何读起来更舒适。其中有很多细节要求咱们重复和产品经理沟通,深化用户调研来看全体满意度。因此, 这不只仅是准确率的疑问,要把用户的实践经常使用体验都作为因素思索出来,再来调整模型。
此外, 延时或许是用户满意度的目的之一,但延时也并非越短越好。 通常有个适宜的gap反而更好。由于延时很短的话,字幕弹出的速度也会很快,用户的接受效果反而不太好。在这方面,咱们也会自守业界的很多成熟做法,比如灵活控制字幕翻译的距离。总体而言,这是一个十分工程化、产品化的疑问。
未来趋向
机器翻译依然不是完美的,但从业者们正在努力让其变得品质更高,可用性更强,适用性更广。让咱们来观察一下它的开展趋向,尤其是当机器翻译与专业译员出现“碰撞”时,翻译服务场景又会发生哪些化学反响。
:随着技术的开展,机器翻译能否会衍生出更多幽默的运行场景?
王明轩: 之前咱们推出的火山翻译AR眼镜就是相似的尝试。往年谷歌I/O大会上压轴发布的AR翻译眼镜也是很无心思的运行,经常使用者佩戴后可以实时看到对话者的译文,类比字幕效果。
这其实都反映出了一种比拟豪华的理想: 咱们宿愿大家能生存在一个沟通无阻碍的环球。 比如:出国旅行时,戴上眼镜就可以了解任何言语的文字揭示,你看到的路牌是德语的,而显示在眼镜上的是中文。日常交换时,他人跟你谈话,对话消息智能变成你所了解的文字,显示在眼镜下方。这都是能更有效地失掉消息的场景。
:久远来看,机器翻译将如何开展?
王明轩:运行方面 ,我感觉机器翻译或许会 和多模态运行结合得更为严密 ,比如视频内容、音频内容的翻译需求会越来越多。另外,机器翻译或许会更多地 与业务出海、文明出海咨询在一同。 由于国际很多公司都在踊跃地启动海外业务的扩张,我以为这个畛域会对机器翻译的开展起到很大协助。
技术方面 ,我能看到的曾经在出现的趋向是: 一是大数据和大模型的训练 。从事这一畛域的人越来越多,模型越来越大,数据量也越来越大,很多人以为这种变动有或许会给机器翻译的才干带来质变。 二是翻译和模态的结合 。不止在翻译方面,业界很多人都在试图构建不同模态的一致语义示意,之前几年,不同模态之间界限还比拟明显,大家交换相对也少。如今,模型越来越分歧。未来或许出现一个模型,既能做文本翻译,也能做语音翻译,甚至能做视频翻译。
:未来,机器翻译能否有或许在特定场景中齐全取代人工翻译?
王明轩: 按目前这种做法必需是取代不了人工的。不过我感觉机器翻译和人工翻译或许不属于一个赛道。
机器翻译的特点,一是速度十分快,二是可以规模化,所以它适宜处置的是海量且要求及时处置的消息。举个例子,假设如今有一千万个视频要从英语翻译成法语,那么纯靠人工是不太能做到的,然而机器可以做。这一点就可以让机器在它的赛道里施展很关键的作用,常年看来是大有裨益的,由于它宽敞了整个市场,让跨言语的市场变得更大。
然而关于很精细的翻译场景,机器翻译或许就力有不逮。就像有人提到的,机器翻译能翻得了《红楼梦》吗?我以为,这就不属于机器翻译的义务范围。小说或诗歌之类的翻译,这一类型的翻译必要求依仗专家。还有规格很高的会议同传,也必需要求专业译员担任,而无法能是机器。但在一些关键性不是很高的会议上,机器翻译的老本长处就会展现出来。
机器翻译跟专业译员,两者附属赛道不同,辨别还是很显明的。不过某种水平上,两者也存在互帮互助的相关。 这体如今:一方面,机器翻译要求的语料就是专业译员消费的。专业译员在上班环节中不时地消费少量的语料,这些语料能够继续协助机器翻译去优化才干。另一方面,机器翻译也可以帮人减轻累赘,处置要求没有那么高的义务。如今也有很多译员在做译后编辑,很多翻译公司让机器先做翻译,译员再做编辑,效率也能因此大幅优化。
嘉宾引见
王明轩,字节跳动AI-Lab机器翻译团队担任人,钻研方向关键为机器翻译和人造言语处置。在机器翻译畛域,宣布包括 ACL、EMNLP 等顶级会谈论文超越40 篇,屡次拿到 WMT等国际翻译评测较量第一。同时还担任EMNLP2022资助主席,和NeurIPS 2022、NLPCC 2022、AACL2022 等会议畛域主席。
栏目引见
“T前线”是内容中心专为技术人物开设的深度访谈栏目之一,经过约请技术界内的业务担任人、资深架构师、资深技术专家等对当下的技术热点、技术通常和技术趋向启动深度的解读和洞察,推进前沿科技的流传与开展。