科大讯飞陷AI同传造假疑云:语音识别仍存瓶颈?
2018世界人工智能大会刚落幕,科大讯飞却陷入了“AI同传造假”的风波。9月20日,一位同传译员在知乎上发文称,在上海的一场会议中,讯飞的翻译其实为人工同传,并非机器智能翻译,并且译文由机器进行朗读。
这容易让观众产生“都是人工智能翻译”的错觉,而忽略背后同传译员们的劳动成果。对此,9月21日,科大讯飞的回复是,“科大讯飞从来没有把同传翻译包装成机器翻译。”
9月21日,科大讯飞董秘、高级副总裁江涛接受记者采访时说道:“尽管机器翻译获得发展,明年能达到英语专业8级的水平,但依然没办法代替同传。科大讯飞没有提到AI同传,并没有造假吹牛,目前的情况是一个误会”。
他进一步解释道,科大讯飞的智能会议系统有两种工作模式,一种是全自动翻译,系统识别中文并转化成英语、日语、韩语等同步显示在屏幕上;另外一种就是在专业的会议上,直接获取现场同传的声音,再同步到大屏幕上。“科大讯飞没有做混淆,而同传的对接是由会议主办方联系的”。
科大讯飞方面还提到,当机器同时提供转写和翻译服务时,文字展示区Logo显示为“讯飞听见—离线翻译系统”;机器仅提供转写服务时,文字展示区Logo显示为“讯飞听见”。讯飞听见是科大讯飞旗下提供语音转写、翻译的平台。
尽管目前语音识别成为AI的先行领域,但是语音翻译依旧是一大难题,现阶段无法精准翻译属正常现象。据记者了解,识别同传的译文在业内属于普遍的做法,不少公司以此进行夸大宣传。
人工还是智能?
谈及人工智能时代,机器能否代替人工是关注焦点。在语音领域,科大讯飞表示,希望通过语音转写和翻译技术帮助同传提高工作效率、减少失误,形成人机耦合的同传新模式,并不是去替代同声传译。而科大讯飞董事长刘庆峰在不同场合均表示,人机协同、人工智能+行业,才是未来人工智能最有希望做成的。
在走向人机耦合的操作过程中,智能固然离不开人工,但是,双方在配合工作中发生了“摩擦”。
对于此次同传译者的“投诉”,Ledge同声翻译创始人王民杰告诉记者:“除了用机器人的声音把译文读出来不太普遍之外,其他(机器识别同传译文)都很普遍。对于外国人的英文演讲,基本上采取的模式就是由我们人工同传翻译成中文,然后他们再把我们的中文从声音转换成文字显示在大屏幕上”。
“因此,同传界的很多人都觉得是科大讯飞剽窃了我们的劳动成果,让观众误以为是机器在同传,而不是人工同传。”王民杰继续说道,“但是我们在处理问题上也是两难,我们希望科技能够发展,帮助我们进行翻译。但是现在人工智能被过度夸大,我们身份特殊,也担心外界说自己由于害怕失业而进行攻击”。
王民杰的翻译公司和科大讯飞合作密切,此次事件发酵后,他也向科大讯飞提出意见,希望对方在大屏幕上显示他们只是语音识别,声音来自同传。另一位资深同传译者告诉记者:“个人觉得机器代替人工同传还要很长时间,人机结合更实际”。
讯飞翻译产品经理刘晨璇则向记者复盘道:“事情发生在9月19-20日举行的2018创新与新兴产业发展国际会议上,我们向主办方提供了两种方案,一种是自动翻译,另一种是对同传语音进行识别,屏幕是转写的同传语音,我们并没有对此进行包装”。
也有人工智能业内人士告诉记者,其实大家都用这种方式进行,有“偷换概念”的嫌疑。但是同传译者的知识产权有待商榷,一般其产权属于雇用了同传的公司。
在近年来大众对于人工智能、人工翻译的期望颇高。而反观公司,也有将产品“赶鸭子上架”的情况出现。当然,语音方面有不少成熟的解决方案,然而观众的预期和企业产品效果之间差异过大,也导致此次风波发酵。
语音识别仍存瓶颈?
在2017年,科大讯飞就曾表态:现阶段人工智能技术发展不需要“被神化”。“目前,机器翻译已经取得非常大的进步,在衣食住行等常用生活用语上的中英翻译可以达到大学六级的水平,能够帮助人们在一些场景处理语言交流的问题,但距离会议同传以及高水平翻译所讲究的‘信、达、雅’还存在很大的差距”。
对于人工耦合,江涛告诉记者,科大讯飞的人工智能系统会结合听和看的信息,也会针对关键词进行解释,相当于有一个助手在帮助译者进行翻译,降低了同传口译者的工作强度。而科大讯飞已经和上海外国语大学成立了研究院,探讨人机协同模式。在本周的2018世界人工智能大会上,就有三个嘉宾发言采取了人工耦合的模式。应该说,科大讯飞在语音领域技术领先,但是仍面临着不少瓶颈。
首先从科大讯飞的产品技术方向来看,主要包括语音交互、机器翻译、文本识别。其中,语音交互是科大讯飞的老本行,包括语音识别、语音合成等。另外,采用日趋成熟的自然语言理解,也为语音交互提供了更强的支撑。
尤其是语音合成方面,科大讯飞在业界比赛中屡次夺冠。其通过机器学习提取声音的特征,通过声学波形合成出仿真声音。该技术的难点之一,就是如何能够骗过耳朵达到真人说话的效果。
但是在技术成熟的同时,仍有难题需要攻克。比如,遇到同音字识别、环境比较嘈杂的情况以及中文和英文夹杂的时候,语音的识别率就会下降。
刘庆峰在2018世界人工智能上表示,科大讯飞是全球唯一在语音合成中机器超过人工的公司,在安静的环境下,演讲主题确定的情况下语音准确率高,但是多人说话噪音环境下的识别率是关键。在他看来,通过大规模后台服务集群,语音识别正在走向实用。同时,用户也对方言、多人说话、安全保护等方面提出了新要求。
一位人工智能从业者告诉记者,自然语言处理技术需要得到攻克,这就涉及到机器的知识、情感、逻辑等能力。而这三个人类在幼儿时期就能掌握的机能,对于机器来说是难上加难。语音本身不是最难,但是语言背后需要人类的知识系统以及专业领域的能力,这些数据的掌握并非易事。而人工智能公司目前对翻译的野心很大,短时期内系统性地解决还是较为困难。