技术非中立,语言非同质:机器翻译正被用于维护文化障碍(6)
2024-09-29 来源:旧番剧
——Kerim Friedman
最先进的神经系统机器翻译技术的训练和评估,逐渐依赖于人类翻译者产生的大量的平行语料数据,这种做法是由范式的信息理论根源所决定的。在翻译学者和文学评论家看来,韦弗将语言之间的翻译定性为仅仅是对编码信息的解密,可能显得很粗陋,其中的一些人对忠实翻译的可能性持保留态度(尤其是文学和诗歌,韦弗本人也承认了这一局限性)。
事实上,文本之间的“对等”概念在翻译研究中受到了激烈的争论。这并不是说机器翻译在认识论上讲是失败的;当代机器翻译范式的平行文本基础与奎因(Quine)的实用主义、行为主义的翻译方法相一致。无论人们是否认为这种框架有说服力,重要的是要认识到作为黄金标准翻译的数据体现了编写者的处境和主观立场,这影响了随后嵌入自动化系统的关联。
当代神经网络机器翻译的成功在很大程度依赖于大量的网络语言数据。有成千上万种所谓的“低资源”语言(以及广泛使用的语言中的小众化方言),对于这些语言,既不存在对行业巨头开发翻译工具的政治或财产激励,也没有成功应用神经机器翻译所需的大量数字化资源。在这方面,语言社区可能有空间选择性地决定是否—以及如果是的话,向谁—提交他们的知识和文化以供观察。
2005年,马普切人的领导人对微软公司提起诉讼,指责他们是“知识盗版”,因为这家软件公司试图用马普切人的语言Mapudungun发布Windows操作系统的版本,但最终没有成功。
微软没有与马普切人协商,也没有征得他们的同意使用他们的语言,而是与智利政府合作开发该资源,然而这起诉讼却让人感到出乎意料,技术使一个人是否能真正“拥有”一种语言的问题变得复杂化;在网上搜罗的一千句话的语料库是否足以为后续的处理和翻译提供足够的形态句法特征?如果一个语言社区不愿委托软件公司开发他们语言的工具,他们有什么办法?
Source
西方关于语言濒危的论述不加批判地将开发低资源语言的技术视为一种社会福利,事实上,“低资源”这种说法本身就隐含着考虑采集数据的优先顺序,而一种语言的使用者本身就有很多能力,如成语、笑话、寓言和口述历史。