机器翻译的崭新方法:将语言变成向量空间
机器翻译(简称“机译”)一直是科技领域的一大难题。目前基于统计机译方法的在线工具如Google翻译、Bing翻译、Facebook翻译、宝贝鱼翻译、巴比伦翻译等,其翻译结果勉强可用,但离完美还相去甚远。
为提高在线翻译质量,Google公司的三名工程师最近提出一种崭新的机译方法:将语言翻译变成向量空间数学问题,利用数据挖掘技术建模一种语言的结构,然后与另一种语言的结构进行对比,从而扩充和完善现有的双语语料库。
该研究成果的论文预印本于9月17日在著名网站arXiv.org公开后,引起了学术界的广泛关注。
新的方法依赖于一个概念,即每一种语言都有一套相似的想法,因而使用单词的方式也存在相似性。例如,大多数语言中都有描述相同动物的单词,如“狗”、“猫”和“牛”,这些单词很可能以相同的方式在句子中使用,如“猫是一种比狗小的动物”。
数字也一样。上图显示了在英语和西班牙语中数字(一至五)的向量表示法以及它们是如何相似的。
语言中单词之间的关系集合被称为“语言空间”(language space),可类比为一个点到另一个点的向量集合,能以数学的方式进行处理,例如“国王”减去“男性”加上“女性”等于“女王”(“king”–“man”+“woman”=“queen”)。
在向量空间中,许多语言都有共通之处,可以利用向量空间线性变换将一种语言翻译成另一种语言。工程师们说:“尽管它很简单,我们的方法出奇有效。在翻译英语和西班牙语之间的单词和短语时,准确率可以达到几乎90%。”
中国数学家和语言学家周海中认为,这种基于线性代数的机译方法很有新意也有实效。不过,他对不同语系的自然语言(如英语和汉语)在线翻译是否也有那么高的准确率表示怀疑。他强调,不管用什么方法来提高机译质量,首先要解决的是自然语言的本身问题,尤其是语义表达和语用功能,而不是计算机编程问题或数学建模问题。
周海中说:“在人类尚未明了大脑是如何进行自然语言的模糊识别和逻辑判断的情况下,机译质量要想达到‘信、达、雅’的程度是不可能的。”