谷歌翻译中国团队谈翻译产品6年蝶变
近日,谷歌中国用户运营部经理程曦今日接受媒体访谈,介绍了最近推出的全新版谷歌翻译和谷歌翻译产品的理念。
古人说,给我一个支点,给我一个足够长的杠杆我能撬起地球;程曦说,给谷歌翻译足够的平行语料库,我们可以在一个小时之内把任何两种语言互译出来。
能够让谷歌的工程师实现这句话,依靠的是谷歌坚持的统计翻译的方式和谷歌大量的、并不断增长的数据。程曦表示,谷歌翻译能够依靠统计翻译理念发展到今天,其实要感谢IBM在1993年提出这个理念,这是具有划时代意义的。
谷歌从2003年开始研发翻译产品,经过不断改进和添加功能,现在可以实现实时的翻译、为网站提供语言翻译转换插件、在翻译同时提供相关搜索结果,等等功能。随着通过谷歌搜索纳入数据量的增加,统计翻译带来的翻译质量理论上也会相应不断提高。
很显然,谷歌翻译已经不是一个纯粹的翻译产品,或者说是改变了人们印象中的翻译产品的概念。谷歌宣称自己的使命是管理全世界的信息,如谷歌程曦所说,谷歌产品的发展目标是为了使全世界的信息能够变得非常易用,而且让世界上所有人都用。
但语言是其中的一个障碍。基督文化中的传说是,上帝为了阻止人类建造能登临天堂的巴别塔,让人类开始说各种不同的语言,因此引起纷争。但时至今日,全球化让不同语种人间的沟通显得空前重要,科技的巨大进步让各种科技产品的实现成为可能。
精彩观点:
肯定一点的就是我们的这个团队不会有人说所有的51种语言,然而这正是基于统计的机器翻译和数学所最美丽的地方,它可以利用这些统计规律,让你在不懂这些语言的情况下,让你以足够的理性去分析这些语言所共同出现的这种现象,然后用计算机这个完全不懂人类语言的东西从中找出规律,帮助我们进行翻译。
随着互联网不断的发展,我们看到的爆炸性的趋势,2003年整个互联网上产生的所有的文本的数量比人类在2002年以前所有产生的文本数量还要大,随着这样的一个爆炸趋势,人们越来越多的能够产生很多很多的内容,我们希望通过这些数据能够进一步提高我们的翻译的质量,这是最重要的。
有意思的故事,我想最有名的一句话可能是谷歌翻译幕后功臣曾经说过一句话,他效仿的是一句古人说过的话,古人说给我一个支点,给我一个足够长的杠杆我能撬起地球,但是他曾经说过一句话,给我足够的平行语料库,我可以在一个小时之内把任何两种语言把你翻译出来,这是一句非常有意思的话。也是展现了科学家对于这个行业的理解。
其实我们所有的人都应该感谢IBM曾经在1993年的时候它有四个研究型的科学家提出了当时基于统计的翻译模型,这是具有划时代意义的,这个开创了整个基于统计的机器翻译的理论基础。
从计算机科学的角度来讲,我们所说的数据给了我们这个机器学习的样本,这个算法决定了我们学习这个样本的准确程度和速度,这两者完全是一样重要的,丢了哪个都不能继续下去。大家甚至可以继续想一想,数据就好象是大家学习的本身的材料,课本本身,但是算法决定着你学了这个东西以后去应用它的时候有多么准确和多么的快。
谷歌有一个使命,我们不断地重复,产品的所有发展都是沿着这个方向来的,使全世界的信息能够变得非常易用,而且让世界上所有人都用,大家可以看到语言就是这样的一个障碍,我们希望翻译在线,甚至是翻译在线所延展出去的这些翻译能够解决人们这样的问题。
我曾经在摩洛哥旅行,我会说英语,我会说中文,然后到了那儿以后,那儿的官方语言是法语和阿拉伯文,看着路牌上的豆芽完全不懂,这个时候我突然意识到一点,我即使拿上一本字典,我也不知道怎么查。大家可以想一想,未来翻译发展的空间实际上是非常大的,人们去说,人们去写,人们去拍照,这些东西将会和翻译的这种功能结合起来,让人们解除所有的沟通上的障碍。