MIT科学家开发机器翻译新算法，旨在破译消失的古代语言

中国科技互联网科技智能正文

MIT科学家开发机器翻译新算法，旨在破译消失的古代语言

2020-10-27 13:59 来源：互联网

语言不仅是文化的有机组成部分，也是文化的载体。在很大程度上，世界文明的多样性体现在世界语言的多样性上。在 21 世纪，语言学家显然不满意对传统和已知语言的研究。相反，许多科学家已经开始利用计算机技术探索已经消失的古老语言，这几乎是对这个谜的答案。

最近，ComputerScienceandArtificialIntelligenceLaboratory 计算机科学和人工智能实验室（CSAIL) 的研究人员开发了一种计算机算法，旨在帮助语言学家破译历史上消失的语言。

谷歌无法翻译的古老语言

今天，世界上大约有 7100 种语言。然而，古代的大多数语言已经不再使用，几乎已经灭绝。几十种已经灭绝的语言也被认为是 "未破译的" 语言，也就是说，我们对它们的语法（语法）、词汇（词汇）或句法（句法）还不太了解，我们也无法理解它们的文本的含义。

对这些 "未破译" 的语言的研究不仅仅是出于学术上的好奇心。或者因为如果我们不懂语言，我们就会错过一套关于说这些语言的人的知识系统。不幸的是，大多数已经灭绝的语言都没有多少记录，所以科学家无法用谷歌翻译或人工智能算法等机器翻译工具来解密这些语言。

传统的研究方法是找出目标语言的 "相关" 语言来进行比较研究，例如同一语言家族或现有的具有高度相似性的语言。然而，有些语言没有深入研究的 "相关" 语言，而且往往缺乏传统的分隔字符，如空格和标点符号（想象一下用该语言编写的文本解密会有多秃）。

然而，CSAIL 研究人员发明的新系统可以自动解码消失的语言，而不必深入理解它们与其他语言的关系。他们还表明，该系统本身可以确定语言之间的关系，并可以用来证实最近的一项学术研究，该研究表明，伊比利亚语实际上与巴斯克语无关。

语言破译：文本向矢量的转换

这项由麻省理工学院（MIT) 教授雷吉纳·巴兹莱（ReginaBarzilay) 领导的研究基于历史语言学（历史语言学）的几个原则。其中一个原则是，一种特定的语言很少直接增加或删除整个音节，但可能会出现一些类似的发音替代。例如，母语中发音为 "p" 的单词在其后代的进化过程中可能变成 "b"，但由于明显的发音差异，变得 "k" 的可能性较小。

barzilay 的新算法将这些原则和其他语言约束结合起来，将语言发音嵌入到多维向量空间中，对应向量之间的距离反映了不同发音的差异。这种设计使他们能够捕捉与语言变化相关的特征，并将其表达为计算约束。

因此，它可以评估两种语言之间的相似性。事实上，当测试已知的语言时，它甚至可以准确地确定该语言属于哪种语言家族。例如，英语和德语属于日耳曼语系。

此外，该算法生成的模型可以对古语言中的单词进行细分，并将它们逐一映射到“相关”语言中的相应单词。该团队的最终目标是使该系统能够破译语言学家几十年来一直无法理解的古代语言，只使用几千个单词。

事实上，这并不是麻省理工学院第一次利用计算机技术破译遗失语言的研究。

早在 2010 年，巴兹莱和其他合作者就开发了新的计算机算法，在几个小时内破解了古犹太语言乌加里语。