历史研究记录

人工智能的前沿：什么是自然语言处理？

2018年12月12日高速ETC办理

人类和其他动物之间的主要区别因素是我们使用语言的能力。我们不仅使用我们的语言进行交流，还帮助我们思考，记住，将事物分配给类别，并标记个人。语言不仅用于描述，还用于教育，创造，想象，表达意图，做出承诺，以及识别具有相似遗产的人，以及许多其他事物。像我们一样，语言随着我们的需要而发展和定制，几乎就像它们本身就是生物一样。

巴黎语言学会在1866 年实际上禁止讨论语言的起源，有许多关于语言演变的竞争理论.26（据推测，这些巴黎人在某些时候放松了。）最近，传奇语言学家诺姆乔姆斯基（除其他外）质疑语言是否完全进化或是单个突然个体突变的结果。27但是一个突出的理论是

语言作为一种交流手段的手势的自然延伸而出现 – 用舌头和嘴而不是手和手臂进行。事实上，经常打手势和说话是共同使用的。（有些人在坐在他们的手上时很难说清楚他们的想法。）这项创新作为狩猎和采集的辅助手段的吸引力是显而易见的：你释放你的肢体用于其他目的，你可以不用沟通在视线中。更好的语言意味着更多的食物，所以可以说，骨化的动力一定是强大的。更不用说语言赋予促进浪漫，交易，训练和编纂社会习俗（规则和法律）的选择性优势，这些理由足以让它像野火一样流行起来，无论其起源如何。

但这些都与机器或计算机无关。当我们谈论计算机语言时，这些正式结构的术语的使用仅仅是一个分析，类似于机器学习或信息高速公路这两个术语。计算机语言的设计目的只有一个：使计算机的编程更加精确，无误。处理计算机语言的程序（称为编译器）实际上是将某些计算过程的更抽象但仍然严格的规范转换为可以在特定计算设备上执行的形式的正式方法。28你不使用Java（一种流行的计算机语言）来写诗。

也就是说，计算机和人类语言之间存在着密切的关系 – 或者直到最近才让人相信。描述性语言学家长期以来一直试图编纂语言结构，至少可以追溯到印度语革命家帕尼尼，他将梵文语言的语法编纂成公元前4世纪的3,996条规则。事实上，今天我们继续在语法学校教授语法。但是，正如每个学生都很快发现的那样，规则并不总是存在 – 你必须记住很多例外。这些指示性失败表明我们试图减少语言

规则充其量只是过于简单化，最糟糕的是，只是简单的错误。

但鉴于几乎普遍接受的观点认为语言遵循句法规则，计算语言学的早期研究者通过将其编码为同一基本单词的更复杂形式来解决在计算机上处理自然（人类）语言的问题就不足为奇了。你在学校学到的类别和句子结构：名词，动词短语，从属条款等。（我是其中一个人，在20世纪70年代后期在这个领域完成了博士论文。）坦率地说，这种方法效果不是很好，主要是因为它没有足够的灵活性来处理这种异常和困扰你在学校学到的规则的常见用法。简单地解决引用 – 决定一个单词或短语，即使在同一个句子中也可能有不同的含义，指的是 – 通常涉及远远超出直接文本的知识和背景。（语言学家称之为“回指。”）我可以指导你坐下来这把椅子而不是那把椅子，但是如果不了解物理背景，就无法知道我可能会谈论哪些椅子。虽然单个句子和短语可能容易受到图表的影响，但多方之间的对话和对话完全是另一回事。显而易见的事实是，正式语法分析所捕获的内容显然更多（或更少）。

因此，计算机对自然语言的处理已经持续了几十年，直到有人尝试了一种完全不同的方法：机器学习，更具体地说是统计机器学习方法，正如我在第2章中所描述的那样。虽然早期的方法需要手 – 制定规则时，新方法主要需要访问大量文本，随着越来越多的书面语言以计算机可读形式提供，随着文本集合的调用，这种“语料库”变得越来越大，越容易收集。

但是所有这些分析都是无用的，直到你尝试用它做一些事情 – 句子图表，毕竟，只是附加单词的线条图，直到你为某些目的使用它们，比如移动从属条款。因此，该领域的工作集中在一些具有相当实际意义的问题上，例如将文本从一种语言翻译成另一种语言，生成文档摘要或回答问题，通常来自关于某些感兴趣领域的事实数据库。

以转化为例，最大的优势在于您可以从成对的正确翻译文本开始学习，对其他形式的知识或有关主题的信息的需求有限。通过自动查找源和目标示例之间的相关性，统计机器翻译程序（因为它们被称为）不仅可以学习输入样本的基础结构，还可以学习如何与输出样本中的正确翻译相关联。29这些技术并不明确地说一个短语转换为另一个短语，但它们提供了各种潜在翻译正确的概率。

现在看起来违反直觉的是，一个没有实际经验且不知道文本内容的计算机程序可以合理地将一种语言翻译成另一种语言，更不用说计算机程序了。由两位语言专家发言的人。但是，如果有足够的例子，那正是这些系统可以做到的。现代人工智能的一项显着成就可以作为寻找解释的发现：如何简单地找到足够的例子之间的相关性可以产生洞察力并在超人类层面解决问题，而没有更深入的理解或因果知识关于域的边缘。它提出了我们人类解释的努力仅仅是方便的小说的可能性，除了人类思维能力之外，无数相关性和事实的宏大但往往不完美的总结。然而，机器翻译的成功，以及目前正在研究的众多其他问题领域

人工智能研究人员使用类似的方法，表明我们组织思想的方式可能只是理解我们世界的许多可能方式之一 – 实际上可能不是最好的方法。一般来说，什么机器翻译程序实际学习以及如何执行他们的任务目前与人类大脑的内部运作一样难以理解和难以理解。

笔记

1.
有关综合评论，请参阅Bruno
Siciliano和Oussama
Khatib（编辑），Springer Handbook of Robotics，（纽约：Springer Science + Business Media，2008）。在撰写本文时，计划于2017年发布更新版本。

2. 参见美国宇航局的哈勃太空望远镜服务任务：http：// www

.nasa.gov
/ mission_pages /哈勃/服务/ index.html的。

3.
John Kelley，“研究：哈勃机器人维修任务过于昂贵”，Space.com，2004年12月7日，http：//www.space.com/579-study-
hubble-robotic-repair-mission-expensive.html。

4.
http://www.nasa.gov/mission_pages/mars/missions/index.html（最后更新于2015年7月30日）。

5.
DARPA战术技术办公室，DARPA机器人挑战赛（DRC），
http：//www.theroboticschallenge.org。

6.
例如，参见Sam
Byford，“这个可爱的日本机器人熊可能成为老年护理的未来”，Verge ，2015年4月28日，http：//www.theverge.com/2015/4/28/8507049/robear-robot
–熊日本老人。

7. Robot＆Frank
，2012，http：//www.imdb.com/title/tt1990314/。

8. http://www.parorobots.com。

9.
例如，见Sherry
Turkle，一起独自：为什么我们期望更多来自技术而不是相互之间（纽约：基础书籍，2012）。

10. https://www.aldebaran.com/en/a-robots/who-is-pepper。

11.
Furby：http ：//www.hasbro.com/en-us/brands/furby;
AIBO：https：// en.wikipedia.org/wiki/AIBO。

12.
http：// www.irobot.com/ For-the- Home / Vacuum- Cleaning / Roomba.aspx。

13.
参见，例如，Pandey
Nitesh Vinodbhai，“人乳头瘤病毒对人类性行为的操纵”，印度天体生物学研究中心， http：//vixra.org/pdf/1301.0194v1.pdf;
和Sabra L. Klein，“寄生虫对近似机制的操纵”

在脊椎动物中调节社会行为，“ 生理学和行为79，没有。3（2003）：441-49，http：//www.sciencedirect.com/science/article/pii
/ S003193840300163X。

14.
https://en.wikipedia.org/wiki/Amazon_Robotics（最后修改日期为2015年9月18日）。

15. http://www.robocup.org。

16.
有关更多信息，请参阅日内瓦的联合国致命自治武器系统工作组，http：//www.unog.ch/80256EE
600585943 /（httpPages）/
8FA3C2562A60FF81C1257CE600393DF6？O penDocument。

17.
DARPA机器人挑战中机器人的汇编，IEEE Spectrum YouTube视频，2015年6月6日，https：//www.youtube

.COM
/手表？ν= g0TaYhjpOfo。

18. http://www.image-net.org。

19.
域必须遵守的主要约束是形成所谓的“度量”。非正式地，度量是服从“三角不等式”的数学空间：两点之间的最短路径是连接它们的线; 通过不在该线上的任何点是更长（更不直接）的路径。

20.
Cynthia Berger，“真实色彩：鸟类如何看世界”，国家野生动物，2012年7月19日，http：//www.nwf.org/news-and-magazines/
national-wildlife / birds / archives / 2012 / bird- vision.aspx。

21.
Marina Lopes，“视频可能在2018年占互联网流量的84％：思科，”路透社，2014年6月10日，http：//www.reuters.com/article/
us-internet-consumers-cisco-systems-idUSKBN0EL15E20140610。

22.
例如，参见DR
Reddy，LD Erman，RO Fennell和RB Neely，“传闻言语理解系统：识别过程的一个例子” ，在第三届国际人工智能联合会议论文集（斯坦福，加利福尼亚州，1973年），185-93（San Francisco：Morgan Kaufmann Publishers Inc.，1973），http：//
ijcai.org/Past%20Proceedings/IJCAI-73/PDF/021.pdf。

23.
国家研究委员会，“人工智能的发展”，资助革命：政府支持计算机研究，（华盛顿特区：国家农业出版社，1999年），http：//web.archive

.org / web / 20080112001018 / http://www.nap.edu/readingroom/ books
/ far / ch9.html＃REF21。

24. http://www.nuance.com/index.htm。

25.
John Markoff，“科学家在深度学习计划中看到了承诺”，“ 纽约时报” ，2012年11月23日，http：//www.nytimes。com / 2012/11/24 / science /
scientists – 深入学习 -
人工智能的一部分。

26.
Thomas C. Scott-Phillips，“进化心理学和语言的起源” ，进化心理学期刊8（4）（2010）：289-307，https：//thomscottphillips.files.wordpress.com/2014/08/scott
– phillips-2010-ep-and-language-origins.pdf。