我的研究心得

自然语言处理 介绍


当我们彼此沟通时,我们几乎毫不费力地使用非常复杂但很少理解的过程。构建能够生成和理解自然语言片段的计算机非常困难。这是因为,语言已经发展成为智能生物之间的有效沟通媒介。当每个大脑拥有大而高度相似的心理结构作为共同背景时,它被视为从一个大脑向另一个大脑传递一点心理结构。上下文中的这种相似性有助于生成和理解高度压缩的消息。因此,自然语言理解是编码和解码的高度复杂问题。

人工智能的长期目标之一是创建能够理解和生成人类语言的程序。使用和理解自然语言的能力不仅似乎是人类智能的一个基本方面,而且其成功的自动化将对计算机本身的可用性和有效性产生令人难以置信的影响。为编写理解自然语言的程序付出了很多努力。尽管这些程序在受限制的环境中取得了成功,但可以使用具有人类语音特征的灵活性和通用性的自然语言的系统超出了当前的方法。

理解自然语言不仅仅涉及将句子解析为各自的词性,而是将这些词语放在字典中。真正的理解取决于对话语领域和该领域中使用的习语的广泛背景知识,以及应用一般语境知识来解决作为人类语言正常部分的遗漏和歧义的能力。

因此,为了构建能够理解自然语言的计算机系统,需要上下文知识和进行有效推理的过程。自然语言处理(NLP)已经在转变商业智能(BI),其方式远不仅仅是简化界面。自然语言处理是关注使机器可以访问自然语言的科学学科。NLP解决诸如识别文档中的句子边界,从文档中提取关系以及搜索和检索文档等任务。NLP是通过在非结构化文本中建立结构来促进文本分析以实现进一步分析的必要手段。

简单的理解是,首先根据语法分析文本的句子; 这提供了一种顺序和结构,更适合于语义或字面意义的分析; 然后是一个语用分析阶段,确定话语或文本在上下文中的含义。最后阶段通常被视为关注话语,而前两个阶段通常涉及句子问题。这种对层次区分(语法,语义和语用学)之间的相关性以及粒度(句子与语篇)之间的区别的尝试有时会在思考自然语言处理中涉及的问题时引起一些混淆,并且人们普遍认为,实际上将语言处理整齐地分成对应于每个阶层的方框并不容易。然而,这种分离是一种有用的教学辅助工具,也构成了建筑模型的基础,使得从软件工程的角度来看,自然语言分析的任务更易于管理。

两个问题使得自然语言的处理变得困难并且导致使用与编译器等的构造相关的不同技术来处理人工语言。这些问题是自然语言中存在的模糊程度以及即使是简单句子中包含的语义信息的复杂性。

基本NLP任务包括标记化和解析,词形还原/词干化,词性标注,语言检测和语义关系识别。

NLP任务将语言分解为更短的元素片段,尝试理解片段之间的关系,并探索片段如何协同工作以创造意义。

这些基础任务通常用于更高级别的NLP功能,例如:

 

      
内容分类:基于语言的文档摘要,包括搜索和索引,内容警报和重复检测

      
主题发现和建模:准确捕获文本集合中的含义和主题,并将高级分析应用于文本,如优化和预测

      
上下文提取:自动从基于文本的源中提取结构化信息

      
情绪分析:识别大量文本中的情绪或主观意见,包括平均情绪和意见挖掘

      
语音到文本和文本到语音转换:将语音命令转换为书面文本,反之亦然

      
文档摘要:自动生成大型文本的概要

      
机器翻译:将文本或语音从一种语言自动翻译到另一种语言

在所有这些情况下,主要目标是采用原始语言输入并使用语言学和算法来转换或丰富文本,使其提供更大的价值。

NLP的基本视图突出了四个不同的阶段:形态处理,语法分析(语法分析),语义分析和语用分析。

形态处理

在语法分析之前发生的初步阶段是形态学处理。语言处理的这一阶段的目的是将语言输入串断开成对应于离散词,子词和标点符号形式的令牌组。例如,像discontentedly这样的单词可以分为三个子单词标记:discontented -ly

形态学主要关注的是识别基础词如何被修改以形成具有相似含义但通常具有不同句法类别的其他词。修改通常通过添加前缀和/或后缀来实现,但也可以进行其他文本更改。

语法和语义

语言处理器必须主要基于语法分析和语义分析来执行几种不同的功能。语法分析的目的有两个:检查一串单词(一个句子)是否形成良好,并将其分解为一个显示不同单词之间句法关系的结构。语法分析器(或解析器)使用单词定义字典(词典)和一组语法规则(语法)来完成此操作。一个简单的词典只包含每个单词的句法范畴; 简单语法描述的规则仅指示语法类别如何组合以形成不同类型的短语。

语义学和语用学

在语义分析之后,下一阶段的处理涉及语用学。不幸的是,语义和语用学之间没有普遍认同的区别。语义分析将意义与孤立的话语/句子联系起来; 语用分析从特定语境的角度解释语义分析的结果。这意味着用大猫追逐老鼠之类的句子可以产生一种表达方式,这意味着大型猫只能进行进一步的推断步骤,将大型猫识别为菲利克斯。这将由实用分析决定。在某些情况下,如刚刚描述的示例,语用分析简单地将给定上下文中存在的实际对象/事件与在语义分析期间获得的对象引用相匹配。在其他情况下,

目前,NLP倾向于基于将自然语言转换为机器语言。但随着技术的发展特别是AI组件计算机将更好地理解查询并开始提供答案而不是搜索结果。

这比用自然语言提问更进了一步。它也是这样接收的。但是一旦它学会了问题的语义关系和推论,它就能够自动执行提供可理解答案所必需的过滤和业务,而不是简单地向您显示数据。


 


ETC注销ETC充值ETC客服ETC扣费查询


ETC发行合作