统计自然语言处理梳理五:应用层

进行统计自然语言处理系统梳理,学习资料《统计自然语言处理.宗成庆》 

目录

一、机器翻译1

二、语音翻译1

三、文本分类1

3.1基本概念1

3.2文本表示2

3.3特征选择2

3.5分类算法2

3.7评介指标2

3.6情感分类2

四、信息检索与问答系统3

4.1信息检索3

4.2问答系统3

五、自动文摘与信息抽取3

5.1自动文摘4

5.2信息抽取4

5.3情感抽取4

六、口语信息处理与人机对话系统4

 

 

一、机器翻译

         机器翻译就是用计算机来实现不同语言的翻译。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。

         机器翻译方法。在早期,一般采用直译的方式:从源语言的表层出发,直接将词、短语甚至句子直接转换成目标语言,有时简单进行些顺序调整。其后,产生了基于规则的翻译方法:1,对输入文本进行分析,形成源语言抽象的内部表达;2,将源语言的内部表达转换成目标语言的内部表达;3,根据目标语言内部表达生成目标语言文本。还有基于中间语言的翻译:先将源语言分析成一种与具体语种无关的通用语言,再根据中间语言生成相应的目标语言。自20世纪80年代以来,基于语料库的机器翻译得到了迅速发展。近看来,统计翻译成为了一种主流翻译方法。

         机器翻译的目的是辅助人完成翻译工作,而不是完全替代人的翻译。

二、语音翻译

         语音翻译的基本原理。一个松散的单向语音翻译系统由三个主要的技术模块组成:1,自动语音识别器,将源语言语音识别成文字;2,机器翻译引擎,将源语言文字翻译成目标语言文字;3,语音合成器,将目的语言文字转换成语音输出。

         语音翻译的特点:1,从语言学角度讲,口语句子中含有大量非规范语言现象;2,从语音上讲,任何一种语音都在大量同音现象;3,从语音合成来讲,希望合成的语音符合原语音的特点;4,知识利用,对话过程中其他一些信息很难利用。

         语音翻译技术进展:1,语音翻译系统的词汇量已经不受到任何限制;2,系统对输入语句的句型没有严格限制,口语语音识别和翻译的鲁棒性得到提高;3,基于大规模语料的统计翻译方法成为主流。

         目前面临的问题:1,口语的声学特性分析有待进一步加强;2,翻译方法有待进一步研究;3,系统的扩展能力和知识自动获取能力有待进一步提高。

三、文本分类

3.1基本概念

         文本分类是在预定义的分类体系下,根据文本的特征,将一个文本与给定的一个或多个类别相关联的过程。

         根据分类知识获取方法的不同,分类系统可以分为二类:基于知识工程的分类系统和基于机器学习的分类系统。

3.2文本表示

         常用的文本表示模型是向量空间模型(vector space model,VSM)。

         向量空间模型:将一个文本表示为一个n维的向量,称此向量为文本的向量表示或向量空间模型。    

         采用向量空间模型表示文档时,一般要经过二个步骤:1,根据训练文本集生成文本表示所需要的特征项序列;2,根据特征序列,计算对应的权重序列或权重向量。

3.3特征选择

         常用的特征选择方法:基于文档频率,信息增益法,X2方法,互信息法,

3.4权重计算

         常用的权重计算方法:布尔权重,绝对词频(TF),倒文档频率(IDF),TF-IDF等。

         权重计算方法同特征提取方法类似,缺少理论上的推导和验证,因而,表现出的非一般性结果无法解释。

3.5分类算法

         常用的分类算法如下。

         朴素贝叶斯分类器。

         SVM分类器。

         KNN分类法。

         基于神经网络的分类器。

         决策树分类器

         线性最小平方拟合法。

         模糊分类器。

         基于投票的分类方法。

3.6评介指标

         正确率,召回率,F-测试值,微平均和宏平均。

3.7情感分类

         情感分类是指根据文本所表达的含义和情感信息将文本划分成褒扬的或贬义的两种或几种类型,是对文本作者倾向性和观点、态度的划分。其可以视为一种特殊的分类问题。

         情感分类方法,按照机器学习方法分类:有监督、半监督、无监督。可以根据侧重关注的问题,分为领域相关性研究和数据不平衡问题二类。

四、信息检索与问答系统

      4.1信息检索

         信息检索研究的目的是寻找从文档资料中获取可用信息的模型和算法。传统的有二种检索模型:精确匹配模型和文档时代匹配模型。前者主是应用于企业内部文本库的检索,后者主要体现于基于互联网的检索。

         信息检索中二个关键技术:标引和相似度计算。建立统一的用户查询语句和候选查询文本的数学表示模型,通常将查询语句和候选文本都表示为词向量;相似度,计算用户查询标引和候选查询文本标引之间的相关度,基于词向量标引方式的矢量内积法是常用的相似度计算方法。

         基于不同文档表示方法,估计用户查询标引和候选查询文本之间相关度的模型通常有:布尔模型、向量空间模型、概率模型、语言模型。

         评介指标:准确率、召回率、F-测试值。

      4.2问答系统

         4.2.1基本概念

         问题系统是:能够接受用户以自然语言形式描述的提问,并能从大量的异构数据中查找或推断出用户问题的信息检索系统。

         根据系统的应用目的和获取问题答案所依据的数据,可以将问答系统划分为基于固定语料库的问题系统、网络问答系统和单文本问答系统。

         基于常见问题集(Freqquentlyasked questions.FAQ)的问答系统简称为FAQ问答系统,其典型用途是对企业产品或专业知识问题的问答系统。

         4.2.2基本构成

         问题系统基本构成:提问处理模块,检索模块,答案抽取模块。

         一个问题系统的关键技术:基于海量文本的知识表示;问句解析;答案生成与过滤。

         4.2.3基本方法

         根据问题系统在各个模块中所采用的技术不同,问答系统可以分为四种类型:基于检索的问答系统、基于模式匹配的问答技术,基于自然语言理解的问答技术,基于统计翻译模型的问答技术。

         4.2.4问题分类

         问题系统问题分类:事实型问题,列表性问题,定义型问题,情景型问题,段落性问题,其他问题。

五、自动文摘与信息抽取

         文本自动文摘是利用计算自动实现文本分析、内容归纳和摘要自动生成的技术。文本信息抽取则是从自然语言文本中自动抽取指定类型的实体、关系、事件等事实信息的技术。

5.1自动文摘

         分类。根据输入文本的数量划分,可以分为单文档摘要、多文档摘要。

         步骤。自动文摘一般包含三个步骤:文本分析,文本内容的选取和活化,文摘的转化和生成。

         方法。目前采用的方法可以分为基于抽取的方法和基于理解的方法。

         关键问题。无论哪种方法,都面临三个关键问题:1,文档冗余信息的识别和处理;2,重要信息辨识;3,生成文摘的连续性。

         评测。评测方法可以分外内部评测和外部评测。内部评测指标有:召回率、准确率、冗余率、偏差率。

5.2信息抽取

         方法分类:基于分析的方法和基于机器学习的统计方法。

         关键问题:1,命名实体识别;2,句法分析;3,共指分析和歧义消解;4,实体关系识别;5,事件识别。

         开放式信息抽取重要问题:实体抽取,关系抽取,实体消歧。    

5.3情感抽取

         情感信息抽取是一种关于细粒度文本的情感分析技术,旨在抽取情感文本中有价值的情感信息。情感信息五元组(O,F,SO,H,T):评介实体,评介对象,评介词语,观点持有者,评介时间。

         情感信息抽取的主要问题集中在二个方面:抽取观点持有者和抽取评介对象。抽取观点持有者的方法:1,基于命名实体识别的抽取方法;2,基于语义角色标注的抽取方法。

六、口语信息处理与人机对话

         人机对话系统的6个技术模块:1,语音识别器;2,语言解析器;3,问题求解;4,语言生成器;5,对话管理;6,语音合成模块。

 

 

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注