首页 » 网站建设 » php名词库技巧_独家|一文读懂自然措辞处理NLP附进修资料

php名词库技巧_独家|一文读懂自然措辞处理NLP附进修资料

访客 2024-12-11 0

扫一扫用手机浏览

文章目录 [+]

(点击可查看大图)

序言

php名词库技巧_独家|一文读懂自然措辞处理NLP附进修资料

自然措辞处理是文本挖掘的研究领域之一,是人工智能和措辞学领域的分支学科。
在此领域中磋商如何处理及利用自然措辞。

php名词库技巧_独家|一文读懂自然措辞处理NLP附进修资料
(图片来自网络侵删)

对付自然措辞处理的发展进程,可以从哲学中的履历主义和理性主义提及。
基于统计的自然措辞处理是哲学中的履历主义,基于规则的自然措辞处理是哲学中的理性主义。
在哲学领域中履历主义与理性主义的斗争一贯是此消彼长,这种抵牾与斗争也反响在详细科学上,如自然措辞处理。

早期的自然措辞处理具有光鲜的履历主义色彩。
如1913年马尔科夫提出马尔科夫随机过程与马尔科夫模型的根本便是“手工查频”,详细说便是统计了《欧根·奥涅金》长诗中元音与辅音涌现的频度;1948年喷鼻香农把离散马尔科夫的概率模型运用于措辞的自动机,同时采取手工方法统计英语字母的频率。

然而这种履历主义到了乔姆斯基时涌现了转变。

1956年乔姆斯基借鉴喷鼻香农的事情,把有限状态机用作刻画语法的工具,建立了自然措辞的有限状态模型,详细来说便是用“代数”和“凑集”将措辞转化为符号序列,建立了一大堆有关语法的数学模型。
这些事情非常伟大,为自然措辞和形式措辞找到了一种统一的数学描述理论,一个叫做“形式措辞理论”的新领域出身了。
这个时期,“履历主义”被通盘否定,“理性主义”算是完胜。

然而在20世纪50年代末到60年代中期,履历主义东山再起了。
多数学者普遍认为只有详尽的历史语料才能带来靠谱的结论。
于是一些比较著名的理论与算法就出身了,如贝叶斯方法(Bayesian Method)、隐马尔可夫、最大熵、Viterbi算法、支持向量机之类。
天下上第一个联机语料库也是在那个时候的Brown University出身的。
但是总的来说,这个时期依然是基于规则的理性主义的天下,履历主义虽然取得了不俗的造诣,却依然没有受到太大的重视。
但是金子总会发光的。

90年代以来,基于统计的自然措辞处理就开始大放异彩了。
首先是在机器翻译领域取得了打破,由于引入了许多基于语料库的方法(哈钦斯,英国著名学者)。
1990年在芬兰赫尔辛基举办的第13届国际打算措辞学会议确定的主题是“处理大规模真实文本的理论、方法与工具”,大家的重心开始转向大规模真实文本了,传统的仅仅基于规则的自然措辞处理显然力不从心了。
学者们认为,大规模语料至少是对基于规则方法有效的补充。
到了1994~1999年,履历主义就开始空前繁荣了。
如句法阐发、词类标注、参照消解、话语处理的算法险些把“概率”与“数据”作为标准方法,成为了自然措辞处理的主流。

总之,理性主义在自然措辞处理的发展史上是有主要地位的,也辉煌了几十年,历史事物常常是此消彼长的,至于谁好谁坏,不是固定的,取决于不同时期的不同历史任务。
总的来说,基于规则的理性主义在这个时期被提及得比较少,用的也比较少,紧张是由于以下几个毛病:

鲁棒性差,过于严格的规则导致对非实质缺点的零容忍(这一点在最近的一些新的阐发技能上有所改进);

研究强度大,泛化能力差。
一个研究要措辞学家、语音学家和各种领域的专家合营,在当前大规模文本处理的韶光、资源哀求下太不划算。
且机器学习的方法很难运用,难以遍及;

实践性差。
基于统计的履历主义方法可以根据数据集不断对参数进行优化,而基于规则的方法就不可以,这在当前数据量巨大的情形下,影响是致命的,由于前者常常可以通过增大演习集来得到更好的效果,后者则去世板许多,结果每每不尽人意。

但理性主义还是有很多优点的,同样履历主义也有很多毛病,算是各有千秋、各有所短。
不同学科有不同学科的研究角度,只能说某些角度在某个特定的历史期间对提高生产力“更有用”,以是重视的人更多。
但“有用”不代表胜利,暂时的“无用”更不能说是科学层面上的“失落败”。
尤其是在当前中文自然措辞处理发展还不甚成熟的期间,私以为基于统计的方法在很多方面并不完美,“理性主义”的浸染空间还很大,须要更多的人去关注、助力。

——《统计自然措辞处理》宗成庆

自然措辞处理涉及的范畴如下(维基百科):

中文自动分词(Chinese word segmentation)

词性标注(Part-of-speech tagging)

句法剖析(Parsing)

自然措辞天生(Natural language generation)

文本分类(Text categorization)

信息检索(Information retrieval)

信息抽取(Information extraction)

笔墨校正(Text-proofing)

问答系统(Question answering)

机器翻译(Machine translation)

自动择要(Automatic summarization)

本文针对个中几个紧张领域的研究现状和进展,通过论文、博客等资料,结合自身的学习和实践经历进行浅近地先容。
由于个人实践履历不敷,除中文分词、自动文摘、文本分类、情绪剖析和话题模型方面进行过实际业务的实践,其他方面履历欠缺,若有不当之处,欢迎童鞋们批评示正!

目录

一. 中文分词

中文分词紧张包括词的歧义切分和未登录词识别,紧张可以分为基于词典和基于统计的方法,最新的方法是多种方法的稠浊。
从目前汉语分词研究的总体水平看,F1值已经达到95%旁边,紧张分词缺点是由新词造成的,尤其对领域的适应性较差。
下面紧张先容一下中文分词存在的紧张问题和分词方法。

1. 问题

1.1 歧义切分

切不合义处理包括两部分内容:

切不合义的检测;

切不合义的消解。

这两部分在逻辑关系上可分成两个相对独立的步骤。

切不合义的检测。
“最大匹配法”(精确的说法该当叫“最长词优先匹配法”) 是最早涌现、同时也是最基本的汉语自动分词方法。
依扫描句子的方向,又分正向最大匹配 MM(从左向右)和逆向最大匹配 RMM(从右向左)两种。
最大匹配法实际年夜将切不合义检测与消解这两个过程合二为一,对输入句子给出唯一的切分可能性,并以之为解。
从最大匹配法出发导出了“双向最大匹配法”,即MM+ RMM。
双向最大匹配法存在着切不合义检测盲区。

针对切不合义检测,其余两个有代价的事情是“最少分词法”,这种方法歧义检测能力较双向最大匹配法要强些,产生的可能切分个数仅略有增加;和“全切分法”,这种方法穷举所有可能的切分,实现了无盲区的切不合义检测,但代价是导致大量的切分“垃圾”。

切不合义的消解。
范例的方法包括句法统计和基于影象的模型。
句法统计将自动分词和基于 Markov 链的词性自动标注技能结合起来,利用从人工标注语料库中提取出的词性二元统计规律来消解切不合义,基于影象的模型对伪歧义型高频交集型歧义切分,可以把它们的精确(唯一)切分形式预先记录在一张表中,其歧义消解通过直接查表即可实现。

1.2 未登录词识别

未登录词大致包含两大类:

新呈现的通用词或专业术语等;

专有名词。
如中国人 名、外国译名、地名、机构名(泛指机关、团体和其它企奇迹单位)等。

前一种未登录词理 论上是可预期的,能够人工预先添加到词表中(但这也只是空想状态,在真实环境下并不易 做到);后一种未登录词则完备不可预期,无论词表多么弘大,也无法席卷。
真实文本中(即便是大众通用领域),未登录词对分词精度的影响超过了歧义切分。
未登录词处理在实用型分词系统中占的份量举足轻重。

新呈现的通用词或专业术语。
对这类未登录词的处理,一样平常是在大规模语料库的支持下,先由机器根据某种算法自动天生一张候选词表(无监督的机器学习策略),再人工筛选出个中的新词并补充到词表中。
鉴于经由精加工的千万字、乃至亿字级的汉语分词语料库目前还是水月镜花,以是这个方向上现有的研究无一不以从极大规模生语料库中提炼出的 n 元汉字串之分布(n≥2)为根本。
个中汉字之间的结合力通过全局统计量包括互信息、t- 测试差、卡方统计量、字串频等来表示。

专有名词。
对专有名词的未登录词的处理,首先依据从各种专有名词库中总结出的统计知识 (如姓氏用字及其频度)和人工归纳出的专有名词的某些构造规则,在输入句子中预测可能成为专有名词的汉字串并给出其置信度,之后利用对该类专有名词有标识意义的紧邻高下文信息(如称谓),以及全局统计量和局部统计量(局部统计量是相对全局统计量而言的,是指从当前文章得到且其有效范围一样平常仅限于该文章的统计量,常日为字串频),进行进一步的鉴定。
已有的事情涉及了四种常见的专有名词:中国人名的识别、外国译名的识别、中国地名的识别及机构名的识别。
从各家报告的实验结果来看,外国译名的识别效果最好,中国人名次之,中国地名再次之,机构名最差。
而任务本身的难度本色上也是遵照这个顺序由小增大。
沈达阳、孙茂松等(1997b )特殊强调了局部统计量在未登录词处理中的代价。

2. 方法

2.1 基于词典的方法

在基于词典的方法中,对付给定的词,只有词典中存在的词语能够被识别,个中最受欢迎的方法是最大匹配法(MM),这种方法的效果取决于词典的覆盖度,因此随着新词不断涌现,这种方法存在明显的缺陷。

2.2 基于统计的方法

基于统计的方法由于利用了概率或评分机制而非词典对文本进行分词而被广泛运用。
这种方法紧张有三个缺陷:一是这种方法只能识别OOV(out-of-vocabulary)词而不能识别词的类型,比如只能识别为一串字符串而不能识别出是人名;二是统计方法很难将措辞知识融入分词系统,因此对付不符合措辞规范的结果须要额外的人工解析;三是在许多现在分词系统中,OOV词识别常日独立于分词过程。

二. 词性标注

词性标注是指为给定句子中的每个词授予精确的词法标记,给定一个切好词的句子,词性标注的目的是为每一个词授予一个种别,这个种别称为词性标记(part-of-speech tag),比如,名词(noun)、动词(verb)、形容词(adjective) 等。
它是自然措辞处理中主要的和根本的研究课题之一,也是其他许多智能信息处理技能的根本,已被广泛的运用于机器翻译、笔墨识别、语音识别和信息检索等领域。

词性标注对付后续的自然措辞处理事情是一个非常有用的预处理过程,它的准确程度将直接影响到后续的一系列剖析处理任务的效果。
长期以来,兼类词的词性歧义消解和未知词的词性识别一贯是词性标注领域须要办理的热点问题。
当兼类词的词性歧义消解变得困难时,词性的标注就涌现了不愿定性的问题。
而对那些超出了词典收录范围的词语或者新呈现的词语的词性推测,也是一个完全的标注系统所应具备的能力。

1. 词性标注方法

词性标注是一个非常范例的序列标注问题。
最初采取的方法是隐马尔科夫天生式模型, 然后是判别式的最大熵模型、支持向量机模型,目前学术界常日采取构造感知器模型和条件随机场模型。
近年来,随着深度学习技能的发展,研究者们也提出了很多有效的基于深层神经网络的词性标注方法。

迄今为止,词性标注紧张分为基于规则的和基于统计的方法。

规则方法能准确地描述词性搭配之间的确定征象,但是规则的措辞覆盖面有限,弘大的规则库的编写和掩护事情则显得过于繁重,并且规则之间的优先级和冲突问题也不随意马虎得到满意的办理。

统计方法从宏不雅观上考虑了词性之间的依存关系,可以覆盖大部分的措辞征象,整体上具有较高的精确率和稳定性,不过其对词性搭配确定征象的描述精度却不如规则方法。
针对这样的情形,如何更好地结合利用统计方法和规则处理手段,使词性标注任务既能够有效地利用措辞学家总结的措辞规则,又可以充分地发挥统计处理的上风成为了词性标注研究的焦点。

2. 词性标注研究进展

词性标注和句法剖析联合建模:研究者们创造,由于词性标注和句法剖析紧密干系,词性标注和句法剖析联合建模可以同时显著提高两个任务准确率。

异构数据领悟:汉语数据目前存在多个人工标注数据,然而不同数据遵守不同的标注规范,因此称为多源异构数据。
近年来,学者们就如何利用多源异构数据提高模型准确率,提出了很多有效的方法,如基于辅导特色的方法、基于双序列标注的方法、以及基于神经网络共享表示的方法。

基于深度学习的方法:传统词性标注方法的特色抽取过程紧张是将固定高下文窗口的词进行人工组合,而深度学习方法能够自动利用非线性激活函数完成这一目标。
进一步,如果结合循环神经网络如双向 LSTM,则抽取到的信息不再受到固定窗口的约束,而是考虑全体句子。
除此之外,深度学习的另一个上风是初始词向量输入本身已经刻画了词语之间的相似度信息,这对词性标注非常主要。

三. 句法剖析

措辞语法的研究有非常悠久的历史,可以追溯到公元前措辞学家的研究。
不同类型的句 法剖析表示在句法构造的表示形式不同,实现过程的繁芜程度也有所不同。
因此,科研职员 采取不同的方法构建符合各个语法特点的句法剖析系统。
其紧张分类如下图所示:

下文紧张对句法剖析技能方法和研究现状进行总结剖析:

1. 依存句法剖析

依存语法存在一个共同的基本假设:句法构造实质上包含词和词之间的依存(润色)关系。
一个依存关系连接两个词,分别是核心词( head)和依存词( dependent)。
依存关系可以细分为不同的类型,表示两个词之间的详细句法关系。
目前研究紧张集中在数据驱动的依存句法剖析方法,即在演习实例凑集长进修得到依存句法剖析器,而不涉及依存语法理论的研究。
数据驱动的方法的紧张上风在于给定较大规模的演习数据,不须要过多的人工干预,就可以得到比较好的模型。
因此,这类方法很随意马虎运用到新领域和新措辞环境。
数据驱动的依存句法剖析方法紧张有两种主流方法:基于图( graph-based)的剖析方法和基于转移( transition-based)的剖析方法。

2.1 基于图的依存句法剖析方法

基于图的方法将依存句法剖析问题算作从完备有向图中探求最大天生树的问题。
一棵依存树的分值由构成依存树的几种子树的分值累加得到。
根据依存树分值中包含的子树的繁芜度,基于图的依存剖析模型可以大略区分为一阶和高阶模型。
高阶模型可以利用更加繁芜的子树特色,因此剖析准确率更高,但是解码算法的效率也会低落。
基于图的方法常日采取基于动态方案的解码算法,也有一些学者采取柱搜索(beam search)来提高效率。
学习特色权重时,常日采取在线演习算法,如均匀感知器( averaged perceptron)。

2.2 基于转移的依存句法剖析方法

基于转移的方法将依存树的构成过程建模为一个动作序列,将依存剖析问题转化为探求最优动作序列的问题。
早期,研究者们利用局部分类器(如支持向量机等)决定下一个动作。
近年来,研究者们采取全局线性模型来决定下一个动作,一个依存树的分值由其对应的动作序列中每一个动作的分值累加得到。
特色表示方面,基于转移的方法可以充分利用已形成的子树信息,从而形成丰富的特色,以辅导模型决策下一个动作。
模型通过贪心搜索或者柱搜索等解码算法找到近似最优的依存树。
和基于图的方法类似,基于转移的方法常日也采取在线演习算法学习特色权重。

2.3 多模型领悟的依存句法剖析方法

基于图和基于转移的方法从不同的角度办理问题,各有上风。
基于图的模型进行全局搜索但只能利用有限的子树特色,而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特色。
详细比较创造,这两种方法存在不同的缺点分布。
因此,研究者们利用不同的方法领悟两种模型的上风,常见的方法有:stacked learning;对多个模型的结果加权后重新解码(re-parsing);从演习语估中多次抽样演习多个模型(bagging)。

2. 短语构造句法剖析

分词,词性标注技能一样平常只需对句子的局部范围进行剖析处理,目前已经基本成熟,其标志便是它们已经被成功地用于文本检索、文本分类、信息抽取等运用之中,而句法剖析、语义剖析技能须要对句子进行全局剖析,目前,深层的措辞剖析技能还没有达到完备实用的程度。

短语构造句法剖析的研究基于高下文无关文法(Context Free Grammar,CFG)。
高下文无关文法可以定义为四元组,个中 T 表示闭幕符的凑集(即词的凑集),N 表示非闭幕符的凑集(即文法标注和词性标记的凑集),S 表示充当句法树根节点的分外非闭幕符,而 R 表示文法规则的凑集,个中每条文法规则可以表示为 Ni®g ,这里的 g 表示由非闭幕符与闭幕符组成的一个序列(许可为空)。

根据文法规则的来源不同,句法剖析器的构建方法总体来说可以分为两大类:

人工书写规则

从数据中自动学习规则

人工书写规则受限于规则凑集的规模:随着书写的规则数量的增多,规则与规则之间的冲突加剧,从而导致连续添加规则变得困难。

与人工书写规模比较,自动学习规则的方法由于开拓周期短和系统健壮性强等特点,加上大规模人工标注数据,比如宾州大学的多语种树库的推动浸染,已经成为句法剖析中的主流方法。
而数据驱动的方法又推动了统计方法在句法剖析领域中的大量运用。
为了在句法剖析中引入统计信息,须要将高下文无关文法扩展成为概率高下文无关文法(Probabilistic Context Free Grammar,PCFG),即为每条文法规则指定概率值。

概率高下文无关文法与非概率化的高下文无关文法相同,仍旧表示为四元组,差异在于概率高下文无关文法中的文法规则必须带有概率值。
得到概率高下文无关文法的最大略的方法是直接从树库中读取规则,利用最大似然估计(Maximum Likelihood Estimation,MLE)打算得到每条规则的概率值。
利用该方法得到的文法可以称为大略概率高下文无关文法。
在解码阶段,CKY 10等解码算法就可以利用学习得到的概率高下文无关文法搜索最优句法树。

虽然基于大略概率高下文无关文法的句法剖析器的实现比较大略,但是这类剖析器的性能并不能让人满意。
性能不佳的紧张缘故原由在于高下文无关文法采纳的独立性假设过强:一条文法规则的选择只与该规则左侧的非闭幕符有关,而与任何其它高下文信息无关。
文法中缺少其它信息用于规则选择的消歧。
因此后继研究事情的出发点大都基于如何弱化高下文无关文法中的隐含独立性假设。

3. 总结

分词,词性标注技能一样平常只需对句子的局部范围进行剖析处理,目前已经基本成熟,其标志便是它们已经被成功地用于文本检索、文本分类、信息抽取等运用之中,而句法剖析、语义剖析技能须要对句子进行全局剖析,目前,深层的措辞剖析技能还没有达到完备实用的程度。

四. 文本分类

文本分类是文本挖掘的核心任务,一贯以来倍受学术界和工业界的关注。
文本分类(Text Classification)的任务是根据给定文档的内容或主题,自动分配预先定义的种别标签。

对文档进行分类,一样平常须要经由两个步骤:

文本表示

学习分类

文本表示是指将无构造化的文本内容转化成构造化的特色向量形式,作为分类模型的输入。
在得到文本对应的特色向量后,就可以采取各种分类或聚类模型,根据特色向量演习分类器或进行聚类。
因此,文本分类或聚类的紧张研究任务和相应关键科学问题如下:

1. 任务

1.1 构建文本特色向量

构建文本特色向量的目的是将打算机无法处理的无构造文本内容转换为打算机能够处 理的特色向量形式。
文本内容特色向量构建是决定文本分类和聚类性能的主要环节。
为了根据文本内容天生特色向量,须要首先建立特色空间。
个中范例代表是文本词袋(Bag of Words)模型,每个文档被表示为一个特色向量,其特色向量每一维代表一个词项。
所有词项构成的向量长度一样平常可以达到几万乃至几百万的量级。

这样高维的特色向量表示如果包含大量冗余噪音,会影响后续分类聚类模型的打算效率和效果。
因此,我们每每须要进行特色选择(Feature Selection)与特色提取(Feature Extraction),选取最具有区分性和表达能力的特色建立特色空间,实现特色空间降维;或者,进行特色转换(Feature Transformation),将高维特色向量映射到低维向量空间。
特色选择、提取或转换是构建有效文本特色向量的关键问题。

1.2 建立分类或聚类模型

在得到文本特色向量后,我们须要构建分类或聚类模型,根据文本特色向量进行分类或聚类。

个中,分类模型旨在学习特色向量与分类标签之间的关联关系,得到最佳的分类效果; 而聚类模型旨在根据特色向量打算文本之间语义相似度,将文本凑集划分为多少子集。
分类和聚类是机器学习领域的经典研究问题。

我们一样平常可以直策应用经典的模型或算法办理文本分类或聚类问题。
例如,对付文本分类,我们可以选用朴素贝叶斯、决策树、k-NN、 逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine, SVM)平分类模型。
对付文本聚类,我们可以选用 k-means、层次聚类或谱聚类(spectral clustering)等聚类算法。
这些模型算法适用于不同类型的数据而不仅限于文本数据。

但是,文本分类或聚类会面临许多独特的问题,例如,如何充分利用大量无标注的文本数据,如何实现面向文本的在线分类或聚类模型,如何应对短文本带来的表示稀疏问题,如何实现大规模带层次分类体系的分类功能,如何充分利用文本的序列信息和句法语义信息,如何充分利用外部措辞知识库信息,等等。
这些问题都是构建文本分类和聚类模型所面临的关键问题。

2. 模型

2.1 文本分类模型

近年来,文本分类模型研究层出不穷,特殊是随着深度学习的发展,深度神经网络模型 也在文本分类任务上取得了巨大进展。
我们将文本分类模型划分为以下三类:

基于规则的分类模型

基于规则的分类模型旨在建立一个规则凑集来对数据种别进行判断。
这些规则可以从训 练样本里自动产生,也可以人工定义。
给定一个测试样例,我们可以通过判断它是否知足某 些规则的条件,来决定其是否属于该条规则对应的种别。

范例的基于规则的分类模型包括决策树(Decision Tree)、随机森林(Random Forest)、 RIPPER 算法等。

基于机器学习的分类模型

范例的机器学习分类模型包括贝叶斯分类器(Naïve Bayes)、线性分类器(逻辑回归)、 支持向量机(Support Vector Machine, SVM)、最大熵分类器等。

SVM 是这些分类模型中比较有效、利用较为广泛的分类模型。
它能够有效战胜样本分布不屈均、特色冗余以及过拟合等问题,被广泛运用于不同的分类任务与场景。
通过引入核函数,SVM 还能够办理原始特色空间线性不可分的问题。

除了上述单分类模型,以 Boosting 为代表的分类模型组合方法能够有效地综合多个弱分类模型的分类能力。
在给定演习数据凑集上同时演习这些弱分类模型,然后通过投票等机制综合多个分类器的预测结果,能够为测试样例预测更准确的种别标签。

基于神经网络的方法

以人工神经网络为代表的深度学习技能已经在打算机视觉、语音识别等领域取得了巨大 成功,在自然措辞处理领域,利用神经网络对自然措辞文本信息进行特色学习和文本分类, 也成为文本分类的前沿技能。

前向神经网络:多层感知机(Multilayer Perceptron, MLP)是一种范例的前向神经网 络。
它能够自动学习多层神经网络,将输入特色向量映射到对应的种别标签上。
通过引入非线性激活层,该模型能够实现非线性的分类判别式。
包括多层感知机在内的文本分类模型均利用了词袋模型假设,忽略了文本中词序和构造化信息。
对付多层感知机模型来说,高质量的初始特色表示是实现有效分类模型的必要条件。

为了更加充分地考虑文本词序信息,利用神经网络自动特色学习的特点,研究者后续提出了卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)进行文本分类。
基于 CNN 和 RNN 的文本分类模型输入均为原始的词序列,输出为该文本在所有种别上的概率分布。
这里,词序列中的每个词项均以词向量的形式作为输入。

卷积神经网络(CNN):卷积神经网络文本分类模型的紧张思想是,对词向量形式的文本输入进行卷积操作。
CNN 最初被用于处理图像数据。
与图像处理中选取二维域进行卷积操作不同,面向文本的卷积操作是针对固定滑动窗口内的词项进行的。
经由卷积层、 池化层和非线性转换层后,CNN 可以得到文本特色向量用于分类学习。
CNN 的上风在于在打算文本特色向量过程中有效保留有用的词序信息。
针对 CNN 文本分类模型还有许多改进事情, 如基于字符级 CNN 的文本分类模型、将词位置信息加入到词向量。

循环神经网络(RNN):循环神经网络将文本作为字符或词语序列{0 , … , },对付第时候输入的字符或词语,都会对应产生新的低维特色向量s。
如图 3 所示,s的取值会受到 和上个时候特色向量s−1的共同影响,s包含了文本序列从0到的语义信息。
因此,我们可以利用s作为该文本序列的特色向量,进行文本分类学习。
与 CNN 比较,RNN 能够更自然地考虑文本的词序信息,是近年来进行文本表示最盛行的方案之一。

为了提升 RNN 对文本序列的语义表示能力,研究者提出很多扩展模型。
例如,是非时影象网络(LSTM)提出影象单元构造,能够更好地处理文本序列中的长程依赖,战胜循环神经网络梯度消逝问题。
如图 4 是 LSTM 单元示意图,个中引入了三个门(input gate, output gate, forget gate)来掌握是否输入输出以及影象单元更新。

提升 RNN 对文本序列的语义表示能力的其余一种主要方案是引入选择把稳力机制 (Selective Attention),可以让模型根据详细任务需求对文本序列中的词语给予不同的关 注度。

3. 运用

文本分类技能在智能信息处理做事中有着广泛的运用。
例如,大部分在线新闻门户网站(如新浪、搜狐、腾讯等)每天都会产生大量新闻文章,如果对这些新闻进行人工致顿非常耗时耗力,而自动对这些新闻进行分类,将为新闻归类以及后续的个性化推举等都供应巨大帮助。
互联网还有大量网页、论文、专利和电子图书等文本数据,对个中文本内容进行分类,是实现对这些内容快速浏览与检索的主要根本。
此外,许多自然措辞剖析任务如不雅观点挖掘、垃圾邮件检测等,也都可以看作文本分类或聚类技能的详细运用。

对文档进行分类,一样平常须要经由两个步骤:(1)文本表示,以及(2)学习。
文本表示是指将无构造化的文本内容转化成构造化的特色向量形式,作为分类模型的输入。
在得到文本对应的特色向量后,就可以采取各种分类或聚类模型,根据特色向量演习分类器

五. 信息检索

信息检索(Information Retrieval, IR)是指将信息按一定的办法加以组织,并通过信息查找知足用户的信息需求的过程和技能。
1951 年,Calvin Mooers 首次提出了“信息检索”的观点,并给出了信息检索的紧张任务:帮忙信息的潜在用户将信息需求转换为一张文献来源列表,而这些文献包含有对其有用的信息。
信息检索学科真正取得长足发展是在打算机出身并得到广泛运用之后,文献数字化使得信息的大规模共享及保存成为现实,而检索就成为了信息管理与运用中必不可少的环节。

互联网的涌现和打算机硬件水平的提高使得人们存储和处理信息的能力得到巨大的提高,从而加速了信息检索研究的进步,并使其研究工具从图书资料和商用数据扩展到人们生活的方方面面。
伴随着互联网及网络信息环境的迅速发展,以网络信息资源为紧张组织工具的信息检索系统:搜索引擎应运而生,成为了信息化社会主要的根本举动步伐。

2016 年初,中文搜索引擎用户数达到 5.66 亿人,这充分解释搜索引擎在运用层次取得的巨大成功,也使得信息检索,尤其是网络搜索技能的研究具有了主要的政治、经济和社会代价。

1. 内容构造

检索用户、信息资源和检索系统三个紧张环节组成了信息检索运用环境下知识获取与信息通报的完全构造,而当前影响信息获取效率的成分也紧张表示在这几个环节,即:

检索用户的意图表达

信息资源(尤其是网络信息资源)的质量度量

需求与资源的合理匹配

详细而言,用户有限的认知能力导致其知识构造相对大数据时期的信息环境而言每每存在毛病, 进而影响信息需求的合理组织和清晰表述;数据资源的规模繁杂而缺少管理,在互联网“把稳力经济”盛行的环境下,不可避免地存在敲诈作弊行为,导致检索系统难以准确感知其质量;用户与资源供应者的知识构造与背景不同,对付相同或者相似事物的描述每每存在较大差异,使得检索系统传统的内容匹配技能难以很好应对,无法准确度量资源与需求的匹配程度。
上述技能寻衅互相交织,实质上反响了用户个体有限的认知能力与包含近乎无限信息的数据资源空间之间的不匹配问题。

概括地讲,当前信息检索的研究包括如下四个方面的研究内容及相应的关键科学问题:

1.1 信息需求理解

面对繁芜的泛在网络空间,用户有可能无法准确表达搜索意图;纵然能够准确表达,搜 索引擎也可能难以精确理解;纵然能够精确理解,也难以与恰当的网络资源进行匹配。
这使 得信息需求理解成为了影响检索性能提高的制约成分,也构成了检索技能发展面临的第一个关键问题。

1.2 资源质量度量

资源质量管理与度量在传统信息检索研究中并非处于紧张的位置,但随着互联网信息资 源逐渐成为检索系统的紧张查找工具,网络资源特有的缺少编审过程、内容重复度高、质量 参差不齐等问题成为了影响检索质量的主要成分。
目前,搜索引擎仍旧面临着如何进行有效 的资源质量度量的寻衅,这构成了当前信息检索技能发展面临的第二个关键问题。

1.3 结果匹配排序

近年来,随着网络技能的进步,信息检索系统(尤其是搜索引擎)涉及的数据工具相应 的变得多样化、异质化,这也造成了传统的以文本内容匹配为紧张手段的结果排序方法面临着巨大的寻衅。
高度动态繁杂的泛在网络内容使得文本相似度打算方法无法适用;整合繁芜 异构网络资源作为结果使得基于同质性假设构建的用户行为模型难以应对;多模态的交互方 式则使得传统的基于单一维度的结果分布规律的用户行为假设大量失落效。
因此,在大数据时 代信息进一步多样化、异质化的背景下,急迫须要构建适应当代信息资源环境的检索结果匹 配排序方法,这是当前信息检索技能发展面临的第三个关键问题。

1.4 信息检索评价

信息检索评价是信息检索和信息获取领域研究的核心问题之一。
信息检索和信息获取系 统核心的目标是帮助用户获取到知足他们需求的信息,而评价系统的浸染是帮助和监督研究 开拓职员向这一核心目标提高,以逐步开拓出更好的系统,进而缩小系统反馈和用户需求之 间的差距,提高用户满意度。
因此,如何设计合理的评价框架、评价手段、评价指标,是当 前信息检索技能发展面临的第四个关键问题。

2. 个性化搜索

现有的紧张个性化搜索算法可分为基于内容剖析的算法、基于链接剖析的方法和基于协作过滤的算法。

基于内容的个性化搜索算法通过比较用户兴趣爱好和结果文档的内容相似性来对文档的用户干系性进行判断进而对搜索结果进行重排。
用户模型一样平常表述为关键词或主题向量或 层次的形式。
个性化算法通过比较用户模型和文档的相似性,判断真实的搜索意图,并估计 文档对用户需求的匹配程度。

基于链接剖析的方法紧张是利用互联网上网页之间的链接关系,并假设用户点击和访问 过的网页为用户感兴趣的网页,通过链接剖析算法进行迭代终极打算出用户对每个网页的喜好度。

基于协作过滤的个性化搜索算法紧张借鉴了基于协作过滤的推举系统的思想,这种方法 考虑到能够网络到的用户的个人信息有限,因此它不仅仅利用用户个人的信息,还利用与用户相似的其它用户或群组的信息,并基于用户群组和相似用户的兴趣偏好来个性化当前用户 的搜索结果。
用户之间的相似性可以通过用户的兴趣爱好、历史查询、点击过的网页等内容打算得出。

3. 语义搜索技能

随着互联网信息的爆炸式增长,传统的以关键字匹配为根本的搜索引擎,已越来越难以知足用户快速查找信息的需求。
同时由于没有知识勾引及对网页内容的深入整理,传统网页 搜索返回的网页结果也不能精准给出所需信息。
针对这些问题,以知识图谱为代表的语义搜索(Semantic Search)将语义 Web 技能和传统的搜索引擎技能结合,是一个很有研究代价 但还处于初期阶段的课题。

在未来的一段韶光,结合互联网运用需求的实际和技能、产品运营能力的实际发展水平,语义搜索技能的发展重点将有可能集中在以各种情境的垂直搜索资源为根本,知识化推理为检索运行办法,自然措辞多媒体交互为手段的智能化搜索与推举技能。
首先将包括各种垂直搜索资源在内的深度万维网数据源整合成为供应搜索做事的资源池;随后利用广泛分布在"大众年夜众终端打算设备上的浏览器作为客户端载体,通过构建的繁芜情境知识库来开拓多层次查询技能,并以此管理、调度、整合搜索云真个搜索做事资源,知足用户的多样化、多模态查询需求;末了基于面向情境体验的用户行为模型构建,以多模态信息推举的形式实现对用户信息需求的主动知足。

六. 信息抽取

信息抽取(Information Extraction)是指从非构造化/半构造化文本(如网页、新闻、 论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事宜、商品记录等), 并通过信息归并、冗余肃清和冲突消解等手段将非构造化文本转换为构造化信息的一项综合技能。
例如:

从干系新闻宣布中抽取出胆怯事宜信息:韶光、地点、打击者、受害人、打击 目标、后果等;

从体育新闻中抽取体育赛事信息:主队、客队、赛场、比分等;

从论文和医疗文献中抽取疾病信息:病因、病原、症状、药物等

被抽取出来的信息常日以构造化的形式描述,可以为打算机直接处理,从而实现对海量非构造化数据的剖析、组织、管理、打算、 查询和推理,并进一步为更高层面的运用和任务(如自然措辞理解、知识库构建、智能问答 系统、舆情剖析系统)供应支撑。

目前信息抽取已被广泛运用于舆情监控、网络搜索、智能问答等多个主要领域。
与此同时,信息抽取技能是中文信息处理和人工智能的核心技能,具有主要的科学意义。

一贯以来,人工智能的关键核心部件之一是构建可支撑类人推理和自然措辞理解的大规模知识知识库。
然而,由于人类知识的繁芜性、开放性、多样性和巨大的规模,目前仍旧无法构建知足上述需求的大规模知识库。
信息抽取技能通过构造化自然措辞表述的语义知识,并整合来自海量文本中的不同语义知识,是构建大规模知识库最有效的技能之一。
每一段文本内所包含的寓意可以描述为个中的一组实体以及这些实体相互之间的关联和交互,因此抽取文本中的实体和它们之间的语义关系也就成为了理解文本意义的根本。

信息抽取可以通过抽取实体和实体之间的语义关系,表示这些语义关系承载的信息,并基于这些信息进行打算和推理来有效的理解一段文本所承载的语义。

1. 命名实体识别

命名实体识别的目的是识别文本中指定类别的实体,紧张包括人名、地名、机构名、专有名词等的任务。

命名实体识别系统常日包含两个部分:实体边界识别和实体分类。

个中实体边界识别判断一个字符串是否是一个实体,而实体分类将识别出的实体划分到预先给定的不同种别中去。
命名实体识别是一项极具实用代价的技能,目前中英文上通用命名实 体识别(人名、地名、机构名)的F1值都能达到 90%以上。
命名实体识别的紧张难点在于 表达不规律、且缺少演习语料的开放域命名实体种别(如电影、歌曲名)等。

2. 关系抽取

关系抽取指的是检测和识别文本中实体之间的语义关系,并将表示同一语义关系的提及(mention)链接起来的任务。
关系抽取的输出常日是一个三元组(实体 1,关系种别,实体 2),表示实体 1 和实体 2 之间存在特定类别的语义关系。

例如,句子“北京是中国的都城、政治中央和文化中央”中表述的关系可以表示为(中国,都城,北京),(中国,政治中央,北京)和(中国,文化中央,北京)。
语义关系种别可以预先给定(如 ACE 评测中的七大类关系),也可以按需自动创造(开放域信息抽取)。

关系抽取常日包含两个核心模块:关系检测和关系分类。

个中关系检测判断两个实体之间是否存在语义关系,而关系分类将存在语义关系的实体对划分到预先指定的种别中。
在某些场景和任务下,关系抽取系统也可能包含关系创造模块,其紧张目的是创造实体和实体之间存在的语义关系种别。
例如,创造人物和公司之间存在雇员、CEO、CTO、创始人、董事长等关系种别。

3. 事宜抽取

事宜抽取指的是从非构造化文本中抽取事宜信息,并将其以构造化形式呈现出来的任务。

例如,从“毛泽东 1893 年出生于湖南湘潭”这句话中抽取事宜{类型:出生, 人物:毛泽东,韶光:1893 年,出生地:湖南湘潭}。

事宜抽取任务常日包含事宜类型识别和事宜元素添补两个子任务。

事宜类型识别判断一句话是否表达了特定类型的事宜。
事宜类型决定了事宜表示的模板,不同类型的事宜具有不同的模板。
例如出生事宜的模板是{人物, 韶光,出生地},而胆怯打击事宜的模板是{地点,韶光,打击者,受害者,受伤人数,…}。
事宜元素指组成事宜的关键元素,事宜元素识别指的是根据所属的事宜模板,抽取相应的元素,并为其标上精确元素标签的任务。

4. 信息集成

实体、关系和事宜分别表示了单篇文本中不同粒度的信息。
在很多运用中,须要将来自不同数据源、不同文本的信息综合起来进行决策,这就须要研究信息集成技能。

目前,信息抽取研究中的信息集成技能紧张包括共指消解技能和实体链接技能。

共指消解指的是检测同一实体/关系/事宜的不同提及,并将其链接在一起的任务,例如,识别“乔布斯是苹果的创始人之一,他经历了苹果公司几十年的起落与兴衰”这句话中的“乔布斯”和“他”指的是同一实体。
实体链接的目的是确定实体名所指向的真实天下实体。
例如识别上一句话中的“苹果”和“乔布斯”分别指向真实天下中的苹果公司和其 CEO 史蒂夫·乔布斯。

七. 问答系统

自动问答(Question Answering, QA)是指利用打算机自动回答用户所提出的问题以知足用户知识需求的任务。
不同于现有搜索引擎,问答系统是信息做事的一种高等形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然措辞答案。

近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。
自动问答的研究历史可以溯源到人工智能的原点。
1950 年,人工智能之父阿兰图灵(Alan M. Turing)在《Mind》上揭橥文章《Computing Machinery and Intelligence》, 文章开篇提出通过让机器参与一个模拟游戏(Imitation Game)来验证“机器”能否“思考”,进而提出了经典的图灵测试(Turing Test),用以考验机器是否具备智能。

同样,在自然措辞处理研究领域,问答系统被认为是验证机器是否具备自然措辞理解能力的四个任务之一(其它三个是机器翻译、复述和文本择要)。
自动问答研究既有利于推动人工智能干系学科的发展,也具有非常主要的学术意义。
从运用上讲,现有基于关键词匹配和浅层语义剖析的信息做事技能已经难以知足用户日益增长的精准化和智能化信息需求,已有的信息做事范式急需一场变革。

2011年,华盛顿大学图灵中央主任 Etzioni 在 Nature 上揭橥的《Search Needs a Shake-Up》中明确指出: 在万维网出身 20 周年之际,互联网搜索正处于从大略关键词搜索走向深度问答的深刻变革的风口浪尖上。
以直接而准确的办法回答用户自然措辞提问的自动问答系统将构成下一代搜索引擎的基本形态。
同一年,以深度问答技能为核心的 IBM Watson 自动问答机器人在美国智力竞赛节目 Jeopardy 中降服人类选手,引起了业内的巨大轰动。
Watson 自动问答系统让人们看到已有信息做事模式被颠覆的可能性,成为了问答系统发展的一个里程碑。

此外,随着移动互联网崛起与发展,以苹果公司 Siri、Google Now、微软 Cortana 等为代表的移动生活助手爆发式呈现,上述系统都把以自然措辞为基本输入办法的问答系统看作是下一代信息做事的新形态和打破口,并均加大职员、资金的投入,试图在这一次人工智能浪潮中取得领先。

1. 关键问题

自动问答系统在回答用户问题时,须要精确理解用户所提的自然措辞问题,抽取个中的 关键语义信息,然后在已有语料库、知识库或问答库中通过检索、匹配、推理的手段获取答 案并返回给用户。
上述过程涉及词法剖析、句法剖析、语义剖析、信息检索、逻辑推理、知识工程、措辞天生等多项关键技能。
传统自动问答多集中在限定领域,针对限定类型的问题 进行回答。
伴随着互联网和大数据的飞速发展,现有研究趋向于开放域、面向开放类型问题 的自动问答。
概括地讲,自动问答的紧张研究任务和相应关键科学问题如下。

1.1 问句理解

给定用户问题,自动问答首先须要理解用户所提问题。
用户问句的语义理解包含词法剖析、句法剖析、语义剖析等多项关键技能,须要从文本的多个维度理解个中包含的语义内容。

在词语层面,须要在开放域环境下,研究命名实体识别(Named Entity Recognition)、术语识别(Term Extraction)、词汇化答案类型词识别(Lexical Answer Type Recognition)、 实体消歧(Entity Disambiguation)、关键词权重打算(Keyword Weight Estimation)、答案集中词识别(Focused Word Detection)等关键问题。

在句法层面,须要解析句子中词与词之间、短语与短语之间的句法关系,剖析句子句法构造。
在语义层面,须要根据词语层面、句法层面的剖析结果,将自然措辞问句解析成可打算、构造化的逻辑表达形式(如一阶谓词逻辑表达式)。

1.2 文本信息抽取

给定问句语义剖析结果,自动问答系统须要在已有语料库、知识库或问答库中匹配干系的信息,并抽取出相应的答案。
传统答案抽取构建在浅层语义剖析根本之上,采取关键词匹配策略,每每只能处理限定类型的答案,系统的准确率和效率都难以知足实际运用需求。
为担保信息匹配以及答案抽取的准确度,须要剖析语义单元之间的语义关系,抽取文本中的构造化知识。
早期基于规则模板的知识抽取方法难以打破领域和问题类型的限定,远远不能知足开放领域自动问答的知识需求。
为了适应互联网实际运用的需求,越来越多的研究者和开拓者开始关注开放域知识抽取技能,其特点在于:

文本领域开放:处理的文本是不限定领域的网络文本

内容单元类型开放:不限定所抽取的内容单元类型,而是自动地从网络中挖掘内容单元的类型,例如实体类型、事宜类型和关系类型等。

1.3 知识推理

自动问答中,由于语料库、知识库和问答库本身的覆盖度有限,并不是所有问题都能直 接找到答案。
这就须要在已有的知识体系中,通过知识推理的手段获取这些隐含的答案。

例如,知识库中可能包括了一个人的“出生地”信息,但是没包括这个人的“国籍”信息,因此无法直接回答诸如“某某人是哪国人?”这样的问题。
但是一样平常情形下,一个人的“出生地”所属的国家便是他(她)的“国籍”。
在自动问答中,就须要通过推理的办法学习到这样的模式。
传统推理方法采取基于符号的知识表示形式,通过人工构建的推理规则得到答案。

但是面对大规模、开放域的问答场景,如何自动进行规则学习,如何办理规则冲突仍旧是亟待办理的难点问题。
目前,基于分布式表示的知识表示学习方法能够将实体、观点以及它们之间的语义关系表示为低维空间中的工具(向量、矩阵等),并通过低维空间中的数值打算完成知识推理任务。

虽然这类推理的效果离实用还有间隔,但是我们认为这是值得探寻的方法,特殊是如何将已有的基于符号表示的逻辑推理与基于分布式表示的数值推理相结合,研究领悟符号逻辑和表示学习的知识推理技能,是知识推理任务中的关键科学问题。

2. 技能方法

根据目标数据源的不同,已有自动问答技能大致可以分为三类:

检索式问答;

社区问答;

知识库问答。

以下分别就这几个方面对研究现状进行简要阐述。

2.1 检索式问答

检索式问答研究伴随搜索引擎的发展不断推进。
1999 年,随着 TREC QA 任务的发起, 检索式问答系统迎来了真正的研究进展。
TREC QA 的任务是给定特定 WEB 数据集,从中找到能够回答问题的答案。
这类方法因此检索和答案抽取为基本过程的问答系统,详细过程包括问题剖析、篇章检索和答案抽取。

根据抽取方法的不同,已有检索式问答可以分为基于模式匹配的问答方法和基于统计文本信息抽取的问答方法。

基于模式匹配的方法每每先离线地得到各种提问答案的模式。
在运行阶段,系统首先判断当条件问属于哪一类,然后利用这类提问的模式来对抽取的候选答案进行验证。
同时为了提高问答系统的性能,人们也引入自然措辞处理技能。
由于自然措辞处理的技能还未成熟,现有大多数系统都基于浅层句子剖析。

基于统计文本信息抽取的问答系统的范例代表是美国 Language Computer Corporation 公司的 LCC 系统。
该系统利用词汇链和逻辑形式转换技能,把提问句和答案句转化成统一的逻辑形式(Logic Form),通过词汇链,实现答案的推理验证。
LCC 系统在 TREC QA Track 2001 ~ 2004 连续三年的评测中以较大领先上风得到第一名的成绩。
2011 年,IBM 研发的问答机器人 Watson在美国智力竞赛节目《危险边缘 Jeopardy!》中降服人类选手,成为问答系统发展的一个里程碑。

Watson 的技能上风大致可以分为以下三个方面:

强大的硬件平台:包括 90 台 IBM 做事器,分布式打算环境;

强大的知识资源:存储了大约 2 亿页的图书、新闻、电影剧本、辞海、文选和《天下图书百科全书》等资料;

深层问答技能(DeepQA):涉及统计机器学习、句法剖析、主题剖析、信息抽取、 知识库集成和知识推理等深层技能。

然而,Watson 并没有打破传统问答式检索系统的局限性,利用的技能紧张还是检索和匹配,回答的问题类型大多是大略的实体或词语类问题,而推理能力不强。

2.2 社区问答

随着 Web2.0 的兴起,基于用户天生内容(User-Generated Content, UGC)的互联网 做事越来越盛行,社区问答系统应运而生,例如 Yahoo! Answers、百度知道等。
问答社区的涌现为问答技能的发展带来了新的机遇。
据统计 2010 年 Yahoo! Answers 上已办理的问题量达到 10 亿,2011 年“百度知道”已办理的问题量达到 3 亿,这些社区问答数据覆盖了方方面面的用户知识和信息需求。

此外,社区问答与传统自动问答的另一个显著差异是:社区问答系统有大量的用户参与,存在丰富的用户行为信息,例如用户投票信息、用户评价信息、回答者的问题采纳率、用户推举次数、页面点击次数以及用户、问题、答案之间的相互关联信息等等,这些用户行为信息对付社区中问题和答案的文本内容剖析具有主要的代价。

一样平常来讲,社区问答的核心问题是从大规模历史问答对数据中找出与用户提问问题语义相似的历史问题并将其答案返回提问用户。
假设用户查讯问题为q0,用于检索的问答对数据为SQ,A = {(q1 , a1 ), (q2 , a2 )}, … , (qn, an)}},相似问答对检索的目标是从SQ,A中检索出能够解答问题q0的问答对(qi , ai )。
针对这一问题,传统的信息检索模型,如向量空间模型、措辞模型等,都可以得到运用。

但是,相对付传统的文档检索,社区问答的特点在于:用户问题和已有问句相对来说都非常短,用户问题和已有问句之间存在“词汇鸿沟”问题,基于关键词匹配的检索模型很难达到较好的问答准确度。
目前,很多研究事情在已有检索框架中针对这一问题引入单措辞翻译概率模型,通过 IBM 翻译模型,从海量单语问答语估中得到同种措辞中两个不同词语之间的语义转换概率,从而在一定程度上办理词汇语义鸿沟问题。
例如和“减肥”对应的概率高的干系词有“瘦身”、“跑步”、“饮食”、“康健”、“远动”等等。
除此之外,也有许多关于问句检索中词主要性的研究和基于句法构造的问题匹配研究。

2.3 知识库问答

检索式问答和社区问答只管在某些特定领域或者商业领域有所运用,但是其核心还是关键词匹配和浅层语义剖析技能,难以实现知识的深层逻辑推理,无法达到人工智能的高等目标。
因此,近些年来,无论是学术界或工业界,研究者们逐步把把稳力投向知识图谱或知识库(Knowledge Graph)。
其目标是把互联网文本内容组织成为以实体为基本语义单元(节点)的图构造,个中图上的边表示实体之间语义关系。

目前互联网中已有的大规模知识库包括 DBpedia、Freebase、YAGO 等。
这些知识库多因此“实体-关系-实体”三元组为基本单元所组成的图构造。
基于这样的构造化知识,问答系统的任务便是要根据用户问题的语义直接在知识库上查找、推理出相匹配的答案,这一任务称为面向知识库的问答系统或知识库问答。
要完成在构造化数据上的查询、匹配、推理等操作,最有效的办法是利用构造化的查询语句,例如:SQL、SPARQL 等。

然而,这些语句常日是由专家编写,普通用户很难节制并精确利用。
对普通用户来说,自然措辞仍旧是最自然的交互办法。
因此,如何把用户的自然措辞问句转化为构造化的查询语句是知识库问答的核心所在,其关键是对付自然措辞问句进行语义理解。
目前,主流方法是通过语义剖析,将用户的自然措辞问句转化成构造化的语义表示,如范式和 DCS-Tree。
相对应的语义解析语法或方法包括组合范畴语法( Category Compositional Grammar, CCG )以 及 依 存 组 合 语 法( Dependency-based Compositional Semantics, DCS)等。

八. 机器翻译

1. 理论运用

机器翻译(machine translation,MT)是指利用打算机实现从一种自然措辞到其余一种自然措辞的自动翻译。
被翻译的措辞称为源措辞(source language),翻译到的措辞称作目标措辞(target language)。

大略地讲,机器翻译研究的目标便是建立有效的自动翻译方法、模型和系统,冲破措辞壁垒,终极实现任意韶光、任意地点和任意措辞的自动翻译,完成人们无障碍自由互换的梦想。

人们常日习气于感知(听、看和读)自己母语的声音和笔墨,很多人乃至只能感知自己的母语,因此,机器翻译在现实生活和事情中具有主要的社会需求。

从理论上讲,机器翻译涉及措辞学、打算措辞学、人工智能、机器学习,乃至认知措辞学等多个学科,是一个范例的多学科交叉研究课题,因此开展这项研究具有非常主要的理论意义,既有利于推动干系学科的发展,揭示人脑实现跨措辞理解的奥秘,又有助于促进其他自然措辞处理任务,包括中文信息处理技能的快速发展。

从运用上讲,无论是社会大众、政府企业还是国家机构,都急迫须要机器翻译技能。
特殊是在“互联网+”时期,以多措辞多领域呈现的大数据已成为我们面临的常态问题,机器翻译成为浩瀚运用领域改造的关键技能之一。
例如,在商贸、体育、文化、旅游和教诲等各个领域,人们打仗到越来越多的外文资料,越来越频繁地与持各种措辞的人通信和互换,从而对机器翻译的需求越来越强烈;在国家信息安全和军事情报领域,机器翻译技能也扮演着非常主要的角色。

可以说离开机器翻译,基于大数据的多措辞信息获取、挖掘、剖析和决策等其他运用都将成为空中楼阁。
尤其值得提出的是,在未来很长一段韶光里,建立于丝绸之路这一历史资源之上的“一带一起”将是我国与周边国家发展政治、经济,进行文化互换的紧张计策。
据统计,“一带一起”涉及 60 多个国家、44 亿人口、53 种措辞,可见机器翻译是“一带一起”计策履行中不可或缺的主要技能。

2. 技能现状

基于规则的机器翻译方法须要人工设计和编纂翻译规则,统计机器翻译方法能够自动获取翻译规则,但须要人工定义规则的形式,而端到真个神经网络机器翻译方法可以直接通过编码网络和解码网络自动学习措辞之间的转换算法。

从某种角度讲,其自动化程度和智能化程度在不断提升,机器翻译质量也得到了显著改进。
机器翻译技能的研究现状可从欧盟组织的国际机器翻译评测(WMT)的结果中窥得一斑。
该评测紧张针对欧洲措辞之间的互译,2006 年至 2016 年每年举办一次。
比拟法语到英语历年的机器翻译评测结果可以创造,译文质量已经在自动评价指标 BLEU 值上从最初小于 0.3 到目前靠近 0.4(大量的人工评测比拟解释,BLEU 值靠近 0.4 的译文能够达到人类基本可以理解的程度)。

其余,中国中文信息学会组织的全国机器翻译评测(CWMT)每两年组织一次, 除了英汉、日汉翻译评测以外,CWMT 还关注我国少数民族措辞(藏、蒙、维)和汉语之间的翻译。
相对而言,由于数据规模和措辞繁芜性的问题,少数民族与汉语之间的翻译性能要低于汉英、汉日之间的翻译性能。
虽然机器翻译系统评测的分值呈逐年增长的趋势,译文质量越来越好,但与专业译员的翻译结果比较,机器翻译还有很长的路要走,可以说,在奔向“信、达、雅”翻译目标的征程上,目前的机器翻译基本挣扎在“信”的阶段,很多理论和技能问题仍有待于更深入的研究和探索。

九. 自动择要

自动文摘(又称自动文档择要)是指通过自动剖析给定的一篇文档或多篇文档,提炼、总结个中的要点信息,终极输出一篇长度较短、可读性良好的择要(常日包含几句话或数百字),该择要中的句子可直接出自原文,也可重新撰写所得。
简言之,文摘的目的是通过对原文本进行压缩、提炼,为用户供应简明扼要的笔墨描述。
用户可以通过阅读简短的择要而知晓原文中所表达的紧张内容,从而大幅节省阅读韶光。

自动文摘研究的目标是建立有效的自动文摘方法与模型,实现高性能的自动文摘系统。
近二十年来,业界提出了各种自动文摘方法与模型,用于办理各种自动择要问题,在部分自动择要问题的研究上取得了明显的进展,并成功将自动文摘技能运用于搜索引擎、新闻阅读 等产品与做事中。
例如谷歌、百度等搜索引擎均会为每项检索结果供应一个短择要,方便用 户判断检索结果干系性。
在新闻阅读软件中,为新闻事宜供应择要也能够方便用户快速理解 该事宜。
2013 年雅虎耗资 3000 万美元收购了一项自动新闻择要运用 Summly,则标志着自动文摘技能的运用走向成熟。

自动文摘的研究在图书馆领域和自然措辞处理领域一贯都很生动,最早的运用需求来自 于图书馆。
图书馆须要为大量文献书本天生择要,而人工择要的效率很低,因此亟需自动摘 要方法取代人工高效地完成文献择要任务。
随着信息检索技能的发展,自动文摘在信息检索 系统中的主要性越来越大,逐渐成为研究热点之一。
经由数十年的发展,同时在 DUC 与 TAC 等自动文摘国际评测的推动下,文本择要技能已经取得长足的进步。
国际上自动文摘方面比较著名的几个别系包括 ISI 的 NeATS 系统,哥伦比亚大学的 NewsBlaster 系统,密歇根大学的 NewsInEssence 系统等。

1. 方法

自动文摘所采取的方法从实现上考虑可以分为抽取式择要(extractive summarization) 和天生式择要(abstractive summarization)。
抽取式方法相比拟较大略,常日利用不同方法对文档构造单元(句子、段落等)进行评价,对每个构造单元授予一定权重,然后选择最主要的构造单元组成择要。
而天生式方法常日须要利用自然措辞理解技能对文本进行语法、 语义剖析,对信息进行领悟,利用自然措辞天生技能天生新的择要句子。
目前的自动文摘方法紧张基于句子抽取,也便是以原文中的句子作为单位进行评估与选取。
抽取式方法的好处是易于实现,能担保择要中的每个句子具有良好的可读性。

为办理如前所述的要点筛选和文摘合成这两个关键科学问题,目前主流自动文摘研究事情大致遵照如下技能框架: 内容表示 → 权重打算 → 内容选择 → 内容组织。

首先将原始文本表示为便于后续处理的表达办法,然后由模型对不同的句法或语义单元 进行主要性打算,再根据主要性权重选取一部分单元,经由内容上的组织形成末了的择要。

1.1 内容表示与权重打算

原文档中的每个句子由多个词汇或单元构成,后续处理过程中也以词汇等元素为基本单 位,对所在句子给出综合评价分数。

以基于句子选取的抽取式方法为例,句子的主要性得分由其组成部分的主要性衡量。
由于词汇在文档中的涌现频次可以在一定程度上反响其主要性, 我们可以利用每个句子中涌现某词的概率作为该词的得分,通过将所有包含词的概率求和得到句子得分。

也有一些事情考虑更多细节,利用扩展性较强的贝叶斯话题模型,对词汇本身的话题干系性概率进行建模。
一些方法将每个句子表示为向量,维数为总词表大小。
常日利用加权频数作为句子向量相应维上的取值。
加权频数的定义可以有多种,如信息检索中常用的词频-逆文档频率 (TF-IDF)权重。

也有研究事情考虑利用瘦语义剖析或其他矩阵分解技能,得到低维隐含语义表示并加以利用。
得到向量表示后打算两两之间的某种相似度(例如余弦相似度)。
随后根据打算出的相似度构建带权图,图中每个节点对应每个句子。
在多文档择要任务中,主要的句子可能和更多其他句子较为相似,以是可以用相似度作为节点之间的边权,通过迭代求解基于图的排序算法来得到句子的主要性得分。

也有很多事情考试测验捕捉每个句子中所描述的观点,例如句子中所包含的命名实体或动词。

出于简化考虑,现有事情中更多将二元词(bigram)作为观点。
近期则有事情提出利用频繁图挖掘算法从文档集中挖掘得到深层依存子构做作为语义表示单元。

另一方面,很多择要任务已经具备一定数量的公开数据集,可用于演习有监督打分模型。
例如对付抽取式择要,我们可以将人工撰写的择要贪心匹配原文档中的句子或观点,从而得到不同单元是否应该当选作择要句的数据。
然后对各单元人工抽取多少特色,利用回归模型或排序学习模型进行有监督学习,得到句子或观点对应的得分。

文档内容描述具有构造性,因此也有利用隐马尔科夫模型(HMM)、条件随机场(CRF)、构造化支持向量机(Structural SVM)等常见序列标注或一样平常构造预测模型进行抽取式择要有监督演习的事情。
所提取的特色包括所在位置、包含词汇、与邻句的相似度等等。
对特定择要任务一样平常也会引入与详细设定干系的特色,例如查询干系择要任务中须要考虑与查询的匹配或相似程度。

1.2 内容选择

无论从效果评价还是从实用性的角度考虑,最终生成的择要一样平常在长度上会有限定。
在 获取到句子或其他单元的主要性得分往后,须要考虑如何在尽可能短的长度里容纳尽可能多 的主要信息,在此根本上对原文内容进行选取。
内容选择方法包括贪心选择和全局优化。

2. 技能现状

比较机器翻译、自动问答、知识图谱、情绪剖析等热门领域,自动文摘在海内并没有受 到足够的重视。
海内早期的根本资源与评测举办过中文单文档择要的评测任务,但测试集规 模比较小,而且没有供应自动化评价工具。
2015 年 CCF 中文信息技能专委会组织了 NLPCC 评测,个中包括了面向中文微博的新闻择要任务,供应了规模相对较大的样例数据和测试数据,并采取自动评价方法,吸引了多支军队参加评测,目前这些数据可以公开得到。
但上述中文择要评测任务均针对单文档择要任务,目前还没有业界认可的中文多文档择要数据,这在事实上阻碍了中文自动择要技能的发展。

近些年,市情上涌现了一些文本挖掘产品,能够供应中文文档择要功能(尤其是单文档 择要),例如方正智思、拓尔思(TRS),海量科技等公司的产品。
百度等搜索引擎也能为检索到的文档供应大略的单文档择要。
这些文档择要功能均被看作是系统的附属功能,实在现方法均比较大略。

十. 学习资料

1. 书本

1.1 李航《统计学习方法》

这本经典书值得反复读,从公式推导到定理证明逻辑严谨,普通易懂。

推举指数:五颗星

1.1 宗成庆《统计自然措辞处理》

推举指数:四颗星

2. 博客

斯坦福cs224d:

http://cs224d.stanford.edu/syllabus.html

中文版博客专栏

3. 会议

ACL 2015:

http://acl2015.org/accepted_papers.html

ACL 2016:

http://acl2016.org/index.php?article_id=13#long_papers

EMNLP 2015:

http://www.emnlp2015.org/accepted-papers.html

4. 实践案例

https://github.com/carpedm20/lstm-char-cnn-tensorflow

https://github.com/zoneplus/DL4NLP

https://github.com/HIT-SCIR/scir-training-day

十一. 进一步学习

论文下载地址:

http://ccl.pku.edu.cn/alcourse/nlp/LectureNotes/An%20Overview%20on%20Chinese%20Word%20Segmentation%20(Sun%20Maosong).pdf

https://www.microsoft.com/en-us/research/wp-content/uploads/2017/01/cl-05.gao_.pdf

http://www.voidcn.com/blog/forever1dreamsxx/article/p-1295137.html

http://cleanbugs.com/item/the-syntactic-structure-of-nlp-three-chinese-syntactic-structure-cips2016-413620.html

http://cips-upload.bj.bcebos.com/cips2016.pdf

校正:闵黎

编辑:黄继彦

作者简介

王奇奇 就读于北京航空航天算夜学经管学院,研究方向是统计与优化。
喜好读诗,喜好考试测验与寻衅,对自然措辞处理领域干系的理论与实践有兴趣,并在不断学习中。

更多精彩请关注清华-青岛数据科学研究院微信官方"大众年夜众平台”THU数据派“

标签:

相关文章