导图社区 信息检索原理-第五章
华中师范大学情报学考研初试参考书,自动文摘技术,自动文摘概况,自动文摘的基本方法,自动文摘的评价,自动文摘的评价分类,分为内部评价方法和外部评价方法。
编辑于2022-06-04 12:36:54自动文摘技术
自动文摘概况
文摘
文摘是用浓缩、简明的短文,描述信息载体的主要内容和原始数据,向 使用者报道、传递最新信息和信息查询线索的一种工具。 它的简洁性、准确性和清晰性,使得通过它来了解文献内容,可以节省大量的人力、物力、时间。
摘要的分类
主题摘要
在摘要过程中需要理解全文,抽取文章中的主题(概念,句),组织 成文构成摘要,作者原文摘要大致如此。
信息摘要
根据用户特定信息要求,抽取相关信息,按用户所喜闻乐见的格式组 织成有关信息的摘要。
纲目摘要
在阅读并理解全文的基础上,识别文章的结构信息,给出全文目录摘 要。
摘录型摘要
大部分文摘句都是直接或者间接选自原文,只有少数句子经过加工 整理而成,手工文摘员的摘要大多如此。
评论型摘要
在阅读大量同类文献的基础上,文摘人员对这些文献进行分析比较, 在综合评价后形成的文摘。这类文摘需要工作人员有较深的专业知识,对某一领 域非常熟悉。 其中,1,2,3 三种摘要也常常被称为报道型摘要。
自动文摘的概念
自动文摘就是利用计算机自动地从原始文献中提取文 摘。
自动文摘的处理过程
概述
一般来说,自动文摘的处理过程包括三个步骤:第一步是文本分析,这个阶段是自动文摘的基础,主要是寻最能代表原文内容的成分;第二步是转化过程,通过摘录或概括的方法压缩文;第三步是重组原文内容,生成文摘。
具体步骤
文本分析
文本分析的最终目的是要完全理解原文,包含从句子的理解到由句子 组成的文章的理解。 最初文本分析的方法是借助知识来分析文本的表层特征。这 些方法可归入自然语言理解的范畴,能生成质量很好的文摘,但是领域受限。后 来出现了以研究文献中的词频及其他一些浅层统计信息为主的方法这类方法属 于信息抽取的范畴,效果差,但使用范围广。
文本转换
生成文摘的过程包括对原文内容的选择和泛化。 用户的需要决定了文 摘所要选取的内容,而领域知识则是泛化时所要遵循的准则。 相关信息的选择与 原文的话语结构密切相关。泛化是把信息自动压缩为更抽象的形式。选择和泛化 可以控制文摘的长度。
文摘生成
文摘生成的复杂程度取决于用户对文摘的形式的要求。文本生成包括 交际信息的抽取、篇章的构架和生成合乎语法的表达等。 要想生成内容完整、连 贯性较好的文摘必须注意以下几个问题: 1)影响文摘连贯性的最主要问题是主语悬垂和指代不明 2)其他层次关联关系可能会影响由抽取句子所得到的文摘的可读性 3)文摘要能简洁明了地反映原文内容。一方面需将原文中的重复性、并列性成分合并;另一方面,还应利用上下文知识将短句子加以扩充。
自动文摘的基本方法
基于统计的自动文摘
原理
基于统计的自动文摘充分利用计算机的计算能力,采用统计的方法绕过文 章意义的理解问题。它将文本视为句子的线性序列,将句子视为词的线性序列。 在进行文摘时,首先计算词的权重,然后计算句子的权重,再从文章中挑选出 权重大的句子,按照句子在原文中的自然序列进行排列,加以修饰最终生成文 摘输出。
统计标准
①词频:是指词语在文本中出现的频率。 ②标题:是作者给出的提示文章内容的短语。 ③指示词:文章中往往有许多短语用语引申反映文本内容的总结性句子,这类短 语或词语叫指示词。 ④线索词:词典中的线索词分为三种:取正值的褒义词、取负值的贬义词和取零值 的无效词。 ⑤位置:处于不同位置的句子对文章及段落的主题贡献是不同的,这些位置的句 子成为摘要句的可能性很大,在进行自动摘要的过程中,有必要提高处于这些 特殊位置的句子的权值。 ⑥句法结构:选择摘要句时,应尽可能地抽取陈述句,避免疑问句、感叹句等形 式的句子进入摘要。
一般步骤
待摘文本信息录入
待摘文本信息录入指按照一定的标准格式输入原始文本 信息,即按照计算机能够识别的形式输入文本信息。
词频信息统计
词频信息统计,即是对待摘文本信息中出现的重要词进行词 频统计,并剔除非重要词。
计算句子权重
计算句子权重即根据句子中词频等信息计算出句子权重。
选取候选句子
选取候选句子就是按照句子的权值高低,根据设定的阈值筛 选摘要句,并按照句子在文本信息中出现的先后次序进行排序。
加工生成摘要
这是自动生成的最后一步,即将选取出来的候选句子进行组 合,并对组合后的结果进行润色,最终形成一篇摘要。
优点
这种基于统计的自动摘要方法在实际使用中处理速度快,对于一般的文章以及 结构规范的文章处理效果较好。 对文本的位置和线索词特征处理效果明显, 可适合处理大部分任意文章。 同时,它的处理不需要非常复杂的语言学知识, 比较容易移植到多种语言处理中。
缺点
摘要内容不完整
对于多主题的文本信息,基于统计的自动摘要方法生成的摘要有时仅包含了原文中的某个主题或部分主题,而没有提及其他方面的内容, 从而影响了摘要的完整性,不能全面表达原始文本信息的内容。 这主要是由于基 于统计的自动摘要系统缺乏对文本结构分析和文本内容理解。
摘要内容不简洁
为了强调文本信息的中心内容,作者常常在文本信息中的不同 位置用不同形式的句子和词语对中心内容进行重复描述,以便加强读者对文本信 息的理解程度。这些句子往往都被取作关键句,容易造成摘要内容的冗余。
语句不连贯
基于统计的自动摘要系统是从原始文本中抽取原句子,这样形成的 摘要连贯性较差,当把文本信息中处在不同位置上的若干关键句连接形成一篇摘 要时,这些关键句往往由于脱离了上下文而难以准确表述。同时,句子之间由于 缺乏逻辑次序而显得杂乱,用户在阅读时需要猜测和推理,不但阻碍信息的获取, 还可能得出与原始文本信息不符的观点。
基于理解的自动文摘
原理
基于理解的文摘方法是建立在人工智能、自然语言处理的基础上的,它利 用语言学知识对文章进行复杂的语法分析、语义分析和语用分析,获取语言结构, 还利用相关学科领域知识进行分析、推理和判断,最后生成文摘。
篇章意义的机内表示
篇章意义的机内表示是由物理属性串接起来的一个统一整 体,这个统一整体由逻辑属性表达中心思想。篇章意义的机内表示是原文分析的 结果和文摘生成的依据,它在基于理解的文摘系统中处于中枢地位。不同系统采 用的篇章意义机内表示有所不同。
步骤
待摘文本信息录入
通过键盘或光学识别装置图形识别装置、语音识别装置输 入待处理的资料。
文本分析
文本分析主要包括: 1)语法分析:借助词典中的语言学知识对原文中的句子进行语法分析,确定 词形和词义,切分句子并找出词句间语法上的联系,并以数据结构描述 出来。 2)语义分析:运用知识库中的语义知识将语法结构描述转换成以逻辑和意义 为基础的语义表示。 3)运用分析和信息提取:运用领域知识和上下文信息进行推理和判断,完善 句子的确切意义,在此基础上提取出资料的中心思想或用户感兴趣的内 容。
文摘初稿生成
将信息表中的内容转换为一段完整连贯的文字输出。
优点
基于理解的自动摘要采用了复杂的自然语言理解和生成技术,对文献意义的 把握更准确,因此摘要质量较好,具有简洁精练全面准确、可读性强等优点
缺点
①语料范围限制:理解摘要不仅要求计算机具有自然语言理解和生成能力,还需要表达和组织各种背景、领域知识,这些工作的难度很大,因此如果想获 得高质量的语言分析结果,就必须将待处理的语料限制在某个范围之内。 ②框架的拟定:理解文摘方法的基础是框架的知识表示,框架需要根据领域知 识预先拟定,因此如果想把适用于某个领域的理解文摘系统推广到另一领 域,则需要重新拟定框架,这种填充和组织领域知识的沉重负担使理解文摘 难以移植。
基于结构的自动文摘
原理
基于结构的自动文摘方法是将文本信息视为句子的关联网络,选择与很多 句子都有联系的中心句即可构成摘要。
关联网络
如果将一个语言单元的各个子单元视为节点,并在两个有语义联系的 子单元之间引一条边,那么就得到了一个关联网络在网络中,与一个节点相连的 边数称为该节点的度。节点的度越大,则节点在网络中的重要性越高。将最重要 的若干子单元抽取出来,即可构成文摘。
优点
既能避免自动摘录的不连贯性,又能避免基于理解的自动文摘和基于信息抽取 的自动文摘受专业知识限制的缺陷。 特别是当遇到多主题或篇幅很长的文献时, 将文章视为段落的关联网络方法能很好地进行摘录,再配合以仿人算法,所得 的自动文摘的相关性和连贯性都是其法无法比拟的。
缺点
最重要的缺陷就是不能做到让计算机真正理解文献的主题内容。这种方法只是 在人工智能领域无法取得突破性进展时产生的一种替代方法,适合于科技性文 献和新闻,对于有隐含意义题材的文章比如散文、诗歌、小说不适用。
信息抽取
概述
信息抽取只对有用的文本片段进行有限深度的分析其效率和灵活性相较于基于理 解的自动文摘方法显著提高。 信息抽取的自动文摘以文摘框架为中枢,分成选择和 生成两个阶段。 在选择阶段,利用特征词从文本中抽取相关的短语或句子填充文摘 框架; 在生成阶段,利用文摘模板将文摘框架中的内容转换为文摘输出。
缺点
①由文摘框架的编写完全依赖于领域知识,所以信息抽取仍然是受领域限制的, 只不过文摘框架比理解文摘中的脚本等要简单得多,更易于编写。 ②信息抽取要想应用于多个领域,就必须为每个领域都编写一个文摘框架,在处 理文本时先进行主题识别,根据主题调用相应的文摘框架。 ③单凭特征词或特征短语的提示作用来填充文摘框架并不是非常准确的,而且由 于语言的灵活多样,一些有价值的文本片段可能没有明显的特征。 ④由于使用模板生成文摘,文摘的语言千篇一律,十分呆板。
自动文摘的评价
自动文摘评价存在的问题
自动文摘研究属于自然语言理解范畴,因而对一个文摘系统的评价实际上就是对一 个自然语言理解系统的评价。理解本质上是客观事物在人脑中的一种主观反映。正 是由于理解是一种主观反映,使得我们很难制定一套客观的标准来评判一个自然语 言理解系统,所以对自动摘要的评价也陷入了相同的困境。 自动文摘是一个文本精炼的过程,要求机器自动为原文提供一个基本反映文章主题 的精炼版本。文摘的结果并不一定必须是由原文的句子组成,还可以对原文的句子 进行修饰改造,甚至可以利用机器自动生成与原文完全不同的句子。对于这类非摘 录性文摘系统,要建立一个评价系统将更为复杂,因为系统还必须要判断生成的文 摘句子语法上是否正确、语义上是否正确以及是否反映了原文的主题。
自动文摘评价分类
内部评价方法
定义
内部评测是针对一个独立的文摘系统所表现的性能进行评价,它主要评价文摘 的连贯性和内容的完整性。
类型
摘要比较法
是将自动摘要系统所产生的结果与理想摘要进行对比根据二 者的相似性进行评价。
可接受性评价方法
:是对文本信息进行主观性评价,这种方法的主要思想是 由于摘要属于自然语言理解的范畴,有时很难采用客观地标准进行评价, 因此往往依靠主观性感觉进行评价。参加评价者将系统生成的摘要与原文 进行对照,参考事先确定的一些定性的指导性评价标准,根据评价者的主 观感觉对摘要进行评价,评价结果为可接受或不可接受。
优点
利用内部评价方法的好处在于直接对获得的摘要进行分析,比较有针对性,特 别适于研究者对自己的系统进行内部评价时采用,对系统改进研究具有较大的 帮助,该评价过程也是对其系统本身的一种深入研究学习的过程。
缺点
缺陷在于该 方法主观性太强,不利于大规模地对多个文摘系统进行客观性评测。
外部评价方法
定义
外部评测是通过分析自动文摘对完成其他任务的影响来实现评测的,外部评 测是测试文摘对自动问答、分类等任务的影响程度。外部评价方法是一种间 接的评价方法,与系统的功能相应,将文摘应用于某一个特殊的任务中,根 据摘要功能提高这项任务的效果来评价自动文摘系统的性能。
优点
外部评价方法通常是在一个具体的任务中来评价文摘系统,因而相对于内部评价方 法具有较少的主观性,易于对多个文摘系统进行评价。此外,在特定应用中评价系 统也有助于自动文摘系统在其他领域中的应用研究。
缺点
每次评测只是针对一个特定任务,局限性太大,不利于系统能的全面改进
自动文摘技术的研究进展