导图社区 信息检索原理-第三章
华中师范大学情报学考研初试参考书,自动索引和文档组织,索引概述,索引的功能与类型,索引的过程,信息标引,聚类与自动分类,索引文档的组织。有需要的小伙伴可以下载收藏哦~
编辑于2022-06-04 12:19:19自动索引和文档组织
索引概述
索引的概念
索引是著录书刊中的题名、语词、主题、人名、地名、事件及其他事物名称,并把 它们按一定的方式编排起来,指明出处的一种检索工具。
索引的发展历程
人工索引阶段
人工引是指索引编制过程中全部依靠人工来完成。 因为索引的整个编制过 程由人工完成,因此人工索引具有准确率相对较高的优点。 但人工索引方式也 有难以克服的缺点: ①对数量极其庞大并快速增长的网络信息资源,完全用人工 标引建立索引是难以想象的; ②人工抽词缺乏一致性。 当前人工索引方式主要 应用于数据规模较小并且相对稳定或者专业性较强的领域。
机辅索引阶段
机辅索引指索引的半自动化。具体地说,就是在索引的编制过程中,既有计算机 的参与,又有人工的干预。 机辅索引采取人机合作的方式,把索引员从繁重的手 工劳动中解放出来,不仅具有质量高、速度快的优点,而且成本低于动索引。
自动索引阶段
自动索引的基本原理是借助一定的技术手段,设计一种算法,对数字化文本进行 词法分析,识别出词与非词、内容词(实词)和功能词(虚词),并采集词的相 关信息。在此基础上,根据一定的规则进行规范处理得到标目用词,最后将标目 用词、出处信息以及其他相关信息共同构成索引款目。 目前,自动索引方式对于 范围较小并且相对稳定的文本信息,特别是英文信息的处理较为成功。 然而,对 于数量宏大、增长迅速、高度分布、文种多样、结构复杂、变动无常的网上信息 而言,由于服务器执行关算法的计算量异常大,系统可能随时崩溃。
索引的功能与类型
功能
检索功能
检索功能是索引的最基本的功能,索功能是索引的最基本的功能。索 引诞生,其检索功能随之而诞生;索引发展,检索功能也随之变化和发展。 索引 能够提供多种查检途径,方便查检,大大节约了查询信息所花费的时间,而且还 可以增加查全信息的可能性,提高信息查全率和查准率。
分解功能
索引揭示的是一个完整的信息载体或集合中的某一部分、某一特征或 事物名称、某一知识单元,信息实体中的一切信息点都可以成为索引的对象。 索 引把文献或信息中的知识单元分解,这就是索引的分解功能。它是索引工作的起 跑线和索引编纂的基础,没有这种分解功能,就没有索引功能。
梳理功能
信息中包含着许多性质不同的知识单元,它们基本上呈无序状态。把 这些无序的知识单元按照一定的规律进行整理,这就是索引的梳理功能。 梳理功能是索引分解功能的能继续。没有分解功能就没有梳理功能,如果只有分解功能 而无梳理功能,那么分解功能也就没有意义。
聚类功能
对某个领域的信息有计划的编纂索引,从各个不同的角度和层次对信息内容进行多维揭示和组合,使之形成一个检索这些信息的各种不同性质的知识单元的网络,这就是索引的聚类功能。 可以让用户对文献中的资料单元产生族性检索,扩大检索途径。
追踪功能
索引能够追踪各个主题发展的踪迹。
导航功能
导航功能是指系统能够指引正确的航向,使用户沿着正确的航向行驶, 即通过相关索引能够检寻所需要的资料。
预测功能
索引的预测功能有很多表现,如引文引中统计到被引作者的论文频率, 基本上能够预测到这个专业的学术带头人;从题录索引中统计的课题内容,可预 测到学术界未来研究方向等。
类型
按索引对象的性质分
信息内容特征的索引
按信息主题内容的索引
包括主题索引和分类索引。
按信息中出现的事物名称的索引
包括人名索引、地名索引、机构名索 引、会议名索引、事件名索引、文件名索引、化合物索引、矿物名索引、 生物名索引、产品名索引,等等。
按信息特殊内容的索引
包括地理坐标索引、旋律索引、化学结构代码 索引,等等。
信息外部特征的索引
著者索引
包括个人著者索引、团体著者索引。
题名索引
包括书名索引、刊名索引、篇名索引。
信息编号索引
如专利号索引、专利对照索引、标准号索引、报告号索 引、合同号索引等。
常见索引
主题索引
主题索引是指以文献内容主题为标目的索引。 按照采用的索引语言的类型,分为标题索引、元词索引、叙词索引和关键词索引。 按照主题的索引对象,分为人名索引、地名索引、物品名索引等。
著者索引
著者索引是指以著者的名称为标目的索引,可分为个人著者索引 和团体著者索引两种。 由于著者名称简短、稳定和易记,其索引编制简单, 应用相当广泛。但由于各国姓氏情况不一,不同语种的姓名书写方法不同, 在编制和查找著者索引时须遵循严格的规定。
名称索引
名称索引是指根据文献信息中包含的名称来检索信息的途径,包 括人名、机构名及其他有生命无生命的名称。
地名索引
地名索引是指通过地理方位的名称查找有关文献信息的途径。这 种地理方位可以十分广泛,还可以是某一特定的建筑物。
题名索引
题名索引是指以文献题名为标目的索引,主要用于查找某一特定 的文献。由于题名较长,难以记忆,而且只能从首字查起,没有其他检索入口,因此题名索引正逐渐被关键词索引所取代。
数字或代码索引
数字或代码索引是指提供按数码标识检索文献或信息 的途径。
分类索引
分类索引是指以分类号为标目,按照某种分类表或分类体系编排 的索引。分类索引按照学科体系排列,编制方式与图书馆的分类目录相似, 提供对某一学科、专业或课题的检索。但分类索引因分类体系不易掌握,一 般不易编制,也难以查检。
索引的过程
概述
索引的过程实际上是为了方便查询而对信息指定索引款目的过程,包括采集信息、建立数据库、标引信息、形成索引数据库。
具体过程
信息采集
概述
信息采集,指有关机构和个人,根据一定目的、将系统内外各种形态的信息采出并 汇集起来的过程。 信息采集是索引的起点,是索引的前提和基础。信息采集的质量 是决定索引质量的关键,因为后面的标引信息都是以采集到的信息为材料而进行 的。采集的信息是否全面、是否真实、是否可靠,以及信息的时效性和实用性都影 响索引的质量。
分类
传统的文献信息采集
传统的文献信息采集主要是通过人工采集如采购、索取、 交换、检索、复制等手段来获得有关文献信息。 采购是一种经常性的、稳定的、 系统的采集信息的有效方式,包括现购、订购、邮购、网上采购等方式; 索取主 要指信息采集人员对尚未发表或未通过正式渠道流通的信息源拥有者直接联系 取得的一种方式; 交换是指个人或机构利用所拥有的信息源与其他个人或机构进 行交换,互相补充,扩大信息来源的方法。其特点是准确率较高但是效率较低。
网络信息采集
搜索引擎采用了自动网页搜索术进行网络信息采集。这种技术的 典型代表是网络机器人。 网络机器人是借助于搜索软件完成网络信息的采集工 作。其工作方式是从 URL 库获得输入,解析 URL 中标明的 Web 服务器地址,建立 链接、发送请求和接受数据,将获得的网页数据存储到原始网页库,并从其中提 起出链接信息放入网页结构库,同时将待抓取的 URL 放入 URL 库,保证整个过程 递归进行,直到 URL 库为空。 一般,人工采集的准确性较好,网络信息采集的效率和全面性较高。
信息标引
标引是通过对文献或信息的分析,选用确切的检索标识,用以反映 该文献或信息资源内容的过程。 信息标引包括两个环节:一是主题分析,即在了解 和确定文献的内容特征及某些外部特征的基础上,提炼主题概念;二转换标识,即 用标识表达主题概念,构成检索标识。
建立索引
索引系统是指一个检索工具中多种索引相互配合的有机集合。一个完整的索引系 统,通常都是由多种索引构成的索引体系,能够提供多种需要的检索途径。 索引系 统的建立是整个检索系统的基础和核心,是服务的先导,因而索引系统的设计、建 立和维护及其重要。 单个索引包括索引款目、参照系统和索引款目导引标志。 一部索引就是一个个索引款目的有序集合,索引款目是构成索引的基础。 索引款目由索引标目和索引地址两部分组成。 索引标目又可分为主标目和副标目。主标目揭示被索引概念(文献主题)或项目的核心部分,并决定索引款目的排列位 置和检索入口。副标目从属于主标目,其作用是使索引标目含义更为具体、专指。 索引地址指示被索引概念(文献主题)或项目在文献正文中的位置,是索引与文献 正文之间、间接索引与直接索引之间的连接手段。 索引的建立一般有以下步骤:①选题,建立主索引文件;②对主索引关键词进行抽词倒排,建立目标格式文件;③排序与归并。
信息标引
概述
从依据所用标识的受控程度来看,信息标引可分为受控标引和自然语言标引。 受控标引指采用受控语言中的标识表达主题概念的标引方式,主要有分类标从和主题标引; 自然语言标引是指采用自然言语词作为标识来表达主题概念的标引方式。
具体方式
分类标引
概述
分类标引是指依据一定的分类语言,对信息资源的内容特征进行分 析、判断和选择,赋予分类标识的过程。 分类标引是按信息内容的学科属性来系统 提示和组织信息的方法,是信息资源进行分类组织的基础和前提,对文献开发利用 具有重要的意义。 分类标引的工具是分类法。分类标引的过程、就是根据既经选定的分类法,全面分析标引对象的特征,确定所属类目,将标引对象的学科特征及有关信息用分类法中规定的符号代码揭示出来经过分类标引,原先杂乱无章的信息就可以按照分类法规定的序列组织排列成一定的学科体系。
要求
①标引的准确性:是指将信息资源纳入相对应的学科和专业,以及分类体系中最专 指、最切题的类目。包括两个方面,其一,归类要正确,将信息资源归入对应的 学科和专业;其二,归类要确切,要将信息资源归入分类体系中最专指的类目。 ②标引的充分性:指根据使用需要,充分揭示有检索价值的信息资源的主题。 ③标 引的一致性:指同一主题内容的信息资源标引结果的一致性。包括不同 标引员对同一类型主题资源赋予的分类标识应一致,同一标引员在不同时间对 同一类型主题资源赋予的标识应一致。 ④标引的适用性:指标引应考虑系统的特点和用户的检索需要,使标引结果适合使 用。
规则
概述
分类标引的规则是分类标引必须遵守的共同规范。一般是根据检索系统的需要,根 据分类表的特点并结合信息资源的特点确定的。 按照分类标引规则的特点和涉及的 内容对象范围,分类标引规则一般可以分为基本标引规则、一般标引规则、特殊标 引规则三类。
分类
基本分类标引规则
定义
分类标引的基本规则是整个分类过程中始终必须遵循的规则,它具有指导性作 用。
主要内容
1)信息资源的分类标引必须以信息内容的学科或专业属性为主要标准。 2)信息资源的分类标引必须能体现分类法的逻辑性、等级性、系统性。 3)文献信息分类标引的专指性原则,即信息资源必须归入最切合其内 容的类。 4)信息资源分类标引的实用性原则,即信息资源必须归入用途最大的类。 5)信息资源分类标引的一致性原则,即把内容相同的信息归入相同的类。
一般分类标引规则
概述
分类标引的一般规则是从著作方式的角度提出来的,适用于各个知识门类的分类规则。信息资源分类的方法是与各种主题类型、写作出版方式等特点相联系 的不同主题类型、写作方式、编辑出版形式等的资源具有不同的标引要求和规 律。
不同类型的标引方法
单主题信息的分类标引
单主题信息资源是指只论述或研究一个对象,即一个主 题内容。 根据构成主题概念因素的数量,可划分为单元主题和复合主题。 单元主题指信息只含有一个主题概念因素;复合主题指由两个或两个以上 概念因素结合组成的单主题。
多主题信息的分类标引
定义
多主题是指文献信息论述或研究两个或两个以上的对 象即多个主题内容。根据主题之间的关系,可划分为并列关系主题、从属 关系主题、应用关系主题、影响关系的主题、因果关系的主题、比较关系 的主题等。
类型
并列关系主题的分类标引
并列关系的主题是指文献信息同时论述两个或 两个以上的各自独立的主题。
丛属关系主题的分类标引
是指文献信息各主题之间有包含关系、 属种关系或整体与部分关系。
应用关系主题的分类标引
是指一个主题应用到另一个或几个主题 中,或者是指几个主题同时应用到一个主题中。
影响关系主题的分类标引
是指文献信息内容涉及几个主题,其中一个主题 对另一个或多个主题产生影响,或者多个主题对一个主题产生影响等。
因果关系主题的分类标引
是指文献信息内容涉及几个主题,其中一个主题 是另一个主题或多个主题产生的原因,或者一个主题是另一个或多个主题 产生的结果。
比较关系主题的分类标引
是指文献信息中多个主题之间具有相互比较优题 产生的结果。
丛书、多卷书的分类标引
丛书是将汇集多种独立的著作为一套,并冠有一 个总书名的出版物类型。 对丛书的标引一般应与其著录方式一致,大体上 有两种处理办法:其一,按集中方式处理,即先按整套丛书的内容标引,然 后再分别对每一种书作分析标引;其二,按分散方式处理,即首先按丛书 中的各个单元的内容归类,最后在根据情况确定是否为丛书综合分类标引。 多卷书是一种将一完整著作分为若干卷、册版的文献类型。通常有一总书名,各卷、册自成一个单位,全书内容连贯,构成一个整体。多卷书一般应集中分类,并依全书的整体内容为归类的依据。
参考工具书的分类标引
参考工具书是指专供查考资料、事实、数据的工具 书,包括百科辞典、手册、年鉴、图谱等。 检索工具书是供查找文献信息 或其线索的工具书,包括目录、索引、文摘等。
对著作的研究、注释的分类标引
科学著作的评论、研究、注释一般按内容 与原书归入一类,必要时,使用专类复分表区分其著作方式。
特种文献的分类标引
对于技术标准、专利文献的分类标引,采用方法不尽 相同。 专门信息机构往往使用专门类表如《国际专利分类表》等作为分类工具,一般信息机构则通常按通用类表的有关规定进行处理。
非书资料的分类标引
非书资料指非印刷型文献,可分为声像资料和缩微资料两类,一般根据文献内容的学科属性加以标引,并依据总论复分表揭示 其媒介形式。
网络信息资源的分类标引
网络信息资源的分类标引,有两种方式 一种是 在传统分类体系的基础上,进行必要的增补; 另一种是采用直接以网络资源 为对象编制的分类体系, Yahoo!、搜狐等分类检索系统属于此类情况。
主题标引
概述
主题标引是对信息内容进行主题分析,确定主题概念,然后按照一定的词汇控 制方式,为标引对象赋予恰当的语词标识的过程。 主题标引可以集中有关一个主题的各方面信息,直观性、专指性和适应性都比较好。
标引方式
定义
标引方式是根据文献或信息特点和使用需要,确定的标引和揭示主题的形式。 不同的标引方式,直接反映着对文献主题标引的不同深度。 据揭示信息内容的 方式来分,标引方式包括整体标引、全面标引、对口标引、综合标引和分析标 引等。
分类
整体标引
整体标引,亦称浅标引,是一种概括揭示信息资源基本主题内容 的标引。 整体标引的对象,可以是书籍、论文、标准、档案或各种其他资 源类型。 这种标引只揭示信息资源中具有检索价值的整体性主题,不揭示 涉及的各种从属性主题内容。
全面标引
全面标引,亦称深标引。是一种充分揭示信息资源涉及的所 有有检索价值的主题概念的标引,它深入揭示信息的各部分内容,全面 提取局部主题予以标引。 这种标引不仅要求揭示文献论述的整体主题, 而且要求揭示符合检索系统要求的所有主题概念,即详细标引文献信息 中有检索价值的各部分内容。
对口标引
对口标引,也称重点标引,是一种只揭示文献或信息中适合 某指定专业需要的主题内容的标引。 对口标引具有较强的针对性和筛选 性,一般适用于专业单位对与本专业相关的信息进行标引。
综合标引
综合标引是指对丛书,多卷书、论文集、会议录、连续出版 物、档案的卷宗等类型文献为一个单元所进行的一种整体标引。 综合标 引是以整套(部)文献的内容为依据,而不以其中一种、册或篇文献的 内容为依据,一般应该标引出表示文献类型的主题因素,必要时,可在 综合标引之后就其中的文献单元作分析标引。
分析标引
分析标引是一种根据信息资源中的部分片段信息资源的构成 单元所进行的标引。 分析标引是与整体标引和综合标引相对应的标引方 式,可以在对全书进行整体标引的同时,揭示信息资源中有检索价值的 内容。
标引方法
标题法
概念:标题法是以标题词为主题标识,以词表预先确定的组配方式标引和检索 19 的方法。 优点: 这种方法采用列举式词表,形式直观; 定组式标题结构固定,含义明确; 按照词表列举的标题和副标题进行标引,操作简单; 主要通过以参照形式 对词汇进行控制,揭示了标题之间的相关性。 缺点: 标题法因为采用列举式,因此收词量巨大,专指度相对不足,修订量也 较大; 大量采用定组式标题,在手检工具中使用时只能从规定的组配顺序入 手进行查找,无法实现多元检索,影响检索效果。
元词法
概念:元词法又叫单元词法,以元词作为主题标识,通过字面组配的方式表达 资源主题。 优点:词表体积小、标引专指度高、便于从不同主题词角度检索、适合对专指 主题进行标引。 缺点:直接性差、不适于查找论述基本主题的资源,因采用字面组配方法在字 面分解与语义分解不一致时,容易造成误差
叙词法
概念:叙词法是以从自然语言中精选出来的,经过严格处理的语词作为资源主 题标识,通过概念组配方式表达主题的方法。 优点: 结构完备,词汇控制严格,可根据检索系统的需要对词汇进行有效控制; 组配准确,标引能力强,能够准确、专指地标引和揭示各种主题内容; 检索 效率高,可通过灵活组配方式进行多途径检索,达到较好的检索效果; 对检 索系统适应能力强,可同时适用于标识单元和文献单元检索方式,及能较好 适应计算机检索系统的要求,又能适应手工检索系统的需要。 缺点: 是由于词汇控制要求严格,词表编制和管理的难度大,需要花费较多人 力、物力; 资源标引须在概念分析的基础上进行,标引难度大、要求高。
标引规则
选用标引词的基本规则
正式词标引规则
相对专指标引规则
标引方案优先顺序规则
适度标引规则
一致标引规则
叙词组配标引的基本规则
1)叙词组配必须是概念组配 2)组配结果要求所表达的概念清楚、确切,只能表达一个单一的概念,不能出 现产生另外意义的现象。 3)叙词组配中要注意次序,应参考我国国家标准中规定的叙词组配方式。
自然语言标引
定义
自然语言标引是一种采用自然语言语词作为标识表达主题概念的标引方式。
自动分词
词典分词法
是通过构造一个机内词典,并将其与被标引的信息进行匹配当 从待处理的信息中得到词典词汇时,把它作为备选标引词记载下来。
切分标记的分词法
是将能够断开词和词组或表示汉字之间联系关系的汉字 集合组成字典,这个字典称为切分字典。这类方法的典型代表是非用字后 缀表法。 此方法按照不同的用途将字机械地分成四个类别即表外用字、表 内用字、条件用字、非用字。
基于语法语义理解的分词方法
汉语组词的复杂性,令汉语机械分词法的发 展步履维艰。于是,将语法语义等知识应用到汉语自动分词中,成为自然 语言分词的一个新的发展方向。 其基本思想为建立分词知识库,这些知识 库采用语义网络技术或扩充网络技术,并以此作为语法语义分析器对语句 进行判断和推理,达到正确分词的目的。
基于神经网络的分词方法
人工智能是对信息进行智能化处理的一种模式。 它是模拟人脑的运作机制,将神经网络方法应用于汉语句法分析。将每个 短语用一个神经元表示,短语间的句法关系或限制则用神经元及其相互联 结来表达。
自动标引
概述
是指利用计算机从各种文献信息中自动提取相关标识的过程。
分类
词典法标引
指预先建立切分词典,以该词典为依据,采用一定的策略将文 本字串与词典条目逐一进行比较,匹配成功则以字串为词索引项。
单汉字标引
单汉字标引吸收了西文自动抽词标引的部分思想,在标引时将 概念词拆成单汉字,以单个汉字为处理单位,利用汉字索引文件实现自动 标引。
聚类与自动分类
聚类的定义
聚类就是将数据对象组成不同的类,使得类之间的相似性尽可能小,而类内的 相似性尽可能大。
自动聚类方法
定义
文献自动聚类是指利用计算机将文献按其属性相似度聚集成不同的类,生成聚类文件和提供聚类检索。
具体方法
层次聚类法
是依据一种事先选定的相似性或非相似性度量和类间距离,经过计 算建立聚类图,再根据聚类图决定分类结果。
启发式聚类
启发式聚类不需要对文献相似矩阵中的所有元素进行遍历。文献集 合中总是有能代表主体内容的文献,他的附近会聚集有较多的文献,可以运用密 度测试法将有代表的文献取出,作为聚类中心,各文档与聚类中心比较,相似度 超过一定阈值视为以聚类文献,修正类心,调整类成员,直到没有未聚类文献为 止。
增量式聚类法
增量式聚类法同样需要进行相似度测量,但是,它不需要事先对 文献的相似度进行计算。因为增量式聚类法是一种实时地对文献进行聚类的方 法,而不需要事先得到所有的文献。增量式聚类法按文献输入的次序进行聚类, 所得到的聚类结果同处理次序毫无关系。
自动分类
文献自动分类,是指首先分析被分类对象中的特征,将其与各种类别中对象所具有 的共同特征或一定的分类标准、分类参数进行比较;然后将被分类对象划归为特征 最相似的一类,并赋予相应的分类号的过程。 分类方法主要有朴素贝叶斯、最近邻算法、决策树算法、支持向量机
索引文档的组织
文档的定义
文档是按一定结构组织的相关记录的集合,文档是书目数据库数据组织的基本形式。
按组织方式分类
顺排文档
概念
顺排文档是主要按照某一属性的字符顺序存入了数据库的全部记录,故又称为主文 档。 顺排文档将文献数据库中全部记录按一定顺序排列,因此文献记录集合就构成 数据库的顺排文档。
检索
流程
顺排文档的检索,只要将用户检索表达式与顺排文档中的文献记录依次比较,就可 以判断是否有匹配的文献记录
方式
顺序检索
也称为顺序扫描,即可以从一个顺排文档的开头部分,一次查找文 档中的所有信息,以找到文档中潜在的某一特定信息。 对于含有 n 个记录的 文档来说,平均仍然需要查找(n+1)/2 次。 因此,存储记录越多,扫描时 间越长,这样检索效率就会越低。
分块检索
首先对按关键字的顺序将主文档分为若干大小适当的记录块,查 找时,将所要查找的记录的关键字依次与各块的最后一个记录比较,以确定 待查的记录在哪一块。
折半检索
也称二分检索法。即按照检索关键字值的大小将检索范围分成二 分之一,逐步缩小范围检索,直到查找到所需信息。 顺排文档组织方法在建立索引的时候结构比较简单,建立比较方便且易于维护。 但是在查询的时候需对所有的文档进行扫描以保没有遗漏,这样就使得检索时 间大大延长,检索效率低下。 所以通常采用倒排文档来进行组织,以提高检索 效率。
倒排文档
概念
是将主文档中的可检字段抽出,按某种顺序重新排列起来所形成的 一种索引文档。其组成要素包括:关键字、目长、记录号集合。 这个文档归并相同词 汇,并把在顺排文档中相关记录的记录号赋予在索引关键字之后,以保证通过某一 特征能够快速、方便地获取相关记录。 它是建立在计算机顺排文档的基础之上的,它从顺排文档中提取可检索字段,因此 倒排文档可以视为顺排文档的辅助索引,它从不同的角度提高了对文档的快速查 询。
建立及更新
建立
倒排文档是在顺排文档的基础上建立的,主要步骤为: ①索引词选择。选择需要做索引的字段属性,抽出其中内容,并在其后附上记录号。 ②对抽出的内容进行排序,便于归并相同内容。 ③对相同内容进行归并,把合并后的内容放入倒排文档的主键字段,统计每一数据 的频次作为目长,把每一内容后的记录号顺序放于记录号集合字段。
更新
倒排文档是在顺排文档的基础上建立起来的。它的更新包括增加、删除和索引库的 整理。具体过程如下: ①在增加记录时,将新的倒排表信息添加到原有索引库相应位置的后面。如果当前 块剩余空间不够,则在索引库的末尾再开一块新的存储区写入倒排信息,再建一 个指针指向新块供检索时使用。 ②当索引库需要删除一些索引信息时,并不是直接将相应的索引信息从库中清除, 而是在这些索引信息前面加上一个删除标志,当检索的时候如果发现删除标志则 跳过这块信息而继续向后检索。但这样一来,索引库将随着时间的增加而不断增 大,所以必须定期对索引库进行整理。 ③索引库整理是将其中被删除的信息,从库中真正清除出去,把库的信息前移,覆 盖被删除的信息,使索引库的体积缩小。
检索
倒排文档可以实现对文献的快速查找,只需检查索引就可以确定哪些文献是与查询 请求相关的。 同时,在处理复杂的多关键字查询时,可在倒排文档中先完成查询的 逻辑运算,得到结果后再对记录进行存取,这样就不用对所有记录进行查询,从而 提高查找速度。 此外,索引是按关键字值的顺序排列的不再需要检查各个记录来确 定他们的实际关键字值。但是在实施检索时,倒排文档必须和顺排文档配合使用。