导图社区 信息检索原理与技术框架
信息检索原理与技术框架:定义:广泛应用于计算机系统的人机对话,是各类交互式系统最早的一种用户接口,是用户驱动界面的代表。
编辑于2022-04-09 20:19:15信息检索原理与技术
一、信息检索概论
信息检索基础简述
信息,知识与文献
信息定义:信息是事务所发出的信号所包含的内容。
一次文献信息
二次文献信息
三次文献信息
知识的定义:知识是人类的主观世界对客观世界的概括和反映,是大量有组织的信息,是关于事实和思想的有组织的陈述,提供某种经过思考和判断和某种实验的结果。
①“知事”:指关于事实方面的知识,也可以理解为在什么样的时间、什么样的地点或条件下能解决什么样的问题。
②“知因”:指自然原理和规律方面的科学理论,知识的生产是在专门研究机构如实验室和大学完成的。
③“知道怎样做的知识”:指做某些事的技艺和能力,被称为技术情报和商业秘密,其典型是企业开发和保存于其内部的技术诀窍或专有技术。
④“谁以及是怎样创造知识的”:侧重对创造思想、方法、手段、过程以及特点等的了解。
知识的分类(4个)
文献的定义:文献是记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。有书写型,印刷型,缩微型,声像型和机读型五种。
①知识性:是文献的本质,离开知识信息,文献便不复存在。
②传递性:能帮助人们克服时间与空间的障碍,在时空中传递人类已有的知识。
③动态性:文献并非处于静止状态,其蕴含的知识信息随人类社会和科技的发展在不断地,有规律地运动着。
文献三要素
信息,知识和文献的联系在于:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容。它是有形的,独立于行动和决策,经过处理改变形态,物质产品,与环境无关,可复制的;知识作为信息的一部分。是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映。它是无形的,与决策和行动相关,经过处理能改变思维,精神产品,环境改变含义,经过学习才能转让,无法复制;文献是知识的一部分,是进入人类社会交流系统的运动着的知识。
文献信息类型演化及其结构形态
文献信息链:文献作为人类文化信息的承载物,从其产生,替代,反复被利用,再创造,直至产生新知识,是一个不断演进的运动过程。有人把这一过程比喻为文化信息从低级到高级不断螺旋上升的信息链。
演化过程(3个)
是一个以研究活动为起点,按顺时针的线性顺序移动,是一次,二次,三次文献信息的演变过程。
①替代:描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录,文摘,索引等二次文献信息。
②改组:从一次信息中提取数据,事实和有关结论,按照易于查阅和提醒重新组合,其改组的结果产生了手册,名录,词典和目录等类型的文献信息。
③综合:利用二次文献对一次文献所包含的知识加以综合并融入到现有的知识体系中区,成为整个知识体系的有机组成部分,产生的主要成果是不断再版的百科全书,专著,教科书等。
文献信息流有序化阶段的三个环节
信息检索概念与原理
信息检索的基本概念
信息检索概念
定义:信息检索是从信息集合中识别和获取信息的过程。
广义
信息的存储:主要包括在某一专业或领域范围内的信息选择的基础上对信息的内外特征进行描述,加工并使其有序化,形成信息集合。
信息的检索:是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。
狭义:仅为信息的检索这一部分。
本质:是用户的信息需求和一定的信息集合的匹配。
信息检索方式
手工检索:主要使用印刷型信息检索工具,其检索过程就是大脑分析,思考和手工操作的配合过程。
计算机检索:主要使用计算机信息检索系统(数据库,应用软件等),检索过程就是人的设计操作和计算机自动化处理相结合的过程。
信息检索系统:指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入,匹配,输出的技术装备,提供一定的检索服务功能的一种相对独立的实体。
信息检索入口:又称检索点或检索标识,是指以标识信息的外部特征和内部特征的属性值的集合。
信息检索的一般原理P6:信息检索包括信息的存储与检索两个过程。
①首先……
②在此基础上……
③在将检索结果提交用户之前……
检索系统与检索工具
检索系统的构成
物理结构
硬件部分
软件部分
数据库:至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。
①参考型数据库:指引用户到另一信息源以获得原文或其他细节的一类数据库,包括书目数据库和指南数据库。
②源数据库:提供原始资料或具体数据的自足性数据库。
③混合型数据库:指能存储多种不同类型数据的数据库。
逻辑结构(6个子系统)
①文献与数据的选择与抽取子系统:该子系统的功能是从外部信息源向系统输入,输入时要按照系统既定方针和用户需求进行选择。选择标准包括专业覆盖面,文献信息类型,摘除率,文种,时间跨度等。
②词表子系统(后控词表)
③标引子系统:标引子系统按照一定的词表,对文献赋予标引词,以表征文献的特征,形成文献的标识,这一过程就是标引。通过标引,能将分散的资料彼此联系起来,预测文献同检索提问的潜在相关性。
④查寻子系统:就是把用户的需求,经过概念分析,转换成系统语言的词汇,并指出其逻辑关系的过程。
⑤用户与系统交互子系统:即检索系统向用户提供的实现其检索过程的手段。
⑥匹配子系统:是对文献的标引记录和提问的检索策略进行比对并决定取舍。
检索工具的体系结构和功能
五个组成部分
①编辑说明与凡例
②分类表与主题表
③正文
④辅助索引
⑤资料来源目录与附录
构成检索工具的五个部分是有机联系,不可分割的整体。
三个功能
①报道功能
②存储功能
③检索功能
检索工具的三个功能关系十分密切,既对立又统一,这种矛盾现象表现在许多方面。
信息检索研究的核心问题
信息检索理论
①标引理论
②检索模型
③检索结果的可视化
信息检索技术与方法
①全文检索
②多媒体检索
③超文本与超媒体检索
④联机检索
⑤网络信息检索
⑥智能检索
⑦跨语言检索:主要解决针对不同语种的信息资源进行检索,它采用的技术一般为建立多语言的机器词典或语料库,检索时输入一种语言的检索词,计算机通过词典或语料库把它翻译成多种语言进行检索。
⑧跨平台检索
二、信息检索模型
重点掌握概念和优缺点
信息检索模型概述
检索模型最初是基于数学知识的模型,后结合先进的思想、理论和技术不断发展;无论哪种,检索模型就是人们对信息检索对象和信息用户需求之间的相关性判断,试图正确解释检索过程并给出合理的衡量而提出的;最终目的是为人们的信息检索活动服务的。
发展历史
类型(P19表)
经典模型
布尔模型
向量模型
概率模型
非经典模型
信息逻辑模型
定位理论模型
交互模型
传统布尔检索模型
概念:采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。
工作原理:三种逻辑运算符与或非。
优缺点
优点(4个)
①逻辑运算符较少,便于用户学习。
②模式较易构造,可以通过简单的关系来体现检索项的联系。
③可以将复杂的检索过程简单化,通过逻辑运算符将概念间的逻辑关系体现出来,变成金酸剂可执行的运算,从而实现自身自动匹配的过程。
④检索提问式比较灵活,方便修改。
缺点(4个)
①布尔检索中关键词没有权重区别
②检索结果的输出没有重要性排序
③查全率很难控制
④布尔检索要求用户具备很高的素质和语义提取能力
向量空间模型
概念:VSM是一种基于统计学方法的数学模型。分词器会首先将文档进行分词,并利用禁用词表将文档中出现频率最高且无实际意义的词去除;然后将每个词出现的次数统计出来,作为该词在文档中的初始权重。用TFIDF将将文档转化为向量形式,再通过相关度计算,倒排文档进行索引,从而使用户得到一个清晰的检索结果。
工作原理
优缺点
优点(7个)
①采用自动标引技术为文献提供标引词
②采用部分匹配策略,使得在算法层面上基于多值相关性的判断处理得以实现。
③改变了布尔检索只有0和1的简单判断,标引词和文献的相关程度可在0和1之间取值,使标引者和检索者都可以灵活地定义标引词与文献的关系深度,改变了布尔检索模型的僵化缺点
④由于其相似的程度作为检索的标准,可以从量的角度判断命中与否,从而使检索更趋合理。
⑤检索结果可以按照与提问的相关度排序输出,便于用户通过相关反馈技术修正提问,控制检索量。
⑥布尔模型的逻辑关系依然可以使用,保留了直观性的方便性。
⑦其灵活性使其有很好的可扩展性和可改进性,为以后的更加完善奠定了基础。
缺点(4个)
①检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系。
②由于对于任何一个提问都需要计算全部文献库中的每一篇文献,因此计算量大,算法复杂性高。
③由于标引加权和检索加权是分离的,因此,随意性较大,难以保证质量。
④有很多情况是假定的,在实际工作中有时不能解决。
扩展布尔检索模型
概念:将矢量处理的思想引进布尔检索,即扩展布尔检索模型。其不但具备矢量处理的权重检索优势,还保留了布尔表达式中的连接符加权,使得检索具备严谨性。总的来说是一种对严格的传统布尔检索和缺乏内在结构的松散的矢量处理系统的有机结合。
工作原理
优缺点
优点(6个)
①拥有矢量处理的思想,体现了加权的特点。
②继续保留布尔检索的直观的操作符,具有很强的描述能力。
③对于结果的输出可以很好地控制和排序。
④通过调整权重参数的取值,可以灵活选择并得到不同的检索结果。
⑤便于区分强制性短语和严格的同义解释与试探性短语和较不严格的同义关系。
⑥与传统倒排文档一致,便易被接受。
缺点(2个)
①臃肿,不够自然简洁
②不是很普及
概率模型
概念:基于一个文件与提问式的相关度是高于还是低于非相关度的概率来进行文档检索的检索方法。
原理
贝叶斯定理:贝叶斯网络又称信度网络,是一种概率网络,它是基于概率推理的图形化网络,而贝叶斯公式则是这个概率网络的基础。
①贝叶斯网络本身是一种不定性因果关联模型。
②贝叶斯网络具有强大的不确定性问题处理能力。
③贝叶斯网络能有效地进行多源信息表达与融合。
贝叶斯网络的特性
应用方法
优缺点
优点(2个)
①文档可以按照它们相关概率递减的顺序来计算秩
②可以通过反复反馈结果和用户需求,使结果得到很好的调整,相对合理的多。
缺点(4个)
①索引词权值计算方法没有考虑到词频加权因素
②沿用了索引词之间相互独立的基本假设
③开始时需要猜想把文档分成相关和不相关的两个集合,过程比较繁琐。
④初始检索文件阈值比较大,检索式检索的相关文件数量相对于精确估计的概率而言太小。
逻辑模型
相关概念
①文档
②查询
③检索
④Van Rijisbergen原则
检索方法
古典逻辑模型的一些特点(7个)
①逻辑模型不是一个经典模型
②逻辑检索需要借助外部信息进行评价
③逻辑检索对关键词的语境更加重视
④对信息的联想法控制
⑤逻辑检索具有不确定性
⑥对多词一义的把握
⑦适应信息的不完全性
优缺点
优点(3个)
①具有很强的推理能力
②在演绎信息检索系统中,用户可以增减可用规则,可以扩充或者缩小知识库,可以增加或者减少检索目标项,从而实现扩检和缩检。
③通过引入更多的谓词,丰富系统的知识库,允许查询目标语句中包含更多的谓词,演绎信息检索系统也容易被扩展为用途更广的专家系统,使得信息检索系统智能化程度更高,功能更强。
缺点(4个)
①信息的重要程度这一特征并不能很成功地被表达出来。
②基于实质蕴涵地情报检索古典逻辑模型自然也并不能完全表达出文献d与信息需求q之间地真实联系。
③它关注地仅是前后件之间在真假方面地逻辑关系,信息地延展性难以解决。
④由于查询是依据推理来获得相关性地文献,因此推理过程越是不确定,获得地相关性文献就越少。
情景理论模型
概念:基于情景理论上地信息检索模型是非经典信息检索模型,这是一种新的理论框架,它是利用到Van Rijisbergen的原则将检索看成是从文档到检索式的信息流。
意义:情景理论对信息概念以及信息所处环境下的认知行为进行了分析,并且定义了信息延展性以及导致信息延展性的种种原因。在信息检索中,信息源是文献,而接收者是任何浏览文献的人。信号即是信息源的信息传送给接受者的手段。
INFON
支撑概念
类型
限制
渠道
基于情境的信息检索
其他信息检索模型
位置检索模型:位置检索可要求检索词以用户所规定的相对位置出现,有8种位置算符。
限词(限制)检索模型:限词检索是通过限制检索范围,达到优化检索结果的方法。
①字段检索
②使用限制符
③使用范围符号
④使用限制指令
几种限制检索方法既可以独立使用,也可以混合使用。
三、自动索引和文档组织
索引概述
概念:索引是著录书刊种的提名,语词,人名,地名,事件及其他事物的名称,并把他们按照一定的方式编排起来,指明出处的一种检索工具。
发展历程(3个)
①人工索引阶段
定义:指索引编制过程中完全依靠人工来完成。
优点:准确率相对较高
缺点(2个)
①对数量及其庞大并快速增长的网络信息,完全用人工标引建立索引是难以想象的
②人工抽词缺乏一致性
②机辅索引阶段
定义:指索引的半自动化,在索引的编制过程中,既有计算机的参与,也有人工的干预。
优点(3个)
①质量高
②速度快
③成本低于自动索引
③自动索引阶段
基本原理:是借助一定的技术手段,如词典,词表,词频特征,句法或结构特征等,设计一种算法对数字化文本进行词法分析,识别出词与非词,内容词和功能词,并采集词的相关信息。在此基础上,根据一定的规则进行规范处理得到标目用词,最后将标目用词,出处信息以及其他相关信息共同构成索引款目。
索引的功能与类型
功能(7个)
①检索功能:迅速准确的定位所需信息;是索引最基本的功能;索引能够提供多种检查途径,方便检查,大大节约了查询信息所花费的时间,而且还可以增加查全信息的可能性,提高信息查全率和查准率。
②分解功能:揭示完整载体的一部分;是索引工作的起跑线和索引编纂的基础,没有这种分解功能,就没有索引。
③梳理功能:按规律把无序呈现为有序;是分解功能的继续;没有分解功能就没有梳理功能,只有分解而无梳理,分解也没有意义了。
④聚类功能:不同角度和层次多维揭示;使之形成一个检索这些信息的各种不同性质的知识单元的网络。
⑤追踪功能:追踪各个主题发展的踪迹,即动态发展。
⑥导航功能:指系统能够指引正确的航向,使用户沿着正确的航向行驶,即通过相关索引能够检寻所以需要的资料。
⑦预测功能:预测学术带头人和未来研究方向等。
类型
按索引对象的性质分(2个)
①信息内容特征的索引(3个)
①按信息主题内容的索引
②按信息中出现的事物名称的索引
③按信息特殊内容的索引
②信息外部特征的索引(3个)
①著者索引
②题名索引
③信息编号索引
常见索引(7个)
①主题索引:指以文献内容主题为标目的索引。
②著者索引:指以著者的名称为标目的索引。
③名称索引:指根据文献信息中包含的名称来检索信息的途径。
④地名索引:指通过地理方位的名称查找有关文献信息的途径。
⑤题名索引:指以文献题名为标目的索引。
⑥数字或代码索引:指提供按数码标识检索文献或信息的途径。
⑦分类索引:指分类号为标目,按照某种分类表或分类体系编排的索引。
索引的过程
信息采集
概念:指有关机构和个人,根据一定的目的,将系统内外各种形态的信息采出并汇集起来的过程;是索引的起点,是索引的前提和基础。
传统的文献信息采集:主要是通过人工采集如采购,索取,交换,检索,复制等手段来获得有关文献信息。
网络信息采集:搜索引擎采用了自动网页搜索技术。这种技术典型的代表就是网络机器人。网络机器人是借助了搜索软件完成网络信息的采集工作,其工作方式从URL库获得输入,解析URL中标明的Web服务器地址,建立链接,发送请求和接收数据,将获得的网页数据存储到原始网页库,并从其中提取出链接信息放入网页结构库,同时将抓取的URL放入URL库中,保证整个过程递归进行,直到URL库为空。
信息标引
标引:是通过对文献或信息分析,选用确切的检索标识,如类号,主题词等,用以反应该文献或信息资源内容的过程。
环节(2个)
①主题分析:即在了解和确定文献的内容特征及某些外部特征的基础上,提炼主题概念。
②转换标识:即用标识表达主题概念,构成检索标识。
建立索引
意义:索引系统的建立是整个检索系统的基础和核心,是服务的先导,因而索引系统的设计,建立和维护极其重要。
相关名词概念
①单个索引:包括索引款目,参照系统和索引款目导引标志。
②一部索引:就是一个个索引款目的有序集合。
③索引款目
①索引标目
①主标目:揭示被索引概念或项目的核心部分,并决定索引款目的排列位置和检索入口。
②副标目:从属于主标目,其作用是使索引标目含义更为具体,专指。子标题,说明语等都起着副标目的作用。
②索引地址:指被索引概念或项目在文献正文中的位置,使索引与文献正文之间,间接索引与直接索引直接的联结手段。
④直接索引:直接引向文献正文中的某一位置。
⑤间接索引:通过直接索引的款目再印象文献正文的某一位置。
⑥索引系统:是指一个检索工具中多种索引互相配合的有机集合;一个完整的索引系统,通常都是由多种索引构成的索引体系,能够提供多种需要的检索途径。
步骤(3个)
①选题,建立主索引文件。
②对主索引关键词进行抽词倒排,建立目标格式文件。
③排序与归并。
信息标引
受控标引
定义:指采用受控语言中的标识表达主题概念的标引方式。
分类(2个)
分类标引
定义:指依据一定的分类语言,对信息资源的内容特征进分析,判断和选择,赋予分类标识的过程。是按信息内容的学科属性来系统提示和组织信息的方法,是信息资源进行分类组织的基础和前提,对文献开发利用具有重要意义。
要求(4个)
①标引的准确性
②标引的充分性
③标引的一致性
④标引的适用性
规则
定义:是分类标引必须遵守的共同规范,一般是根据检索系统的需要,根据分类表的特点并结合信息资源的特点确定的。
分类(3个)
①基本分类标引规则(必须遵守)(5个)
①必须以信息内容的学科或专业属性为主要标准
②必须能体现分类法的逻辑性,等级性,系统性。
③必须归入最切合内容的类,即专指性原则。
④必须归入用途最大的类,即实用性原则。
⑤必须把内容相同的信息归入相同的类,即一致性原则。
②一般分类标引规则
①单主题信息的分类标引
①单元主题信息的分类标引
②复合主题信息的分类标引
②多主题信息的分类
①并列关系主题的分类标引
②从属关系主题的分类标引
③应用关系主题的分类标引
④影响关系主题的分类标引
⑤因果关系主题的分类标引
⑥比较关系主题的分类标引
③丛书,多卷书的分类标引
④参考工具书的分类标引
⑤对著作的研究,注释的分类标引
⑥特种文献的分类标引
⑦非书资料的分类标引
⑧网络信息资源的分类标引
③特殊标引规则
主题标引
定义:是对信息内容进行主题分析,确定主题概念,然后按照一定的词汇控制方式,为标引对象赋予恰当的语词标识的过程。
方式(5个)
①整体标引:亦称浅标引,是一种概括揭示信息资源基本主题内容的标引。
②全面标引:亦称深标引,是一种充分揭示信息资源涉及的所有检索价值的主题概念的标引,它深入揭示信息的各部分内容,全面提取局部主题予以标引。
③对口标引:亦称重点标引,是一种只揭示文献或信息中适合某指定专业需要的主题内容的标引。
④综合标引:指对丛书,多卷书,论文集,会议录等类型文献的一个单元所进行的一种整体标引。
⑤分析标引:是一种根据信息资源中的部分片段信息资源的构成单元所进行的标引。
方法(3个)
①标题法:是以标题词为主题标识,以词表预先确定的组配方式标引和检索的方法。
②元词法:亦称单元词法,以元词作为主题标识,通过字面组配的方式表达资源主题。
③叙词法:是从自然语言中精选出来的,经过严格处理的语词作为资源主题标识,通过概念组配方式表达主题的方法。
规则
选用标引词的基本规则(5个)
①正式词标引规则
②相对专指标引规则
③标引方案优先顺序规则
④适度标引规则
⑤一致标引规则
叙词组配标引规则(3个)
①叙词组配必须是概念组配。
②组配结果要求所表达的概念清楚,确切,只能表达一个单一的概念,不能再出现产生另外意义。
③叙词组配中要注意次序,应参照我国国家标准。
自然语言标引
定义:指采用自然语言语词作为标识来表达主题概念的标引方式。
自动分词(4个)
①词典分词法:通过构造一个机内词典,并将其与被标引的信息进行匹配,当从待处理的信息中得到词典词汇时,把它作为备选标引词记载下来。
②切分标记的分词法:能够断开词和词组或表示汉字之间联系关系的汉字集合组合字典,称为切分标记字典。典型代表是非用字后缀表法。
③基于语法语义理解的分词方法:基本思想是建立分词知识库,这些知识库采用语义网络技术或扩充网络技术,并以此作为语法语义分析器对语句进行判断和推理,达到正确分词的作用。
④基于神经网络的分词方法:模拟人脑的运作机制,将神经网络方法应用于汉语句法分析。将每个短语用一个神经元表示,短语间的句法关系或限制则用神经元及其相互联结来表达。
自动标引
定义:指利用计算机从各种文献信息种自动提取相关标识的过程。
分类(2个)
①词典法标引:指预先建立切分词典,以该词典为依据,采用一定的策略将文本字串与词典条目逐一进行比较,匹配成功则以字串为词索引项。
②单汉字标引:吸收了西文自动抽词标引的部分思想,在标引时将概念词拆成单汉字,以单个汉字为处理单位,利用汉字索引文件实现自动标引。
聚类与自动分类
相关概念
①类:是相似事务的集合。
②聚类
定义:就是将数据对象组成不同的类,使得类之间的相似性尽可能小,而类内的相似性尽可能大。
策略(2个)
①静态策略
②增量策略
③文献相似度:指的是不同文献之间属性的相似程度。常用距离和相似系数描述。
聚类方法(3个)
①层次聚类法:是依据一种事先选定的相似性或非相似性度量和类间距离,经过计算建立聚类图,再根据聚类图决定分类结果。
②启发式聚类:不需要对文献相似矩阵种的所有元素进行遍历。文献集合种总是有能够代表主题内容的文献,它的附近会聚集由较多的文献,可以运用密度测试法将有代表性的文献取出,来作为一个类的类心。各文档仅限于与聚类中心—凝聚点进行比较。通过修正类心,调整类成员等手段,不断优化类体系,直到没有未聚类的文献为止。
③增量式聚类法:同样需要进行相似度测量,但是不需要事先对所有文献的相似度进行计算。因为它是一种实时地对文献进行聚类地方法,而不需要事先得到所有的文献。按文献输入的次序进行聚类,所得到的聚类结果同处理次序毫无关系。
自动分类
概念:是指首先分析被分类对象种的特征,将其与各种类别种对象所具有的共同特征或一定的分类标准,分类参数进行比较;然后将被分类对象划归为特征最相近的一类,并赋予相应的分类好的过程。
基本流程(3个)
①预处理
②文本特征的选取
③分类模型的构建
方法(4个)
①朴素贝叶斯分类法:是基于贝叶斯定理的一种统计学分类方法,是一种在已知先验概率与条件概率的情况下的模式识别方法。
②最近邻算法:即K最近邻法,即如果一个样本在特征空间种的K个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
③决策树法:采用自上而下的方法,开始时,所有数据都在根节点。从根节点开始,对每个非叶节点,找出其对应样本集中的一个属性,对样本集进行测试,根据不同的测试结果将训练集划分成若干个子样本集,每个子样本集构成一个新叶节点,对新叶节点再重复上述划分过程,这样不断循环,直至达到特定的终止条件。
④支持向量机:是Vapanik等根据统计学理论提出的一种新的机器学习方法。它以结构风险,经验风险最小化原则为理论基础,通过适当选择函数子集及该子集中的判别函数使学习机的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器对独立测试集的测试误差仍然最小,得到一个具有最优分类能力和推广泛化能力的学习机。
索引文档的组织
顺排文档
概念:顺排文档主要按照某一属性的字符顺序存入了数据库的全部记录,故又称为主文档。顺排文档将文献数据库中全部记录按一定顺序排列,因此文献记录集合就构成数据库的顺排文档。
检索(3个)
①顺序检索:也称顺序扫描,即可以从一个顺排文档的开头部分,依次查找文档中的所有信息,以找到文档中潜在的某一特定信息。对于含有n个记录的文档来说,平均仍然需要查找(n+1)/2次。因此,存储的记录越多,扫描的时间越长,这样检索效率就会越低。
②分块查找法:首先对关键字的顺序将主文档分为若干个大小适当的记录块,标出各块的最后一个记录的关键字,将所要查找的记录的关键字依次和各块的最小记录比较,以确定待查的记录在哪一块。
③折半检索法:即二分检索法。即按照检索关键字值的大小将检索范围分成二分之一,逐步缩小范围检索,直到查到所需信息。
特点:在建立索引的时候结构比较简单,建立比较方便且易于维护;但检索时间延长,检索效率低。
倒排文档
概念:是将主文档中国的可检字段抽出,按某种顺序重新排列起来所形成的一种索引文档。这种文档归并相同词汇,并把在顺排文档中相关记录的记录号集合赋予在索引关键字之后,以保证通过某一特征词能够快速,方便地获取相关记录。倒排文档是建立在顺排文档地基础上的,它从顺排文档中提取可检字段内瓤,利用所得到地属性来建立倒排文档。
建立步骤(3个)
①索引词选择。
②对抽出地内容进行排序,便于归并相同内容。
③对相同内容进行归并,把合并后地内容当如倒排文档的主键字段,统计每一项数据的频次作为目长,把每一内容后的记录号顺序放于记录号集合字段。
更新(3个)
①增加
②删除
③整理
检索:倒排文档可以实现对文献的快速查找,只需要索引就可以确定那些文献是与查询请求相关的。同时,在处理复杂的多关键字查询时,可在倒排档中先完成查询的逻辑运算,得到结果后再对记录进行存取,这样就不用对所有记录进行查询,从而提高查询速度。此外,索引是按关键字值的顺序排列的,不再需要检查各个记录来确定它们的实际关键字值。但是,在实施检索时倒排文档必须和顺排文档配合使用。
四、词汇控制
词汇控制的目的:就是通过对词行、词义和词间关系等的控制,达到信息源语言、标引语言和检索语言三者的有效沟通,从而实现信息的有效组织以及用户对信息的有效检索和利用。
词汇控制的原则
总原则:是词汇控制的内容和方法,应以作为信息存储与检索之间的语言沟通为出发点,以提高信息检索与存储的效率为目标。
具体原则(6个)
①正确性:检索语言的词汇科学准确,使用普遍
②单义性:一个词语职能表达一个确切的概念
③简明性:精炼简短
④兼容性:词汇具有较强的适用性。
⑤系统性:要做到信息存储与检索的词汇具有一定的层次结构性
⑥稳定性:尽量保持相对稳定、连续和前后统一
词汇控制的内容(7个)
词汇控制的实质是把自然语言加工成情报检索语言的情报控制过程。
词量控制
定义:即对词表所收词汇的数量的控制。
内容方法(4个)
①词汇组配:即根据概念可分析可综合的原理,将复杂的概念分解为基本的语素单位 ,然后通过这些语素单位来表达复杂的主题概念,从而缩小词表规模。
②词汇置代:即用上位词代替若干个较为专指的下位概念,从而缩小词表的规模。
③语义分解法
④词汇合理选择:即选择词汇时,多收录核心词汇和组配能力强的词汇,少收录先组式的复合词汇。
词类控制
定义:即对词表所收词汇的种类的控制。
内容方法(2个)
①确定选词范围(6个)
①表示具体事物的名词术语
②表示具体事物的材料的名词术语
③表示事物性质、现象、状态、过程等方面的名词术语
④表示事物研究方法、工艺等方面的名词术语
⑤表示学科门类的名词术语
⑥表示文献类型的名词术语
②设置停用词表:即将不具备标引和检索意义的词类集中列于停用词表中。
词形控制
定义:即根据主题标引和检索的需要对字面形式不同,但含义相同的词汇加以控制,也就是使一个主题概念只具有一个语词形式。
内容方法(5个)
①控制词语形体:简体?繁体?
②控制外来语和数字的用法
③控制外文的词形:单复数形式?
④控制词序:一般采用自然词序,而不是倒置形式。
⑤控制语词长度:一般不超过14个汉字。
采用这五种之外,还必须建立参照系统
词义控制
定义:即对多义词或同形异义词加以控制,使其意义明确、含义单一。
内容方法(3个)
①加限义词:即在主题词后面加上限制词汇使用范围、明确词汇含义的限义词,以达到意义明确、含义单一的目的。
②加注释:在主题词后面加上对其含义和范围做出解释和说明性质的词汇,达到含义单一和明确的目的。
③加定义:即对主题词给出一个确切的定义,达到明确词义的目的。
词间关系控制
定义:即对语词之间的等同关系、属分关系和相关关系等加以控制,义形成一个便于揭示词间关系的语义网络。
内容方法(2个)
①分类法:即把分类法的因素引入主题法,诸如复分、倒置、截词等,甚至直接引入一个详细的或粗略的分类表。
②图示法:即直接绘制同心圆图、箭头图、树状结构图等图标,直观、清晰地显示词间关系。
先组度控制
定义:即对语词先组程度地控制。即词表编制过程中对复合词的选定和分解。
内容方法(2个)
①可直接选作受控词的语词(3个)
①通用的专称、术语、专指作用很强的词组。
②专业文献中出现频率较高的、经常用以检索的词组。
②主题概念经分解后,其中的单词失去检索意义或产生歧义现象的词组。
②不能直接选作受控词的语词(4个)
①由两个或两个以上具有交叉关系的简单概念组配而成的词组。
②由代表事物与其方面的单一概念所组成的词组。
③由代表事物的简称概念与国名、地名、时代名、人名等所组成的词组。
④由学科、事物等于文献类型所组成的词组。
句法关系控制
定义:即按照事先确定的句法关系,把若干词汇组合起来表示某一特定的论题,以避免产生语义含混现象。
内容方法(3个)
①规定引用次序
定义:指在对符合主题进行标引和检索时,规定各个主题因素的组合或排列顺序。
分类(2个)
①显著性引用次序:根据主题概念对用户心理映像的显著程度而确定的次序。
②范畴职能引用次序:指将各种主题首先划分为范畴,然后按照范畴的性质、职能确定的组配顺序。
③上下文引用次序:舍弃将最显著的语词置于款目首位的传统做法,而是根据上下文从属原则拟定标引语句。
②控制符号:即句法控制符号,能够有效地揭示主题词之间地语义关系。
③论排:即将检索语言中每一个有检索意义地语词轮流在排检语句中出现,并对句子中其他语词做出相应的处理方法。
词汇控制工具
分类词表(4个)
①《杜威十进分类法》
②《国际十进分类法》
③《冒号分类法》
④《中国图书馆分类法》
主题词表(2个)
①《医学标题表》
②《汉语主题词表》
概念
主表
附表
辅助索引
①词族索引
②范畴索引
③英汉对照索引
④轮排索引
分类主题一体化词表
《中国分类主题词表》
词表评价体系
概述
对词表进行性能评价的原因(3个)
①为词表进行更新和维护提供了真实可靠的依据和理论基础
②为词表以后的完善指明了方向和提供了依据
③为用户根据不同的需要选择恰当的词表提供了依据
评价词表时的判断依据(8个)
①是否具有较高的检全率和检准率?
②是否能男足多种检索要求?
③是否易于信息标引和信息检索?
④能否适应先进的检索方式和检索设备,适应多种检索方式和检索设备?
⑤能否适应多种学科和多种类型的文献?
⑥能否适应图书馆和信息机构各个工作环节?
⑦是否具备兼容性和通用性,以及兼容性和通用性程度?
⑧是否具备进行现代化改造的可能性?
宏观评价
定义:即对词表整体结构的评价,词表的结构决定着词表的功能的发挥,要想使词表具有良好的性能,就必须使词表具备结构上的完备性和严密性。
内容(5个)
①在受控词表中各组成部分之间相互参照、相互指引的程度。
②受控词表的结构特性支持标引和检索能力。
③受控词表的结构与功能的效益。
④受控词表在结构设计上的难易程度和进行维护的难易程度。
⑤受控词表易于用户使用的难易程度。
微观评价
定义:即对词表中受控语词的评价。
内容(10个)
①对词表中受控语词的数量,即词表体积的评价。
②对词表中等同率的评价。
③对词表中的受控语词的清晰度的评价。
④词表中受控语词的先组度的评价。
⑤对词表中受控语词的专指度的评价。
⑥对词表中受控语词的网络度的评价。
⑦对词表中受控语词分布的均衡度的评价。
⑧对词表中受控语词的参照度的评价。
⑨对词表中各语词之间的关联性的评价。
⑩对词表中受控语词的用户的保障率的评价。
定性评价
定义:分析词表是否很好地遵守了国家标准,以及一下几个内容。
内容(4个)
①准确性:指受控语词能够确切地表达主题概念地性质。
②完整性:指词表结构上的完整性。
③动态性:指词表容纳随时代发展而出现的新概念的性质,即词表的更新速度。
④管理体制的完备性
定量评价
定义:确定几个指标,然后通过数理统计计算得出指标值,最后根据指标值判断好坏。
常用指标(5个)
①类目规模:指在范畴索引中每个范畴所收录语词的数量。
②关联比:指词表中含有关联项的语词与词表中所有语词的比值。
③参照度:指词表中平均每个语词所接受参照的数目。
④先组度:指平均每一个语词包含单个字的数目。
⑤等同率:指词表中非正式叙词与正式叙词之间的比率。
受控词表的使用
标引过程中词表的使用
两个过程
①准确分析待标引信息的主题内容
②选择词表中准确的词汇表达分析出来的主题概念
在标引过程中会出现各种误差和缺点(5个)
①分析失误
②表达失误
③删除失误
④词表的专指度不够
⑤标引的专指度不够
使用受控词表要做到以下几点(4个)
①经常修订和完善受控词表
②定期出版标引手册
③加深标引人员的培训
④规范本单位标引细则
检索过程中词表的使用
两个作用
①指定:通过参照系统从不允许使用的词汇到允许使用的词汇,指引信息检索用户选择恰当的词汇表达自己的需求。
②提示:通过词表的组织来实现,即通过词表中的组面结构、词族以及参照系统来实现的。防止由于未把语义上相关的词表集中在一起而漏检相关文献的缺陷。
用户与系统的交互也十分重要。
五、自动文摘技术
自动文摘的概况
文摘
定义:是随着文献的急剧增加而产生的;是用浓缩、简明的短文,描述信息载体的主要内容和原始数据,向使用者报道、传递最新信息和信息查询线索的一种工具。
分类(按使用方法分)(5个)
①主题摘要
②信息摘要
③纲目摘要
报道型摘要
④摘录型摘要
⑤评论型摘要
定义:就是利用计算机自动地从原始文献中提取文摘。
发展(3个阶段)
①发展背景为20世纪40年代
②自动摘录阶段(20世纪50-70年代)
③自动文摘阶段(20世纪70年代至今)
处理过程(3个)
①文本分析:最终目的是要完全理解原文,包含从句子地理解到由句子组成地文章的理解。
②文本转换:过程包括对原文内容的选择和泛化。用户的需要决定了文摘索要选取的内容,而领域知识则是泛化时所要遵循的准则;相关信息的选择与原文的话语结构密切相关;泛化就是把信息自动压缩为更抽象的形式;选择和泛化可以控制文摘的长度。
③文摘生成:复杂程度取决于用户对文摘形式的要求;文本生成是一个宽泛的研究领域,包括交际信息的抽取、篇章的构架和生成合乎语法的表达等。
生成文摘应注意的问题(3个)
①影响文摘连贯性的最主要问题是主语悬垂和指代不明。
②其他的层次关联关系可能会影响由抽取句子所得到的文摘的可读性。
③文摘要能简洁明了地反映原文内容。
自动文摘的基本方法
基于统计的
定义:又称摘录型文摘;是根据统计学的方法将权重高的句子作为文摘句,按它们在原文中的顺序输出。
原理:利用计算机的计算能力,采用统计的方法绕过文章意义的理解问题。将文本视为句子的线性序列,将句子视为词的线性序列。进行文摘时,首先计算词的权重,然后计算句子的权重,再从文章中挑选出权重大的句子,按照句子再原文中的自然序列进行排序,加以修饰最终生成文摘输出。
相关概念
①词频:是指词语再文本中出现的频率。
②标题:指作者给出的提示文章内容的短语。
③指示词:文章中往往有许多短语用于引申反映文本内容的总结性句子。
④线索词:词典中的线索词分为三种:取正值的褒义词、取负值的贬义词和取零值的无效词。
⑤位置:处于不同的句子对文章及段落的主题贡献是不同的。
句法结构
一般步骤(5个)
①待摘文本信息录入:指按照一定的标准格式输入原始文本信息,即按照计算机能够识别的形式输入文本信息。
②词频信息统计:即是对待摘文本信息中出现的重要词进行词频统计,并剔除非重要词。
③计算句子权重:即根据句子中词频等信息计算出句子权重。
④选取候选句子:就是按照句子的权值高低,根据设定的阈值筛选摘要句,并按照句子在文本信息中出现的先后次序进行排序。
⑤加工生成摘要:即将选取出来的候选句子进行组合,并对组合后的结果进行润色,最终形成一篇摘要。
优点(3个)
①实际使用中处理速度快,处理效果好
②对文本位置和线索词特征处理解效果明显,适合处理大部分任意文章
③处理不需要复杂的语言学知识,容易移植到多语言处理中
缺点
①摘要内容不完整
②摘要内容不简洁
③语句不连贯
基于理解的
原理:利用语言学知识对文章进行复杂的语法分析、语义分析和语用分析,获取语言结构,还利用相关学科领域知识进行分析、推理和判断,最后生成文摘。
篇章意义的机内表示:是由物理属性串接起来的一个统一整体。这个统一整体由逻辑属性表达中心思想;是原文分析的结果和文摘生成的根据,它在基于理解的文摘系统中处于中枢地位。不同系统采用的篇章意义机内表示有所不同。
步骤(3个)
①待摘文本信息录入
②文本分析
①语法分析
②语用分析
③运用分析和信息提取
③文摘初稿生成
优点(3个)
①对文献意义把握更全面准确
②摘要质量更好,简洁精炼
③可读性强
缺点(2个)
①语料范围限制
②框架的拟定
基于结构的
原理:将文本信息视为句子的关联网络,选择与很多句子都有联系的中心句即可构成摘要。
关联网络:如果将一个语言单元的各个子单元视为节点,并在两个有语义联系的子单元之间引一条边,那么就得到了一个关联网络。在网络中,与一个节点相连的边数称为该节点的度。节点的度越大,则节点在网络中的重要性越高。将最重要的若干子单元抽取出来,即可构成文摘。
优点(3个)
①避免自动摘录的不连贯性,连贯性好
②避免专业领域知识的限制缺陷
③相关性好
缺点(2)
①不能做到真正理解主题内容
②适合于科技文献和新闻,不适合有隐含意义题材的文章
信息抽取
定义:只对有用的文本片段进行有限深度的分析,其效率和灵活性显著提高;其自动文摘以文摘框架为中枢,分为选取与生成两阶段。
步骤(2个)
①选取:利用特征词从文本中抽取相关的短语或句子填充文摘框架。
②生成:利用文摘模板将文摘框架中的内容转换为文摘输出。
缺点(4个)
①仍然受领域限制
②应用多个领域,必须编写多个框架
③单凭特征词或短语的提示作用来填充文摘框架并不是非常准确,甚至有时语言灵活多样,一些有价值的文本片段可能没有明显的特征词
④由于使用模板,千篇一律,十分呆板
自动文摘的评价
自动文摘评价存在的问题
①自动文摘研究属于自然语言理解范畴,因而对一个文摘系统的评价实际上就是对一个自然语言理解系统的评价;理解是一个主管反映,很难制定一套客观的标准。
②自动文摘是一个文本精炼的过程,要求机器自动为原文提供一个基本反映文章主题的精炼版本。然而人们对文章主题的认识却是相当复杂的,读者对同一篇文章的主题认识可能有很大差异,同一个人但不同时间对同一篇文章进行摘要,结果的同一率也不能达到100%。
自动文摘评价分类(2个)
①内部评测
定义:是针对一个独立的文摘系统所表现的性能进行评价,它主要评价文摘的连贯性和内容的完整性。
方法(2个)
①摘要比较法:是将自动摘要系统所产生的结果与理想摘要进行对比,根据二者的相似性进行评价。
②可接受性评价:是对文本信息进行主观性评价,主要思想是:由于摘要属于自然语言理解的范畴,有时很难采用客观的标准进行评价,因此往往依靠主观性感觉进行评价。
②外部评测
定义:是通过分析自动文摘对完成其他任务的影响来实现评测的,外部评测是测试文摘对自动问答、分类等任务的影响程度;是一种间接的评价方法,与系统的功能相应,将文摘应用于某一个特殊的任务中,根据摘要功能提高这项任务的效果来评价自动文摘系统的性能。
评价实例
自动文摘技术的研究进展
国外
国内
六、用户接口
用户接口概述
含义
定义:全称是“系统-用户接口”,又称用户界面、人机界面或人机接口,是用户使用计算机系统的综合操作环境,它由人、计算机硬件和软件三者结合而成,承担用户与系统之间的交流功能,是两者之间实现通信不可缺少的模块。
流程模块(6个)
①识别用户:只用于需要付费的系统。
②接收提问:负责接收用户输入的检索词。
③提问校验:对用户输入的检索词进行校验,包括语法检查及用词检查等。
④转化问题:对于用户提出的原始提问式进行解释,转化成便于计算机处理的目标提问式。
⑤检索:是进行匹配选择的过程,将转化后的提问式与数据库中的记录进行比较,选出满足要求的记录。
⑥输出结果:系统在将结果输出时,不是简单地将匹配的记录罗列出来而是对于结果按照相关性的大小进行排序后再输出,常用方法是计算权值法。
特征(6个)
①支持多类型用户:用户接口对不同用户,提供不同的访问权限和服务。
②支持多种用户认证方式
③支持灵活的机构管理:可设置多级机构,实现对复杂组织机构的管理。
④支持灵活的用户授权管理:支持多种用户权限,采用角色对用户进行授权管理,对一个用户可分配多个角色;为统一认证中心提供一组可用的角色;支持分级授权,下级管理员在相应的权限范围内完成管理工作。
⑤支持灵活的用户信息管理:能对收费用户和注册用户的档案进行建立和管理,支持黑名单用户管理。
⑥支持对收费用户的计费:根据账户情况向用户发出费用通知。
功能(10个)
①自动登录功能:一般为各种接口所必备。
②访问多个数据库功能
③数据库选择功能:普遍使用的技术是利用菜单先显示主题目录,然后提供每个主题的数据库概况。有些系统则采用提供词频表的方法,利用词在数据库中的出现频词去指示最恰当的数据库。
④帮助功能:用户在检索的过程中可能遇到各种问题,希望系统能给予必要的帮助和指导;大致有三级,特定上下文求助(解释刚刚发生的时间)、有关系统命令的求助、详细的文件资料(用户手册)。
⑤检索式构造功能:构造检索式实际上是一种主动帮助功能,属于高级的智力劳动,一般较难实现自动化。
⑥查询扩展:指用户接口通过利用已经建立好的词典库或知识库来进行查询词条扩展,以提高信息检索系统的查全率和查准率。
⑦相关反馈功能:用户依据初始查询结果做出相关与否的判定,选出内容重要的文档或文档部分,反馈模块根据用户提供的相关和不相关信息,利用机器学习方法进行处理反馈,即修改查询条件,增加查询词,重新决定或修改查询词的权重,使用修改后的查询条件进行新的查询。
⑧下载和上载功能。
⑨用户视图定义功能。
⑩后处理功能:指下载完数据和完成检索作业后的数据处理和整理工作,内容包括目录编制、数据统计、去重和排序分析等。
组成(3个)
①面向用户部分:负责直接与用户交互、也称外部界面。
②面向系统部分:负责与系统内部各部分交互,也称内部界面。
③转换部分:负责内部界面与外部界面之间的信息转换。
主要形式(5个)
①命令语言形式
定义:广泛应用于计算机系统的人机对话,是各类交互式系统最早的一种用户接口,是用户驱动界面的代表。
优点:功能强大、灵活、便于用户组合,熟练用户使用它往往有较高的效率。
缺点:命令系统具有严格的语法和语义且不够形象,对使用者的专业要求比较高,需要进行认真的培训及良好的记忆,因而不便于普及。
②菜单选择方式
定义:是继命令语言之后出现的一类较为直观并得到广泛应用的用户接口。
优点(2个)
①菜单选择比较方便使用
②减少用户的击键次数,降低出错率
缺点(2个)
①会占用过多的屏幕空间,要求过快的显示速率
②会出现菜单层次过多及选项复杂的情况,影响操作效率
③表格填充方式:也是一类十分有用的用户接口风格,尤其适合各类数据库系统、信息管理系统及数据处理系统的数据输入。
④直接操纵方式:其特点是以物理动作或带有标记的按钮取代复杂的语法,采用特比的操作以及目标的连续显示,并使用户作用在目标上的效果立即可见,同时还允许快速而可逆的交互动作。
⑤自然语言的人机对话方式(3个优势)
①用户只以应用领域的概念访问数据库,无须了解数据库的逻辑和存储结构,具有更强的非过程性。
②用户不需要或者只需要很少的培训就能够直接查询数据库信息,大大减轻了用户的培训负担。
③用户可以简单明了地提出查询请求
用户接口的设计
原则(7个)
①易用性:使用方便是任何类型的设计中都必须遵守的一条通则,是界面设计主要追求的目标之一。
②一致性:必须摆正用户界面的一致性,这是最重要的。
①用语与用词的一致性
②操作方法的一致性
③界面格局的一致性
④数据格式的一致性
⑤系统响应的一致性
③易学性:使软件功能直观,操作简单,状态明了。
④宽容性:防止用户错误操作的能力和承受用户操作失误的能力。
⑤有效性:用户能简单快捷的操作实现对系统的控制或实现相应功能。
⑥美观性:追求的目标,取决于设计者。
⑦针对性:针对不同层次的用户和不同的操作环境,在维持一致性的同时,对不同用户有不同的针对界面。
内容(6个)
①用户接口需求分析:要设计好的检索系统用户接口,首先要分析用户目标,指导应用程序的功能。如果不理解用户目标和应用系统的功能,就不可能设计出一个好的用户接口。
②用户接口使用的便利性:保证查全率和查准率的同时进一步简化检索过程。
③用户向系统提交的查询方式:查询类型依赖于系统采用的是哪种检索模型;对于查询方式来说,仍然要区分是信息查询方式还是数据查询方式;信息查询利用的是排序的概念,是一种相似性排序;而数据查询并不强调排序的概念,一般采用精确的匹配。
④查询中的交互性:检索系统应该提供查询的反馈,以便用户能够及时了解查询的效果,为下次查询的形成提供参考。
⑤用户查询接口的简易性和检索能力的矛盾
⑥多媒体查询接口的特殊性:对于多媒体来说,因为特殊的视觉特性,所以多媒体信息检索也就与常规的信息检索方法有较大的不同,这也会反映到用户的查询接口上。
定制(3个)
①显示风格定制
②显示内容定制
③检索定制(4个)
①检索表达式定制
②个人词表定制
③检索结果分析定制
④检索结果处理定制
用户接口对检索过程的启动和支持
启动形式(3个)
①文档集列表选择
定义:即向用户罗列出可以检索的文档集的名字,这是许多现有图书馆和数据库检索系统提供的一种接口形式。
特点:直接、简单;但是过于简单,对用户帮助少
②浏览
定义:用户开始的查询需求并不明确时,以浏览的形式启动。
梗概接口(3个)
①目录梗概
②聚类梗概
③关联梗概
③向导
定义:是为未经过训练的用户提供帮助,帮助用户很快地构造出各种类型地查询。
类型(3个)
①范例式
②文本对话式
③图形向导式
用户接口实例分析
检索结果的呈现接口
以用户为中心的接口涉及
七、信息检索系统的评价
信息检索系统评价概述
目的:是为了完善系统功能,全面提高系统效益。
意义:可以提高系统资源分布的合理性,找出系统存在的缺陷及其原因,以便加以改进;比较各种检索技术的优劣,有助于新系统的设计,丰富信息检索理论。
理论基础(相关性)
定义:相关性是信息检索中一个非常基本的概念,主要是指检索系统针对用户的信息需求从文档集合中检出的文档与用户需求之间的一种匹配关系。
特征(4个)
①关系:最核心本质特征。
②直觉
③多维的
④动态的
相关性判断的标准
相关性判断:指信息检索中判断者在某一时刻对某种相关性的一种赋值操作。
类型(3个)
①二元的判断标准
1 相关文献—接受
0 不相关文献—放弃
②多元的判断标准
4 绝对相关
3 可能相关
2 中立或没有判断
1 可能不相关
0 绝对不相关
③多维的判断标准
第一维: 信息资源
第二维: 用户需求
第三维: 时间
第四维: 组件
影响因素(5个)
①信息源:即用户所需要的对象,包括文档、文档的表示和信息;文档是检索系统检出结果的实体;文档的表示包括主体、关键词集和作者姓名等结构化的信息,信息指用户在阅读已经被检索的文档时所获得的非实体性的东西。
②信息需求的表示:分为四个层次,其关系是 真正的信息需求>感觉到的信息需求>查询请求>查询表达。
③时间与环境:这说明了相关性的动态性;主要表现在人的主观判断,即用户在判断时的知识状态等主观因素往往影响着判断结果。用户拥有的知识及其“感觉到的信息需求”都会随着时间推移而变化,因此他对文档的相关性的判断必然不是恒定不变的。实验条件的变化可能导致判断的变化,不同检索行为在主题、任务和情景方面呈现出差异。
④判断表达式:在检索过程中,系统和用户对被检索文献的相关性评估有三种不同的相关性判断方式,即形式相关、语义相关和语用相关。
⑤用户判断者的特性:系统要能真正“领会”用户要提交的查询所表达的真正需求,很大程度上取决于判断者的教育程度,特别是专业教育水平和身份,判断者的专业知识越高深,相关性判断的一致性就越好。
步骤(5个)
①确定系统评价对象及目的:评价工作一般针对特定的对象进行,因此,开展一项评价工作首先要明确评价的对象、范围和目的,以便据此制定相应的评价方案及指标。
②选择系统评价方式:检索评价研究可以通过多种不同的方式来进行;在具体选择评价方式时,要注意考虑不同方式所需要的评价经费、时间要求和环境限制等因素。
③制定系统评价方案:这是评价工作成功的关键所在;评价方案的制定必须确保评价结果能准确反应检索系统的性能或满足评价项目的预期目标。
④实施系统评价方案:评价方案经过充分论证并得到认可后,即可进入方案的具体实施阶段;不同数据形式适用于不同的处理方法。
⑤评价结果生成评价:研究的最后步骤是对这次评价活动进行认真的总结和分析。
历史沿革
信息检索系统的评价指标
系统角度的性能评价指标
定义:从系统角度来考察检索系统的评价通常是以相关性为标准的;把信息检索定位于一种单方向的信息处理过程,系统根据用户的提问输出检索结果,用户是信息的接受者。
2**2表派生的指标(6个)
①查全率R:是衡量系统在实施某一检索作业时检出相关文献能力的一种测度指标。R=检出的相关文献量/检索系统中的相关文献总量=a/(a+c)。
②查准率P:是衡量系统在实施某一检索作业时检索精确度的一种测度指标。P=检出的相关文献量/检出的文献总量=a/(a+b)。
查全率与查准率
暗含:查全率和查准率指标的使用隐含着一个主要的前提条件:一般用户都期望检索出大量的相关性文献(即得到高的查全率),而又同时尽量拒绝大量的不相关性文献(即高的查准率)。
互逆关系:一般来说当选用比较精确和专指的词作为检索词时,所检出的数据信息往往比较符合检索需求,但数量有限,使检索者担心有许多数据被过滤掉了。当扩大检索范围,选用广义的词做检索词时,准确率会大大降低,检索结果会很庞大,使检索者不得不进行人工的再次筛选。
替代性指标(3个)
①平均查全率和平均查准率
②调和数F
③E测度指标
影响因素(4个)
①相对值的影响:对于某个数据库的某次特定检索纯属一次随机事件,没有人可以准确语言检索结果的查全率与查准率;这是相对值的研究,其本身就具有一定的不确定性,其结论也不能是绝对的。
②检索方式的影响:检索方式有委托检索与非委托检索之分,采用不同的方式,其查全率与查准率受到的影响因素也不同。
③时限的影响:要在时限相等的范围内取样。
④检索过程中的影响:数据库中数据信息的组织和标引的科学程度也会影响查全率与查准率;同样,检索时检索策略的组织和对被检主题的理解程度词语转换能力都会造成不同的检索结果,成为我们定量研究中的不确定因素。
适用性(4个)
①查询最大查全率的合理估计一般需要了解集合中的所有文献,对于大型的文献集来说,就无法对查全率进行准确的估计了。
②查全率和查准率是相互关联的测度,它们评价检出文献的不同方面,在很多情况下,把查全率和查准率结合在一起形成单个测度可能更合适些。
③查全率和查准率测度的是批处理模式下查询集合的性能。但对于现代信息检索系统来说,交互性是检索过程的一个重要特征。因此,对那些量化检索过程信息性的指标可能会更合适。
④当对检索到的文献进行线性排序时,查全率和查准率的计算会比较容易,可是对于那些并不需要排序的系统来说,查全率和查准率可能就不能充分满足要求了。
③非相关检出率F:是衡量检索系统对非相关文献的检出比率。F=检出的非相关文献/检索系统中的非相关文献总量=b/(b+d)。
④囊括值G:用来表示某一提问相关的文献在系统文献集合中的分布密度。G=检索系统中的相关文献总量/检索系统中的文献总量=(a+c)/(a+b+c+d)。
⑤漏检率O:O=未检出的相关文献量/检索系统中的相关文献总量=c/(a+c)。
⑥误检率E:E=检出的非相关文献量/检出的文献总量=b/(a+b)。
也叫检索噪音
用户角度的性能评价指标(4个)
①涵盖率:在用户已知的相关文档集合中被检索出的相关文档所占比率。
②新颖率:用户检索出的相关文档集合与以前未知的相关文档所占比率。
③相对查全率:为检索系统检出的相关文档数量与用户期望得到的相关文档数量的比率。
④查全效果:用户期望得到的相关文档数量与为了得到这些相关文档而在检索结果中审查文档数量的比率。
搜索引擎的性能评价指标
原则(3个)
①科学
②合理
③有效
方面(8个)
①数据库规模与内容
②索引方法
③检索功能
④检索结果处理
⑤分类功能
⑥用户界面
⑦汉字处理
⑧其他
面临的问题(4个)
①搜索引擎提供的信息有限
②某些指标客观存在
③各个搜索引擎之间差异巨大
④有些评价指标涉及评价者的主观因素较多,或完全取决于评价者的主观判定
相关评价指标(2个)
①相关性范畴:指按照检索结果与用户需求的相关程度。
②前X命中记录查准率:主要用来反映信息检索系统在前X条检索结果中向用户提供相关信息的能力。
信息检索系统的评价试验
Granfield评价试验
首开规范化评测研究的先河
GranfieldⅠ评价试验
评价对象(4个)
①标题词语言
②单元词语言
③UDC国际十进分类法
④一部专业分面分类法
评价目的:考察、比较上述各种标引语言的性能,并对其中涉及的一些相关问题,如标引时间、标引深度、标引人员素质等进行试验分析。
意义:首次比较清楚地揭示了对检索系统性能产生影响地一些重要因素,首次提出并采取了一套比较可行的评价方法,包括对查全率和查准率两个评价指标的使用。
GranfieldⅡ评价试验
评价对象(4个)
①单元词
②受控词
③自然语言短语、题名
④文摘中的关键词
试验目标:研究这些标引语言的不同控制模式对检索效果的影响。
结论(3个)
①通常情况下,单元词>受控语言>自然语言。
②使用单元词法时,引入词形和同义词控制有一定效果,但若进一步加强控制,检索性能则会变差。
③对于受控语言,在受控词之外,若再引入上位词或上、下位词或相关词等,系统性能变差。
MEDLARS系统评价试验
目的:研究用户的检索需求,确认MEDLARS满足用户需求的程度,分析、鉴别影响系统性能的不利因素,以寻求改进系统性能的途径。
SMART系统评价试验
目的:在于对某些自动标引技术做出评价。
TREC系统评价试验
目标(5个)
①通过提供大型的语料库、统一的测试程序及系统整理评测的结果数据,来促进信息检索技术的发展。
②强调检索技术的先进性与实用性。
③倡导以大规模数据为基础的信息检索研究
④为学术界、工业界、政府部门等提供交流研究思想的公开论坛,促进各部门之间的合作与交流
⑤便利从实验室研究成果到商品化产品的技术转换
数据集合(3个)
①测试文档集合
②检索问题集合
③检索问题的正确答案集合
主要评价试验项目(2个)
①Ad hoc Retrieval
②Information Routing
INEX检索评价试验
必要性:作为一项大规模的评估,INEX致力于提高信息检索和数字图书馆查询的效率,它为促进基于内容的XML检索提供了一个国际性的、固定的交流平台。INEX评价测试的目的就是为了XML文档的评估提供一种测试汇集的形式及评分方法。INEX为参与者对其检索方法的评估提供了一种统一的评分规则,使得他们之间可以很直观地比较分析,以找出自身地缺陷。
八、联机信息检索
联机信息检索系统概述
发展历程
定义:是指用户利用检索终端,使用一些特定的指令和检索语词,通过通信网络与存储大量信息的检索系统联机,以人机对话方式从检索系统的数据库中查找所需的特定信息的过程。
特点(6个)
①信息质量好:经过了严格的加工,而且往往是独占的。
②检索效率高
③多、快、全的检索功能:在3-5分钟内检索一个或多个课题。
④检索功能强大:途径多。
⑤检索结果输出方式灵活
⑥检索内容新、实时性强
构成(3个)
①检索终端
定义:由终端、调制解调器、打印机三部分组成。
类型(2个)
①非智能终端:没有处理信息的能力,只能发送或接收信息,又称哑终端。
②智能终端:装有处理器,具有一定的智能,可以用来处理已经套录下来的数据。
②通信网络:是联机信息检索的桥梁。起着高速度、远距离、无差错地传输信息的作用。
③联机信息检索中心:是联机信息检索的中枢部分,由服务器、联机数据库、数据库检索和管理软件以及相应的检索服务体制组成。
服务范围(4个)
①回溯检索:不仅能查找最新的信息资料,可以追溯查找数据库存储年限范围内的某一段时间之内的有关文献资料。
②定题服务:针对相对固定的用户课题提问要求,对新到的数据库文档进行检索并定期向用户提供所需信息资料的服务。
③联机订购原始资料
④传递电子邮件:向系统进行询问;用户之间的交流等。
主要联机信息检索系统介绍
DIALOG联机系统
概况
优势(4个)
①信息量大
②数据库的质量比较高
③检索迅速方便
④具有较强的回溯检索能力
DIALOG检索技术
①专用搜索命令(5个)
①b命令:用于查询时打开特定的数据库。
②s命令:是执行查询的主要命令。
③t命令:用于显示查询结果。
④rd命令:用于对来自不同数据库的文献进行去重,使同一篇文献只出现一次。
⑤Logoff命令:系统脱机的命令。
②逻辑组配:(和 and *) (或 or +) (非 not -)
③截词技术:用?作为截词符,而且包括后截、中截、前截等。
④限定技术:包括词与词之间的位置限定算符、前缀代码、后缀代码和关系算符。
DIALOG系统数据库
类型(4个)
①书目数据库:存放原始文献的书目信息。
②指南数据库:主要存放一些介绍公司、团体或名人的信息。
③数字数据库:存放调查数据和统计数据。
④全文数据库:存放法律、法规、期刊、报纸、工具书、专著以及其他文献的实际全文。
索引文件(2个)
①基本索引:包含主题相关的字段,如题名、文摘、叙词和正文等字段。
②附加索引:包含其他可检字段。
联机帮助文档(7个)
①411:是DIALOG系统的总索引,其名称为DialIndex。为用户特设的检索费用较便宜的总索引文档,它包括系统所有数据库的基本索引和部分附加索引。
②415:即《Dialog系统蓝页》的联机文档,该文档包含了Dialog系统提供信息服务的所有数据库蓝页文件的记录。极大地方便了用户在检索过程联机浏览数据库蓝页地相关内容。
③405:可以帮助用户了解Dialog产品与服务,以及用户提供特殊的服务地点。
④230:即数据库的数据库,该文档提供了有关数据库和数据库产品的详细信息。
⑤431:是一个提供检索帮助的文档,用来确定Dialog数据库中的产品代码。
⑥414:是Dialog系统所收录期刊的主索引;利用该文档可以快速确定涉及某一期刊的数据库。
⑦416:是一个检索帮助文档,用以检索Dialog数据库中的公司信息;利用该文档可以快速确认包含某一特定公司信息的数据库。
DIALOG检索实例
联机信息检索系统新发展
未来特征(6个)
①系统模式客户机/服务器化
②完善的网络通信平台
③智能化人机接口
④具有多媒体采集、存储、加工、检索、传递能力
⑤具有较强的网络互联能力
⑥提供多种信息服务功能
采取措施(4个)
①联入Internet
②推出光盘产品
③调整收费制度
④利用网改进用户界面
九、因特网信息检索
因特网信息资源
定义:指以数字化形式记录的,以多种媒体形式表达的,分布式存储在因特网不同主机上的,并通过计算机网络通信方式进行传递的信息资源的集合,是从计算机技术、通信技术、多媒体技术相互融合而形成的、在因特网上可查找、可利用的资源。
种类
按人类信息交流方式分(3个)
①非正式出版信息:指流动性、随意性较强的信息量大,信息质量难以保证和控制的动态性信息。
②半正式出版信息:又称灰色信息,指受到一定产权保护但没有纳入正式出版信息系统中的信息。
③正式出版信息:指受到一定的产权保护、信息质量可靠以及利用率较高的知识性、分析性信息。
按时效性因特网分(4个)
①网上出版物
②动态信息
③联机馆藏书目数据库
④国际联机数据库
按IDG Book Word Wide 1996年出版的《WWW指南》分:主要标准是学科领域,共分出农业、人类学、天文学、艺术、航空航天科学、生物学和商业等57个类。
按因特网信息资源的组织应用形式分(8个)
①万维网WWW信息资源
②电子邮件信息资源
③FTP信息资源
④Telnet信息资源:远程登陆。
⑤USENET/Newsgroups信息资源
⑥LISTSERV/Mailing List信息资源
⑦Gopher信息资源
⑧WAIS信息资源
组织形式(8个)
网络信息组织是指人们根据网络信息本身的特征或属性,运用各种工具和方法,对网络信息进行加工、整理、排列、组合,使之有序化、系统化、规律化,从而有利于网络信息的存储、传播、检索、利用,以满足人们的网络信息需求的活动过程。
①文件方式(一次)
定义:是网上数字化信息资源的一种主要存储形式,以文件方式组织的网上数字化信息主要有文档文件、图像文件、音频文件与视频文件等四种类型。
优点(2个)
①简单方便。
②以文件方式组织网络信息资源是存储非结构化信息的天然单位。
弱点(3个)
①随着网络信息资源利用的不断普及和信息量的不断增多,以文件为单位共享和传输信息就会使网络负载越来越大。
②对结构化信息的组织与管理显得软弱无力。
③随着以文件形式保存和管理的信息资源的迅速增多,文件本身也需要作为对象来进行管理。
②超媒体方式(一次)
定义:是超文本与多媒体技术的结合,它将文字、表格、声音、图像和视频等多媒体信息以超文本方式组织起来,使人们可以通过高度链接的网络结构在各种信息库中自由航行,找到所需要的任何媒体的信息。
优点(4个)
①以非线性的方式组织信息,符合人们思维联想和跳跃性的习惯。
②节点中的内容可多可少,结构可以任意伸缩,具有良好的包容性和可扩充性。
③可组织各类媒体的信息,方便地描述和建立各媒体信息之间地语义联系,完全超越了媒体类型对信息组织与检索的限制。
④通过链路浏览的方式搜寻所需信息,将信息控制机制融合进系统数据之中,避免了检索语言的复杂性。
缺点(2个)
①采用浏览的方式进行信息搜寻,当超媒体网络过于庞大时,很难迅速而准确地定位于真正需要地信息节点上。
②很难保存遍历过程中所有的历史记录,在需要时能立即返回到曾经过的某一节点,即难以避免所谓的“迷航”现象。
③数据库方式(一次)
定义:即将因特网信息资源以固定的记录格式存储,并提供一些检索入口,用户通过检索入口,就可以找到所需要的信息线索,并利用超级链接功能直接链接到相关站点或一次信息本身。
优点(3个)
①对大量的结构化数据的处理效率有了很大提高。
②数据的最小存取单位是信息项,可根据用户需求灵活地改变查询结果集的大小,从而大大降低了网络数据传输的负载。
③以数据库技术为基础已建立了大量的信息系统,形成了一套系统分析、设计与实施的方法,为人们建立网络信息系统提供了现成的经验和模式。
缺点(3个)
①对非结构化的信息处理困难较大,对网络环境中日益增加的多媒体信息及表格、程序、大文本等非结构化信息的组织也比较困难。
②无法有效处理结构日益复杂的信息单元
③缺乏直观性和人机交互性
④搜索引擎方式(二次)
定义:是因特网上对网上二次信息进行组织的主要形式,其实质是一种报道、存储网上一次信息资源的检索工具。
优点(2个)
①收录、加工信息的范围广、速度快,能及时地向用户提供新增信息。
②检索时直接输入关键词或词组、短语,无须判断类目归属,比较方便。
缺点(3个)
①由于标引过程缺乏人工干预,因此准确性较差
②检索软件的智能化程度不高,导致检索误差较大
③虽然一次检索输出的信息很多,但会包含许多重复、虚假信息,即检索噪音大
⑤主题树方式(二次)
定义:即将所选定学科领域的所有已获得的信息资源按照某种事先确定的概念体系结构,分门别类地逐层加以组织,用户通过浏览的方式逐层加以选择,层层遍历,直到找到所需呀的信息线索,进而通过信息线索直接找到相应的网络信息资源。
优点(2个)
①简单易用,屏蔽了网络信息资源系统对于用户的复杂性,提供了一种基于树型浏览方式的浏览界面。
②信息检索按照一定的体系结构,逐次查看,因而对于用户而言目的性强、查准率高
缺点:体系的结构不能过于复杂,每一类目下细分的主题不宜过多,这无疑限制了其所能容纳的因特网信息资源的数量。
⑥图书馆编目方式(二次)
定义:就是图书馆人员搜索、识别和注释那些对读者有用的资源,再根据针对网上资源的选择政策进行选择,然后编目成基于MARC格式的记录,使之成为图书馆集成管理系统的一部分。
优点(5个)
①保证为读者所提供信息的质量和可靠性
②通过联机编目可以为用户提供多种检索途径
③现存的图书馆主题规范系统能为读者提供一贯的、合理的检索途径
④能为用户提供统一的检索界面
⑤记录可以像传统的书目记录一样被其他图书馆或机构共享
缺点(2个)
①成本昂贵
②编目速度慢,跟不上网络信息资源的增长速度
⑦数字图书馆方式(二次)
定义:实际上是通过互联网连接起来的数字资源库群,是实行分布式管理的信息和知识共享的计算机系统。
特征:多媒体数字化资源,跨平台、跨语种、网络化存取、计算机系统分布管理和智能化服务。
目的:实现信息和知识资源的共享。
优点(4个)
①数字化信息载体容量大、体积小,为图书馆节省大量空间
②数字化信息对保护古籍等文献资料起到重要作用,能为图书、文献、音像资料提供比较精确完美的拷贝
③数字化图书馆不受时空限制的远程高速特点及强大的检索查询功能使资源共享成为现实
④数字化图书馆避免了资料的数量限制,也不受图书馆导读的个人影响,提高了利用效率,扩大了适用范围
缺点:版权和知识产权在网络时代的运用问题,随着数字图书馆的发展日益凸显。
⑧虚拟图书馆方式(二次)
定义:指多个图书馆之间为了实现资源的最大利用,通过图书馆协议和联合组合等形式,将各图书馆的核心能力和资源通过信息网络集成在一起,形成一个临时性的开放的组织形式,来共同完成某项任务。
优点(2个)
①丰富了传统图书馆信息资源,拓展了服务形式,为用户提供了一个友好的、可随时随地访问的虚拟界面,在一定程度上缓解了图书馆经费紧张的问题。
②虚拟图书馆提供给的服务更便利,服务的区域更广阔,服务的项目更多,质量也更高。
特点(5个)
①信息存储与传递的数字化和网络化
②数量巨大,增长迅速
③内容丰富,形式多样
④变化频繁,价值不一
⑤结构复杂,分布广泛
因特网信息检索工具
定义:指在Internet上提供信息检索服务的计算机系统,其检索对象是存在于Internet信息空间中各种类型的网络信息资源。
原理:通过自动索引程序来广泛搜集网络信息资源数据,经过一系列的判断、选择、标引、加工、分类、组织等处理后形成供检索用的数据库,创建目录索引,并大多以Web页面的形式向用户提供有关的资源导航、目录索引及检索界面。用户可以根据自己的信息查找需求,按照该检索工具的句法要求等来通过检索界面输入检索项及提问式等信息。系统检索软件接受用户提交的检索提问并按照本系统的句法规定对用户输入的字符串、运算符、标识符、空格等进行识别和判定后,代理用户在数据库中检索,并对检索结果进行评估比较,按与检索结果的相关程度排序后提供给用户。
结构(3个)
①自动索引程序
②数据库
③检索代理软件
类型
按网络信息资源类型分(2个)
①WWW检索工具:即搜索引擎,其检索结果即网页,为网络信息检索工具的主流。
②非WWW检索工具:如FTP、Telnet等信息资源为检索对象的检索工具。
按检索机制分(3个)
①关键词检索工具:即搜索引擎,它通过用户直接输入检索词来检索网络信息;优点是信息量大、更新及时、无需人工干预;缺点是返回信息过多,有很多无关信息,用户需要从结果中自行筛选。
②分目录检索工具:又称为Directory或种检索工具,以人工方式或半自动方式搜集信息,由编辑Catalog即通过用户浏览分类目录来检索网络信息,相关人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
③混合型检索工具:兼有关键词和分类目录两种检索方式的检索工具。
按包含检索工具数量分(2个)
①单一检索工具:最常见的,拥有自己的索引数据库,可向用户提供基于自身索引库的查询服务,并根据数据库内容反馈出相应的查询信息或链接站点。
②多元型检索工具:允许一次检索多个搜索引擎,检索的覆盖面非常广。
按检索内容分(3个)
①综合型检索工具:统用检索工具,即枷锁内容不限。
②专题性检索工具:又称专业检索工具,即检索内容为某一方面或某一主题范围的信息资源。
③特殊性信息检索工具:即检索内容为某一类型信息或数据的检索工具。
功能
基本检索功能(5个)
①布尔检索:指通过标准的布尔逻辑关系词来表达检索词与检索词间逻辑关系的检索方法。
②截词检索:指在检索式中用专门的截词符号表示检索词的某一部分允许有一定的词形变化。
③邻近检索与短语检索:通过检索式中的专门符号来规定检索词结果中的相对位置。
④字段检索:依据这类功能,用户可以把查询万维网信息时的检索范围限制在标题、统一资源定位地址或超链等部分。
⑤区分大小写检索:在查西文信息时,区分大小写有助于提高查准率。
高级检索功能(6个)
①加权检索:在某个检索词前面带上+,表示该检索词必须在检索结果中出现,反之带上-,则表示该检索词一定不能出现在检索结果中。
②自然语言检索:指用户可以输入自然语言作为检索入口词。
③相关信息反馈检索:在检索过程中人们会发现某个结果非常符合自己需要,因此希望能进一步检索到与该结果类似的结果,我们称之为相关信息反馈检索。基本原理是检索工具将您所选定的结果网页中包含的关键词找出,通过它们在这个网页中出现的频率和位置等来计算各自在这个网页中的相关度,然后选出那些在该网页中最重要的词汇用作下一步检索的检索词。
④模糊检索:允许被检索信息和检索提问之间存在一定的差异,这种差异即模糊,这中差异往往来自于用户在输入检索提问时的输入错误,另一类来自词汇在不同国家出现的形式。
⑤概念检索:指当用户输入一个检索词后,检索工具不仅能检索出包含这个具体词汇的结果,还能检索出包含那些与该词汇同属一类要领的词汇的结果。概念检索实现了受控语言的一部分公用,即考虑到了同义词、广义词和狭义词的使用。
⑥智能化检索:核心是网络信息检索工具必须具有智能化的人机接口和系统推理能力,要能准确判定用户检索提问与数据库文档之间的关系,并能对用户的潜在需求做出比较准确的分析与判断。
与检索相关的功能(4个)
①检索提问的修改与限制
②按相关度排列结果
③检索浏览相结合
④检索结果的翻译和多语种检索
因特网信息检索工具展望
因特网信息检索工具的局限性(8个)
①搜索引擎对信息的标引深度不够
②搜索引擎的信息占有量不足
③搜索引擎的查准率不高
①网上的信息质量
②人为因素的干扰
④搜索引擎自身技术的局限
⑤检索功能单一、缺乏灵活性
⑥索引数据库更新困难
⑦大量挤占昂贵的网络宽带和CPU资源
⑧搜索引擎的分工协作有待加强
因特网信息检索工具的发展方向(10个)
①WWW检索工具主流化
②搜索引擎的集成化
③服务区域的全球化
④服务领域的两极化
⑤检索语言的一体化
⑥检索功能多样化
①检索角度的多样化
②检索途径的多样化
③检索手段的多样化
④检索结果输出形式的多样化
⑦检索内容的深入化
⑧系统维护的动态化
⑨检索技术的智能化
⑩用户界面的友好化
十、数字图书馆的信息检索
数字图书馆的跨库检索
定义:也称联邦检索、数据库检索、集成检索;是以多个分布式异构数据源为对象的检索系统,这种系统向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式并发地检索本地和广域网上多个分布式异构数据源,并对检索结果进行整合,在经过去重和排序等操作后,以统一结果呈现给用户。
必要性(3个解决问题)
①数字资源数量的增加,增加了读者选择和熟悉数据库的时间
②数据库内容的交叉重复,增加了读者信息鉴别和去重的时间
③数据库知识的关联度较低,增加读者知识衔接的负担
优点(3个)
①提供统一的检索接口,能够减轻用户学习检索不同数据源的负担;
②并发检索,能节省用户总的检索时间;
③结果集成,大大方便了用户的浏览和选择;
基本原理(5个)
①运用元搜索引擎的基本原理,即利用数据库的Web客户端进行统一检索。
②通过数据库接口软件与不同的数据库直接连接,即通过数据库接口软件直接访问异构数据库。
③不同数据库间的格式转换,即将不同数据库导入一个新的集成数据库中并提供服务。
④建立索引库,即将多个数据库的索引数据整合到一个索引库中。
⑤利用SFX实现数据库的无缝链接。
相关技术(6个)
①公共网关接口技术
②开放式数据库互联技术ODBC
③JAVA数据库互联技术JDBC
④ASP技术和JSP技术
⑤CORBA技术
⑥XML中间件技术
基本过程(3个)
①用户构造并提交检索式
②提问等待过程,即系统依据用户的检索式对各异构数据库进行查询的过程
③返回结果的加工策略
策略(6个)
①分析检索目的:在检索之前必须分析检索目的,浏览资源列表,了解资源能否满足检索需求,确定是否需要进行跨库检索。
②选择信息资源:正确的资源选择是成功检索的前提条件;不同信息资源在收录内容、组织方式、检索机制等方面存在很大差异,因此,用户必须在分析检索目的和信息需求的基础上进行信息资源选择。
③确定检索词:检索词不仅要能够准确表达检索课题的主要内容,而且要符合所检资源的用词规则。
④构造检索表达式:如何利用跨库检索功能构造检索表达式将直接影响检索效果。
⑤检索策略的转换:用户需要根据检索结果和检索过程出现的问题及时调整检索策略。
⑥个性化服务功能:充分利用系统提供的服务功能,不仅能够帮助用户提高检索效果,更有助于多角度地满足用户信息需求。
实例分析
跨语言信息检索技术
定义:指用户以自己所掌握地某一种语言构造检索提问式、计算机根据用户的检索要求在其他不同语种的信息(包括文本、语音、图像等)中进行自动搜索,得到的检索结果甚至可以翻译成用户指定的语种。
类型(4个)
①双语言信息检索:指用户用某种语言从另外一种语言表达的文献信息集中检索出所需文献信息的方式。
②多语言信息检索:指用户用某种语言从另外多种语言表达的文献信息集中检索出所需文献信息的方式。
③特定领域的跨语言信息检索:指检索对象设定为某一学科或某一主题领域的跨语言信息检索。
④跨语言的多媒体信息检索:如跨语言的语音信息检索,其内容不仅包括文献信息检索技术、跨语言翻译技术,还有语音识别技术等。
在数字图书馆应用的必要性(4个)
①数字图书馆信息资源的多样性
②信息形式的多样性
③用户的广泛性
④服务的便捷性
主要方法(5个)
①同源匹配:根据两种语言的语词拼写形式或读音相似度来判断其中一种语言语词的语义,不进行任何翻译;只适用于具有相同词源的语言,如英语和法语。
②提问式翻译
定义:指将用户提交的查询请求翻译成系统支持的多种语言,然后对不同语言的信息集进行查询。
类型(5个)
①基于词典的模式
②基于双语语料库模式
③字典-语料库混合方法
④提问式构造方法
⑤提问词再赋权方法
③文献翻译
定义:文献翻译与提问式翻译正好相反,是指先将多语言的文献信息集转换成与查询相同的语言,在进行单语言信息检索。
优点(2个)
①由于具有完整的文献语境,故可以提高翻译质量
②可以离线执行
缺点:速度很慢,且需要将文献库中的文献翻译为系统支持的每一种语言,这使得文献库的规模不可能很大。
④中间语言方法:将原语言翻译成中间语言,然后再将中间语言翻译成目标语言;一般认为,这种中间语种应该是计算机容易处理的语言,如英语,这样可以解决两种语言之间无法直接翻译的问题。
⑤不翻译:目前不通过翻译进行跨语言信息检索的典型技术是LSI;是一种基于内容概念的检索技术,它提供了一种不需要翻译就能使一种语言的文本片段与具有相似内容概念的另一种语言的文本片段进行匹配的方法。
存在的主要问题(6个)
①原始询问的歧义性和目标询问的多义性
②提问中词的切分
③检索结果的合并
④专有名词的解释
⑤语言识别
⑥检索结果的充分显示
在数字图书馆的应用
基于内容的检索技术
定义:主要是利用媒体对象的语义、媒体的视觉特征或听觉特征进行检索,它利用图像处理、模式识别、计算机视觉和图像理解等学科中的一些方法作为部分基础技术,直接对图像、音频和视频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索的多种技术的合成,具有广泛的应用前景。
基于内容的图像检索原理(6个)
①图像的预处理
②特征的提取
③数据库系统
④查询和浏览界面
⑤匹配引擎
⑥索引过滤器
基于内容的检索的主要特点(6个)
①直接从图像中提取语义线索和特征,并根据这些线索从大量存在数据库的图像中查找、检索出具有相似特征的图像数据来,这突破了传统的基于字符表达式检索的局限。
②以相似比对取代吻合比对
③采用直观的可视化提问方式
④交互性强
⑤能满足多层次的检索要求
⑥检索效率较高
基于内容的静态图像检索技术
定义:是建立再特征分析和模式识别基础上的相似查询,所涉及的主要问题是对数据模式的描述和判别,查询过程是根据给定的模式对输入的模式进行匹配,判断的关键是相似度。
方面(3个)
①基于颜色的检索
定义:颜色具有旋转不变性和尺度不变性;描述了图像或图像某个区域所对应的劲舞的表面性质。在同一事物中,事物之间通常有着相同或相似的颜色特征,故可以用来区分物体。
基本思想:是将图像间的距离归结为其颜色直方图间的差距,从而图像检索也就转化为颜色空间直方图的匹配。
优点:图像被放大缩小、质量被噪声破坏、旋转都不会对图像本身的颜色特征造成影响。
缺点:并不能高效捕捉图像中某事物的局部特征,也没有表达出颜色空间分布的信息,更无法体现事物的空间关系。
②基于形状的检索
定义:一般来说,一个物体可以有不同的颜色,但它的形状不会有很大的差别。物体的形状是物体自身的一个重要特征,形状检索可以比较有效地抓取图像中某一物体作为目标来进行检索。
原理:采用合适的分割算法把不同对象从图像中分割出来,关键是寻找符合人眼感知特性的形状特征。
③纹理检索
定义:纹理特征描述是图像或图像某一区域所对应景物的表面特性。纹理特征不是基于像素点的特征,它需要再包含多个像素点的区域中进行统计计算在模式匹配中。
优点:不会由于局部的偏差而无法匹配成功。
缺点:纹理特征作为一种表面特性并不能完全反映出物体的本质属性,当图像的分辨率变化时,所以计算出来的纹理有时会出现较大的偏差。
视频检索
定义:动态视频信息一般用场景、镜头和帧来描述。
主要技术(4个)
①片段检测:对于连续的视频流,常需要根据要求将视频信号划分为不同的视频片段。片段可以根据不同的要求来划分,比如可以把某一物体在图像中的出现和消失定义为片段的头和尾,但在实际应用中,多是以镜头场景的切换作为片段检测的内容,从这个意义上说,片段检测即摄像机运动连续性中断的检测。
②图像拼接:目的是对获得片段生成一个全景的拼接图象来代表本段内容,一般用于在用户访问片段的视频信号之前提供给用户片段的内容信息。步骤有图像对准、图像整合、残差估计。
③主运动估计:在多数视频图像中,往往有一个相对固定的背景,背景前面是运动的物体。主运动估计无疑对图像的对准和拼接效果起着重要作用。
④层描述
定义:即对图像序列建立描述的方法。
过程(3个)
①一个运动描述符的集合
②对每个运动描述符在图像序列号中与之对应即满足其约束关系的“层”
③根据①和②及原始视频图像建立的对每个“层”的描述
基于内容的图像检索在数字图书馆中的应用
基于内容的检索技术在数字图书馆建设中具有一定的意义,尤其是在资源以图像为主或图像是必不可少的学科方面,可以帮助用户从多途径找到图像内容信息,从更深层次对图像媒体进行理解与控制,可以帮助文献部门更充分地开发和利用信息资源。基于内容的检索技术还有利于产生新的应用,创造新的概念,如对图像类信息的数据挖掘等。
数字图书馆的知识检索
定义:知识检索是综合应用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确地精选用户需要地结果,是针对信息检索中存在的语义性较差、智能性较低、知识性较弱等现状提出的一种基于语义和知识关联,运用知识处理技术和知识组织技术,实现信息查询语义化,智能化的一种高级信息检索方式。
优点(4个)
①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。
②提供主动服务方式,自动优化用户需求,主动提供个性化检索。
③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。
④综合应用各类知识和各种高效的智能技术,全面提高检索效率。
知识检索与信息检索的比较(5个方面)
①检索语言
①检索语言是描述信息的内容与形式的工具,也是用户表达检索提问的语言。
②信息检索系统中一般将关键词作为描述信息和用户提问的基本单元,因为关键词是最简单的自然语言,是实现主题检索的重要途径,而且简单易用。但是关键词不能充分表达概念之间的语义关系,通常难以满足用户的信息需求。
③在知识检索系统中,除提供关键词实现主题检索外,还结合自然处理语言和知识表示语言,表示各种结构化、半结构化和非结构化信息,提供多途径和多功能的检索。
②搜索方式
①信息检索是基于“信息”的搜索。目前信息检索方式主要是关键词搜索和目录搜索。通过关键词搜索通常会返回大量的冗余信息,而目录搜索方式则需要用户花费大量的时间进行子目录的浏览,在该过程中仍然存在大量的、与用户意图无关的无效链接。
②知识检索是基于“知识”的搜索,即利用机器学习、人工智能等,模拟或扩展人的认识思维,提高信息内容的相关性。
③检索模型
①信息检索常用模型一般有布尔检索模型、向量空间模型、概率检索模型以及模糊集合模型等。
②知识检索常用的检索模型有分类检索模型、多维认知检索模型和分布式检索模型等。
④信息资源组织方式
①信息组织是信息检索与利用的基础,而信息检索与利用则是信息组织的目的,两者是互逆过程。与信息资源检索相对应的组织方式是信息组织。
②与信息资源检索相对应的组织方式是知识组织,知识组织主要的方法知识分类等;知识组织是高级的逻辑组织形式,信息组织不能充分表示信息元素的语义和语义关系,而知识组织能表示信息元素的逻辑关系和语义关系。
⑤检索效率
①信息检索机制多是采用提高检索式的专指度来提高查准率;采用降低检索词的专指度,进行族性检索和截词检索等提高查全率。
②知识检索机制依然保留了信息检索机制,同时增加了更强的技术机制和知识机制,增强了予以理解和分析能力,既有较高的查全率和查准率,而且知识检索更强调内容的相关性。
信息检索和知识检索,犹如信息与知识,两者既相互联系,又存在着本质的区别。
知识检索模型
定义:知识检索模型集成各类知识对象和信息对象,融合各种智能与非智能理论、方法与技术实现知识检索。
类型(4个)
①分类检索模型:分类检索模型的核心思想是数据抽象,利用事物之间本质的关系来组织资源对象。概念逻辑与知识分类思想是知识标引和知识检索的理论基础。
②多维认知检索模型:认知检索模型的理论基础是人工神经网络;它以模拟人脑的结构和神经系统为目标,将资源组织为语义网络结构,由结点和链接组成。结点可以表示概念或知识对象,链接表示对象之间的各种语义关系和动态操作关系。它不适用于大规模的知识源。
③分布式检索模型:对于网络异构分布式信息资源,分布式检索很重要。该模型要求建立元知识仓库,集成和存储各类元知识。它综合应用分布式人工智能、神经网络、智能演算、并行推理和机器学习等技术,评估各类资源与用户需求的相关性,选择最好的知识源和数据库集合,分别执行并行检索。最后,它利用聚类、综合分析与学习等智能处理方法,产生全局一致的、有效的检索结果。
④基于本体的知识检索模型(4个特点)
①以知识本体作为组织领域知识的语义模型。在检索对象的组织上、知识检索模型利用领域本体作为组织资源的基础。
②以知识本体的概念集对资源进行语义标引。在检索对象的描述上,知识检索模型借助语义标引工具,按照领域本体的概念及关联,对资源对象进行概念分析、分类、标引、描述和处理,形成及其可以理解的带有语义信息的元数据。
③以基于本体的知识语言标示检索领域知识。知识语言包括知识描述语言和知识检索语言。知识描述语言是描述本体的语言工具,是对本体概念形式化的标准语言。这些语言不仅使检索模型具有强大的语义表达和推理能力,同时可以实现不同领域本体之间语义的兼容和互操作。本体概念的优化检索依赖于本体检索语言的功能。
④以自然语言实现概念查询。自然语言易用性强但自由度高,如果不加以控制,就不能精确理解语义,实现知识检索。知识检索模型提供了特定领域可控的概念语义体系,并建立与概念体系相对应的具有层次结构的自然语言术语体系,能对自然语言提问和本体概念库的术语进行语义的理解、分析和匹配,依据本体概念间的语义关系,实现知识检索。
知识检索系统
定义:是处理知识和检索知识的系统,其结构应由知识组织、知识检索和知识显示这三个相互影响、相互作用的要素组成。
组成(5个)
①本体概念模型
②本体加工与语义标注
③基于本体的知识库
④知识检索机制
⑤知识检索系显示与服务
知识检索的实现方法(2个)
①首先,利用只是站点搜索引擎找到知识站点库
加权关键词匹配定位:基本思想是由用户根据检索的预期期望,给关键词赋予一定的权值,以表明关键词之间的相对重要程度,而后由检索系统将该加权关键词与站点属性描述的关键词进行匹配,返回综合评价高的知识站点信息。
②其次,利用知识条搜索引擎
概念约束驱动:理论基础是神经网络和语义网络,将概念看成是最基本、最重要的知识元素,以概念之间的关联作为概念网络节点的链,并在关联链上设置动态控制条件,通过在约束条件和知识库之间进行匹配,帮助用户获取最相关的检索结果。
数字图书馆的知识检索应用实例