导图社区 信息检索原理-第十章
华中师范大学情报学考研初试参考书,数字图书馆的信息检索,数字图书馆的跨库检索,跨语言信息检索技术,基于内容的检索技术,数字图书馆的知识检索内容点梳理。
编辑于2022-06-04 13:03:42数字图书馆的信息检索
数字图书馆的跨库检索
跨库检索的概念
跨库检索也称联邦检索、数据库检索或集成检索,是以多个 分布式异构数据源为对象的检索系统,这种系统向用户提供统一的检索接口,将用 户的检索要求转化为不同数据源的检索表达式并发地检索本地和广域网上多个分 布式异构数据库,并对检索结果进行整合,在经过去重和排序等操作后以统一结果 呈现给用户。 跨库检索的发展不仅方便了用户的信息获取,而且还在一定程度上提 高了数据库的利用率,促进了资源共享。
跨库检索的优点
①提供统一的检索接口,能够减轻用户学习检索不同数据源的负担。 ②并发检索,能节省用户总的检索时间。 ③结果集成,大大方便了用户的浏览和选择。
跨库检索的必要性
①数字资源数量的增加,增加了读者选择和熟悉数据库的时间。 ②数据库内容的交叉重复,增加了读者信息鉴别和去重的时间。 ③数据库知识的关联度较低,增加读者知识衔接的负担。
跨库检索的基本原理
①运用元搜索引擎的基本原理,即利用数据库的 Web 客户端进行统一检索。 ②通过数据接口软件与不同的数据库直接连接即通过数据库接口软件直接访问异 构数据库。 ③不同数据库间的格式转化,即将不同数据库导入一个新的集成数据库中并提供服 务。 ④建立索引库,即将多个数据库的索引数据整合到一个索引库中。 ⑤利用 SFX 实现数据库的无缝链接
跨库检索的相关技术
1.公共网关接口技术CGI 2.开放式数据库互联技术ODBC 3.JAVA数据库互联技术JDBC 4.ASP技术和JSP技术 5.CORBA技术 6.XML中间件技术
跨库检索的基本过程
①用户构造并提交检索式。检索式是用户确定检索项后所制定的既能反应用户需 求,又能被计算机所识别的式子。用户检索式构造的好坏直接影响检索的查准率 和查全率。 ②提问等待过程。提问等待的过程即系统依据用户的检索式对各异构数据库进行查 询的过程。 ③返回结果的加工策略。首先,去除表面相关而本质上不相关或相关度不大的数据, 以提高检索的精确度;其次,去除重复信息;最后,对返回的不同格式、结构的 数据进行处理并按照统一的、符合用户需求的方式将结果呈现给用户。
跨库检索策略
①分析检索目的。在检索之前必须分析检索目的,浏览资源列表,了解资源能否满 足检索需求,确定是否需要进行跨库检索。 ②选择信息资源。正确的资源选择是成功检索的前提条件,不同信息资源在收录内 容、组织方式、检索机制等方面存在很大差异,因此,用户必须在分析检索目的 和信息需求的基础上进行信息资源选择。 ③确定检索词。检索词不仅要能够准确表达检索课题的主要内容,而且要符 合所检资源的用词规则。 ④构造检索表达式。如何利用跨库检索功能构造检索表达式将直接影响检索效果。 ⑤检索策略的转换。用户需要根据检索结果和检索过程中出现的问题及时调整检索 策略。 ⑥个性化服务功能。充分利用系统提供的服务功,不仅能够帮助用户提高检索效果, 更有助于多角度地满足用户信息需求。
跨语言信息检索技术
跨语言信息检索概念
跨语言检索是指用户以自己所掌握的某一种语言构造 检索提问式,计算机根据用户的检索要求在其他不同语种的信息中进行自动搜索, 得到的检索结果甚至可以翻译成用户指定的语种。
跨语言信息检索类型
①双语言信息检索。指用户用某种语言从另一种语言表达的文献信息集中检索出所 需文献信息的方式。 ②多语言信息检索。指用户用某种语言从另外多种语言表达的文献信息集中检索出 所需文献信息的方式。 ③特定领域的跨语言信息检索。指检索对象设定为某一学科或某一主题领域的跨语 言信息检索。 ④跨语言的多媒体信息检索。如跨语言的语音信息检索,其内容不仅包括文献信息 检索技术、跨语言翻译技术,还有语音识别技术等。
跨语言信息检索在数字图书馆应用的必要性
①数字图书馆信息资源的多样性。 ②信息形式的多样性。 ③用户的广泛性。 ④服务的便捷性。
跨语言信息检索的主要方法
①同源匹配。同源匹配根据两种语言的语词拼写形式或读音相似度来判断其中一种 语言语词的语义,不进行任何翻译。这种方法只适用于具有相同词源的语言,如 英语和法语,但是对于中英文来说则不通用。同源匹配可以单独使用,而大多数 情况下是与其他策略结合使用。 ②提问式翻译。提问式翻译是指将用户提交的查询请求翻译成系统支持的多种语 言,然后对不同语言的信息集进行查询。目前提问式翻译模式有如下 5 种:基于 词典的模式、基于双语语料库模式、字典语料混合方式、提问式构造方法、提问 词再赋权方法。 ③文献翻译。文献翻译与提问式翻译正好相反,是指先将多语言的文献信息集转换 成与查询相同的语言,再进行单语言信息检索。一般认为中间语言是计算机容易 处理的语言,如英语,这样可以解决两种语言之间无法直接翻译的问题。 ④中间语言方法。将源语言翻译成中间语言,再将中间语言翻译成目标语言。 ⑤不翻译。目前不通过翻译进行跨语言信息检索的典型技术是 LSI,该技术是一种 基于内容概念的检索技术,它提供了一种不需要翻译就能使一种语言的文本片段 与具有相似内容概念的另一种语言的文本片段进行匹配的方法。
跨语言信息检索存在的主要问题
除去传统单语种信息检索可以解决的问题,跨语言信息检索还存在许多由于“翻译” 所带来的问题,主要包括原始询问的歧义性和目标询问的多义性、提问中词的切分、 检索结果的合并、专有名词翻译、断词、语言识别和检索结果的充分显示等。 (1)原始询问的歧义性和目标询问的多义性。这些是询问翻译涉及的基本问题, 翻译歧义来自原始询问,词义消歧是解决如何在给定上下文语境中确定多词 的义项问题,而目标多义则来自翻译后的目标询问。 (2)提问中词的切分。一些语言由于词与词之间没有明显的分隔符号,因此,词 的切分问题成为此类语言的跨语言检索研究要点之一。 (3)检索结果的合并。跨语言信息检索最终呈现的结果是用户所不熟悉的,为减 轻用户利用结果的负担,提高查准率,精简检索结果是必要的。而在多语言 信息检索领域,如果组成检索对象的不同语言文献的组织结构是分布式的那 么此目标的实现还需要对各语言检索结果进行合并,按相关性由高到低的顺 序呈现在使用者面前。 (4)专有名词的解释。由于辞典覆盖度的限制,未收录词一直是询问翻译的重要 问题,而其中专有名词的翻译更具挑战。 (5)语言识别。对于网络上的多语言文献信息检索系统,对检索对象所用语言的 了解和识别有助于提高索引质量,是对其进行深入加工的必要条件,检索中 很多技术的有效发挥也有赖于对处理对象语言的识别,进而改善检索效果, 然而作者一般都没有标明其所用语言,因此需要特定的语言识别技术。 (6)检索结果的充分显示。指给用户提供尽可能多的关于查询结果的信息,帮助 用户快速准确地判断某一检索结果的相关性。
跨语言信息检索在数字图书馆的应用
基于内容的检索技术
基于内容的检索技术的概念
基于内容的检索是一种新的检索技术,主要是利 用媒体对象的语义、媒体的视觉特征或听觉特征进行检索它利用图像处理、模式识 别、计算机视觉和图像理解等学科中的一些方法作为部分基础技术,直接对图像、 音频和视频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检 索是多种技术的合成,具有广泛的应用前景。
基于内容的图像检索原理
①图像预处理。包括图像格式的转化、尺寸的统一,图像的增强与去杂等功能,为 60 图像的特征提取打下基础。 ②特征的提取。即从包含大量信息的图像中分解出不同种类的特征信息,主要包括 视觉特征和统计特征。 ③数据库系统,由图像库、特征库和知识库组成。 ④查询和浏览界面。通常是指示例查询和模糊描等方式,用户可以用整幅图像、特 定对象以及各种特征的组合等形式进行查询。查询需要通过浏览界面来确定查询 要求,而且查询后返回结果也需要浏览。 ⑤匹配引擎。检索是利用特征之间的距离函数来进行相似性匹配,模仿人类的认知 过程,可以从特征库中寻找匹配的特征,也可以临时计算对象的特征。 ⑥索引过滤器。对于大型的基于内容检索图像数据库,还需要寻找有效的方法来加 快检索。常用的方法包括过滤和索引,在进行向量运算之前先滤除那些不符合要 求的图像,过滤出的数据集合再用高维特征匹配来检索。
基于内容的检索的主要特点
①直接从图像中提取语义线索和特征,并根据这些线索从大量存储在数据库的图像 中查找、检索出具有相似特征的图像数据来,这突破了传统的基于字符表达式检 索的局限。 ②以相似比对取代吻合比对。 ③采用直观的可视化提问方式。 ④交互性强。 ⑤能满足多层次的检索要求。 ⑥检索效率较高。
基于内容的静态图像检索技术
①基于颜色的检索。颜色具有旋转不变性和尺度不变性,它描述了图像或图像某个 区域所对应的景物的表面性质。在同一类事物中,事物之间通常有着相同或相似 的颜色特征,因此可以利用颜色特征来区分不同物体。 基本思想:将图像间的距离归结为其颜色直方图间的差距,进而转化为颜色空间 直方图的匹配。 优点:图像被放大缩小,图像质量被噪声破坏,图像被旋转都不会对图像自身的 颜色特征有较大影响。 缺点:并不能高效捕捉图像中某事物的局部特征,也没有表达出颜色空间分布的 信息,更无法体现事物的空间关系。 ②基于形状的检索。一般来说一个物体可以有不同的颜色,但它的形状不会有很大 差别。物体的形状是物体自身的一个重要特征,形状特征检索可以比较有效地抓 取图像中某一物体作为目标来进行检索。 基于图像内物体形状的检索,首要问题是采用合适的图像分割算法把不同对象 从图像中分割出来,关键是寻找符合人眼感知特征的形状特征。 ③纹理检索。纹理特征描述的是图像或图像某一区域所对应景物的表面特性。纹理特征不是基于像素点的特征,它需要在包含多个像素点的区域中进行统计计算在 模式匹配中,这种区域性的特征具有较大的优越性,不会由于局部的偏差而无法 匹配成功。 缺点:纹理特征作为一种表面特性并不能完全反映出物体的本质属性,当图像的 分辨率变化的时候,所计算出来的纹理有时会出现较大偏差。
视频检索
动态视频信息一般用场景、镜头和帧来描述。目前的视频检索技术 主要包括片段检索、图像检索、主运动估计和层描述等。 (1)片段检索:对于连续的视频流,常需要根据要求将视频信号划分为不同的视 频片段。片段可以根据不同的要求来划分,在实际应用中多是以镜头场景的 切换作为片段检测的内容,从这个意义上说,片段检测即摄像机运动连续性 中断的检测。 (2)图像拼接:图像拼接的目的是对获得的片段生成一个全景的拼接图像来代表 本片段的内容。图像拼接的生成包括三个步骤:图像对准、图像整合和残差 估计。 (3)主运动估计:多数视频图像中,往往有一个相对固定的背景,背景前面是运 动的物体,主运动估计对图像的对准和拼接效果起着重要的作用。 (4)层描述:即对图像序列建立描述的方法,一般包括三个部分:一个运动描述 的集合、对每个运动描述符在图像序列中与之对应即满足其约束关系的“层”、根据前两步及原始视频图像建立的对每个“层”的描述。
基于内容的图像检索在数字图书馆中的应用
基于内容的检索技术在数字图书馆建设中具有一定的意义,尤其是在资源以图像为 主或图像是必不可少的学科方面,可以帮助用户从多途径找到图像内容信息,从更 深层次对图像媒体进行理解与控制,可以帮助文献部门更充分地开发和利用信息资 源。基于内容的检索技术还有利于产生新的应用,创造新的概念,如对图像类信息 的数据挖掘等。
数字图书馆的知识检索
知识检索概念
知识检索是综合应用信息管理学、人工智能、认知科学及语 言学等多先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理 等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源, 并能准确精选用户需要的结果,是针对信息检索中存在的语义性较差智能性较低、 知识性较弱等现状提出的一种基于语义和知识关联、运用知识处理技术和知识组织 技术,实现信息查询语义化、智能化的一种高级信息检索方式。
知识检索的优点
①实现信息服务向知识服务的转化,向用户提供潜在内容知识以及分析预测后的超 前性领域成果或知识。 ②提供主动服务方式,自动优化用户需求,主动提供个性化检索。 ③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且 将繁重的知识信息存取工作从用户移向了计算机 ④综合应用各类知识和各种高效的智能技术,全面提高检索效率。
知识检索与信息检索的比较
信息检索是指从序化的信息集合中查找出符合需求的信息,它是信息组织的逆过 程。而知识检索就是综合运用信息管理科学、人工智能、认知科学及语言学等多学 科的先进理论与技术,基于知识和知识组织,融合知识处理与多媒体信息处理等多 种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源(如 文本、图像、视频、声音等),并能准确精选用户需要的结果。信息检索与知识检 索,犹如信息与知识,两者既相互联系,又存在着本质区别,下面分别从检索语言、 检索模型、资源组织方式、搜索方式和检索效率等方面加以比较。 (1)检索语言:检索语言是描述信息的内容与形式的工具,也是用户表达检索提问 的语言。信息检索系统中一般将关键词作为描述信息和用户提问的基本单元。 因为关键词是最简单的自然语言,是实现主题检索的重要途径,而且简单易用。 但是关键词不能充分表达概念之间的语义关系,通常难以满足用户的信息需 求。在知识检索系统中,除提供关键词实现主题检索外,还结合自然处理语言 和知识表示语言,表示各种结构化、半结构化和非结构化信息,提供多途径和 多功能的检索。 (2)搜索方式:信息检索是基于“信息”的搜索。目前信息检索方式主要是关键词 搜索和目录搜索。通过关键词搜索通常会返回大量的冗余信息,而目录搜索方 式则需要用户花费大量的时间进行子目录的浏览,在该过程中仍然存在大量 的、与用户意图无关的无效链接。知识检索是基于“知识”、的搜索,即利用 机器学习、人工智能等,模拟或扩展人的认识思维,提高信息内容的相关性。 (3)检索模型:信息检索常用的检索模型一般有布尔检索模型、向量空间模型、概 率检索模型以及模糊集合模型等。知识检索常用的检索模型有分类检索模型、 多维认知检索模型和分布式检索模型。 (4)信息资源组织方式:信息组织是信息检索与利用的基础,信息检索与利用则是 信息组织的目的。与信息资源检索相对应的组织方式是信息组织,与知识检索 相对应的组织方式是知识组织。知识组织是高级的逻辑组织形式,信息组织不 能充分表示信息元素的语义和语义关系,而知识组织能表示信息元素的逻辑关 系和语义关系等。 (5)检索效率:信息检索机制多是采用提高检索式的专指度来提高检准率;采用降 低检索词的专指度,进行族性检索和截词检索等提高检全率。而知识检索机制 增加了更强的技术机制和知识机制,增强了语义理解和分析能力。知识检索具 有较高的查全率和查准率,也更强调内容的相关性。
知识检索模型
知识检索模型集成各类知识对象和信息对象,融合各种智能与非智能理论、方法与 技术实现知识检索。目前知识检索模型主要有分类检索模型、多维认知检索模型、分布式检索模型、基于本体的知识检索模型。 (1)分类检索模型 分类检索模型的核心思想是数据抽象,利用事物之间本质的关系来组织资源对 象。概念逻辑与知识分类思想是知识标引和知识检索的理论基础。 (2)多维认知检索模型 认知检索模型的理论基础是人工神经网络。它以模拟人脑的结构和神经系统为 目标,将资源组织为语义网络结构,由结点和链接组成。结点可以表示概念或 知识对象,链接表示对象之间的各种语义关系和动态操作关系。它不适于大规 模的知识源。 (3)分布式检索模型 对于网络异构分布式信息资源,分布式检索很重要。该模型要求建立元知识仓 库,集成和存储各类元知识。它综合应用分布式人工智能、神经网络、智能演 算、并行推理和机器学习等技术,评估各类资源与用户需求的相关性,选择最 好的知识源和数据库集合,分别执行并行检索。最后,它利用聚类、综合分析 与学习等智能处理方法,产生全局一致的、有效的检索结果。 ( 4)基于本体的知识检索模型 其主要特点是: ①以知识本体作为组织领域知识的语义模型。在检索对象的组织上,知识检索 模型利用领域本体作为组织资源的基础。 ②以知识本体的概念集对资源进行语义标引。在检索对象的描述上,知识检索 模型借助语义标引工具,按照领域本体的概念及关联,对资源对象进行概念 分析、分类、标引、描述和处理,形成机器可以理解的带有语义信息的元数 据。 ③以基于本体的知识语言标示检索领域知识。知识语言包括知识描述语言和知 识检索语言。知识描述语言是描述本体的语言工具,是对本体概念形式化的 标准语言。OWL 是 W3C 推荐的知识描述语言的标准,RQL 是 W3C 推荐的知识查 询语言的标准。这些语言不仅使检索模型具有强大的语义表达和推理能力, 同时可以实现不同领域本体之间语义的兼容和互操作。本体概念的优化检索 依赖于本体检索语言的功能。 ④以自然语言实现概念查询。自然语言易用性强但自由度高,如果不加以控制, 就不能精确理解语义,实现知识检索。知识检索模型提供了特定领域可控的 概念语义体系,并建立与概念体系相对应的具有层次结构的自然语言术语体 系,能对自然语言提问和本体概念库的术语进行语义的理解、分析和匹配, 依据本体概念间的语义关系,实现知识检索。
知识检索系统
知识检索系统是处理知识和检索知识的系统,其结构应由知识组织、知识检索 和知识显示这三个相互影响。相互作用的要素组成。 (1)本体概念模型。获取学科领域基本概念,构建领域本体概念模型,提供描 述领域知识的规范和知识表示的工具。 (2)本体加工与语义标注。收集信息源,借助本体概念模型对信息源进行语义 分析与标注,形成具有语义关联的资源元数据集合;根据应用的需要, 支持本体的学习与进化。 (3)基于本体的知识库。存储与管理标注后的资源元数据,支持对本体知识库 的并发访问与快速查询,支持对多用户协同编辑本体,以及对多版本进 行有效的归纳、控制和管理。 (4)知识检索机制。分析处理检索请求,对查询术语进行语义解析,确定检索 请求与本体概念及关系的对应,支持概念推理,实现语义检索,生成检 索结果。 (5)知识检索显示与服务。展示知识检索界面,向系统发出检索请求并接受系 统的服务。知识检索呈现是通过一定的知识表示技术,将领域知识本体 按照一定方式,清晰有序地在一个统一的界面上展示出来,以供方便地 查询与获取知识。知识检索显示的应是反映知识内容和概念关联的知识 网络或知识地图。
知识检索的实现方法
知识检索可以分成以下两步: 首先,利用知识站点搜索引擎找到知识站点库; 其 次,利用知识条搜索引擎,根据用户的需求,从站点中的知识库提取相关知识 条。 与该两级检索策略相对应的检索法是: 首先利用“加权关键词匹配定位法” 定位知识站点,然后在“动态约束性概念网络”的基础上,从所定位的站点中 找到所需的具体知识。 ①加权关键词匹配定位。加权关键词匹配定位的基本思想是由用户根据检索的预期 期望,给关键词赋予一定的权值,以表明关键词之间的相对重要程度,而后由检 索系统将该加权关键词与站点属性描述的关键词进行匹配,返回综合评价高的知 识站点信息。 ②概念约束驱动。概念约束驱动方法的理论基础是神经网络和语义网络,将概念看 成是最基本、最重要的知识元素,以概念之间的关联作为观念网络节点的链,并 在关联链上设置动态控制要素,通过在约束条件和知识库之间进行匹配,帮助用 户获取最相关的检索结果