导图社区 信息检索原理-第一章
华中师范大学情报学考研初试参考书,信息检索概论,信息检索基础简述,信息检索概念与原理,检索系统与检索工具,信息检索研究的核心问题,知识点总结。
编辑于2022-06-04 12:03:54信息检索概论
信息检索基础简述
信息、知识与文献
含义
信息
定义
事物发出的信号所包含的内容。
按加工程度的分类
一次文献信息
指作者以自己的研究成果为基础创作和撰写的、未经过加工的原 始文献。不论其在撰写是是否参考或引用了他人的资料,也不论其物质形式和出 版类型如何,如期刊论文、研究报告、专利说明书、会议论文、学位论文等。
二次文献信息
指对一次信息加工整理而成的文献,如目录、文摘、索引等各种 报告论文书目信息,它具有汇集性、工具性、综合性、系统性。
三次文献信息
指对一次信息加工整理而成的文献,如目录、文摘、索引等各种 报告论文书目信息,它具有汇集性、工具性、综合性、系统性。
知识
定义
知识是人类的主观世界对客观世界的概括和反映,是大量有组织的信息,是 关于事实和思想的有组织的陈述,提供某种思考的判断和某种实验的结果。
分类
“知事”
指关于事实方面的知识,即在什么样的时间、什么样的地点或条件下 能解决什么样的问题
“知因”
指自然原理和规律方面的科学理论,知识的生产是在专门研究机构如实验 室和大学完成的
“知道怎样做的知识”
指做某些事情的技艺和能力被称为技术情报和商业秘密, 其典型是企业开发和保存于其内部的技术诀窍或专有技术
“谁以及是怎样创造知识的“
侧重对创造思想、方法、手段、过程以及特点等 的了解
文献
定义
文献是记录有知识的一切载体,即知识必须通过文献载体进行存储和传递。
构成文献的三个最基本要素
构成文献内核的知识信息、负载知识信息的物质载 体、记录知识信息的符号和技术。
文献的特性
知识性
知识性是文献的本质,离开知识信息文献便不复 存在。
传递性
文献具有传递性,能帮助人们克服时间与空间上的障碍。
动态性
文献具有动态性, 文献并非处于静止状态,其蕴涵的知识信息随着人类社会和科技的发展在不断地、 有规律的运动着。
内涵和外延
内涵
知识、记录方式、物质载体组成了文献
外延
不同的知识、记录方式和物质载体可以形成不同类型的文献
文献的类型
按照文献的记录方式和载体材料可以将文献分为 书写型、印刷型、 缩微型、声像型、机读型 五大类。
联系
信息>知识>文献 信息、知识和文献的联系在于: 信息作为物质的一种普遍属性,是生物以及具有自 动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容。它是有 形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关。 知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结, 是人的主观世界对于客观世界的概括和如实反映。它是无形的、与行动和决策相关、 经过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的; 文献是知识的一部分,是进入人类社会交流系统的运动着的知识。 具体来说,三者之间的关系为:信息>知识>文献。
文献信息类型演化及其结构形态
文献信息链
文献作为人类文化信息的承载物,从其产生、替代、反复被利用、再 创造,直至产生新知识,是一个不断演进的运动过程。有人把这一过程比喻为文献 信息从低级到高级不断螺旋上升的信息链。
文献信息流的演变
从人类整个知识体系的形成来看,现存文献中的知识来自于研究组织通过观 察、实验而获得的发现与数据,它们被记录在实验室笔记或日记里,是具有第一手 意义的文献信息,这就是文献信息流的起点。 当研究组织或个人将研究成果以期刊 论文、会议文献、发明专利、科技报告等公开出版物形式发表时,即构成文献信息 链的重要组成部分,这就是一次文献信息流。 一次文献信息流发展壮大后,难以被 掌握和利用,于是文献信息服务机构对其进行书目控制和重新组织,这样,文献信 息流开始进入有序化阶段。 这一阶段由“替代”“改组”“综合”三个环节组成 (1“替代”。描述文献特征,对次文献信息进行不同程度的提炼或压缩,形成目录、 文摘、索引等二次文献信息。从文献信息流的运动角度看,替代是文献信息流 的流量、流向得到测度并合理调节。 (2)“改组”。从一次文献信息中提取数据、事实和有关结论,按照易于查阅的标准 重新组合,其改组的结果,产生了手册、名录、辞典、目录等类型的文献信息。 其目的是使一次文献信息更容易被理解和使用。 (3)“综合”。利用二次文献对一次文献所包含的知识加以综合并融入到现有的知 识体系中去,成为整个知识体系的有机组成部分,产生的主要成果是不断再版 的百科全书、专著、教科书及综述、评论性文章。 文献信息流的继续演变是对二次文献信息流的书目控制和改组,即进入“二次替代” 过程,其结果是“书目之书目"、“文献指南之类的工具。 文献信息流是一个以研 究活动为起点,按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过 程。
信息检索概念与原理
基本概念
信息检索
定义
是从信息集合中识别和获取信息的过程,本质是用户的信息需求和 一定的信息集合的匹配。
广义理解
信息的存储和检索
狭义理解
信息的检索
拓展
信息的存储
主要包括在某一专业或领域范围内的信息选择的基础上对信息的内外 特征进行描述、加工并使其有序化,形成信息集合。
信息的检索
是指借助一定的设备和工具,采用一系列的方法与策略从信息集合中查 询所需的信息。
信息检索方式
信息的载体形式
印刷型
缩微型
声像型
电子型
信息检索方式
手工检索
简称手检,主要使用印刷型信息检索工具,其检索过程就是大脑分析、思 考和手工操作的配合过程。
计算机检索
简称机检,主要使用计算机信息检索系统,检索过程就是人的设计操作 和计算机自动化处理相结合的过程。
信息检索系统
信息检索系统是指为了满足用户的信息需求而建立的存储、经 过加工了的信息集合,拥有一定的输入、匹配、输出的技术装备,提供一定 的检索服务功能的一种相对独立的实体。
信息检索入口
信息检索入口又称检索点或检索标识,是指用以标识信息的外部特征 内部特征的属性值的集合。检索标识是用户作为检索的出发点和依据,用户和信息 检索系统之间的交流必须有一定的检索标识,否则会导致检索失败。它们通常由人 工赋予,或由计算机自动生成。
基本原理
包括信息的存储与检索两个过程。 首先,需要建立文本数据库,并使其成为可检索的信息集合。这是信息检索的基础, 将从底层决定信息检索系统的检索利用方式。建立文数据库前,数据库管理者需要 明确文本的搜集范围、对文本的操作方式以及文本模型。文本操作是要实现原始文 本的转换,以产生文本的逻辑视图。逻辑视图一旦形成,数据库管理者将利用数据 库管理模块建立文本索引。对于大规模的信息集合而言,索引是必不可少的,索引 结构可能各不相同,但常用的还是倒排档。所谓倒排档就是建立在文本数据库基础 之上的倒排索引的文件形式。倒排档一旦建立,我们可以认为,文本数据库已成为 可检索的信息集合。 在此基础上,现代意义上的信息检索才能开始。用户首先要明确自己的信息需求, 然后运用用于文本信息的文本操作方法对信息需求做语法分析和转换,以产生检索 提问。再运用系统所要求的用户信息需求的表达方式,构造检索提问表达式。提交 检索提问表达式,利用已建立的索引(主要是倒排档)以实现快速查询,并产生检 索结果。 在将检索结果提交用户之前,检索系统将运用系统所确定的对相关性评判的算法对 检索结果进行排序,试图将与用户信息需求密切相关的排在前面。用户浏览“排序” 输出的检索结果,以找出自己感兴趣或需要的信息。如果用户对检索结果不满意, 可以修改检索提问表达式,以产生新的“排序”输出的检索结果。此过程可以循环 往复,直到检索提问表达式更好地表达用户真实的信息需求,产生令用户满意的检 索结果。
检索系统与检索工具
二者的联系与区别
检索系统与检索工具是人们用来查找信息的辅设备,本质上并无多大区别。 检索工具多对应于早期对印刷版文献的查找, 而检索系统则是以计算机为基础设备,对电子信息开展的查找与利用。
检索系统的构成
检索系统的构成包括物理构成和逻辑构成。
物理构成
从物理构成的角度来考察,检索系统一般包括硬件、软件和数据库三个组成部分。
硬件部分
是计算机检索系统采用的各种硬件设备的总称,主要包括具有一 定性能的主计算机和服务器、检索系统的外围设备和在数据处理与传送 中有关的其他设备。 主机和服务器要适应信息检索的要求,内存要能适应处理海量数据,计算机或服务器要具有较强的逻辑运算能力和较快的反应速度。 外围设备包括外部存储器、输入输出设备等。外部存储器应具有相当大的容量以及多级存储系统。
软件部分
包括与计算机检索相关的各种系统软件及相关应用软件,主要包括信息采集、存储、标引加工、词表管理等,模块。
数据库
定义
至少由一种文档组成,并能满足某一特定目的或某一数据处理 系统需要的一种数据集合。
类型
参考型数据库
它是指引用户到另一信息源以获得原文或其他细节的一 类数据库。包括书目数据库和指南数据库。书目数据库就是指存储某个 领域的二次文献的一类数据库。指南数据库是指存储某些对象的简要描 述,指引用户从其他源获取更详细信息的一类数据库。
源数据库
它是指提供原始资料或具体数据的自足性数据库,它包含数值 数据库、文本数值数据库、全文数据库、术语数据库、图像数据库以及 音视频数据库。
混合型数据库
它是指能存储多种不同类型数据的数据库。
逻辑构成
文献与数据的选择与抽取子系统
该子系统的功能是从外部信息源向系统输入, 输入时按照系统既定方针和用户需求进行选择。 选择标准包括专业覆盖面、文献 信息类型、摘储率、文种、时间跨度等。 1)专业覆盖面:就检索系统的数据库对文献和知识的学科专业的覆盖 面来说,有综合性检索系统、多学科检索系统、专业检索系统。 2) 摘储率:对于某一专业领域,抽取的信息占该领域所有信息的比率。
词表子系统
一般来说,数据库中所收录的知识与文献,需要依靠使用一定的检 索语言来加以表征和组织;另外,检索者的检索提问也需借助检索语言来加以表 达,这样才能使存储与检索得到有效的沟通和控制,保证检索系统达到令人满意 的查准率与查全率,减少漏检与误检。采用词表控制的检索系统称为控制词汇的 检索系统。 随着计算机为主体的现代信息技术在信息处理领域的广泛应用,出现了一些非 控制词汇的情报检索系统。它又可分为完全的自然语言检索系统和后控制的自 然语言检索系统。 后控制的自然语言检索系统在系统内设有只供检索用的后控 制词表,这种词表没有预先编定的形式,而是通过检索者的使用,将检索式中 用或逻辑相连的检索词,由机器提取并逐步累积起来的一组一组的词表,在检 索时由系统自动纳入检索式,进行扩检。但对检索者来说,后控制的自然语言 检索系统使用的是自然语言。“后控制”的过程对检索用户来说是透明的。
标引子系统
按照一定的词表,对文献赋予标引词,以表征文献的特征,形成文 献的标识,这一过程就是标引。 通过标引,能将分散的资料彼此联系起来,预测 文献同检索提问的潜在相关性。 依据这个子系统,情报检索系统可分为人工标引 的检索系统和机器标引的检索系统。对于完全自然语言的检索系统来说,可能根 本就不进行标引,这种情况成为无标引或全标引。
查寻子系统
查寻,就是把用户的需求,经过概念分析,转换成系统语言的词汇, 并指出其逻辑关系的过程。具体来说就是构造检索策略的过程。检索系统可分为布尔检索系统和非布尔检索系统。
用户与系统交互子系统
该系统即检索系统向用户提供实现其检索过程的手段。
匹配子系统
该子系统的功能是对文献的标引记录和提问的检索策略进行对比并 决定取舍。
检索工具的体系结构和功能
体系结构
构成检索工具的上述五个部分是有机联系、不可分割的整体。
编辑说明与凡例
编辑说明与凡例通常放在检索工具的开头部分。 编辑说明一般向用户揭示该检 索工具的编辑目的、收录范围、选材原则、适用对象、出版沿革、总体结构、 各部分的用途及用法等。编辑说明的作用是向用户介绍该检索工具的概貌,以 便用户确认该工具是否合适自己。 凡例对用户检索起具体的指导作用,通常以 简洁的文字和示例详细介绍检索工具的编排体例、著录格式、著录项目和查找 方法等,使用户对该检索工具有进一步的认识,了解其各方面的特征,掌握其 使用方法。
分类表与主题表
分类表与主题表是编制和使用检索工具必不可少的辅助工具。 分类表主要用于 文献款目的编排和浏览。 主题表有两个作用: 一是像分类表那样用于文献款目 的编排和浏览,但这仅指按主题编排文献款目的检索;二是用于主题标引和检 索,为检索工具和用户提供允许使用的主题词及其参照系统,保证标引的一致 性以及标引与检索的一致性。
正文
正文是检索工具的主体,它由大量的文献款目按一定顺序编排而成。 文献款目是正文的基本构成单元,由书目数据组成,揭示文献的外部特征和内容特征。 从正文内 部讲其主要作用有两个:一是为用户判断检中文献是否符合自己的要求的依 据,以便决定取舍;二是为用户提供获取所需原始文献的线索。
辅助索引
辅助索引是从正文中抽出检索标识以及有检索意义的外部特征和内容特征,编 制成各种索引,每个索引款目都要注明一个或多个正文地址,从而指回正文的 对应位置。 辅助索引的目的就是为了给用户提供更多的检索途径,提高检索效 率。
资料来源目录与附录
资料来源目录是检索工具所摘录文献出处的目录,一般是指来源期刊,也叫引 用期刊目录或来源出版物目录。 附录主要包括专业术语缩略语表、字母音译对 照表、期刊代码表等,便于用户正确识别检索工具正文中的缩略语、代码、音 译名等。
功能
功能间的关系
报道和存储有不同的作用,前者通过检索工具报道当前文献,后者则通过检索工 具的积累存储当前的和过去的文献,两者是检索工具的不同表现形式,但他们属 于同一项工作,即检索工具的编制。报道和存储这两个过程统一于编制过程中, 即编制过程既体现出报道功能,又体现出存储功能。 检索工具的报道功能、存储功能和检索功能关系十分密切,既对立又统一,这种 矛盾现象表现在许多方面。比如,最新文献的报道速度与检索手段的完备性之间 就是一对对立统一的矛盾。也就是说,片面追求报道速度快,就很难使索引体系 完善。当然,如果报道量不大,即使索引的完备性差一些,也不会对检索有多大 影响; 但是,如果报道量很大,必然要求索引完备,否则,就会给检索造成很大 困难。反之,单纯追求检索手段完备,就会影响最新文献的报道速度,但对于存 储多年的文献来说,检索手段的完备性则是非常必要的。
具体功能
报道功能
检索工具首先应具有报道功能检索工具以最新文献为基本报道对象, 从检索工具本身讲,报道功能主要是通过正文实现。 报道功能可以让用户及时、 全面、准确的了解自己感兴趣的领域最近又出版或发行了哪些文献。
存储功能
就检索工具已经报道过的文献而言,数量越积越多,逐渐形成了一定 规模。在这种情况下,检索工具的报道功能开始逐渐转变,即由报道功能转向存 储功能。 存储可以长期积累,其目的是在任何需要的时候,都能够把所需文献从 已经出版或发表的全部文献中检索出来,因此存储具有历史意义。与报道功能一 样,存储功能也是通过正文实现的。 报道和存储着两个过程统一于编制过程中,即编制过程既体现出报道功能,又体现出存储功能。
检索功能
检索功能是检索工具存在价值的最终体现,检索工具的报道功能和存 储功能都是通过正文实现的,但是,仅就检索而言它们的作用仍然是十分 有限 的。 对于被报道和被存储的特定文献来说,为了能够在需要他们的任何时候都能 快速、准确地检索出来,还必须为所收录的全部文献编制各种索引。各种索引的 有机结合构成了检索工具的索引体系,索引体系的基本要素是检索标识和检索手 段,索引体系充分体现了检索工具的检索功能
信息检索研究的核心问题
信息检索理论
标引理论
信息的标引主要是给出信息内容的概念主题和类别等,以便于用户从不同的角度用反映提问要求的词汇去检索。
检索模型
检索结果的可视化
指利用图形、图像、动画等视觉形式来表示检索结果,以充分体现信息的视觉效果。
信息检索技术与方法
全文检索
全文检索主要是用检索词对“原文”进行匹配的检索技术,为人们获取文 献原文而非文献线索信息提供了一条有效途径。全文检索系统采用自然语言标引与检 索,所以检准率不高。
多媒体检索
多媒体检索主要是指对多媒体信息(图形、像、声音、视频等信息)的 检索。多媒体信息检索的应用主要体现在两个方面:特征表述(文字描述)的检索和 多媒体对象的直接匹配检索。
超文本与超媒体检索
超文本与超媒体检索采用非线性的网状结构,模拟现实世界中 用户的跳跃式思考模式。所以与其说超文本与超媒体是一种检索技术,不如说是信息 的组织方法与手段。
联机检索
联机检索是用户在检索终端上使用特定的指令和检索语词,以人机对话方 式从检索系统的数据库中查找所需的特定信息的过程。联机系统允许用户实时操作, 随时得到结果并不断修改,无论是查全率还是查准率均保持较高水平。但由于联机费 用较高,且需要信息用户具有检索专业技能,因此并未在普通用户中普及。
网络信息检索
网络信息检索帮助用户充分利用网络上海量的信息资源,为了实现这 一目的,现已开发出多种网络信息检索工具。在众多工具中,WWW 是一种基于超文本 方式的信息查询工具,不仅可以搜索 WWW 上的信息,也可以搜索因特网上其他信息资 源,大有成为因特网标准检索工具的趋势。
智能检索
智能检索是信息检索和人工智能研究的一个交叠领域,表现在用户检索接 口的友好、检索过程具有学习性这两个方面。即检索系统能够把自然语言的检索提问 自动翻译成检索系统能够理解的检索式,能够根据用户的检索行为进行学习,建立高 效率、高品质的检索模板库,以帮助用户改善检索策略。智能检索的另一个方面是检 索智能代理和智能搜索引擎。
跨语言检索
跨语言检索主要解决针对不同语种的信息资源进行检索,它采用的技术 一般为建立多语言的机器词典或语料库,检索时输入一种语言的检索词,计算机通过 词典或语料库把它翻译成多种语言进行检索。
跨平台检索
跨平台检索也成为分布式检索,其检索是对不同的数据库资源进行的。 因此,跨平台检索所面对的资源可能分散在不同的机器、不同的地点、不同的软件平 台上,信息资源也可能是异构的。在网络环境下,解决跨平台检索已成为信息检索的 热点课题