导图社区 第六章信息检索
信息检索对文档量化处理思想发挥了计算特长,自诞生以来在计算机检索领域中占据着重要地位,既有布尔模型间接形式化特点,又有有效的匹配算法设计以及合理的结果排序处理方式。
编辑于2022-03-21 01:27:28第六章 信息检索(上)
信息组织和信息检索
信息组织是按照一定的规则来描述信息对象或信息资源,以便人们能高效地利用,信息组织使信息有序化和系统化,把有价值的信息按照一定的编排规则进行存储。
信息检索是为了个人或他人的需要,去适当的发现信息资源或信息对象,与信息组织是一对互逆的过程。
信息检索
信息检索概念原理
广义:信息的存储与检索,将信息按照一定的方式组织和存储起来,并按照用户的需要找出其中相关信息的过程,包括信息的存和取两个环节,存储主要指在信息选择的基础上对信息内外部特征进行描述、加工、并使其有序化,行程信息集合,检索是指利用一定的设备和工具,采用一定的方法和策略从信息集合中查询到需要的信息。
狭义:只有取的过程,信息检索是信息用户根据一定需要,按照一定方法和策略借助一定设备从大量文献信息中查出所需资料和信息的过程。
信息检索系统
概念:通常为满足用户信息需求而建立的,存储经过加工了的信息集合,拥有特定的存储、检索和传送技术装备,提供存储和检索方法及检索服务功能的一种相对独立的服务实体,包括人和检索工作单位,统称为信息检索系统(IRS)
由三要素组成:人、检索工具、信息资料
信息检索的本质是用户信息需求与一定信息集合的匹配
类型与特性
按存储与检索得内容划分
文献检索(知网、维普)
数据检索
事实间锁
按检索系统中信息的组织方式划分
全文检索
多媒体检索(优酷、哔站)
超媒体检索(百度链接)
强相关性&弱相关性
强相关性——查准率高
弱相关性——查全率
信息检索的基本原理
对信息资源集合与信息需求集合的匹配与选择
信息资源集合:指某一领域内,经选择性采集和组织加工的信息集合体。将信息资源库进行加工,形成它们的特征化表示,及对他们进行分析和标引,将原来隐含的、不易识别的特征显性化,并获得相应的标识,将这些被分析和提取出来的特征进行存储,构成了索引库,成为组织和查找信息资源的依据和标准。
信息需求集合:用户信息需求的汇集,形成了信息需求集合,分析需求的内容,提取出概念和其他属性,利用与信息自云稽核相同的标识系统来表示需求中所包含的概念属性,从而得到用户需求的特征化表示结果。
匹配与选择:在信息资源集合和信息需求集合都进行了特征化表示的基础上,他们二者之间的匹配就成了提问式与已建立的有序化的索引库之间的匹配,即两组有限的于此符号特征之间的匹配比较。
信息检索的模型
集合论模型
布尔模型
是第一个信息检索模型,比较简单易用,建立在景点集合论和布尔代数知识基础上。
优点:运算符号少、提问式构造简单且易修改
缺点:检索关键词没有权重区别,检索出的关键词没有重要性排序,查全率较难控制,对用户语义提取能力有较高要求,不够自然简洁,应用不是很普及
模糊集合模型
扩展布尔模型
代数论模型
向量空间模型
前提是将检索文档和检索提问式都看作是数值向量,这些数值向量购了一个空间向量图,这样信息检索中的文献和提问匹配就转换成了文献向量和提问向量的相似度计算问题。
对文档量化处理思想发挥了计算机计算特长,自诞生以来在计算机检索领域中占据着重要地位,既有布尔模型间接形式化特点,又有有效的匹配算法设计以及合理的结果排序处理方式。
语义模型
神经网络
概率论模型
概率模型
推理网络
信念模型
信息检索的发展历程
手工信息检索阶段
手工检索的技术和方法
工具:目录、索引、文摘、年鉴、手册、百科全书
方法
顺查法:以信息检索课题的起始年代为起点,按时间顺序由远及近查找信息的方法。查找前须摸清课题提出的背景和历史情况,用适宜的检索工具,优点是检全率高,缺点是费时费力。
倒查法:是一种逆时间顺序由近及远查找信息的方法,多用于新课题和有新内容的老课题,需要的是近些年发表的文献,有点是节约时间,缺点是漏检率较高。
抽查法:抓住学科发展迅速、论文发表较多的年代,使用前提是必须抓住学科发展特点,否则难以达到预期效果。
追溯法:以某一篇文献末尾所附的参考文献为依据,由近及远逐一查找的方法,直观、方便的追溯,是一种扩大信息源的好方法,缺点是检索效率低、漏检率高、捡全率低。
循环法:利用检索工具查找出一批有用文献,再根据这些文献末尾所附参考文献进行追溯查找,优点是检索工具缺年确卷时也能获得所需文献资料。
特点:操作简单、费用低廉、查准率高,但效率较低,查全率不能保证
机械信息检索阶段
计算年纪信息检索阶段
网络信息检索阶段
特点
信息量更大,需要处理各种不同语言,多是自然语言,检索范围更大,多学科多领域,检索时效性更高,检索结果查全率较高,查准率较低
优点
从根本上解决有效利用网络信息资源的关键
是在现实世界中有效利用网络信息资源的核心
信息检索的步骤与策略
信息检索步骤
分析研究信息检索课题
选择性信息检索工具
确定信息检索方法
掌握获取原始信息线索
获取原始信息
信息检索策略(用什么样的方法去获取有价值信息)
定义:是针对检索提问,运用检索方法和技术设计的一种检索方案,其目的是获得一定的查全率和查准率
常用信息检索策略:分块概念组配检索策略、逐步、增长、对偶组配检索策略
趋势:随着智能信息检索系统研究的不断深入,将来信息检索系统或将由智能信息检索系统承担。
信息检索语言
概念:信息检索语言是根据信息检索需要创制的一种人工语言,又称检索语言,信息存储于检索语言,标引语言等,是信息检索系统在信息存储和检索时使用的一种约定性语言,以达到信息存储与检索的一致性,提高信息检索效率。
信息检索效率的评价
查全率
概念:衡量信息检索系统在实施某一检索作业时检出相关文献能力的一种测度指标,指检出的相关文献站系统中相关文献述的百分比。查全率反映检索的全面性,其补数就是楼差率。
影响因素
从文献存储来看
文献库收录文献不全
索引词汇缺乏控制和专制性
词表结构不完整,词间关系模糊或不正确
标引不详、标引不一致、标引人员遗漏了原文的重要概念或用词不当
从信息检索来看
检索策略过于简单
选词和进行逻辑组配不当
检索途径和方法太少
检索人员业务不熟练或缺乏耐心
检索系统不具备截词功能和反馈功能,检索时不能全面的描述检索要求
怎么提高查全率: 删除and连接的不重要的检索词、使用截词符、将位置符号范围放宽、下拉扩展检索、对检索词不做限定、多选或全选副主题词、采用模糊检索
查准率
概念:衡量信息检索系统在实施某一检索工作时检索精确度的一种测度指标,是指检出相关文献数占检出文献总数的百分比。查准率反应检索精确性,其补数是误查 率。
影响因素
索引词不能准确地描述文献主题和检索要求,组配规则不严密,标引过于详尽,检索面太宽,没有专指性,检索系统不具备"非"和”或“的功能,组配不合理,检索式中容纳此数量有限
怎么提高查准率:增加and连接的词或使用二次检索、减少or的组配、用字段进行限定、用特定的副主题词进行限定、用运算符not排除干扰信息、采用精确检索、邻近检索 严格限制检索词间的距离
查全率与查准率是互逆关系