导图社区 信息检索618
这是一篇关于信息检索的思维导图,模板以清晰的层级结构整合信息管理核心考点:基础概念板块梳理信息管理的定义、对象、目标、学科发展历程与三大理论基础;信息系统模块讲解信息系统的开发、管理、安全与生命周期;信息政策与法规部分拆解信息政策制定、信息法、知识产权保护等内容;信息组织板块涵盖信息描述、标引、分类、主题标引等核心方法;信息服务部分梳理信息检索、用户服务、信息咨询、竞争情报等关键要点,同时补充信息伦理、信息经济、信息安全管理等拓展内容,覆盖信息管理学科全维度考点与易错点,帮助学习者构建完整的知识网络。本模板适配信息管理专业课程学习者、考研 / 考公备考考生、图书馆从业者、企业信息管理专员等多类使用人群,既适合零基础学习者搭建学科知识体系,也可作为考生考前突击梳理考点、构建知识网络的高效工具,同时可作为从业者梳理业务逻辑、优化工作流程的参考,模板支持一键套用与自定义编辑,可根据不同考试大纲(如考研专业课、事业单位考试)调整内容细节,补充真题考点、核心概念辨析等拓展信息,无需从零开始搭建框架,大幅节省备考复习时间。借助万兴脑图软件绘制,助力信息管理学习者高效梳理学科知识,搭建系统知识体系。
编辑于2026-05-29 14:39:00这是一篇关于信息检索的思维导图,模板以清晰的层级结构整合信息管理核心考点:基础概念板块梳理信息管理的定义、对象、目标、学科发展历程与三大理论基础;信息系统模块讲解信息系统的开发、管理、安全与生命周期;信息政策与法规部分拆解信息政策制定、信息法、知识产权保护等内容;信息组织板块涵盖信息描述、标引、分类、主题标引等核心方法;信息服务部分梳理信息检索、用户服务、信息咨询、竞争情报等关键要点,同时补充信息伦理、信息经济、信息安全管理等拓展内容,覆盖信息管理学科全维度考点与易错点,帮助学习者构建完整的知识网络。本模板适配信息管理专业课程学习者、考研 / 考公备考考生、图书馆从业者、企业信息管理专员等多类使用人群,既适合零基础学习者搭建学科知识体系,也可作为考生考前突击梳理考点、构建知识网络的高效工具,同时可作为从业者梳理业务逻辑、优化工作流程的参考,模板支持一键套用与自定义编辑,可根据不同考试大纲(如考研专业课、事业单位考试)调整内容细节,补充真题考点、核心概念辨析等拓展信息,无需从零开始搭建框架,大幅节省备考复习时间。借助万兴脑图软件绘制,助力信息管理学习者高效梳理学科知识,搭建系统知识体系。
这是一篇关于信息管理的思维导图,将零散知识点体系化、可视化,帮助学习者高效掌握信息管理学科的核心考点与知识脉络,解决知识点零散、复习无重点、概念体系混乱等痛点。基础概念板块梳理信息管理的定义、对象、目标、学科发展历程与三大理论基础;信息系统模块讲解信息系统的开发、管理、安全与生命周期;信息政策与法规部分拆解信息政策制定、信息法、知识产权保护等内容;信息组织板块涵盖信息描述、标引、分类、主题标引等核心方法;信息服务部分梳理信息检索、用户服务、信息咨询、竞争情报等关键要点,同时补充信息伦理、信息经济、信息安全管理等拓展内容,覆盖信息管理学科全维度考点与易错点,帮助学习者构建完整的知识网络。本模板适配信息管理专业课程学习者、考研 / 考公备考考生、图书馆从业者、企业信息管理专员等多类使用人群,既适合零基础学习者搭建学科知识体系,也可作为考生考前突击梳理考点、构建知识网络的高效工具,同时可作为从业者梳理业务逻辑、优化工作流程的参考。
社区模板帮助中心,点此进入>>
这是一篇关于信息检索的思维导图,模板以清晰的层级结构整合信息管理核心考点:基础概念板块梳理信息管理的定义、对象、目标、学科发展历程与三大理论基础;信息系统模块讲解信息系统的开发、管理、安全与生命周期;信息政策与法规部分拆解信息政策制定、信息法、知识产权保护等内容;信息组织板块涵盖信息描述、标引、分类、主题标引等核心方法;信息服务部分梳理信息检索、用户服务、信息咨询、竞争情报等关键要点,同时补充信息伦理、信息经济、信息安全管理等拓展内容,覆盖信息管理学科全维度考点与易错点,帮助学习者构建完整的知识网络。本模板适配信息管理专业课程学习者、考研 / 考公备考考生、图书馆从业者、企业信息管理专员等多类使用人群,既适合零基础学习者搭建学科知识体系,也可作为考生考前突击梳理考点、构建知识网络的高效工具,同时可作为从业者梳理业务逻辑、优化工作流程的参考,模板支持一键套用与自定义编辑,可根据不同考试大纲(如考研专业课、事业单位考试)调整内容细节,补充真题考点、核心概念辨析等拓展信息,无需从零开始搭建框架,大幅节省备考复习时间。借助万兴脑图软件绘制,助力信息管理学习者高效梳理学科知识,搭建系统知识体系。
这是一篇关于信息管理的思维导图,将零散知识点体系化、可视化,帮助学习者高效掌握信息管理学科的核心考点与知识脉络,解决知识点零散、复习无重点、概念体系混乱等痛点。基础概念板块梳理信息管理的定义、对象、目标、学科发展历程与三大理论基础;信息系统模块讲解信息系统的开发、管理、安全与生命周期;信息政策与法规部分拆解信息政策制定、信息法、知识产权保护等内容;信息组织板块涵盖信息描述、标引、分类、主题标引等核心方法;信息服务部分梳理信息检索、用户服务、信息咨询、竞争情报等关键要点,同时补充信息伦理、信息经济、信息安全管理等拓展内容,覆盖信息管理学科全维度考点与易错点,帮助学习者构建完整的知识网络。本模板适配信息管理专业课程学习者、考研 / 考公备考考生、图书馆从业者、企业信息管理专员等多类使用人群,既适合零基础学习者搭建学科知识体系,也可作为考生考前突击梳理考点、构建知识网络的高效工具,同时可作为从业者梳理业务逻辑、优化工作流程的参考。
信息检索
基础概念
信息的含义特征8个
可存储型
可传递性
可转换性
可处理性
可共享性
可识别性
依附性
普遍性
信息的功能
传承、决策、保障有效控制、发挥参考作用
信息类型
产生
社会信息
自然信息
是否直接源于/反映人类的社会实践活动
运动状态
自在信息
不以人的意志为转移,绝对客观、未被认知性、潜在性
自为信息
自在信息在主体意识中第一次映射或反应。连接桥梁↑↓
再生信息
主体对客体认识的深化和成果输出:语言、文字、符号
与人的意识活动关系深度
信息媒体类型
印刷、缩微、视听、机读
加工处理程度
0次1次2次3次!!!!
内容
经济/科技/军事……
出版发行
正式、非正式
信息素养
概念
!!!!最早+全面
构成
信息意识、知识、能力、伦理
特点
知识性、技能型、普遍性
信息素养标准
国外
国内
信息检索
概述
概念
分类
原理
意义
历程
手工-计算机
趋势
跨语言、多媒体、web、可视化、智能化、个性化、多样化
方法
直接浏览法、常用法、综合法
效果
概述
评价指标体系
影响因素
检索语言
概述
广义:人工语言+自然语言;狭义:人工
组成:词汇+语法
特点:双系统 比较 唯一 语法
功能:标引一致性、集中揭示相关性、存储集中系统组织化、标引用语和检索用语相符性比较、信息特征表达和需求表达的桥梁
分类
描述特征:外表 内容
结构原理:分类 主题 代码 引文
语言规范程度:人工 自然
范围:综合性 专业性 多学科
语言文字:单语种 多语种
信息表示的组合使用方法:先组式 后组式 散组式
基础理论
概念逻辑
内涵 外延
被定义的概念=种差+邻近属概念
关系
相容:同一 属种 交叉 整体与部分 全面与某一方面 不相排斥的并列
不相容:并列 矛盾 对立
方法
划分与概括(分类)、分析与综合(组配)
知识分类
学科分类:中图法
事物分类:生物分类系统
术语学
分类
体系
基于概念划分与概括、学科分类为基础、等级列举式
优缺点
结构
微观:类目+类目体系
类目划分
引用次序
类目的排列
类名的确定
类目之间关系处理(5种)
宏观:类目体系、标记系统、标记制度、说明与注释、类目索引
分面/组配分类法
主题
关键词:未经规范化处理/略加规范处理的自然语言词汇
轮排
题外关键词
题内关键词
词对式关键词
标题词
单元词
叙词
分类主题一体化
分面叙词表
叙词表式索引
分类-叙词表对照索引
集成词表
网络信息检索语言
中图法
超文本
标签
后控词表
先控=标引控制,后控=检索控制
只是一种转换型词表,必须再有统一规范的分类主图一体化词表对其予以支持
信息存储
信息著录
概念:组织检索系统时对文献内容和形式特征进行选择和记录的过程
要求=准确+规范
作用=揭示+组织+检索
步骤=对象选择、特征分析、记录形成
对象=信息(图书、期刊、文件、网络资源)
结果=款目/记录
款目=依据一定的标准方法,对信息/信息源的内容价值等等进行描述的每一条记录
标准=描述信息过程中所要依据的规则和条例
文献著录总则
中国文献编目规则
机读目录
UNIMARC
CNMARC
按照UNIMARC格式设计原则制定,结合汉字特点 记录头标区:位于开始,提供处理书目记录有关参数的定长区域24字符,包含基本控制信息:记录类型、书目级别、记录的完备程度 地址目次区:记录所有数据字段位置的一个索引,由若干目次项组成,每个目次项12字符(字段标识号3、字段长度4、起始位置5) 数据字段区:机读目录记录的主体部分,标识符+指示符(键值对)
局限性:格式复杂、专业性过强、编目成本高、规定死板、对海量网络信息编目困难
都柏林核心元数据集
元数据
描述数据的数据
作用:定位检索、著录描述、资源管理、资源保护与长期保存
本身
最广泛的元数据标准。跨领域的信息资源描述标准
题名、创作者、主题及关键词、格式、描述、标识、出版者、语言、其他贡献者、关联、时间、范围、类型、版权、来源
特点:简单易懂、运用灵活、国际通用、可扩展
网络环境下:具有语义互操作性、可扩展性,势头强劲
vs机读目录
都是元数据
著录对象:网络资源/数字资源vs传统
数据形式:15个元素可选可重复可扩展vs头标区目次区数据区数据结构严谨复杂
著录主体:无需培训vs需培训
详简程度:简单vs详尽
标识方法:单词直观vs阿拉伯数字及字母,不具备语义
子主题
信息标引
概念=在分析文献内容的基础上,用某种检索语言把文献主题及其他有意义的特征标识出来,以便编排检索工具和提供用户检索
作用:存入&检出的依据
质量控制
标引深度/标引全面性:广度 一篇文献被赋予主题词的平均数量
专指度:检索标识标识信息内容的精确程度
一致性:(不同标引人员)使用标引词的一致程度
步骤=主题分析、概念转换
主题分析
主题类型
单主题、多主题;显性主题、隐形主题
主题结构
主体因素(重要)、通用因素、位置因素、时间因素、文献类型因素(后应取舍)
方法:论述对象-具体问题-提炼要素-相互关系;涉及概念-相互关系
概念转换
主题概念-检索标识
直接转换、分解转换
类型
分类(相关的文献打上相同的分类号,放置在同一区域)
原则:学科属性、专指性原则、实用性原则、系统性原则、一致性原则
规则:单主题、多主题、相关关系主题
主题(使用主题词表)
选词规则:正式词汇、最专指、最邻近、最直接上位词、新增词、主题词
组配:概念组配、交叉组配、最密切、单义性、主体-通用-位置-时间-文献类型
自动标引
词频统计法:排除高频和低频后剩下的
逆文献加权标引法:权重与单个文献词频一致,与全集合词频反比
词区分值加权标引法:词在各个文献集合中的分布差异越大,区分值越强,权重越高
词相关性加权标引法:相关性越高权重越高
n-Gram:n个字符得分赋予该串中心字符,选择得分高于阈值的词作为标引词
统计学习:肯定和否定训练集,统计词频,选择促进词和削弱词,确定两个平均标引值之间的中值
句法分析:
语义分析:
人工智能:
自动分类
自动归类
将待分信息划归到不同类目,需要后台分类表或学习过程
基于词、基于知识
自动聚类
按照对象的内外部特征,将相近的对象聚合在一起,只依靠数学分析方法,技术更简单
特征选取-相似度计算-聚类-标识
信息检索
参考工具书
发展:先秦起源-汉代正式-唐宋促进-明清集大成-建国后新发展
功能
答疑解惑-指引门径-提供参考-汇集传承
特点:内容丰富、便于查检、准确可靠
结构:序跋(前言后记)、凡例说明、正文、辅助索引、附录补遗
※排检方法
按字顺编排
形序法:根据汉字形体结构特点排列,部首法、笔画法、笔顺法和号码法。康熙字典
号码法:把汉字分解为多种笔形再编号,每个字由多个笔形代码编号 优点:能产生严密的次序。检索迅速使用便利 缺点:学习掌握困难
音序法:根据读音及表音符号顺序排列 汉语拼音字母法、注意字母法、声韵法 优点:检索速度快 缺点:不知读音无法检索
按内容编排
分类编排法:按学科或事物新质的系统性分类排列 文献分类法(学科分类)、事物性质分类法 优点:直观,可以了解相关概念 缺点:必须熟悉分类体系,了解排列顺序
主题编排法:按既定的主题汇集编排方法。国外较常用,国内仅有部分书本式主题索引 优点:将不同学科领域论述和研究同样问题或同一事物的文献资料集中与同一主题下,按字顺排列 缺点:编排困难,体系不明显
按自然顺序
时序法:按时间次第性的顺序加以组排,主要用于年表、年鉴 优点:线索清晰、检索方便 缺点:需事先确定事件发生的大致时间
地序法:按地理区域或行政区划的顺序编排,主要用于地理和地方资料 优点:根据地区查检资料,比较地理上相邻区域的发展异同 缺点:需事先确定事件发生地点
评价:编纂目的、权威性、知识性、思想性、服务对象、收录范围、编排方式
参考工具书的数字化
网络版工具书、光盘版工具书
!!!!其他拓展
与传统型并驾齐驱
优势:内容丰富存储方便、检索方便迅速、使用方便
例子
《不列颠百科全书》网络版
百科全书网
CNKI工具书库
汉典
牛津参考工具书在线
中国大百科全书数据库
图书与知识型信息检索
书目
图书或报刊目录的简称,著录和解释一批相关的文献,按一定的次序编排而成,是一种登记、报道和宣传的检索工具
趋势
机读的数字化目录将成为书目的主要形式
书目数据库像集成整合的方向发展
目录学在理论上高度繁荣
类型
书目的编制目的和社会职能:登记书目、通报书目、推荐书目/导读书目、书目之书目/书目指南
收录文献内容范围:综合书目、专题书目、地方文献书目
反映文献收藏情况:馆藏目录、联合目录
文献出版与数目编制的时间关系:现行书目、回溯书目、预告书目
书目著录文献类型:图书目录、期刊目录、档案目录、报纸目录、丛书目录、方志目录…
时代:古典书目、现代书目
作用
指导读书门径、指导科学研究工作
索引
把一种或多种文献中具有检索意义的内容,如字、词、剧、人名、地名、主题等摘录下来,按一定顺序加以编排并注明出处以供查检的工具
类型:书目索引、篇目索引、字句索引、主题索引、分类索引、专名索引、引文索引
作用
提高文献检索的深度和检索效率、满足多途径检索的需求
文摘
拓展!!!
以简明扼要的文字对文献原文的摘述。将论文或书籍的主要观点、论据、数据等摘录出来,并按一定方式编排,是当代报道学术动态的简洁明快方法
学术公众号也有文摘的特点
特点
客观性准确性、浓缩型完整性、引导性检索性
分类
报道性文摘:对原始文献进行深入和语义和逻辑分析的基础上进行高度浓缩而成,概述原文重要信息
指示性文摘/简介:指明原文主题和内容梗概的文摘,一般不摘录原文内容,不能取代原文
作用
文献相关性判断
避免阅读全文克服语言障碍
一定的检索能力
※书目索引文摘对比:
共同点
揭示和检索原始文献的工具
提供原始文献的外部特征和部分内部特征,便于甄别、选择文献
提供各项检索标识,便于检索原始文献
必须和原文配合使用才能提供完整信息
不同点
书目以每一种完整文献为揭示对象 强调版本、发行事项、著者介绍、评论得失和考证 有指导阅读和指示藏所的作用
索引以文献里的事项或单元知识为揭示对象 强调内容特征,比书目有更强的检索深度 标明出处,主要其指向和示址作用
文摘的揭示对象既有论文也有书籍 项目包括基本项目和文摘摘要,摘要一般是原文的高度浓缩,一般不加评论 包含更多信息量,不但有示址功能还有报道功能
字典、词典
以字条/词条为单元,对字的形体、声音、意义以及用法或其他属性做出说明的工具书
知识词典
为学习学科基本知识和为研究某一专门学科、某一专门问题而编的
百科词典、专科词典、专名词典
数据与事实性信息检索
年鉴
系统概述一年内各个方面或某一方面的进展情况,汇集有关重要文献以及统计资料等,按年度编辑出版的工具书
特点
时限性、新颖性(时效性强)、资料性(广泛集中,知识密集)、准确性
类型
综合性、专门性、地方性、统计性
功能
提供时事动态信息、各学科研究信息、统计数据资料、实用的指南性资料、综述及回溯性资料、书刊论文线索
百科全书
汇集各个学科或某一学科的专门术语、重要名词,以词典的方式进行编排,每一词目都加以全面系统而又客观简明的阐述,并对新的研究成果加以反映的大型工具书
地位:内容丰富宏大,检索功能完备居于首位
特点:概括性、权威性、易用性(集中了索引、参见系统、参考出处等,读者能从多种角度检索所需知识)
作用:提供广泛资料、帮助系统求知
类型:内容:综合、专题 地区:国际性、地域性 读者:成人学术、成人普及、青少年通俗
手册
汇集某一方面经常需要查考的基本知识和数据资料,系统编排,以供读者随时翻检的工具书
特点:实用性(面向实际翻检、体量一般较小)、灵活性(没有确切的内容规定)、资料性(主题明确、资料详实,偏重实用知识而非历程)
类型:综合、专门
名录
将机构名、人名、地名等汇聚一起,按分类或字顺排列,对相关事项简要介绍的工具书
特点:资料性、简明性(只有最基本资料,格式化)、新颖性(和年鉴类似)
计算机检索
检索策略
检索表达式
逻辑表达式
利用布尔算符表达检索词关系
逻辑与AND、逻辑或OR、逻辑非NOT 以查全为目标:多用或 以查准为目标:多用与
优点:易于理解便于使用、与计算机逻辑一致、表义清晰直观
缺点:不能实现检索结果的相关性排序,不能反映不同检索词的重要性,检索式可能较为复杂
位置检索表达式
通过位置算符来表示两个检索词之间的距离和位置关系
W表示前后的两个检索次相邻,且先后顺序不能颠倒。nW表示两词之间最多可插入几词 N表示相邻但顺序可颠倒,nN同上
有利于提高检索全面性(提高查准率而非查全率!!)
截词检索表达式
用专门的截词符好表示检索词的某一部分允许有一定的词汇变化(类似通配符) 位置:前截断、中间阶段、后截断;字符数量:有限截断、无限截断
优点:防止漏检;提高检索效率
缺点:截断部分不能太短,会增加检索噪声
eg检索psychology,只截了psy,会检出psychic等噪声
限制检索表达式
限制检索词出现范围:作者、标题、主题词、年代、URL、超链接…
检索策略构造步骤
分析需求-选择系统-确定检索词检索式-处理结果-获取原始文献
拓展!!!!!!多多的说
反馈与调节/提高查全率查准率
影响因素: ①主题分析是否准确、全面 ②检索词选择是否准确 ③检索词之间逻辑关系配置
联机检索
允许用户用人机对话的交互方式直接访问系统及数据库,以实时在线的方式进行。用户在终端上按要求输入检索提问,计算机执行操作,并把结果反馈给用户终端,用户可以随时修改提问以得到满意结果。
构成:检索终端+通信网+联机检索中心
特点:计算机信息检索发展历程中极具特色的阶段 ①检索范围广数据量大又质量高 ②速度快(由专业检索人员完成、可修改) ③查全率和查准率高,功能吩咐,结果输出多元化 ④安全性能高 ⑤检索费用较高
功能: ①单词检索:检索词是一个单词 ②词组检索:固定词组or组配搜索 ③布尔逻辑检索:所有都有。拆解复杂问题/难以反映不同概念的重要程度;检索结果不说明所有或任何检索词之间的可能关系 ④截词检索:所有都有。灵活性强、简便易用。输入词干不宜太短以免误检 ⑤位置检索:有利于提高全面性
拓展布尔!!!!(不太重要基本不考)
Target、Freestyle、WIN技术
服务方式: 回溯检索:提供向前若干年的信息 定题服务:有关领域最新文献帮助确定题目方向 联机订购原文:提供二次信息(索引、文摘),查找到所需文献后再通过联机方式去订购 电子邮件服务:便于用户与用户、用户系统之间的非格式化交流,保证交流的多样化 光盘服务:大大降低检索费用,用于自建数据库的数据套录和联机检索培训
选择联机系统的角度:
传统联机检索系统举例:DIALOG考过,但概率太小
网络环境下的发展:拓展!!!!!
光盘检索
利用光盘驱动器和光盘数据库机器检索软件,结合计算机建立起的信息检索系统
构成:硬件:计算机、光驱、光盘。软件:检索软件
特点:独立系统,受外界影响效,不涉及远程通信问题;软件功能齐全;费用一次性投入,使用时间不受限;数据量不如网络检索,但准确,查全率和查准率原生网络检索;更新速度慢、数据容量效、专业范围窄、需要换盘;
现代检索
信息检索处理过程
用户信息需求表达-索引构建-条件匹配-用户反馈
信息检索模型
四元组[D,Q,Fr(qi,di)]
文档集的计算机表示形式、查询的、二者关系模型、相关度大小评价函数
布尔检索模型
Q为词项的布尔组合,F二值判断(只有相关不相关两种可能),R若满足则为1否则为0
实现:与或非
多词项查询优化:先计算倒排记录表较短的两个词项(df最小)的交集
优点:结构简单、语义清晰、实现效率高
缺点:词项权重是二值的(出现/不出现)、文档和查询相关也都是二值的,导致返回文档数量常常过多/过少;检出文献无法按相关度大小排序;无法描述匹配情况;对用户语义提取能力要求较高
向量空间模型
把词项词典的每一个词都看成一个维度,文档和查询被表示成该空间上的权值向量,利用夹角余弦值度量相似度
步骤
用词典构建词项空间,去掉停用词
计算每个词项的逆文档频率idf=log(N/df),N为总文档数
计算每个文档的tf-idf向量,每个出现的词汇的tf-idf值为=tf*idf,tf为此文档内的词频
计算查询的tf-idf向量,此时tf均为1
计算余弦相似度
优点:柔性匹配(支持排序输出、部分匹配)
缺点:词独立性假设——语义检索能力不足
优化:用停用词跳过无效计算,近似排序优化
概率模型!!!!
倒排索引(后台数据库的索引构建方式)
将文档->单词索引转换为单词->文档索引
词项-文档相关矩阵:出现为1否则为0
词项->所在文档序号,用于迅速由词项找到所需文档
流程:提取纯文本-分词-规范化生成词项-索引构建
检索评价指标
无序结果集评价指标
准确率P=检出相关/检出
高P低R:精确但遗漏很多相关文献
召回率R=检出相关/总相关
高R低P:找到大部分相关但掺杂很多不相关
b<1更强调准确率P,一般用F1
有序结果集评价指标
关注相关文献在整个输出列表中位置的先后顺序,优化用户体验
P-R曲线:围成面积越大效果越好
其他单值评价指标
平均准确率
P@10:前10个结果的准确率
R:检出R篇相关时的准确率
bpref:
比较
一些关联技术
全文检索、多媒体检索、语义检索
网络信息检索
全文检索
采用倒排索引,需要先进行预处理,包括格式过滤、语词切分、语词识别、自动标引等等
优点:不经过标引,避免主观描述的不一致性;任意词汇都可以作为检索入口;响应速度快
缺点:语义理解缺失
eg:知网、TRS全文信息检索系统、搜索引擎全文检索
发展趋势
基于深度学习以识别文本语义关系理解用户上下文
个性化检索结果
NLP不仅仅是基于关键词的短语;
多模态检索:任意模态输入输出
隐私保护和安全性:搜索时不暴露敏感数据
实时检索:获取实时讯息,基于流式数据处理如爬虫
多媒体检索技术
基于文本/基于内容检索
vs单模态检索
vs多模态检索
语义检索/概念检索
同义词扩展检索
将关键词先在概念集中检索相似的概念,然后搜索所有的相似概念,返回更全面的结果
相关概念联想
语义外延扩展(上位概念联想)抽象广义
苹果:水果、科技公司(需进行歧义判断)
语义蕴含扩展(下位概念联想)具体细分
水果:苹果、香蕉、梨
社交媒体检索
社媒=互联网上基于用户关系的内容生产与交换的平台
特点:参与度、公开性、互动性、即时性、社区化、联通性
趋势:移动化、视频化、一体化、垂直化
分类:即时通讯工具、综合社媒、垂直社媒
检索方式
手动检索
用户手动去优化搜索(高级检索技巧)
查询扩展
系统基于同义词、近义词、关联规则、标签等进行扩展搜索
平台推荐
平台自动将内容呈现给用户(被动检索):基于用户信息协同过滤推荐、基于用户社交关系的推荐(强关系社交图谱、弱关系兴趣图谱)、基于整体内容的推荐(热点推荐)
搜索引擎
泛指网络上提供信息检索服务的工具和系统,是网络检索工具的统称
分类
目录式搜索引擎/网络资源目录
主要采用人工或者机器搜索信息,由人工对搜集的信息进行甄别加工分类建立分类导航或分类编排网站目录,提供分类浏览的检索工具。
以树状结构为主
以事物为中心确定类目,类目直接用语词作为标记
元搜索引擎
将多个独立的搜索引擎集合,以统一的界面给用户提供服务的检索工具,可以一次性实现对多个独立搜索引擎的检索,是基于独立搜索引擎的二次加工,会标明结果记录的来源搜索引擎及其相关度
基于机器人技术
采用自动搜索和标引来建立和维护其索引数据库,用户查询的时候可以用逻辑组合方式输入各种关键词,搜索引擎进行搜索然后返回结果给用户
历程:1990 archie依靠手工索引和简单的关键词索引,1998谷歌基于pagerank的搜索算法,21世纪之后信息大爆炸和更精确的用户信息需求使得搜索引擎向着个性化、智能化、隐私化的方向发展
pagerank:利用网络自身的超链接结构给索引网页确定yige重要性等级,从链接结构中获取网页的重要性:被其他网站链接的次数&这些网站自身的pagerank值多高
结构
搜索器
根据统一资源定位符URL进行爬取
维护一个集合:在进行过一次全面爬取之后只抓新删旧
让网站拥有者主动向搜索引擎提交它们的网址
索引器
对搜索器所搜集来的信息进行分析和理解,从中抽取索引项,用于表示文档以及生成文档库的索引表,形成索引数据库。
抽取关键词-建立倒排索引-判断词的重要性
检索器
对用户的检索请求进行分析,将其分解为关键词,转换成计算机可识别的规范检索式,然后再索引数据库中进行匹配
理解请求-查找和相关度排序
优化:概念检索:依照概念将关键词进行转化
用户接口
搜索框:有些基于内容进行排序,有些基于声望、热度
C/S模式:用户->搜索引擎,搜索引擎->互联网上的各种网页资源
特点!书上
功能!书上
中文信息检索系统
检索工具平台
检索功能&步骤
英文信息检索系统
表格未给出!!!视频里不全 书上有没有
特种文献检索
科技报告检索
科技报告
科技人员为了描述科研、设计、工程、试验和鉴定活动的过程、进展和结果,按照规定的标准格式编写的特种文献
特点
内容新颖,翔实专深 出版形式多样 质量高,成熟可靠 主要有政府机构协助
类型
技术内容划分
技术报告、技术炸鸡、技术论文、技术备忘录、技术通报、合同户报告(接受资助单位助研过程中编写)
反映研究进度划分
初期、进展、状况、中间、年度、终结
流通范围
保密(绝密、机密、秘密)、非密限制发行/内部、解密、公开
性质
正式、非正式、实验、交流、专题、经济、评估、生产
会议文献检索
在学术会议上宣读的论文、产生的记录及发言、论述、总结等形式的文献
特点:传播信息及时、主题集中、内容新颖、专业性强、质量较高
类型:会前会中会后 出版形式:图书、期刊、科技报告、视听资料、多模态网页等等
学位论文检索
为取得学位而撰写的学术性研究论文,但由于学士论文质量较低,人们的需求少,也没有专门的检索工具。
优点:选题具有一定心意、问题较专深、阐述详尽。数量非常可观。
缺点:研究水平上参差不齐;收集使用不如出版物方便;权限一般在校图书馆,需要馆际互借才能获得
专利文献检索
专利=取得专利权的发明创造 专利文献=包含已申请或被确认为发现、发明、实用新型和工业品外观设计的研究、设计、开发和试验成果的有关资料,以及保护发明人、专利所有人及工业品外观设计和实用新型注册证书持有人权利的有关资料的已出版或未出版的文件 ①广义:专利申请审批全过程产生的各种文件(如专利申请说明书、专利说明书等)、以及专利公报、专利分类表、专利索引等出版物 ②狭义:专利申请说明书+专利说明书
特点:新颖、内容广泛、实用性强、格式标准化(IPC分类号)
标准文献检索
标准=对重复性事物和概念所作的统一规定 标准文献=记录标准的一切物质载体
特点:有明确的适用范围,直接指导实践;针对性、可靠性和时效性强;有法律约束力;编排格式统一
作用:是标准化工作的成果,进一步推动科研、生产标准化进程的动力,有助于了解各国经济政策、生产水平、资源情况、标准化水平、对开发新产品、改进老产品有重要参考作用
类型:!!!!
档案文献检索
以上所有检索工具&检索方式
编码分析法
核心工具:文献综述编码表格
核心二维坐标系 横:文献 列:概念分析单元关键词