导图社区 计算机文献信息检索
本导图详细地归纳了计算机文献信息检索相关内容,知识点非常全面详细,干货满满,非常实用,值得收藏起来。
编辑于2021-06-26 11:42:37文献信息检索
第一章 信息检索基础知识
1.1信息、知识、文献
信息是关于事物的运动状态和客观规律的表征,也是关于事物运动的知识。
知识是人类认识的成果和结晶,是人类在认识和改造世界的社会实践中获得的对事物本质的认识。分为陈述性知识,程序性知识,显性知识和隐性知识。
文献是记录有知识和信息的一切载体,即将知识和信息用文字,符号,图像,音频,视频等记录在一定物质载体上的结合体。四个要素:内容、载体、符号、方式或手段。
1.2文献信息类型
按文献信息的物质载体形式划分
印刷形文献
缩微型文献
声像型文献
电子型文献
按文献信息的加工程度划分
一次文献
指原始文献。一次文献是最基本的信息源,是文献信息检索和利用的主要对象。
二次文献
二次文献是一次文献的集中提炼和有序化,它是文献信息检索的工具
三次文献
可分为综述研究类和参考工具类两种类型。
三次文献是一次文献内容的高度浓缩,是研究以往文献内容的重要信息源。
按文献信息的表现形式划分
图书
期刊
会议文献
学位论文
报纸
科技报告
专利文献
标准文献
政府出版物
档案文献和产品资料
按文献信息的著录方式划分
1.目录;2.题录;3.文摘;4.索引;
1.3信息检索途径
著者途径
题名途径
号码途径
引文途径
分类途径
主题途径
1.4信息检索语言
检索语言的类型
描述文献外表特征的检索语言
引文语言
题名
著者/团体作者名
出版信息
代码/序号
描述文献内容特征的检索语言
分类语言
主题语言
关键词语言
单元词语言
标题词语言
叙词语言
检索语言的种类虽然很多,但是在常用的检索工具中所使用的检索语言,主要是体系分类语言、受控语言、自然语言。
体系分类语言及词表
体系分类法
体系分类法是将文献根据其所属的学科内容分门别类地系统化组织的一种方法
中国图书馆图书分类法
主要分类方法
受控语言和自然语言
受控语言:一种规范化的人工语言,包括具有较强族性检索功能的分类语言和具有较强特性检索功能的主题语言,适合“提问-检索”模式检索。分类法和主题法是最常用的受控语言。
自然语言:一种不断演化的“人造”语言,适合“浏览-查询”模式检索。
常用检索技术及其实现
布尔逻辑组配检索
(1)逻辑“与” and /* 检索式“A and B”表示文献中同时包含检索词A和检索词B的文献才是命中文献。
(2)逻辑“或” OR/+检索式“A or B”表示包含检索词A的文献或者包含检索词B的文献或者同时包含检索词A和B的文献为命中文献。
参考答案:(A and B not C) or (C not A not B)
(3)逻辑“非” NOT/- 检索式“A not B”表示包含检索词A同时不包含检索词B的文献为命中文献。
截词检索:是指在检索式中用专门的截词符号,表示检索词的某一部分允许有一定的词形变化。 (1)右截词 (2)中间截词 (3)左截词 (4)有限截词 (5)无限截词
位置检索(应该不考)
字段限定检索(一般用于专业检索)
字段限定检索:通常是两个左右缩写字母,代表在数据库中的记录字段。 SU= 主题 TI= 题名 KY= 关键词 AB= 文摘 AU= 著者 AF= 机构 SO= 文献来源 RF= 参考文献 YE= 出版年 SN=ISSN
TI= ? KY=? AB=? AU=? AF=? SO=? RF=? YE= ?
第二章 计算机文献信息检索
计算机检索系统
计算机检索系统:利用一定的设备和方法从书本、胶卷、磁带、光盘、网络等载体上的文献、事实或数值记录等信息集合中查找所需信息的系统。 基本功能:存储和检索
检索系统组织
四个部分:检索界面模块,检索策略模块,检索执行模块,检索结果组织模块
数据库由文档,记录,字段组成,是有序的文献信息集合。
检索系统功能
目录检索系统
文献检索系统
文献检索系统又称文献型数据库,主要以文献形式存储在相关计算机存储设备上 内容包括一次文献和二次文献,目前文献型数据库约占全部数据库的70%~80%, 主要有全文型数据库、文摘型数据库和题录型数据库。
全文型有:中国知网,万方数据,维普资讯,Elsevier,Springer, PQDD,AIP/APS等
内容详尽、检索便捷、后处理能力强。
文摘型数据库是储存二次文献的检索数据库,其主要内容包括文献的题名,作者,出处,关键词,文摘等。
提供给用户相关主题的文献信息描述,用户从中筛选出有用的知识或数据,并可根据其指引去寻找有关的次文献。
题录型数据库:题录型数据库作为检索数据库,存储某个领域文献的题录,包括文献的题名、作者、出处、主题词等
主要用于查找最新的相关文献线索。
事实检索系统
包括数值,事实,概念等数据库。
计算机文献信息检索
计算机文献信息检索原理
信息检索: 其一,将信息按定的方式组织存储起来 (存储过程); 其二,根据信息用户的需要找出有关信息(检索过程)。 狭义的“信息检索”,是指根据信息用户的需要,从信息资源的集合中查找所需文献或查找所需文献中包含的信息内容的过程。 计算机文献信息检索的基本原理:用户个人问题和知识的需求集合与检索系统中的信息集合进行匹配和选择,输出两者相符或部分相符的文献信息。
计算机文献检索形式
菜单检索
根据菜单的指引,通过确定适当的选项和功能键,完成检索。
操作简单明了,但检索步骤多,检索时间较长,检索功能、精度不如命令检索。
命令检索
使用一些特定的操作命令(包括指令和检索式)来实施检索。
精确地表达检索提问,灵活地进行各种方案的检索比较,简捷、快速得到比较理想的检索结果。
超文本检索
基于知识单元的新型信息组织结构与揭示方式,主要是借助超文本技术,依赖“结点”和“链”来实现信息检索。
检索界面生动、信息表达和交互方式丰富,检索便捷、时效。
数据库检索方式
基本检索:基本检索也称为快速检索、初级检索和简单检索,为系统默认检索方式。
方便、快捷、效率高,适用于初级用户或构建比较简单的检索式。
高级检索:高级检索通常有多个检索行。可增可减。
查询结果冗余少和查准率高等。
专业检索:使用检索系统认同的运算符和检索词构造具有完整逻辑关系的复合检索式进行检索。
适合于熟悉多系统检索命令并有检索经验的用户,更适用于图书情报专业人员查新、信息分析等工作。
浏览检索:按输人题名、按题名的字母顺序、按学科主题三种方式。
主要用于查找本学科最近发表的文献,了解最新学科信息动态,展现期刊导航功能。
文献信息检索方法
常规法
顺查法:按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法
一般用于重大课题和各学科发展史以及新兴学科等方面的研究课题的系统检索。
抽查法:指针对项目的特点,选择有关该项目的文献信息最可能能出现或最多出现的时间段,利用检索工具进行重点检索的方法。
多用于针对某一学科内的主题课题和重点时间段进行专题调查报告检索。
倒查法:由近及远,从新到旧,逆着时间的顺序利用检索工具进行方法。
它是一般科研人员最常用的方法。
引文法:
追溯检索法
定义:利用原始文献所附的参考文献追溯检索。
特点:该方法能借助于已知原文追查到一些相关文献, 但不够系统。
引文索引法
定义:利用引用和被引用的关系建立的引文检索系统进行追溯查找。
特点:通过此方法可得到与来源文献同一主题的一批相关文献。
综合法
综合法又称为循环法,是将上述两种方法交替使用的一种综合方法。综合法兼有常规法和引文法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法。
文献信息检索步骤
1.分析检索课题,确定检索需求
检索时间范围选择:一般自然科学的课题选择3~5年,社会科学的课题选择5~8年,具体按检索课题的时效性要求而定。
2.选择文献检索工具,确认检索字段
检索课题:一般选择“主题”“摘要”“关键词”等检索字段; *当检索密切相关文献时可选择“标题”字段检索;当命中结果过少时,可选择“主题”或“摘要”字段检索。
3.确定检索词,编制检索式
选择检索词的原则:①选择规范词;②尽量使用标识码成代码;③注意选用国外惯用的技术术语;④避免使用低频词或高频词;⑤同义词尽量选全。
4.实施课题检索,调整检索策略
若检索结果过多,则要缩小检索范围。 措施:在检索式中,增加逻辑“与”,附加新的检索条件,进行概念限制: 使用短语检索,即使用双引号进行精确检索; 使用一些专指度较强词汇和专业术语;限定字段、时间、网域、语言(文字)、分类等。 若检索结果过少,则要扩大检索范围。 措施:在布尔检索式中,增加布尔“或”,减少“与”; 采用上位词检索,扩大概念范围;选用宽泛一点的字段, 如全文。
5.输出检索结果,获取所需信息
1. 检索结果的排序 检索排序方式:相关性、出版时间。 “ 相关性”排序,其检索结果按检索词频的高低排序,文献内包含词频高的排在先,依次降序; “出版时间”排序,其检索结果按出版物的公开出版时间以近至远地排序,近期的文献排在前,依次降序。
2.检索结果标记与显示 检索结果较多时,一般采用分页显示检索结果,对检索结果进行浏览、鉴别、再优化。 检索格式:文摘、详细记录、显示浏览、全文等格式,根据具体需求选定。 输出格式:电子邮件、打印、下载、存储等输出方式
检出效果评价
检索效果评价信息检索效果评价参数
查全率=(检出相关的/系统中相关的总数)×100%
查准率=(检出相关文献数/检出文献数)×100%
漏查率=(未检出的相关文献数/检出文献数)×100%
误检率=(查出的非相关文献数/检出文献总数)×100%
调整查全率和查准率的措施
1.提高查全率的方法 ①增加同义词或近义词,并用逻辑“或”连接运算。 ②减少使用逻辑“与”、逻辑“非”运算符。 ③检索式中多用截词符或通配符。 ④使用较大的检索范围的字段 (如:篇名→关键词→摘要→全文)。 ⑤使用上位词(如:载人航天飞机→航天飞机→飞行器)。 ⑥采用分类途径检索。 ⑦减少检素系统的限定条件等。
1.提高查准率的方法 ①利用逻辑“非”排除无关概念,利用逻辑“与”缩小检索范围。 ②减少逻辑“或”运算符,减少同义词与同族相关词。 ③调整位置算符,由松变严。 ④选择较小的检索范围的字段 (如:全文→摘要→关键词→篇名)。 ⑤提高检索词的专指度,使用精确检索。 ⑥采用主题途径检索。 ⑦加大检索系统的限定条件。
检索结果著录格式
著录中的文献类别代码
常用文献著录格式
1.图书著录格式 主要责任者. 题名[文献类型标志]. 版本. 出版地: 出版者, 出版年. [1]刘双魁。信息检索与利用[M].南京:东南大学出版社,2010. 2.学位论文著录格式 主要责任者. 题名[文献类型标志]. 出版地: 出版者, 出版年. [1]王飞跃. 基于不确定性理论的尾矿坝稳定性分析及综合评价研究[D]. 长沙: 中南大学, 2009. 3.期刊著录格式 作者. 题名[文献类型标志]. 刊名, 年, 卷(期): 页码. [1]梁少刚. 计算机网络病毒的危害与防治技术[J]. 科技视界, 2012, 13: 166-167. [2] 南策文*, 王晓慧, 陈湘明, 李敬锋, 李永祥, 徐卓,汪宏, 翟继卫, 岳振星, 李龙土, 姚熹. 信息功能陶瓷研究的新进展与挑战[J]. 中国材料进展, 2010, 29(8): 30-36
4.报告著录格式 主要责任者. 题名[文献类型标志]. 报告地: 报告会主办单位. 年份. [1]Roland Clif. 工业生态学在环境政策与企业战略中的应用[R].北京:清华大学,2012. 5.专利著录格式 专利申请者或所有者.专利题名: 专利国别, 专利号[文献类型标志]. 公告日期或公开日期. [1]北京矿咨信矿业技术研究有限公司尾矿库安全监测预警系统:中国,200810226395. 1[P]. 2009-05-27. 6.成果著录格式 完成单位或完成人. 成果名称[文献类型标志]. 成果公布日期. [1]河北省气象局河北省致灾暴雨预警方法研究[科技成果].2012
网络信息检索技术
搜索引擎
3.1.1 搜索引擎(Search Engine)概述 搜索引擎:根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
全文索引 目录索引 元搜索引擎 垂直搜索引擎 集合式搜索引擎 门户搜索引擎 免费链接列表
搜索引擎:百度搜索、谷歌搜索、搜狗搜索、迅雷搜索、雅虎搜索等。推荐一个网络资源目录:https://ujuji.com
搜索引擎工作原理
1.抓取网页(独立的搜索引擎一般都使用网页抓取程序来预先搜集好网页)
2.处理网页(提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要复、建立倒排文档等)
3.提供检索服务(用户输人关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页)
百科
百度百科,维基百科,搜狗百科,神马百科,360百科,夸克百科……
学术
谷歌学术Google Scholar
百度学术
文档分享平台
百度文库,豆丁网,道客巴巴,MBA智库文档
在线翻译
谷歌翻译,Bing翻译,百度翻译,有道翻译,腾讯翻译,CNKI翻译助手
移动图书馆
超星,校图书馆,书城
公开课
bilibili,中国大学MOOC,智慧树,网易有道,百度网盘分享
文献管理软件
3.7.1文 献管理软件定义及主要功能 文献管理软件是记录、组织、调阅引用文献的计算机程序,一旦引用文献被记录,就可以重复多次地生成文献引用目录。 文献管理软件集文献的检索、收集、整理以及导入、导出功能于一体,帮助用户高效管理和快速生成参考文献。文献管理软件还具有建立目录、搜索、排序、连接文件、查找重复记录、引用、笔记等功能。
常用的文献管理软件有EndNote和NoteExpress。