导图社区 信息检索思维导图
这是一个关于信息检索的思维导图,介绍详细,描述全面,希望对感兴趣的小伙伴有所帮助!
编辑于2023-12-04 20:28:49信息检索
第一章 信息检索
一、信息资源检索
(一)信息检索及其相关概念
1.信息检索:是指从众多的信息集合中迅速准确地查找出用户所需信息的全过程。广义的信息检索又称信息的存储与检索,包含两个方面的含义:一是信息的存储,即将信息按一定的方式组织和存储起来;二是信息的检索,即根据用户的需要找出有关信息资料的过程。狭义的信息检索仅指该过程的后半部分,即从信息集合中找出所需信息的全过程。
2.著录:是依据一定的规则,对文献的内容和形式特征进行分析、选择和记录的过程。信息著录是组织信息检索系统的基础,是信息存储过程中的一个重要环节。
3.标引(信息标引/文献标引):是指分析文献的内容属性及其外表属性,并用特定语言表达分析出的属性或特征,从而赋予文献检索标识的过程。是在对文献信息对象分析基础上发展起来的,固又称为文献标引。(包括两个环节:①主题分析②转换标识)
(二)信息检索的类型
1.按检索对象的内容划分
⑴文献检索
文献检索:是指以查找某一课题的相关文献为目标的检索。文献检索是相关性检索而非确定性检索,其检索对象是包含特定信息的各类文献。文献检索包含:全文信息检索和目录,题录,索引,文摘等二次文献信息检索。
⑵数据检索
数据检索:是指以特定的数值型数据为对象的检索。数据检索是一种确定性检索,即检索系统直接提供用户所需要的确切的数据,检索结果一般是确定性的。
⑶事实检索
事实检索:是指以特定的事实为目标的检索。事实检索也是一种确定性检索,这种检索既包含数值数据的检索,运算,推导,也包括事实、概念等的检索、比较和逻辑判断。
2.按检索方式划分
⑴手工信息检索
手工信息检索:是指利用印刷型检索工具书,以手工操作的方式进行信息检索。其优点是:直观,灵活,便于控制检索的准确性;缺点是:查找过程较复杂,检索速度慢,查找工作量较大。
⑵计算机信息检索
计算机检索:是把信息及其检索标识转换成计算机可以阅读和处理的二进制编码形式,存储在数据库系统中,由计算机按照设计好的程序对已经数字化的信息进行查找和输出的过程。计算机检索大大提高了检索效率和检索的全面性,拓宽了信息检索领域,丰富了信息检索的研究内容。可进一步划分为脱机检索,联机检索,光盘检索和网络检索等多种形式。
3.按检索要求划分
⑴特性检索
特性检索:也称为强相关检索,强调向用户提供高度对口的信息。这种检索强调检索的准确性,只要检索得到的文献信息能够满足用户的需求即可,通常对于检索结果的数量多少不做要求。
⑵族性检索
族性检索:也称为弱相关检索,强调向用户提供系统完整的信息。这种检索注重检索的全面性,要求检索出一段时间期限内有关特定主题的所有信息。为了尽可能避免漏检相关信息,对于检索的准确性相对要求较低。
4.按检索的时间跨度划分
⑴定题检索
定题检索(SDI):是根据用户的检索课题的内容和检索需要,制订检索提问式并将制订好的检索提问式预先存入检索系统中,并定期地对检索系统中的信息进行查询。定题检索的特点是:只检索最新的信息,检索的时间跨度小。这种检索模式非常适合于信息跟踪,便于及时了解有关主题领域的最新发展动态。
⑵回溯检索
回溯检索(RS):也称为追溯检索,是查找过去一段时间内有关特定主题信息的检索,并将检索结果一次性提供给用户,使用户一次检索就可以全面了解某一课题在某一段时间的发展情况。回溯检索的特点是:既可以查找过去某一段时间的特定主题信息,也可以查找最近的特定主题信息。与定题检索有所不同,每个回溯检索一般只运行一次。
5.按检索对象的信息表现形式
⑴全文检索
全文检索:对于检索系统中存储的整篇文章乃至整本书,按照自己的需要获取有关的章、段、句、节等信息,还可以进行各种频率统计和内容分析。
(文本检索:是查找含有特定信息的文本文献的检索,检索结果以文本形式反映特定信息的文献。这是一种传统的信息检索类型,在信息检索中至今仍占据主要地位。)
⑵多媒体检索
多媒体检索:是根据用户的需求,对文字,声音,图形,图像等多种媒体信息进行组织,存储,从而识别,查找并获取有关信息的过程。
⑶超文本检索和超媒体检索
超文本检索:超文本是将诸多文本信息通过超级链接联系起来而形成的一种非线性的文本结构。超文本检索强调中心节点之间的语义联系结构,靠系统提供的复杂工具做图示穿行和节点展示,提供浏览式查询。
超媒体检索:是对超文本检索的补充,其存储对象超出了文本范畴,融入了图形像以及声音等多种媒体信息,信息存储结构从单维发展到多维,存储空间的范围也不断扩大。
(三)信息检索的基本原理
信息检索的基本原理可以概括为:对信息资源集合与信息需求集合的匹配与选择。
⑴信息资源集合
信息资源集合是指有关某一领域的、经选择性采集和组织加工的信息集合体。为了保障信息检索的快速与高效,需要对信息资源集合进行某种形式化的加工,形成它们的特征化表示,即对它们进行分析与标引,让原来隐含的、不易识别的特征显性化,并获得相应的标识(如分类号,主题词等)。将这些被分析、提取出来的特征及其标识进行存储,便构成了索引库,成为组织和查找信息资源的依据和标准。
⑵信息需求集合
众多用户不同形态的信息需求的汇集,形成了信息需求集合。对用户提出的信息需求也需要进行特征化处理,即分析需求的内容,提取出主题概念或其他属性,并利用与信息资源集合相同的标识系统(即检索语言)来表示需求中所包含的概念和属性,从而得到用户需求的特征化表示结果——提问式。
⑶匹配与选择
为了便于从信息资源集合中快速获取用户所需要的信息与知识,就要求信息检索提供一种“匹配”机制。这种机制的主要功能在于:能够把信息需求集合与信息资源集合依据某种相似性标准进行比较与判断,进而选择出符合用户需求的信息。在信息资源集合与信息需求结合都进行了特征化表示的基础上,它们二者之间的匹配就简化为提问式与已建立的有序的索引库之间的匹配。
(四)信息检索的模型
⑴布尔逻辑检索模型
布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。逻辑运算中最常用的是布尔逻辑运算符,主要的逻辑运算符有逻辑“与”、逻辑“或”、逻辑“非”,分别用AND(或*)、OR(或+)、 NOT(-)表示。优点:逻辑运算符较少,提问式构造简单且易修改;缺点:检索中的关键词没有权重区别,检索结果没有重要性排序,查全率较难控制,对用户语义提取能力要求较高。
⑵向量空间检索模型
向量空间检索模型是采用线性代数理论和方法构建的一种新型的检索模型。它的基本前提是将检索文档和检索提问式都看成是一组数值向量,这些数值形成一个空间向量图,这样就将信息检索中文献与提问匹配处理过程转化为向量空间中文献向量与提问向量的相似度计算问题。某一文献与某一提问的相关程度,通过检索该向量对之间的相似度来确定。
⑶概率模型
概率模型是一种实现简单,效果较好的信息检索模型,其基本思想是:给定一个用户提问,则检索系统中存在着一个只包含与提问相关的文档的理想结果集合,记为R。如果能知道集合R的特征及其描述,就能找出全部相关文档,排除所有无关文档。
⑷模糊检索模型
模糊检索是将文献看成是提问在一定程度上相关,对于每一个标引词,都存在一个模糊的文献集合与之相关,对于某一给定的标引词,用隶属函数表示每一文献与该词的相关的程度,即隶属度,取值在[0,1]上,0表示不相关,1表示完全相关,数值越大,则相关性越高。
二、信息检索语言
(一)信息检索语言的概念
信息检索语言:又称标引语言,索引语言等,是应文献信息的加工、存储和检索的共同需要而发展起来的专门语言,是用于描述检索系统中信息的内容、外部特征及其相互关系和表达信息用户需求提问的概念标识体系。
(二)信息检索语言的功能
⑴用于对信息内容及其外部特征加以规范化的标引,保证不同标引人员表征信息概念的一致性。
⑵对于检索系统中信息特征标识和检索提问标识的规范和控制,便于标引用语和检索用语进行相符性比较,将信息存储与信息检索联系起来。
⑶对信息的组织和排序,将内容相同及相关的信息加以集中或解释其相关性,保证信息存储的集中化,系统化,组织化和有序化,便于检索者进行有序化检索。
⑷为检索系统提供多种检索途径,是各类检索系统的重要组成部分。
(三)信息检索语言的类型
⑴按照构成原理
①分类语言:也称分类法。它是用分类号表达主题概念,依据知识分类将主题概念组织、排列成类目体系,主要以类目体系的自身结构显示概念之间关系的标引语言。以学科、专业为中心的系统性是其主要特点。可细分为体系分类语言、组配分类语言、体系——组配分类语言。
②主题语言:又称主题法。是一种由受控的自然语言语词直接表达主题概念,按语词字顺排列主题概念,主要用参照显示概念之间关系的标引语言。以事物为中心的直接性是其主要特点。可进一步划分为标题语言、单元词语言、叙词语言、关键词语言。
⑵按照组配方式
①先组式语言:是指标识在编表时(标引前)就已组合好,标引和检索时不必或较少进行组配的标引语言,如主题法中的标题法就属于这种类型。
②后组式语言:是指标识主要供配置使用,而且标引时不将标识组配在一起,到检索时才将标识组配起来的标引语言,如单元词法,叙词法。
③散组式语言:是指标识主要供组配使用,而且标引时就要将表达主题概念的若干标识组配在一起的标引语言。
⑶按照规范化程度
①受控语言:指信息组织的标识词汇以及信息检索的索引词汇在使用前经过优选和规范化处理,并且整个语言经常处于某权威机构或检索系统的管理之下。这种语言又称为规范化语言,与自然语言相对。如主题法中的标题语言,单元词语言,叙词语言,体系分类语言等均属于受控语言。
②自然语言:指标引词汇和检索词汇直接来自所处理的文献本身,使用前未经过优选和规范化处理,与受控语言相对。如主题法中的关键词语言。
三、信息检索系统与检索工具
(一)信息检索系统
信息检索系统:是指为满足特定的信息需求而建立的一整套信息的收集,加工,整理,存储和检索的完整系统。(由检索文档、信息存储与检索设备、检索规则、人员四个基本部分组成。)它是一种有序化的信息资源集合体,并且能为用户提供信息服务的多功能开放系统。
1.信息检索系统的构成
⑴检索文档
检索文档是经过整序的并标有检索标识的信息集合,是检索系统的核心组成部分。例如手工检索系统的书目、文摘、索引中由若干款目组成的正文,计算机检索系统的检索文档则是由若干记录构成的。
⑵信息存储与检索设备
信息存储与检索设备是指用来存储信息和检索标识,以及实现信息检索标识与用户需求信息特征的比较、匹配和传递的技术设备,如手工检索系统的卡片目录,计算机检索系统的输入输出装置、存储器、通信装置等。
⑶检索规则
检索规则是指系统用来规范信息采集,标引,著录,组织管理,检索与传输等过程的各标准体系,包括检索语言,标引方法,著录规则,系统构成与管理办法,信息传输与控制标准,输出格式等。
⑷人员
包括系统管理人员、信息采集人员、标引人员、信息用户等。
2.信息检索系统的类型(发展历程)
⑴手工检索系统
手工检索系统是指以印刷型检索工具为主体的检索系统。它是传统的检索系统,检索者采用手工方式,而不需要依赖其他设备进行检索。常见的手工检索系统有:①书本式检索系统(如目录、索引、文摘、百科全书等);②卡片式的检索系统,(如图书馆的卡片目录)。
特点:①手工检索系统主要是通过检索人员自己的判断来实施和完成检索的,面对的是印刷型的检索工具,符合人们的阅读习惯,并且在检索的过程中,检索人员可根据自己的信息需求,随时修改修改策略,查准率较高。②但是手工检索系统的检索速度慢,检索内容更新慢,查全率低,综合检索效率远不及计算机检索系统。
⑵计械检索系统
⑴机械信息检索系统是用各种机械装置进行信息检索的机械系统,是手工检索向现代信息检索的过渡阶段。机械性检索主要包括两种基本类型:①机电信息检索系统:用诸如打孔机,验孔机,分类机等机电设备记录二次文献,用电刷作为检索元件的信息检索系统。②光电信息检索系统:用缩微照相记录二次文献,利用光电检索元件查找文献的系统。
⑵特点:①机械信息检索系统利用当时先进的机械装置改进了信息的存储和检索方式,促进了信息检索的自动化。②但它并没有发展信息检索语言,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。很快被迅速发展的计算机检索系统取代。
⑶计算机检索系统
计算机检索系统是利用计算机技术,电子技术,网络技术检索存储在计算机或计算机网络内的信息资源的检索系统,也是现在发展迅速,应用极为广泛的现代化检索系统。计算机检索系统一般包括硬件、软件、网络通信和数据库四个部分。计算机检索系统在发展过程中经历了以下四个阶段:
①脱机检索系统:用户不直接与计算机对话,由用户将检索需求交给信息检索人员,由检索人员将检索提问集中起来,定期成批上机检索,然后集中将检索结果提供给用户,所以又叫脱机成批检索。
②联机检索系统:是指用户利用终端设备,借助通信网络与计算机数据库中心直接进行人机对话的一种检索方式。联机检索是计算机技术,信息处理技术和现代通信技术三者的有机结合。借助通信网络用户可利用终端机与远程的中央计算机相连,按规定的指令输入检索词和检索策略,从检索系统事先存储的数据库中检索到所需信息。克服了脱机检索所存在的时空障碍,用户可随时调整检索策略,及时取得检索结果。联机检索数据库更新快,检索速度快,但所需费用较高。(实时性、完整性、共享性、广泛性)
③光盘检索系统:是利用光盘数据库作为信息资源数据建立起来的计算机检索系统,分为单机版和网络版。光盘是用激光束把信息记录在光介质上并能读出信息的一种高密度存储载体,根据存取信息方式的不同,光盘可分为只读光盘,一次写光盘,可擦写光盘。光盘具有存储密度高,容量大,易保存,读取迅速,操作简便,成本低等优点。光盘检索提高了检索效率,降低了检索费用。
④网络检索系统:是指将物理位置相对分散的计算机及其外围设备,利用通信媒介互联起来,在网络软件的支持下,构成资源共享和数据交互的检索系统。这是目前发展最快,最受人们欢迎的信息检索系统,通过它,人们可不受时空限制,检索各种类型,各种媒体的信息资料。其特点是信息资料丰富、检索方便、费用低点。
(二)检索工具
1.检索工具的定义和排检法
⑴检索工具:是能用来报道、存储和查找各类信息的工具,包括传统的二次,三次印刷型检索工具,面向计算机和网络的联机数据库和光盘数据库,以及搜索引擎等各种网络检索工具。
⑵排检法:检索工具的排检法是指所有条目按照一定规则排列成系统,便于检索的方法。从使用的角度上叫排列法,从检索角度叫检索法,二者合称为排检法。
①字顺排检法:又称字顺法,是指按照字形或读音的一定顺序编排工具书词目的方法,字典,词典,百科全书等常用这种方法。
②分类排检法:是指按学科体系或事物性质分类编排的方法。如《中图法》《国际十进分类法》
③主题排检法:是指按主题汇集和编排资料的方法,现在大部分检索工具都提供按主题途径进行检索,附有主题索引。
④时序排检法:是指按时间的先后顺序编排信息资料的方法。采用这种方法编排的工具书主要有年表,历表,大事记,年鉴,年谱等。线索清晰,检索方便。
⑤地序排检法:是指按照地理区划或行政区划顺序编排信息资料的方法。此法编排的工具书主要是地理方面的资料和地方文献,如地图集、地名录、地方志等。
2.检索工具的类型
⑴按检索手段
①手工检索工具:是指印刷型的各种检索工具书,它是传统的检索工具,是由人直接参与查找。
②计算机检索工具:是指计算机检索系统中的各种数据库,根据数据库所检信息的类型,又分为全文数据库,参考数据库,事实数据库三种。
③网络检索工具:是指互联网上的信息检索工具,如搜索引擎,搜索目录,主题指南等。
⑵按检索对象
①文献信息检索工具:主要用来对某研究课题的相关文献信息进行查找,结果是获得一批相关文献的线索,主要有目录、题录、索引和文摘四种类型。
②数据事实检索工具:也叫参考性检索工具,属三次信息,主要用于各种数据或事实的查询,其结果是获得直接的,可供参考的答案。提供的资料更为具体,一般包括字典,词典,百科全书,类书,政书,年鉴,名录,手册等。
⑶按收录范围
①综合性检索工具:其收录的文献是多学科领域的文献。如美国的《科学引文索引》《科学文摘》《工程索引》,我国的《全国报刊索引》都是属于综合性的检索工具,收入学科专业范围十分广泛。
②专业性检索工具:其收入范围仅限于某一学科,某一专业领域,如美国的《生物文摘》《化学文摘》等。
③单一性检索工具:其收入范围只限于某一特定类型的文献。如中国《专利年度索引》和《中华民共和国国家标准目录》等。
四、信息检索技术
(一)传统的信息检索技术
1.布尔逻辑检索
布尔逻辑检索是采用布尔代数中的布尔逻辑关系运算符来表达检索词与检索词之间的逻辑关系的检索方法。
布尔逻辑运算符
布尔逻辑运算符用来表示两个检索词之间的逻辑关系,用以形成一个新的概念。常用的布尔运算符有:
①逻辑“与”:是用于表示交叉关系或限定关系的一种组配,用AND或*算符表示。例如,检索式“A AND B ” ,表示检索的文献记录中必须同时含有A和B才算命中。这种组配能够缩小命中文献的范围,增强检索的准确性。
②逻辑“或”:是用于表示并列关系的一种组配,用来表示相同概念的词之间的关系,用OR或+算符表示。“A OR B”,表示检索的文献记录中只要含有A或者B中的任何一个即算命中。这种组配可用于扩大检索范围,增加命中文献数量,有利于提高检索结果的查全率。
③逻辑“非”:是用于在检索范围中排除不需要的概念或排除影响检索结果的概念,用NOT或-算符表示。“A NOT B”,表示检索记录凡含有A不含B的记录被检出。这种组配能够缩小命中文献的范围,增加检索的准确性。
2.截词检索
截词检索:是指在检索时使用专门的截词符号表示检索词的某一部分允许有一定的词形变化,用检索词的词干或不完整的词形查找信息的一种检索方法,并认为凡满足这个词局部中的所有字符的文献都为命中的文献。在实际检索的过程中,为了减少检索词的输入量,同时又扩大检索范围,保证查全率,可以使用截词检索。
截词的方式有多种。按截断的位置来分,可分为后(右)截断,中截断和前(左)截断;按截断的字符数量来分,可分为有限截断和无限截断。有限截断是指说明具体截取字符的数量,通常用“?”表示;而无限截断是指不说明具体截取字符的数量,用“*”表示。
3.位置检索
位置检索:也称临近检索,主要是通过位置运算符来规定和限制检索词之间的相对位置,或者检索词在记录中的特定位置来实施检索的技术。位置检索主要有以下几个级别:词位置检索,同句检索,同字段检索。
4.限制检索
限制检索:是通过限制检索范围,从而达到约束和优化检索结果的一种方法。限制检索的方式有多种,常用的有字段限制检索和限制符限制检索。
5.加权检索
加权检索:就是在检索时赋给每个检索词一个表示其重要程度的数值,即“权值”,在检索过程中,对含有这些词的文献进行加权计算,权值之和在规定的数值(称为阈值)之上者才会作为检索结果输出,权值的大小可以反映出被检出文献的切题程度。目前主要存在词加权检索和词频加权检索两种基本的加权检索方法。
(二)新型的网络信息检索技术
1.全文检索
全文检索技术:是以信息资料的内容,如文字,声音,图像等为主要的处理对象,而不是以其外部特征来实现信息检索的技术。全文检索技术通过提供快捷的数据管理工具和强大的数据查询手段,为人们快速方便地获取文献原文而非文献线索提供了一条有效途径,成为全文数据库系统和搜索引擎的核心支撑技术。
全文检索系统的涵义➕存在问题
(全文检索系统:是按照全文检索理论建立起来的,用于提供全文检索服务的软件系统。全文检索系统的核心则具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能。
问题:①全文检索系统存储的对象是信息源本身,而不是信息线索,因而占用空间大;②系统响应速度慢;③全文检索系统采用自然语言标引与检索,假联系,错组配在所难免。)
2.多媒体检索
多媒体信息检索技术:是指根据用户的需求,对图像,音频,视频等多类媒体对象进行内容语义的分析和特征的提取,并基于这些特征进行相似性匹配的检索技术。按照检索内容可分为图像检索技术,视频检索技术和音频检索技术等。
3.智能信息检索
智能信息检索技术:就是采用人工智能计算机技术进行信息检索的技术。它可以模拟人脑的思维方式,以自然语言表达的检索分析用户的请求,自动形成检索策略进行智能、快速、高效的信息检索。包含了自然语言理解技术,智能代理技术,机器学习,知识发现技术等。
4.数据挖掘
数据挖掘技术:是指从大型数据库或者数据仓库的大量、不完全、模糊、有噪声、随机的数据中提取隐含在其中、事先未知但又是潜在有用的信息和知识的数据处理技术。数据挖掘的任务主要包括关联分析,聚类分析,分类,预测,时序模式,偏差分析等。
5.自然语言检索
自然语言检索:是指用户在检索时可输入用自然语言表达的检索要求,在检索过程中,检索工具收到用户的检索提问后,首先利用一个禁用词表从提问中剔出那些没有实质主题意义的词汇,然后将余下的词汇作为关键词进行检索。
6.模糊检索
模糊检索:也称概念检索,是指检索工具不仅能够检索出包含指定检索词的信息内容,还能检索出与检索词主题概念相同的信息。
7.相关检索
相关检索:是目前大多数搜索引擎提供的一种检索技术,是指使用关键词检索时,除了得到相应的检索结果之外,在检索页面还会出现与该检索词相关的一些关键词,单击这些关键词就可以得到相应的检索结果。
五、信息检索的方法、途径和步骤
(一)信息检索的方法
1.常规法
常规法也称工具法,是目前最为常用的一种信息资源检索方法。它是指利用文摘、题录、索引等各类检索工具或者各类计算机检索系统,直接查找文献信息的方法。
⑴顺查法:是一种依照时间顺序,按照检索课题涉及的起始年代,由远及近地查找信息的方法。适合于检索理论性或学术性的课题。
⑵倒查法:是一种依照时间顺序,由近及远地进行查找,直到满足信息检索的需要为止。多用于检索新课题或有新内容的老课题,或对某课题研究有一定基础,需要了解其最新动态的检索课题。
⑶抽查法:是针对检索课题的特点,选择与该课题有关的文献信息最可能出现或最多出现的时间段进行重点检索的方法。它是一种花费较少时间获得较多文献的检索方法。
2.回溯法
回溯法:又称引文法,是指在已获得所需文献的基础上,再利用文献末尾所附的参考文献、相关书目、推荐文章和引文注释作为检索入口,依据文献之间的引证和被引证关系,揭示文献之间的某种内在联系,进而查找到更多的相关文献的方法。
3.综合法
综合法:也称交替法或循环法,是指将常规法和回溯法结合起来使用的检索方法,即在查找文献信息时,既利用一般的检索途径,又利用原始文献后所附的参考引用文献作为检索入口,分阶段、按周期地交替使用两种方法。对检索效率的提高很有帮助。
(二)信息检索的途径
1.内容特征检索途径
文献的内容特征:包括文献所论及的事物、提出的问题、涉及的基本概念以及文献内容所属的学科范围。
⑴分类途径
①分类途径:是按信息内容,利用分类检索语言实施检索的途径。分类途径是从文献内容所属的学科类别来检索,它依据的是一个可参照的分类体系。
②实施分类途径的基本过程为:首先分析提问的主题概念,选择能够表达这些概念的分类类目,然后按照分类类目的类号或字顺从分类体系中进行查找,进而得到所需要的文献信息。
③分类检索一般是以学科体系为入口进行检索,能够体现学科的系统性,是相邻学科的内容相对集中,能较好地满足族性检索的需要,泛指性强,查全率较高,但一般只能满足单维概念的检索。
⑵主题途径
①主题途径:是按信息内容,利用主题检索语言实施检索的途径。主题途径的实施需要使用各种主题词索引,如主题索,引关键词索引,叙词索引等。
②实施主题途径的基本过程为,首先分析提问的主题概念,选择能够表达这些概念的主题词,然后按照主题词的字顺从主题词索引中进行查找,进而得到所需的文献信息。
③主题途径具有特性检索的特点,专指性强,查准率较高,能够满足多维概念检索的检索,并能及时反映新兴学科,交叉学科和边缘学科的发展。
2.外部特征检索途径
文献的外部特征是指文献载体外表上标记的可见特征,如题名,作者,序号等。
⑴题名途径
题名途径是按照一定的文献题名进行文献信息检索的途径。文献题名主要是指书名、篇名,刊名、出版物名称,会议名称等。
⑵作者途径
作者途径按照已知的文献责任者的名称检索文献的途径。文献责任者包括个人作者责任者,团体责任者,编者,译者,主办者,专利权人等。
⑶号码途径
号码途径是指利用有些文献所具有的独特的编序号码或标识代码,如专利号、标准号、索书号等来查找文献相关信息的检索途径。(ISBN国际标准书号)
⑶引文途径
一是通过被引用文献,即来源文献,来查找引用文献;二是通过引用文献,直接利用文献结尾所附的参考文献查找引用文献。
(三)信息检索策略的制定与实施
1.信息检索策略
信息检索策略:是针对检索提问,运用检索方法和技术而设计的信息检索方案,其目的是要达到一定的查全率和查准率。
⑴狭义上:是指检索提问表达式的构造,即运用检索系统特定的检索技术,确定检索词之间的逻辑关系,形成表达用户信息需求的检索提问表达式。
⑵广义上:是指在分析检索课题的实质内容,明确检索目标的基础上,选择检索系统和检索工具,明确检索途径和检索方法,确定检索词之间的逻辑关系以及查找步骤最佳方案的一系列科学安排。
2.手工信息检索策略
⑴分析研究信息检索课题
分析研究信息检索课题是确定信息检索策略的根本出发点,也是进行检索效率高低和成败的关键。
⑵选择信息检索工具
信息检索工具是人们为了充分,准确,有效地利用已有的信息资源而加工编制的用来报道,揭示,存储和查找信息的卡片,表册,计算机信息系统和特定出版物。只需要选择那些与主题相关的,符合时间要求的质量高的信息检索工具。
⑶确定信息检索方法
常用的信息检索方法有顺查法,倒查法,抽查法,追溯法,循环法等,每一种信息检索方法都有自己的特点,在实践中可以根据信息检索要求选择使用或配合使用,以快速、准确地完成信息检索任务,实现预期的目标。
⑷掌握获取原始信息的线索
在获取信息线索时要仔细阅读,判断所检出的信息是否符合检索的要求。如检出的信息符合要求,则需要记录信息材料的有关特征,如篇名,作者及工作单位,信息出处等,以便查找原始信息。
⑸获取原始信息
获取原始信息是信息检索的最后一步,对信息检索最终目标的完成非常重要。其主要工作包括:①判断文献的出版类型;②整理文献出处;③根据出版类型在图书馆或信息机构查找馆藏目录或联合目录确定馆藏。④尽可能多渠道、多方式地获取原始信息。
3.计算机信息检索策略的制定与实施
⑴分析检索课题
检索课题的分析,即主题分析,是制定检索策略的根本出发点,也是检索效率高低或检索成败的关键。①明确检索课题的主要内容。②明确检索课题所涉及的学科、专业范围。③明确所需文献的类型、语种、年代及数量的要求。④明确用户对查新、查全、查准的指标要求及其侧重。
2.选择检索系统和数据库
选择计算机检索系统的关键是选择数据库。因为数据库的类型和所包含内容的学科的范围不同,直接决定了它的不同的适用对象和不同的检索需求。①数据库的内容。②数据库的覆盖范围。③数据库的及时性。③数据库的成本。
3.确定检索词
检索词是表达信息需求和检索课题内容的基本单元,也是系统中相关数据库进行匹配运算的基本单元。计算机检索系统的检索词可以分为三类:控制词汇、非控制词汇和人工代码。
4.构造检索提问表达式
检索提问表达式是检索策略的具体体现。在计算机检索过程中,检索提问和存储标识之间的匹配是由计算机完成的,因此构造一个既能表达检索课题要求,又能为计算机系统所识别的检索提问表达式成为计算机检索的关键。检索提问表达式由检索词和运算符组成。
5.试验性检索和修改检索策略
检索策略由于多种原因可能出现失误甚至错误。这就要求检索人员在正式实施检索前,应先进行快速少量的试验性检索,以检验检索策略是否有效,并充分利用计算机检索的实时性和人工交互功能,不断了解反馈信息,反复分析,消除不确定因素,及时调整检索策略。
6.实施检索
计算机信息检索的实施主要是将构造好的检索提问表达式输入计算机检索系统,使用检索系统认可的检索指令进行匹配运算并输出检索结果。信息用户对检索结果进行整理,选择并获取原始信息。
六、信息检索效果评价
(一)检索效果的评价指标
⑴查全率R:是指衡量信息检索系统在实施某一检索作业时检出相关文献能力的一种测度指标,指检出的相关文献数占系统中相关文献总数的百分比。查全率反应检索的全面性,其补数就是漏检率。计算方法为:R=检出的相关文献量/检索系统中的相关文献总量
⑵查准率P:是衡量信息系统在实施某一检索作业时检索精确度的一种测度指标,指检出的相关文献数占检出文献总数的百分比。查准率反应检索精确性,其补数就是误检率。计算方法为:检出出的相关文献量/检出的文献总量。
⑶漏检率O:作为查全率的补数。计算方法为:未检出的相关文献量/检索系统中的相关文献总量。
⑷误检率E:作为查准率的补数。计算方法为:检出的非相关文献量/检出的文献总量。
查全率和查准率是评价检索效果的两个重要指标,既可以用来评价检索系统的质量,又可以用来衡量具体课题的检索效果。
(二)影响信息检索效果的因素
影响检索效果的因素主要来自两个方面:一是检索系统本身;二是检索人员(或信息用户)的检索水平。
⑴对于检索系统来说:①系统内信息存储不全面,收录遗漏严重;②词表结构不完善,词间关系模糊或不正确,索引词汇缺乏控制;③标引不详尽或者标引的专指度缺乏深度,不能精确描述信息主题;④组配规则不严密,容易产生歧义等,都是影响查全率和查准率的因素。
⑵对于检索人员(或信息用户)来说:①检索课题要求不全面或不能全面、完整地描述检索要求;②检索系统选择不恰当;检索途径和检索方法单一;检索词使用不当或者检索词缺乏专指性;组配关系错误等,也都影响检索效果。
(三)提高检索效果的措施和主要方法
⑴提高检索系统的质量
①扩大检索系统数据库中信息资源的收录范围,提高信息资源的质量。
②检索课题要符合数据库的收录内容。
③数据库的著录内容要详尽、准确,辅助索引完备,具有良好的索引语言专指性和较高的标引质量等。
⑵提高用户利用检索系统的能力
①用户要具备一定的检索语言知识,能够正确选取检索词和合理使用运算符完整、准确表达信息需求的主题。
②灵活运用各种检索技术、检索方法和检索途径。
③能够结合使用综合性检索系统和专业性检索系统实施跨库检索。
④制定优化的检索策略,准确地表达检索要求,尝试多次检索,并随着背景知识的增加不断调整检索策略。
⑤采用严谨的科学态度,认真遵循检索操作步骤,预防操作失误,最大限度地发挥检索系统的作用。
⑥根据不同检索课题的需要,合理兼顾和调整对查全率和查准率的要求。
七、信息检索的意义
信息检索是信息素质教育的重要手段;信息检索是创新人才必备的基本技能;信息检索是科学研究的重要环节;信息检索是开发信息资源的有效途径;信息检索是科学决策的前提。
第二章 网络信息检索
一、网络信息资源概述
(一)网络信息资源的概念及特点
1.网络信息资源的概念
网络信息资源:是以电子数据的形式将文本,图像,声音,动画,视频等多种形式的信息存放在光磁等非纸质印刷的载体中,并通过网络通信,计算机或终端等方式再进出来的信息资源,是通过计算机网络可利用的各种信息资源的总和。
2.网络信息资源的特点
⑴信息数量大,内容丰富
互联网是一个开放的数据传输平台,上面的信息资源数量巨大,类型多样,如学术,商业,政府,个人,娱乐,新闻信息等。它一方面给用户提供了较大的信息选择空间,另一方面大量无价值的冗余信息也给用户带来了很大的麻烦。
⑵信息更新及时,变化加快
由于网络技术的发展,与传统信息源相比,网络信息源变化更加快捷新颖,且数据量在不断增加
⑶信息表现形式多样化
互联网有着表现形式丰富的信息资源,如声音,图像,文字,视频,动画等,在多媒体形式表现的同时,用户跟信息之间的交互性得到极大的增强。
⑷信息非线性排列,无序性增强
网络信息源利用超链接,构成了立体网状信息链,把不同国家,不同地区,不同内容,不同格式的信息通过节点链接起来,使得信息之间的关联度增强。但同时无序性的状态也日益突出。
(信息量大,传播广泛;信息内容丰富,形式多样;信息时效性强,具有动态性和不稳定性;存在状态分散无序,但关联程度高;信息价值差异大,难于管理)
(二)网络信息资源的类型
1.按对应的非网络资源分
许多网络信息资源具有传统信息资源的对应物,进行过数字化和网络化的组织,形成了网络信息资源,包括:图书馆馆藏目录,电子书刊,参考工具书,数据库,其他类型的信息。
2.按信息交流的方式
信息交流需要通过一定的媒介和载体,这些载体包括正式出版物,半正式出版物,非正式出版物,因此可以将网络信息也划分为:非正式出版信息,半正式出版物,正式出版物。
3.按网络信息资源的层次
指示信息、信息单元、文献、信息资源
(三)网络信息资源的组织方式
⑴文件方式
文件是有序组织的数据的集合,是计算机保存处理结果的基本单位。计算机有一整套文件处理的技术和方法,可以实现“按文件名进行存取”,文件管理程序可根据用户给出的文件名自动完成数据传输操作。我们所熟悉的文件传输协议FTP的作用就在于把各种类型的文本式和非文本式文件通过网络传送给用户。
(FTP:文件传输协议。是用于在网络上进行文件传输的一套标准协议。FTP允许用户以文件操作的方式与另一主机相互通信。然而,用户并不真正登录到自己想要存取的计算机上面而成为完全用户, 可用FTP程序访问远程资源, 实现用户往返传输文件、目录管理以及访问电子邮件等,即使双方计算机可能配有不同的操作系统和文件存储方式。)
⑵超文本/超媒体
超文本方法:超文本是一种新型的信息组织方法,是网络信息组织的基础。超文本技术的一大特征是信息的非线性排列,它以节点为基本单位,节点间以链接点相连,将信息组织为某种网状结构。另一大特征是其信息表达形式的多样性。超文本信息可以是文字,图形,图像,声音,动画等多种媒体形式,因此也可以称为“超媒体”。
⑶数据库
数据库组织方式:是将所有已获得的网络信息资源以固定的记录格式存储,用户通过关键词及其组配查询,就可以找到所需要的信息线索(即相关站点链接),并通过信息线索直接连接到相应的网络信息资源。
⑷搜索引擎
搜索引擎方法:搜索引擎是指internet上专门提供查询服务的一类工具,是目前internet上对二次信息进行组织的主要方式之一。此种方式所搜集的信息虽然丰富广博,但良莠不齐,因而查准率低。
⑸主题树
主题树组织方式:就是将信息资源按照某种事先确定的概念体系结构,分门别类地逐层加以组织,用户通过浏览的方式逐层加以选择,层层遍历,直到找到所需要的信息线索,并通过信息线索直接找到相应的网络信息资源。一些比较著名的网络检索工具,如Yahoo!InfoSeek等都是用这种方式组织信息资源的。
二、网络信息资源检索
(一)网络信息资源检索的概念和特点
1.网络信息资源检索的概念
广义的网络信息资源检索包括网络信息资源整序和网络信息资源查找两个环节。
⑴网络信息资源整序:是将与internet相连的信息按一定的规则进行搜集、分析和标引,并以数据库方式和其他方式组织、排序和存储,形成检索工具或检索系统的过程;
⑵网络信息资源查找:是指以internet为检索平台,利用相应的网络信息检索工具,运用一定的网络信息检索技术与策略,从网络信息资源集合中查找出所需信息的过程。
网络信息资源整序是网络信息查找的基础和前提。狭义的网络信息资源检索仅指广义概念中的查找环节。
2.网络信息资源检索的特点
⑴检索范围大
网络信息检索可以检索internet上所有领域,所有类型,各种媒体的信息资源,远远超过了联机检索,光盘检索等信息检索方式可利用的信息源。
⑵用户界面友好
网络信息资源检索工具直接以用户为服务对象,操作简单方便。它一般采用图形窗口界面,并提供多种导航功能和多种检索途径,检索者无需掌握复杂的检索指令,只要在检索界面上按照提示和规则输入检索式,就可获得检索结果。
⑶交互式作业方式
网络信息资源检索工具具有交互式作业的特点,能够及时响应用户的要求,从用户的命令中获取相应的指令,并根据指令执行相应的操作,最后将执行结果反馈给用户。
⑷传统检索技术与网络检索技术相融合
网络信息检索既沿用了许多传统的检索方法和技术,又借助于网络信息技术的发展,采用了超文本/超媒体,全文检索,智能检索等新的检索技术。
⑸检索效率高
通过超级链接技术,网络信息资源的检索过程和信息的浏览过程都在同一界面内进行,用户只要简单的点击鼠标即可以随意浏览和获取可以直接阅读和利用的Web页面文献全文。
⑹信息冗余大
网络信息资源缺乏统一规范的管理和控制,动态性强,且目前的网络信息检索工具在信息搜集、标引等方面存在一定的不足,信息检索过程会产生大量的无用甚至垃圾信息,信息检索的准确性,完整性和权威性难以保证。
(3.Web2.0环境下网络信息检索的特点➕发展趋势)
(二)网络信息资源检索方法
1.浏览
浏览一般是指超文本文件结构的信息浏览,即用户在阅读超文本文档时,利用文档中的超链接从一个网页转到另一个相关网页。这种检索方法的特点是不依靠任何检索工具,检索的目的性不强,检索的结果具有不可预见性。
2.利用搜索引擎检索
利用搜索引擎进行网络信息检索是目前常用的检索方式。在浏览器中输入搜索引擎网站地址打开网站首页,在网站首页的搜索框中输入检索词,搜索引擎很快就可以返回检索结果列表,通过点击检索结果列表中的超连接,就可以进入相关网站找到所需要的信息。这种方式的优点是简单易学,省时省力,检索速度快,检索范围广。但检索的相关度和准确性很难控制,检索质量起伏较大。
3.借助网络导航检索
网络导航是基于分类体系的目录型检索系统,也是较为常用的信息检索方法。用户登录网络导航网站,通过点击具体的网址链接查找自己感兴趣的内容,也可以点击分类列表进行更为具体的选择。网络导航由专业人员负责资源著录,质量较高,对网络信息的发现具有重要的指导作用。但基于人工著录的网络导航也有其局限性。
4.通过专业资源系统检索
随着网络信息建设的专业化程度越来越高,网络中出现大量的专业资源系统。这些专业资源系统一般专注于某一特定领域或者某一特定类型的资源建设,在人工参与的前提下,通过专业的平台对实现大量整理后信息资源的存储、管理和维护更新,并在互联网上借助一个具体的网页为用户提供查询服务,习惯上被称为数据库或者数据资源库,信息资源库等。如CNKI、维普资源信息系统,万方数据资源信息系统等。
(三)网络信息资源检索工具
1.网络信息资源检索工具的构成
⑴信息采集子系统
网络信息资源检索工具的信息采集包括人工采集和自动采集两种方式:①人工采集是由专门的信息人员来跟踪和选择有价值的网络信息资源,并按一定的方式对采集的信息资源进行分类、组织、标引,组建成索引数据库。②自动采集则是通过采用一种被称为Robot的网络自动跟踪索引程序来完成信息采集,由Robot在网络上检索文件并自动跟踪该文件的超文本结构,并循环检索被参照的所有文件。它穿行于网络信息空间,访问网络中公共区域的各个站点和网页,记录其地址,标引其内容,组织建立索引文档,形成供检索的数据库。
⑵数据库
信息采集子系统采集和标引的信息,通过数据库管理系统软件的组织,形成数据库,作为网络信息资源检索工具提供检索服务的基础。一般来说,数据库中提供的网络资源内容有网站名称,关键词,网页URL,网页摘要,相关的超文本链接等。由于数据库的规模和质量直接影响信息检索的效果,因此需要对数据库中的数据进行及时的更新和处理。
⑶检索代理软件
当用户提出检索要求时,由检索软件负责代理用户在数据库中进行检索,并对检索结果进行计算、评估、比较,按检索结果与检索要求的相关程度排序后提供给用户。
2.网络信息资源检索工具的工作原理
⑴通过数据采集子系统的人工采集或自动跟踪索引程序来广泛收集各类网络信息资源;
⑵经过一系列的判断,选择,标引,加工,分类,组织等处理,利用数据库管理系统来组织并形成供检索使用的数据库,创建目录索引,并大多以Web页面的形式向用户提供有关的资源导航,目录索引及检索界面。
⑶用户根据自己的检索要求,按照检索工具的语法要求构造检索提问,并通过检索界面输入检索提问。
⑷检索软件对用户的检索提问进行识别和判断后,根据用户的检索提问,代理用户在数据库中进行检索,并对检索结果进行评估比较和按相关度排序后提交给用户。
3.网络信息资源检索工具的类型
1)按检索内容分类
①综合型:综合型网络资源检索工具也称为通用型网络资源检索工具,是指在采集信息资源时不限定资源的学科、主题范围和数据类型,可以利用它们检索到几乎各个方面的网络信息资源。
②专科型:专科型网络资源检索工具是指专门采集某一学科主题、范围的信息资源,并提供适合其专业资源和检索需求特点的更细致的分类、深度标引和描述。
③特殊型:特殊型网络信息资源检索工具是专门为某种特殊类型的信息资源提供检索服务的工具。
2)按检索的信息资源类型分类
⑴非Web资源检索工具:主要以非Web资源,如FTP信息资源、Gopher信息资源,Telnet信息资源和Usenet信息资源等特殊类型的信息资源为检索对象的一类检索工具。
⑵Web资源检索工具:是以超文本技术在internet上建立的一种提供网上信息资源导航、检索服务的专门的Web服务器或Web网站。它是一个既以Web资源作为主要检索对象,又以Web形式提供服务的线索工具。
①关键词检索工具:即搜索引擎,它使用自动索引软件来发现、收集并标引网页,建立数据库;以Web形式提供给用户一个检索界面,供用户输入检索关键词、词组或短语等检索项;代替用户在数据库中找出与提问匹配的记录,并返回结果且相关度排序输出。
②目录型检索工具:它是按照某种分类体系编制的一种可供检索的等级结构式目录。分类方法以学科分类为主,使用此类工具的检索方法被称为“分类搜索”,这是一种“自顶向下,逐步细化”的搜索方法,层层遍历。
③混合型检索工具:目前,搜索引擎的关键词检索和目录型检索工具的分类检索逐步整合在一起,既可以直接输入检索词,又可以浏览目录了解特定领域范围的资源,以增强检索能力。
4.网络信息资源检索工具的评价
⑴收录范围
每种网络信息资源检索工具都有特定的收录对象与收录方针,因此选择检索工具必须首先对检索工具收录的数据资源范围,资源类型,数据量的大小,索引深度,数据更新频率,处理语言等进行了解。
⑵检索功能
检索功能直接影响信息检索的查全率,查准率和检索的灵活性,方便性及检索速度。选择和评价检索工具的功能可以从以下几个方面进行:①判断检索方式是单一还是多样;②判断采用的检索技术是否先进,多样;③判断是否对检索的信息资源拥有选择和限定的权利。
⑶检索效率
目前衡量检索工具效率的指标是以查全率和查准率为主,此外还有响应时间,联机容易程度等因素。
⑷用户界面
用户界面的设计直接影响人机交互的效率和效果。一般情况下,判断用户界面是否优良主要从这几个方面入手:①直观判断其是否容易使用;②是否提供在线辅助说明;③检索界面的功能键和工具条的设置是否清晰、明确、完备;④检索界面是否简单,切换是否灵活;检索步骤是否简捷紧凑等。
⑸检索结果处理和显示
检索结果的显示方式直接影响用户的浏览效果。目前大多数检索工具采用按数据资源的权威性,检索内容和网站的相关性来排序,越相关的结果就会越靠前。
(5.网络信息检索效果的评价指标➕存在问题➕改进措施)
(四)网络信息检索的重要领域 (特点➕发展趋势)
1.多媒体检索
多媒体信息检索是根据用户的要求对图形、图像、文本、声音、动画等多媒体进行信息检索,得到用户所需的信息。分为基于文本的检索和基于内容的检索信息。
2.跨语言检索
目前跨语言信息检索的主要研究热点包括:跨语言的信息检索辅助技术方法,语言转换方法,信息组织与检索模型等,同时还有一些问题有待进一步研究,如基于语义的信息检索,以应用为导向的跨语言检索平台,相关性检索结果合并,可视化处理等将成为新的研究方向。
3.智能信息检索
智能信息系统是由抽词检索与全文检索发展而来,它是以检索词的相关度为基础,对检索词具有较高的判断能力,理解能力和处理能力的人工智能型检索系统。近年来,基于语义、Agent、本体的智能信息检索成为研究热点。
4.信息检索可视化
检索可视化是信息可视化技术在信息检索中的应用,是指把文献信息,用户提问,各类情报检索模型以及信息检索过程中不可见的内部语义关系转换成图形在,一个二维或三维的可视化空间中显示出来。
5.智能问答系统
当前人工智能发展迅速,机器学习,神经网络等技术的逐渐应用,大大促进了智能问答系统的发展,产生了一些代表性产品,包括自动化问答平台,语音问答机器人等。这些智能问答系统一问一答的服务方式,方便精准定位用户需求,实现实时交互,大大提高个性化服务程度。
第三章 搜索引擎
1. 概念
⑴搜索引擎
搜索引擎:是指根据一定的策略,运用特定的计算机程序对互联网上的信息进行收集处理,并将处理后的信息存储在数据库中,通过交互界面为用户提供检索服务的系统。(是指接受用户的提问,检索数据库,并将与用户提问相匹配的信息对象反馈给用户的检索工具。广义地讲,搜索引擎不仅指信息检索程序本身,而且还指检索界面、相关的入口程序,以及支持它的索引数据库和服务。)
⑵元搜索引擎
元搜索引擎:又称多元搜索引擎或集成式搜索引擎。是指通过一个统一的用户界面,帮助用户在多个搜索引擎中实现检索,并对检索结果进行优化处理的搜索引擎。元搜索引擎是对多个独立搜索引擎的整合,调用,控制和优化利用。在元搜索工作过程中,被调用的搜索引擎称为源搜索引擎或独立搜索引擎,即通常意义上的搜索引擎。元搜索引擎一般由用户接口,检索代理和结果优化三部分组成。
2. 分类
⑴按照检索范围划分
①综合搜索引擎
是指在资源收录的范围,类型等方面没有做明确限制的搜索引擎。这类搜索引擎的收录范围包括整个互联网,资源类型涉及网页,视频,音频,图像文件等所有常见资源类型。比较知名的综合搜索引擎有谷歌,百度,雅虎,必应,搜狗等。
②垂直/专业搜索引擎
是指资源收录范围限制在某一特定领域或特定类型的专业搜索引擎,是搜索引擎的细分和延伸,是对互联网中特定领域内的信息进行整合,是针对综合搜索引擎查准率较低,检索深度不够等不足提出的搜索引擎服务新模式。
⑵按照检索功能划分
①独立搜索引擎
又名单一搜索引擎或常规搜索引擎。是指独立拥有搜索器,索引器,索引数据库,检索器,用户接口,工作不依赖其他搜索引擎的搜索引擎,比较常见的独立搜索引擎有Google,百度等。
②元搜索引擎
又称多元搜索引擎或集成式搜索引擎。是指通过一个统一的用户界面,帮助用户在多个搜索引擎中实现检索,并对检索结果进行优化处理的搜索引擎。元搜索引擎是对多个独立搜索引擎的整合,调用,控制和优化利用。在元搜索工作过程中,被调用的搜索引擎称为源搜索引擎或独立搜索引擎,即通常意义上的搜索引擎。元搜索引擎一般由用户接口,检索代理和结果优化三部分组成。
⑶按照工作方式划分
①目录型搜索引擎
也被称为分类索引或网络资源指南,是一种网站级的浏览器式搜索引擎。它是由专业信息人员以人工或半自动的方式搜集网络资源站点信息,且采用人工方式对搜集到的网站加以描述,并按照一定的主题分类体系编制成一种可供浏览检索的等级结构式目录。
②索引型搜索引擎
也被称为机器人搜索引擎或关键词搜索引擎,是一种网页级搜索引擎。它主要使用一种叫网络机器人,网络蜘蛛或网络爬虫的自动跟踪索引软件通过自动的方式分析网页的超链接,依靠超链接和HTML代码分析获取网页信息内容,并采用自动搜索,自动标引,自动文摘等事先设计好的规则和方式来建立和维护其索引数据库,以web方式提供给用户一个检索界面,供用户输入检索关键词,词组或逻辑组配的检索,其后台的检索代理软件代替用户在索引数据库中查找出与检索提问相匹配的记录,并将检索结果反馈给用户。
(⑷按照索引数据库的信息媒介:图像搜索引擎、视频搜索引擎、网页搜索引擎)
3. 功能
⑴及时全面的搜索网络信息
⑵搜索有效的、有价值的网络信息
⑶有针对性地搜索网络信息
4.系统结构
⑴搜索器
是从因特网上采集信息的专用程序,亦称网络机器人,蜘蛛,爬虫等。其功能是日夜不停地在网上漫游,不断地从网上采集并及时送回相关信息。
⑵索引器
是从搜索器返回的纯文本信息文件抽取索引项,生成倒排工作文件,进而逐步建立索引数据库。
⑶索引数据库
是搜索引擎的核心,它既是索引器提供的产品,又是检索器进行工作的基础。由四类文件组成,倒排地址表,倒排索引和其他索引文件和纯文本文件。
⑷检索器
是对具体搜索引擎所配置的索引数据库而研制的专用检索程序包,它的职责是从用户接口接受并理解用户需求,将其转换成检索指令,对索引数据库实施检索,并将结果集按内容的相关度排序,并使排序结果文件向用户反馈。
⑸用户接口
作用是接受用户的检索需求的输入,并进行语法检查,使其规范。可以分为两个部分,用户需求提交接口和搜索结果反馈接口。前者用于接受用户需求,后者则将搜索引擎针对用户提交的需求检索得到的结果反馈给用户。
5. 工作原理
⑴搜索引擎通过搜索器对互联网的漫游和遍历,发现和搜集信息;
⑵索引器负责从搜索器搜索到的信息中抽取索引项,并建立索引表,形成索引库;
⑶检索器根据用户的查询条件在索引库中进行检索,并对检索结果进行相关处理后通过用户接口返回给用户;
⑷用户接口为用户提供交互界面。
6.使用方法
⑴布尔检索
布尔逻辑检索是指支持布尔逻辑运算的信息检索,所有的搜索引擎都提供某种形式的布尔逻辑检索,或者使用“简单化”的布尔逻辑(使用加号和减号),或者使用完全的布尔逻辑(AND、OR、NOT)
⑵截词检索
在众多的搜索引擎中,多数均支持利用词根进行截词检索。截词一般用词根加上截词符(通常用*号)表示,这样可以大大简化带有不同后缀等词的检索。
⑶词组与名称检索
在利用搜索引擎进行网络信息检索时,允许用户用两个词进行检索,两个词既可以相邻,组成词组形式,用引号界定输入进行检索,又可以将这两个词出现在上下文中且相距一定距离。有些搜索引擎还使用了NEAR等类似的运算符,描述两个词之间的间隔距离。
⑷范畴检索
为了提高查准率,往往需要将检索限制在网页(记录)的一个特定部分或几个部分进行,这就是范畴检索。它的思想来自于传统的联机检索,在网络信息检索中常用到的范畴有Title,Date,URL,Links, 图像等。
7.发展趋势
⑴个性化
Web 2.0时代的到来,更加强调用户体验,强调重视用户的个体偏好,许多搜索引擎开始提供用户注册和偏好设置功能,推出个性化的搜索首页,满足用户的特定需求。
⑵智能化
搜索引擎通过信息抽取,语义标引等技术可以提高其智能化水平,更清晰定义信息的语义特征。
⑶整合化
用户希望在搜索引擎的反馈结果中包含多种类型的相关信息,这样就不需要重复检索各类信息。因此许多搜索引擎已经开始将图像,网页,视频的搜索结果以整合的方式反馈给用户。
⑷垂直化
因特网上的信息量越来越大,海量的信息导致用户在综合性搜索引擎搜索某个特定主题领域的信息时,其他无关主题领域的信息也会返回。因此许多面向特定主题的垂直搜索引擎开始出现,由于只关注特定主题领域的信息内容,在索引量和检索结果的相关性上都大大增强。
⑸移动化
随着移动互联网的发展,移动终端逐渐成为新的获取信息的工具,因此许多搜索引擎都开始推出基于移动平台的搜索服务,通过手机等移动终端都可以访问搜索引擎。
⑹开放式
各个搜索引擎为了拓宽自己的应用范围,都开始开放搜索接口和数据库,使第三方开发人员可以快速的搭建各式各样的搜索服务。
8. 应用实例
简介
中文名为谷歌。Google既是公司名,又是搜索引擎的名称。1998年由拉里.佩奇和谢尔盖.布林创建。是目前全球最大的搜索引擎,提供了便捷的网上信息查询方法和查询服务,促进了全球信息的交流。
特点
网络资源组织的范围广;支持的语种多;采用的技术新;系统功能强。
功能
网页检索;图像检索;高级检索;Google网页目录。
百度
简介
百度搜索引擎是全球最大的中文搜索引擎,他是百度公司的产品,百度公司于2000年1月在北京中关村创建,创始人是李彦宏和徐勇。百度二字源于中国宋朝词人辛弃疾的《青玉案.元夕》中的“众里寻他千百度”,象征着百度对中文信息检索技术的执着追求。
特点
功能强大,服务范围广,包容性好;智能性与可扩展性;技术新颖性与前瞻性;适应性与灵活性。
功能
百度除了普通的网页搜索外,在垂直搜索方面也推出了相关产品。提供简单检索和高级检索两种方式,简单检索的步骤简单,操作方便,百度的高级检索体现在三个方面:一是通过高级语法在简单搜索框中实现高级检索;二是通过百度的高级检索界面实现高级检索;三是通过百度的垂直搜索实现高级检索。百度的搜索结果页面主要包括标题,摘要,百度快照,相关搜索,检索时间,结果总数等信息。
Bing
简介
是微软公司推出的搜索引擎,于2009年5月28日发布,简体中文版于2009年6月1日开放访问。中文名称必应有“有求必应”的寓意。
功能
Bing简体中文版除提供网页搜索外,还有图片搜索,视频搜索,资讯搜索,地图搜索等垂直搜索服务,英文版中还有旅游,历史,购物等垂直搜索服务。界面柔和,首页由不断更新的图片做背景,对于某些检索词Bing会对检测结果进行分类。
第四章 中文网络数据库的检索
1. CNKI与中国期刊全文数据库
⑴CNKI
概述
中国知识基础设施工程(CNKI)是以实现全社会知识信息资源共享与增值利用为目标的国家信息化重点工程。
中国期刊网也称为中国知网或知识创新网,是CNKI工程的一个重要组成部分,是一个集期刊,论文,专利和报纸信息与一体的信息资源系统,用户可以通过中国期刊网来使用的数据库产品。
CNKI已推出的主要中文系列源数据库产品有:中国期刊全文数据库,中国博士学位论文全文数据库,中国优秀硕士学位论文全文数据库,中国重要报纸全文数据库,中国重要会议论文全文数据库等。有网上包库、镜像站点,全文光盘三种用户服务模式,并采用IP身份认证方式确认合法用户。
⑵中国期刊全文数据库
概述
中国期刊全文数据库(CJFD)是在《中国学术期刊(光盘版)》的基础上开发的一个基于internet的大规模、集成化、多功能、连续动态更新的期刊全文数据库,是CNKI最具特色的一个文献数据库。
特点
①集题录、文摘、全文信息于一体,实现了海量数据的高度整合和一站式文献信息检索。
②参照国内外通行的知识分类体系组织知识内容,数据库具有知识分类导航功能。
③设有多个检索入口,用户既可以通过单个检索入口进行初级检索,还可以利用布尔逻辑运算符等灵活组织检索提问式进行高级检索。
④具有引文检索及链接功能,除了可以构建相关的知识网络外,还可以用于个人、机构、论文、期刊等方面的计量与评价。
⑤全文信息完全的数字化,通过免费下载最先进的阅读器软件,可以实现期刊论文原始版面结构与样式不失真的显示和打印。
⑥多样化的产品形式,及时的数据更新,可满足不同类型、不同行业、不同规模用户个性化的信息需求。
⑦数据库内的每篇论文都获得了清晰的电子出版授权。
⑧遍布全国和海外的数据库交换服务中心,配上常年的用户培训与高效的技术支持。
检索
①初级检索
从CNKI中国期刊网进入中国期刊全文数据库中,系统默认的检索方式就是初级检索方式,页面左侧为导航区,用来帮助确定检索的专辑范围。初级检索的具体实施步骤如下,①选取类目范围②选取检索字段(主题、篇名、关键词、摘要、作者、第一作者、单位、参考文献、中图分类号等)③输入检索词④选择各项检索限制条件(时间跨度、更新、范围、匹配、排序、每页)。
②高级检索
利用高级检索能实现快速有效的组合查询,查询结果容易少,命中率高。高级检索页面默认列出三个检索词输入框和三个检索项下拉列表,还可以通过页面中的+和-来添加或者减少检索项,检索项之间可以进行并且(AND)、或者(OR)、不包含(NOT)、同句、同段五种布尔关系的逻辑组配,以实现复杂概念的检索,提高检索的效率。系统默认的逻辑关系是“并且”。高级检索同样可以进行检索的时间跨度,更新、范围,匹配、检索结果的排序方式选择。
③专业检索
专业检索是比高级检索功能更强大,更精确的检索方式,但专业检索更适用于熟练掌握检索技术的专业检索人员,供检索人员根据系统的检索语法编制符合自己的信息需求的检索式进行检索。
④检索结果
检索结果页面分题录页面和详细信息页面。
⑤专项服务
中国期刊全文数据库除了可用于信息检索,信息咨询,原文传递等常规服务外,还可以开展一些专项服务。如引文服务、查询服务、期刊评价服务、科研能力评价、项目背景分析、定题服务。
2. 维普资讯系统与中文科技期刊数据库
⑴维普资讯系统
概述
重庆维普资讯有限公司是科技部西南信息中心下属的一家大型专业化数据公司,自1989年以来一直致力于报刊等信息资源的深层次开发和推广应用。
公司2000年开发建成的维普资讯网也称天元数据网,经过多年的商业运营,已经发展成为全球著名的中文信息服务网站和中国最大的综合性文献服务网,并成为Google搜索的重要战略合作伙伴和Google Scholar最大的中文内容合作网站。
维普资讯网上的三个重要数据库是:中文科技期刊数据库,中文科技期刊文引文数据库和外文科技期刊文摘数据库。
⑵中文科技期刊数据库
概述
中文科技期刊数据库是重庆维普资讯有限公司于1989年开发研制的国内最大的综合性文献全文数据库,1992年出版了光盘版数据库,1999年开始提供网络版数据库服务。
特点
①是收录国内期刊最多,年限最长,专业文献量最大的中文期刊数据库。
②引用《中图法》等通用规则进行分类标引,主题标引,并执行ISO9001国际质量管理体系,是具有更高品质保证的标准化数据库。
③采用国内一流全文检索内核和国际标准的PDF全文数据格式,实施更快,更稳定,更清晰的数据库检索服务。
④独有的同义词库和同名作者库能够更精准地定位于用户的检索请求。
⑤个性化的“我的数据库”服务功能,能保存用户的检索历史,收藏的全文文献,定制的各种检索方案。
检索
中文科技期刊数据库提供快速检索,高级检索,传统检索,分类检索和期刊导航五种检索方式。它通过学科类别和数据年限来限定检索范围,使用逻辑运算符and or not来构造检索式或表示逻辑组配关系。
①快速检索
即简单检索,系统默认为快速检索。在数据库检索页面直接选择检索字段,并在其后的文本框中输入相应的检索词,单击搜索按钮即可完成快速检索过程。
②高级检索
高级检索提供向导式检索和直接输入式检索两种检索方式供读者选择。
③传统检索
利用传统检索页面间检索时,首先要在检索页面上方对同义词、同名作者、期刊范围,年限,检索入口和检索式等进行选择,然后在检索页面左侧的导航区中,根据专辑导航或分类导航的类目划分,选择要查找的学科类目,进而实施检索。
④分类检索
分类检索相当于传统检索的分类导航限制检索,是由专业标准人员根据中图法对每条中刊数据进行分类标引,用户可以根据检索课题的需要,选择要查找的学科分类。分类检索能够满足用户对分类细化的不同要求。
⑤期刊导航
提供字母顺序查找,期刊学科分类导航,国外数据收录导航三种查找方式。用户可以通过期刊名称的字母顺序,学科类别,刊名或ISSN号对收录的期刊进行浏览或查找某一特定期刊。
⑥检索结果显示、输出和全文浏览
数据库的检索结果记录有简单记录和详细记录两种显示格式;pdf,电子邮件,打印;按刊名浏览。
⑦文献关联功能
在检索结果的详细记录格式页面有“相关文献”的聚类功能,提供了文章的主题相关、参考文献和引用本文三个方向的文献关联。
3. 万方数据知识服务平台与万方学术期刊数据库
⑴万方数据知识服务平台
概述
万方数据股份有限公司是国内第一家以信息服务为行业为核心的股份制高新技术产业。
外方数据资源系统是由北京万方数据股份有限公司开发建立的大型科技商务信息平台。该系统自1997年8月开始对外提供服务,2009年6月万方数据资源系统全面升级为万方数据知识服务平台,作为全国最大的综合性知识信息服务平台,其数据资源完备化、检索方式个性化、知识网络扩展多元化、文件管理科学化,能够为用户提供全面的在线信息服务。
万方数据知识服务平台的数据库资源,通过学术论文,学术期刊,学位论文,会议论文,专利技术,中外标准,科技成果,政策法规和机构等几个资源板块的一百多个数据库,为读者提供信息检索服务。
⑵万方学术期刊数据库
概述
万方学术期刊数据库是万方数据知识服务平台的重要组成部分,集纳了多种科技及人文和社会科学期刊的全文内容,其中绝大部分是进入科技部科技论文统计源的核心期刊。
检索
①浏览
可以按学科、地区或刊名首字母顺序浏览期刊,期刊页面提供刊物的信息,可进行刊内检索。
②检索
在期刊检索页面,单击“检索论文”或“检索刊名”,可分别对论文和期刊进行检索。对论文的检索,系统提供了简单检索,高级检索和专业检索等检索方式。
③检索结果的处理
结果显示;查看与下载全文
4. 中国人民大学书报资料中心与人大复印报刊资料全文数据库
⑴中国人民大学书报资料中心
概述
中国人民大学书报资料中心(简称书报资料中心)成立于1958年,目前已发展成为兼营期刊出版,网络电子出版,信息咨询等业务的综合性、跨媒体的现代出版机构和新资源服务机构。
书报资料中心选编的印刷版《复印刊资料》,以其覆盖面广,信息量大,分类科学,筛选严格,结构合理完备,成为国内最具有影响力的社会科学文献资料库。自2001年始,由北京博立群公司制作并发行人大复印报刊资料网络版数据库,包括全文数据库,数字期刊库,报刊索引库,报刊数据库,目录数据库和专题研究库等部分。
⑵人大复印报刊资料全文数据库
概述
人大复印报刊资料全文数据库是由中国人民大学书报资料中心聘请的100多位专家、学者、教授从全国公开出版的6000多种核心期刊报纸中精选出的社会科学,人文科学文献。该数据库对研究人员,各类学校师生的学习和研究具有很重要的参考价值。
特点
⑴具有查全功能
该数据库精选中央和地方报刊,大专院校学报等文献资料,既收载独立成篇的论文,也编制未选印文章索引,篇名,目录并举,涵盖了社会科学的众多领域。
⑵具有学术性和权威性
该数据库偏重选取各种学术理论方面的信息,特别关注人文社科领域的热点问题。该数据库的转载率已成为学术界评定期刊质量和学术论文质量的主要指标之一。
⑶具有新颖性和创新性
该数据库收录人文社科领域中最新的专题文献,及时反映新理论、新动向,不仅密切关注信息时代科学发展的动向,同时还努力追踪社会科学,人文科学的新发展。
检索
①简单查询
是为跨库检索设置的,可以选择一个或多个数据库进行检索。
②高级查询
高级检索提供单个条件或多个条件的复合查询。
③用户定制和辅助功能
利用数据库提供的“用户定制”和“辅助功能”选项,用户可以定制自己个性化的界面辅助浏览和检索。
5. 四大中文期刊全文数据库的比较
⑴收录范围和数量
①维普中文科技期刊数据库的收藏量最大,收入年限最长,更适合用户进行科技文件的回溯性检索。
②CNKI中国期刊全文数据库收录教育与社会科学,政治经济与法律方面的期刊量较大,综合性很好。与维普数据库互补性很强,相互不可替代。
③万方学术期刊数据库与CNKI和维普的收录重复率较高。
④人大复印资料全文数据库核心期刊收入比率最高,收录文献质量也最好,万方次之。
⑵检索功能
①检索途径:各个数据库都提供关键词,篇名,刊名,作者,机构,文摘等检索途径,单个数据库又都分别拥有各自的特点。如CNKI的检索途径最多,通过同一检索字段对相同检索词进行检索时的命中率较高,对于检索前沿性课题或文献量较少的冷门课题较为适用。而维普的检出率相对较低,但命中结果相对比较实用。
②检索方式:各个数据库均提供导航检索,简单检索和高级检索功能,但在功能的实现上略存差异。例如,对于简单检索功能,CNKI、万方和人大复印资料数据库的简单检索都只提供一个检索框,一次只能输入一个检索词,不支持多个运算符组配的词。维普的简单检索则支持同检索框内同时输入多个运算组配的词。
③特殊检索功能:CNKI提供了检索词字典,有利于更全面准确的检索文献信息。维普编制了同义词库,并用同名作者库实现作者单位的限定,同时还提供中图法分类号的检索功能,以提高查全率和查准率。 万方可以对分布地域进行限定。人大复印资料提供多个字段检索词的输入帮助,能从匹配词,拼音,笔画,匹配方式和逻辑关系等方面选出符合条件的帮助词。
⑶检索结果
①全文输出格式:几个数据库中的文献都可以浏览原版的图像,全文也可以用文献阅读器上提供的识别系统进行文字识别处理。
②排序和去重功能:CNKI的检索结果按照主题的相关度或文献的日期排序输出。维普的检索结果按时间的倒序排列,同时间段结果再按照期刊顺序排列。万方可以按照相关度,经典论文或最新论文排序。人大复印资料的排序方式最为灵活多样,既可以按照文件加载时间排序,也可以按照任意指定字段排序。
⑷用户界面
①CNKI和人大复印资料全文数据库操作界面简单,检索方法简单灵活人大复印资料还提供更多的输入帮助信息,即使不具有专业知识的用户也可以掌握。
②维普中文科技期刊数据库通过分类和导航实现文献浏览,还能通过初级和高级检索方式进行检索,检索页面之间显示的比较清楚。
③万方通过多种检索途径检索文献,但是页面过于复杂繁琐,很难让初次使用者顺利掌握并达到很高的查全率和查准率。
④此外,和外文全文数据库比较,国内的几大数据库都还没有开发出很多个性化的检索功能,智能化程度也不高,有待于进一步的改进和完善。
⑸服务方式
①在服务方式上,几个数据库都提供检索服务卡,光盘,局域网,建立镜像站点,包库和流量计费等服务方式。
②从订购价格上看,CNKI和维普相对比较便宜,且使用和维护比较方便,万方则价格相对较高。
③从用户角度上看,在选择数据库时可根据本单位具体特点及需求进行选择。
④另外从网上获取全文时,CNKI、万方和人大复印资料的每一篇文献都能从题录直接链接到全文进行下载,而维普的一些文献则要通过E-mail的方式才能获得。
7. 全国报刊索引数据库
概述
全国报刊索引数据库始建于1993年,是目前世界上最大的连续动态更新的中文报刊索引类数据库,内容涉及人文,社会科学,自然科学等各个领域,涵盖了中国出版的报刊资源。目前该数据库分为目次库,篇名库,会议库,西文库四个数据库。
检索
普通检索:数据库检索的默认页面极为普通检索页面,普通检索支持字段检索。
高级检索:除了普通检索功能外,高级检索还支持字段间的逻辑组配。
专业检索:提供命令检索的查询方式,可直接输入组配好的检索式进行检索。
期刊导航:一是根据刊名、创刊年、主办单位、出版地进行查询。二是根据期刊刊名的拼音首字母的排列顺序进行期刊浏览。三是按中图分类浏览期刊。
8. 中文社会科学引文索引
CSSCI概述
中文设为科学引文索引(CSSCI)是教育部重点课题攻关项目,由南京大学中国社会科学研究评价中心开办研制,用于检索中文人文社会科学领域的论文收录及被引用情况。
检索
⑴来源文献检索:其主要用于查询所采用的来源其他文章的作者,片名,参考文献等。
⑵被引文献检索:主要用来查询作者,论文,期刊等的被引用情况。
9. 中国科学引文数据库
CSCD概述
中国科学引文数据库(CSCD)创建于1989年,由国家自然科学基金委员会和中科院共同资助,中科院文献情报中心承建开发,该数据库的编制全面参照了美国“科学引文索引”的编制体系。
数据库内容丰富,结构科学,数据准确,系统除具有一般的检索功能外,还提供新型的索引关系一引文索引。
10. 中国高等教育文献保障系统
CALIS概述
中国高等教育文献保障系统(CALIS)是经国院批准的中国高等教育公共服务体系之一。宗旨是在教育部的领导下,把国家投资,现代图书馆理念,先进的技术手段,高效丰富的文献资源和人力资源整合起来,建设以中国高等教育数字图书馆(CADLIS)为核心的教育文献综合保障体系,实现信息资源的共建,共知,共享,以发挥最大的社会效益和经济效益,为中国的高等教育服务。
CALIS管理中心设在北京大学。自1998年开始建设以来,开发了联机合作编目系统,文献传递与馆际互借系统,统一检索平台,资源注册与调度系统,形成了较为完整的文CALIS文献信息服务网络。
数据资源主要有外文数据资源和中文数据资源两大类。 外文数据资源有:全文数据库,文摘数据库和事实数据库,主要分为外文全文电子书数据库,外文博硕士学位论文全文数据库,OcLC FirstSearch数据库系统,特种资源数据库和其他引进数据库等几大类。 中文数据资源有:联合目录子项目,高校学位论文库子项目,专题特色数据库子项目,重点学科导航库子项目,虚拟参考咨询子项目,教学参考信息子项目,资源评估子项目和标准规范建设等。
CALIS高等学校论文数据库概述
CALIS高校学位论文数据库收录有包括北京大学,清华大学等全国著名大学在内的83个成员馆的博士,硕士学位论文。
数据库提供简单检索和复杂检索两种检索方式。
11. 联机书目检索系统
联机图书馆公共检索目录概述
联机图书馆公共检索目录(OPAC)由开放的公共查询目录演化而来,是20世纪70年代末由美国一些大学图书馆和公共图书馆共同开发的,供读者查询馆藏数据的联机书目检索系统。OPAC是图书馆自动化的基础,是未来电子图书馆的有机组成部分。
现行的OPAC的特征
⑴数据资源更加丰富。现行的系统在提供书目数据的基础上,增加了索引,人名录,机构名录,地图,手稿等数据源,同时与全文数据库链接,适合与用户远距离获取文献全文。
⑵用户界面更加友好。OPAC的设计宗旨是规范,简洁,生动,适合于未经专门训练的普通最终用户。系统不仅提示指导用户正确快捷的进行操作,用于人机对话反馈信息,还提供详尽的出错信息和符合用户习惯的显示格式。
⑶检索技术灵活多样。采用关键词检索,自然语言检索和布尔逻辑检索等多种检索技术,
联机服务更加周到。OPAC是一个基于网络的书目检索系统,提供全方位的联机信息检索服务。
第五章 英文网络数据库的检索
EBSOhost系统全文数据库
ProQuest系统全文数据库
Elsevier Science Direct全文数据库
SpringerLink全文期刊数据库
Journal storage过刊全文数据库
第六章 核心检索评价系统(略)
Dialog国际联机检索系统
OCLC FirstSearch国际联机检索系统
ISI Web of Science数据库
工程索引
中文社会科学引文索引
第七章 特种文献信息的检索
一、会议文献的检索
会议文献概述
概念
会议文献:是指在国内外学术和非学术会议上形成的资料和出版物,包括会议论文,会议文件,会议报告,讨论稿等,其中会议论文是最主要的会议文献。
特点
⑴专业性强,学术水平高;
⑵内容新颖,及时性强;
⑶信息量大,专业内容集中;
⑷可靠性高;
⑸出版形式灵活多样等。
分类
⑴按出版时间的先后划分:会前文献、会中文献、会后文献
⑵按出版形式划分:图书、期刊、科技报告、视听资料
国内会议文献的检索
网络检索系统
CNKI中国重要会议论文全文数据库
中国重要论文全文数据库是中国期刊网(CNKI)的会议论文数据库,收录我国2000年以来国家二级以上学会,协会,高等院校,科研院所,学术机构等单位的论文集。
检索方法:该数据库提供初级检索,高级检索,专业检索和会议主办单位导航等多种检索方式。
万方学术会议论文数据库
该库收录了由中国科技信息研究所提供的1985年至今世界主要学会和协会主办的会议论文,以一级以上学会和协会主办的高质量会议论文为主,会议论文内容范围涵盖自然科学,工程技术,农林,医学等多个领域,是我国目前收集学科最全面,数量最多的会议论文数据库之一。
检索方法:通过万方数据知识服务平台检索。
上海图书馆会议资料数据库
1995年与上海图书馆合并的上海科技情报所,自1958年起征集入藏各种科技会议文献,形成专业收藏,现提供1986年至今的会议资料检索服务。
检索方法:可选择文献题名,论文篇名,个人责任者,会议名,会议地点,日期/分类等检索途径之一进行检索,并且提供全文复印服务。
CALIS学术会议论文库
收录来自于211工程的61所重点学校每年主持的国际会议论文。其中大多数的会议提供正式出版号的会议论文集,访问者如需获取全文,可采用馆际互借和文献传递的方式。
中国会议网、中国学术会议在线等专业网站,会议站点等
国外会议文献的检索
ISI会议录数据库(WOSP)
美国科学情报研究所(ISI)的ISI Web of Knowledge检索平台将科技会议录引文索引和社会科学会议录索引集成为ISI Proceedings,收录进ISI Web of Science数据库,简称为WSOP。汇集了世界上最新出版的会议论文资料。
会议论文索引(CPI)数据库
《会议论文索引》由美国数据快报公司于1973年创刊,原名为《近期会议预报》,1978年改为现名,月刊。及时提供有关科学、技术和医学方面的最新研究进展信息。《会议论文索引》现刊本括分类类目变表,会议地址表,正文和索引几部分。
美国会议论文索引数据库是《会议论文索引》的网络版数据库,收录了1982年以来的世界范围内会议和会议文献的信息,提供会议论文和公告会议的索引。
2. 学位论文的检索
学位论文概述
概念
学位论文是伴随着学位制度的实施而产生的,是高等院校或科研机构的毕业生为获取学位资格而撰写的学术性研究论文。
特点
⑴内容专一,具有独创性:学位论文,尤其是博士学位论文,一般探讨的课题比较专深,往往包含重要的情报或新颖独创的学术观点,具有重大的参考价值。
⑵出版形式特殊:学位论文的目的只是供审查答辩之用,多数不公开发行,而是以打印本的形式保存在学位授予单位的图书馆或其他规定的收藏地点。
⑶数量庞大,管理分散:随着学位教育规模的日益扩大,世界各高等院校或科研机构每年会产生大量的硕士,博士学位论文,这些学位论文一般分别收藏在各授予单位或指定地点,搜集起来比较困难。
分类
⑴根据授予学位的级别,可分为学士论文,硕士论文,博士论文;
⑵根据学位申请者所学的学科和专业,学位论文有社会科学学位论文,自然科学学位论文之分;
⑶按授予单位的国别区分,学位论文包括国内学位论文和国外学位论文;
⑷按学位论文的语种可分为中文学位论文,日文学位论文,英文学位论文等。
国内学位论文的检索
传统检索方法
查阅印刷型工具书,如:《中国学位论文通报》《中国博士学位论文提要》等。
网络检索方法
一是综合性或专业性的检索工具,如:《化学文摘》《科学文摘》都收录了各自领域的学位论文;
二是专门的学位论文检索工具,如:国际学位论文提要、CNKI中国优秀博硕士论文全文数据库、万方中国学位论文数据库、CALIS高校学位论文库等;
三是高校图书馆学位论文收藏机构的网站提供本机构收藏的学位论文的数据库,如:北京大学学位论文数据库,清华大学学位论文服务系统等。
国外学位论文的检索
PQED博/硕士学位论文数据库(ProQuest)
是世界上最大和使用最广泛的国际性学位论文文摘索引数据库。提供包括中文在内的18种检索语言,主要通过浏览,基本检索,高级检索三种方式实施检索。
NDLTD学位数据库
谁有美国国家自然科学基金支持的一个网上学位论文共建共享项目。利用OAI的学位论文联合目录,为用户提供免费的学位论文文摘,还有部分可获取的免费学的论文全文。
3. 专利文献的检索
专利与专利文献概述
概念
专利:是指在建立了专利制度的国家,其专利主管部门依照法律授予专利申请人的一种受法律保护、技术专有的权利。专利通常包括三层含义:专利权、专利发明、专利文献。
专利文献:是实行专利制度的国家及国际性专利组织在审批过程中产生的官方文件及其出版物的总称,是一种集技术性,法律性和经济性于一体的重要情报源。广义的专利文献主要有以下几种类型:专利说明书,专利公报,专利分类法。
(知识产权:是指人们就其智力劳动成果所依法享有的专有权利,通常是国家赋予创造者对其智力成果在一定时期内享有的专有权或独占权。)
专利文献的特点
⑴内容详尽,技术新颖。
⑵文献量大,涉及领域广泛。
⑶传播迅速,重复报道量大。
⑷内容有局限,在技术上比较保守。
专利文献检索的种类
查新检索:通常又称新颖性检索,先进性检索或授权前景检索。通过检索专利文献,可以判断某技术主题是否具有《专利法》中规定的吸引性和创造性,
专题检索:是针对某技术主题进行世界范围的专利和非专利文件检索,检索出所有相关文献。
同族专利检索,通过检索可以了解同一主题的技术在多个国家申请专利的情况,以确定这一专利的区域保护范围。
法律状态检索:其包括专利的侵权检索,有效性检索。
跟踪检索:对某专业进行定期跟踪,可以了解相关技术的发展方向,掌握最新的专利信息。
专利文献的印刷型检索工具
英国德温特专业文献检索工具
英国德温特公司是世界著名的专利文献出版机构,创立于1951年。
该公司出版的《世界专利文献检索工具》是世界上报道范围最广,规模最大,检索体系最完善的专利文献检索工具。它以题录和文摘等形式,使用英语对世界上三十多个国家和地区、两个国际专利组织及两种国际专利出版物中的专利信息按国别、分专业进行报道。
其出版迅速,载体多样,除印刷型检索工具外,还有缩微胶卷,磁盘和光盘数据库等形式,被世界各国普遍采用。
《中国专利公报》
《中国专利公报》包括《发明专利公报》、《实用新型专利公报》和《外观设计专利公报》三个分册。
它以文摘或题录形式报道一周内出版的专利的公开说明书,审定说明书,授权公告及发明专利事务公告。
每周更新,旨在快速报道我国近期专利情况,可以通过专利公报掌握我国最新专利的情况。
《中国专利索引》
为了方便我国专利文献的回溯检索,国家知识产权局出版了《中国专利索引》。该索引报道累积期内发明专利,实用新型专利和外观计专利三种专利的公开、审定、公告及授权等项目,现为季刊。
《中国专利索引》现分《分类号索引》《申请人、专利权人索引》和《申请号、专利号索引》三册出版。用户可通过查询任一种索引获得分类号,发明名称,申请号,专利号,申请人或专利权人以及相应专利公报的卷、期号等。
中国专利信息的检索
检索方式
一是通过印刷型检索工具,如《专利公报》、《中国专利索引》、《中国专利文摘》等;
二是通过光盘型检索系统,如中国专利文摘数据库,中国专利说明书数据库等;
三是利用网络型检索系统,如中国知识产权局专利检索系统,中国专利信息网,中国知识产权网,CNKI中国专利数据库等。这部分专利数据库、知识产权和专利网站是经常使用的专利信息检索方式。
网络检索系统的优势
专利信息资源的网络检索系统在检索空间上大大超越了传统的专利检索工具的检索范围,不仅数据资源丰富,许多专利数据库还能提供专利说明书全文等有价值的信息;
同时,专利信息资源网络检索系统统提供多语言检索,检索效率高,不受时间和空间限制,检索的时效性强,;
此外,专利信息资源网络检索系统提供分类浏览,简单检索,选单检索等多种检索方式,还提供在线帮助、操作指南等多项辅助功能。
国外专利信息的检索
美国USPTO专利数据库
USPTO专利数据库是美国专利与商标局(USPTO)提供的网上专利数据库,其通过internet提供美国专利的书目、文摘以及包括附图在内的专利说明书全文等信息的检索服务,数据每周更新。
可分为授权专利数据库和专利申请数据库两部分。
Derwent系列数据库
Derwent系列专利数据库是由全球最权威的专利文献出版机构,Derwent公司推出的,是目前检索功能最强大的专利数据库,主要提供以下三个数据库的检索服务。
⑴德温特世界专利索引(WPI):是全球最权威的、高附加值的深加工专利数据库,主要收集来自全球41个工业化国家地区和两个国际专利组织的专利,可向用户提供世界各主要机构发布的专利说明书。他采用国际专利分类法编制专利分类体系,全部是英文文摘。
⑵德温特专利创新索引(DII)。是由德文特公司推出的基于Web的专利信息数据库。它将德温特世界专利索引(WPI)与专利引文索引(PCI)加以整合,提供全球专利信息服务。
⑶Derwent Discovery
4. 科技报告的检索
科技报告概述
概念
科技报告:又称研究报告或技术报告,其是关于科研项目或科研活动的正式成果报告或研究过程中的实际记录,是科研机构,科研单位,专业学术团体或个人以书面形式向提供经费和资助的部门或组织汇报其研究设计或项目进展情况的报告。
类型
⑴按内容划分:可分为基础理论研究报告和工程技术报告两大类;
⑵按形式划分:可分为技术报告,技术札记,技术论文,技术备忘录,通报,技术译文,合同户报告,特种出版物,其他等;
⑶按研究进展程度划分:可分为初步报告,进展报告,中间报告和终结报告;
按流通范围划分:可分为绝密报告,机密报告,秘密报告,非密限制发行报告,非秘报告和解密报告。
特点
⑴内容新颖,专深具体;
⑵对新的科技成果反应迅速;
⑶种类多,数量大;
⑷出版形式独特。
中国科技成果的检索
万方中国科技成果数据库
中国知网的国家科技成果数据库
航空科技报告文摘数据库
国研报告
国家科技图书文献中心
美国政府四大科技报告及其检索
美国政府四大科技报告
⑴PB报告
二战后,美国为了整理从战败国获取的内部科技资料,成立了商务部出版局(PB),每份资料都冠以美国商务出版局英文名称的首字母PB,故称为PB报告。PB报告的收录范围几经变化,现在发展到侧重于民用工程技术方面。
⑵AD报告
AD报告产生于1951年,原为美国军事技术情报局的科技报告,有统一编号。后改为国防技术情报中心,继续沿用AD编号,收藏、报道国防研究与发展成果的报告。
⑶NASA报告
NASA报告侧重于航空和航天技术方面,是美国国家航空和航天局(NASA)出版的科技报告,有统一编号。
⑷DE报告
原称DOE报告,是由美国能源部(DOE)及其所属科研机构、能源情报中心,公司,企业,学术团体发表的技术报告文献侧重于能源及其应用方面。
美国四大科技报告的印刷型检索工具
四大报告的检索工具——《政府报告通报与索引》
GRA&I以文摘形式报道美国政府机构及其合同户提供的研究报告和科技文献,是查找四大科技报告的主要检索工具。报道全部PB和AD报告,部分NASA报告和DE报告。
NASA报告的检索工具——《宇航科技报告》
STAR是查找NASA报告的主要检索工具,是由美国国家航空和航局情报处版的综合性文摘刊物,是检索四大报告的辅助工具。
DE报告的检索工具——《能源研究文摘》
ERA由美国能源部科技情报局编辑出版的能源研究文摘是检索第一报告的主要工具。主要以文摘的形式报导美国能源部所属各实验室、研究中心和合同户提供的研究报告。
美国四大科报告的网络检索
NTIS系统
由美国国家技术情报服务处NAIS提供,是美国《政府报告通报与索引》的网络版,主要用检索美国政府的四大报告。
STINET数据库
美国国防情报中心报告数据库(STINET)通过国防技术情报中心科学技术网络服务器提供免费检索服务。
NASA technical reports Server(NTRS)
用来检索航空航天方面的科技报告,可以浏览并检索报告的摘要和全文。
5. 标准文献的检索
标准文献概述
概念
标准文献:是按照规定程序编制,并经过一个公认的权威机构批准的,供在一定范围内广泛而多次使用,包括一整套在特定活动域必须执行的规格、定额、规划、要求的技术文件所组成的特种科技文献体系。
特点
⑴具有统一的产生过程和专门的编写格式,叙述方法;
⑵具有明确适用范围和用途;
⑶具有法律约束力;
⑷具有时效性;
⑸具有协调性。
种类
⑴按使用范围划分:国际标准,区域标准,国家标准,行业标准,地方标准,企业标准。
⑵按内容及性质划分:技术标准,管理标准。
⑶按法律约束程度划分:强制性标准,推荐性标准。
中国标准文献的检索
传统检索工具
《中华人民共和国国家标准目录》
其收录全部现行国家标准信息,同时补充被代替,被废止国家标准目录,以及国家标准修改,更正,勘误通知等相关信息。
《中国标准化年鉴》
其内容包括国标准化事业的现状,国家标准分类目录和标准序号索引三部分。
《中国国家标准汇编》
该汇编是一部大型综合性国家标准全集。其收集了我国正式公开发布的全部现行国家标准。
《国家标准代替、废止目录》
其提供国家标准的最新代替、废止和转化信息。
《中国标准导报》
是集政策,学术,技术,信息于一体的标准化综合性刊物。
《世界标准信息》
以题录形式介绍最新国家标准,行业标准,“台湾”标准,国际和国外先进标准,以及国内外标准化动态。
网络检索工具
万方中外标准数据库
该数据库收录了国内外的大量标准,包括中国国家发布的全部标准,某些行业的行业标准以及电气和电子工程师技术标准;收录了国际标准数据库,美英德等的国家标准以及国际电工标准;还收录了某些国家的行业标准等。
CNKI中国标准数据库
中国标准数据库收录了由中国标准出版社出版,国家标准化管理委员会发布的1950年至今所有的国家标准,占国家标准总量的90%以上。
国家标准化管理委员会网站
中国国家标准化管理委员会是国务院授权的履行行政管理职能,统一管理全国标准化工作的主管机构。其网站提供了比较系统的国家标准检索数据库。
国家标准文献共享服务平台
”标准文献共享服务网络建设”是国家科技基础条件平台的重点建设项目之一,属于国家级标准信息服务门户,是世界标准服务网的中国站点。可查询的标准数据库有中国国家标准,ISO国际标准、IEC、ANSI、DIN等标准数据库。
ChinaGB国家标准频道
该网站是中国最大的标准咨询服务专业网站,提供中国国家标准,行业标准,地方标准,国际标准,外国标准的全方位咨询服务。
国外标准文献的检索
国际标准化组织ISO
国际电工委员会IEC
美国国家标准ANSI
日本工业标准JIS
英国标准BS
德国标准DIN
第八章 数据与事实型信息的检索
1. 数据与事实型参考工具书
⑴参考工具书的定义和特点
定义
印刷型参考工具书:简称参考工具书,是根据一定的社会需要,以特定的编排方式和检索方法汇编某学科或特定范围的知识和资料,专为人们解决疑难和提供数据或事实信息为目的,是作为工具使用的专供查考的特定类型的图书。
特点
⑴信息内容的专供查考性
⑵条目的简明概述性
⑶编排的特殊易检性
⑷内容的权威可靠性
⑵参考工具书的主要类型、结构和排检方法
种类
字典、词典、百科全书、年鉴、传记、资料、手册、名录、指南、表谱、图录、资料汇编等。
结构
说明、目录、正文、附录和索引
排检方法
字顺法、分类法、主题法、自然顺序法、字母法
⑶参考工具书的检索步骤
①分析检索课题,确定检索工具
②查看编排结构
③查找详细内容
2.数据与事实型数据库
数据与事实型数据库的特点和类型
数据型数据库
也称为数值型数据库,是指以各种调查和统计数据为存储对象,专门提供以数字方式表示数据的一类数据库。
事实型数据库
是指以各种有检索和利用价值的事实信息为存储对象的一类数据库,数据库信息来源于百科全书,字典,人名录、机构名录等。
特点
①内容丰富完整,链接广泛
②使用灵活方便
③数据更新快,服务功能强大
类型
⑴字典、词典
字典词典是人们最熟悉和常用的一种参考工具,它们是汇集语言和事物名词等词语,按一定的次序编排,以供查找字词的读音,拼写,语法,词义,用法等的工具。按照收入条目的内容范围可分为语言词典,综合性词典和专科性词典。
⑵百科全书
百科全书:是指收录了各个知识门类的知识,或者系统而完备地概述了某一知识门类知识的大型参考性工具,是最完备的参考工具,有“工具书之王”的美誉。百科全书系统扼要的阐释了各学科基本知识和重要研究成果,对某一学科提供定义,原理,方法,历史,现状,统计数字和参考资料等多方面资料,为人们提供系统全面的知识信息。
特点:内容的权威性,释文的全面性,检索系统的完备性,参见系统的完整性,修订制度的完善性。
古代的百科全书主要分为:类书和政书
类书:是我国古代一种大型的资料性书籍。辑录各种书中的材料,按门类、字韵等编排以备查检。
政书:是指主要记载典章制度沿革变化及政治、经济、文化发展状况的专书。由于它具有工具书的某些性质、特点,故人们也将其归入工具书的范畴。
⑶年鉴
年鉴:是一种按年度出版,概述或反映上一年度内有关领域的重大事件,重大进展和重要成果,汇集重要文献,详尽数据和统计资料的连续出版物。按照内容可分为综合性年鉴,专科性年鉴,统计性年鉴和地域性年鉴。
⑷手册
手册是汇集某一范围内基础知识和基本数据资料,以便于人们在生产,科研,教学等具体工作过程中可以经常查证的实用便览型参考工具。
特点:主题明确,信息密集,资料可靠,携带方便,实用性强。
⑸名录
名录包括人名录,地名录,机构名录等,是一种专门对人物,地名,组织机构等的名称及其相关信息进行汇集并予以简要揭示,介绍,用于查找的参考工具。
⑹表谱
表谱是一种以表格或其他较为整齐简洁的格式,辅以简略的文字来记录史实,时间,地理沿革等资料的参考工具。
表谱主要有年表和历表两种类型。
年表是以表格的形式按年代顺序排列事件,专供查考历史年代,历史大事等资料。
历表是一种把不同历法的历日按一定的顺序编排在一起,组成相互对照的表格,以供查考和换算不同历法的年、月、日的参考工具。
⑺图录
图录是一种以图像,文字和符号形象,直观,简明清晰的反映客观事物特征的参考工具,包括地图,人物图录,文物图录,各种自然科学的学科图谱,技术科学的设计图集等。
⑻综合类数据库
综合类数据库包含了若干专业或多种类型的数据与事实性信息。
补充
⑴机构团体指南
机构团体指南:是指能正确指导读者检索有关机构团体信息资料的工具书。无论是对机构团体进行全面了解,还是对其进行数据和事实的咨询,都可通过机构团体指南或性质相同的工具书得到解决。
⑵传记资料
传记:主要记述人物的生平事迹,根据各种书面的、口述的回忆、调查等相关材料,加以选择性的编排、描写与说明而成。传记和历史关系密切,某些写作年代久远的传记常被人们当史料看待。
⑶地理资料
是指用于查考和研究有关地方的名称,简况,沿革,演变,历史,现状等的工具书。
⑷统计资料
统计资料,是指在统计活动过程中所产生的、反映国民经济和社会发展情况的统计成果以及与之相联的其他资料的总称。
⑸法规资料
第九章 网络信息资源的综合利用
科技查新
概念
科技查新:是具备查新业务资质的信息咨询机构查新人员,通过手工检索和计算机检索等手段,运用综合分析和对比的方法,为评价科研成果,科研立项等的新颖性提供文献查证结果的一种信息咨询服务工作。
程序
查新委托,受理查新委托和订立查新合同,文献检索,完成和提交查新报告,文件归档。
参考咨询服务
参考咨询服务(reference service):是指针对用户需求,以各类型权威信息资源为依托,帮助和指导用户检索所需信息或提供相关数据、文献资料、文献线索、专题内容等多种形式的信息服务模式。
数字参考咨询服务
数字参考咨询服务:指信息机构以网络为依托,以本地馆藏和广泛分布在网络上的数字化信息资源为基础,通过某些电子方式向用户提供不受时间和空间限制的参考咨询服务。主要形式有基于电子邮件的数字参考咨询服务,基于实时交互的数字参考咨询服务,合作数字参考咨询服务。
定题服务
定题服务:又称SDI服务,它是一种根据读者需求,一次性或定期不断地将符合需求的最新信息传送给读者的服务模式。又指信息机构根据用户需求,通过对信息的收集、筛选、整理并定期或不定期地提供给用户,直至协助课题完成的一种连续性的服务。
学位论文
概念
学位论文是学位申请者为获得学位而提交的学术论文,它集中反映了学位申请者的学识,能力,和所作的学术贡献,是考核其能否毕业和授予相应学位的基本依据。包括学士学位论文,硕士学位论文和博士学位论文。
特点
立论客观,具有创新点;论据翔实可证,具有科学性;具有学术性和逻辑性;体式明确,语言规范。
文献综述和开题报告是学位论文的重要组成部分
文献综述:是指在确定了选题后,再对选题所涉及的研究领域的文献进行广泛阅读和理解的基础上,对该研究领域的研究现状,新水平,新动态,新技术和新发现,发展前景等内容进行综合分析,归纳整理和评论,并提出自己的见解和研究思路的专题调研报告。特点是语言简洁,信息量大,评述客观,标题醒目。
开题报告:开题报告是指当毕业论文选题方向确定后,毕业生在调查研究的基础上撰写的报请专家委员会通过的选题计划,它是对毕业论文选题的一种文字说明材料。
补充
(一)美国化学文摘 CA
美国化学文摘社 《化学文摘》 CA是世界上最大、 更新最及时的化学文献信息库, 也是目前应用 最广泛、 最重要的化学化工及相关学科信息检索工具。
(二)美国生物学文摘 BA
美国生物科学信息服务社《生物学文摘》 BA 是检索生物学、 医学、 农学及其相关学科方面的重要工具。 BA 有多种出版形 式, 除印刷版外,还有光盘版和网络版。
(三) 美国工程索引 EI
EI是美国工程信息公司开发的基于网络的信息服务系统,在应用科学、 技术和工程研究领域有广泛影响。
(四) 英国 《科学文摘》SA
《科学文摘》 创刊于 1898 年, 现由英国工程技术学会和美国电气与电子学工程师 协会联合出版。 其数据库名称为 INSPEC 。 SA 主要报道的学科范围有物理学、 电气与电子学以及计算机与控制。
图书情报领域的学术期刊
《图书情报工作》《中国图书馆学报》《大学图书馆学报》《情报学报》《图书馆杂志》《图书馆论坛》《情报资料工作》《图书馆理论与实践》《现代图书情报技术》《情报科学》《档案学通讯》《档案学研究》
个人数字图书馆
个人数字图书馆:就是指个人为了读书治学,在自己的计算机上采用免费或基本免费的全文数据库软件,将有关的网上信息和自创的数字化信息资源进行采集、存储,使之成为有组织的信息集合。个人数字图书馆是数字图书馆的一种类型,是最贴近用户个性化需求的数字图书馆。