导图社区 信息检索 第三章
信息检索 第三章,检索语言知识点总结,详细的总结了检索语言概述,解锁语言的理论基础。分类检索语言,主题检索语言。
编辑于2022-07-08 10:34:00第三章 检索语言
检索语言概述
22、检索语言的概念
检索语言有广义、狭义之分。 ①广义的检索语言泛指信息检索过程中涉及的人工语言和自然语言。人工语言是根据一定的规则人为编制而成的检索语言,它有着严格的使用规则,可用于表述文献主要内容,建立信息检索系统。自然语言是人类交流时使用的语言,不受任何限制,未经加工和规范。将自然语言用于检索,更符合用户日常表达的习惯,也显现出信息检索系统的易用性和亲和力。 ②狭义的检索语言仅指根据信息检索的需要,按照一定规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言。
23、检索语言的功能
(1)标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性 检索语言是标引人员对信息内容特征以及部分外表特征进行描述的重要依据,信息标引人员在分析信息的基础上,用检索语言将文献的内容特征和外表特征表述出来,形成信息标识,比如分类号、主题词等,然后将标引记录存放在系统中,以供用户检索使用。信息标引是一个群体行为,只有共同依据检索语言,才能保证标引的一致性。 (2) 对内容相同及相关的文献信息加以集中或揭示其相关性 检索语言采用等级结构、参照系统等显示概念之间关系的方法,来实现对内容相同及相关的信息加以集中或揭示其相关性的功能。等级结构是显示概念之间关系的一种最重要的方法,它将各种概念按相关性排列成一个具有隶属关系、并列关系的秩序井然的概念等级体系,包括体系分类表、分面类表、词族索引等;参照系统是主题法系统各种语言显示概念之间关系的主要方法,其功能是将具有相关性但因为按照字顺排列而被分散在各处的概念联系起来,参照系统可以显示事物概念之间的全部等同关系、一部分等级关系 (主要属种关系)和全部相关关系。 (3)使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行有序化检索 检索语言将表达成千上万个信息主题概念的全部信息标识排列成一个有序的系统。排列信息标识的方法主要有三种:分类排列法,用于号码标识系统;字顺排列法,用于语词标识系统和代码标识系统;分类和字顺结合的排列法,即先按照分类排,再按字顺排 ,用于语词标识系统(如分类主题目录等)。
24、检索语言的分类
(1)按照描述文献的特征,分为描述文献外表特征和描述文献内容特征的检索语言(信息组织:16) ①描述文献外表特征的检索语言 文献外表特征主要指文献的篇名(题目)、作者姓名、出版者、合同号、报告号、引文等,据此作为文献标识和检索依据而形成的检索语言称为描述文献外表特征的检索语言 ,如题名索引、著者索引、合同号索引、报告号索引、引文索引等。 ②描述文献内容特征的检索语言 描述文献内容特征的语言指主要依据文献内容特征而形成的检索语言,这是检索语言研究的核心部分,具体有分类语言、主题语言和代码语言。 分类语言—体系分类语言、组配分类语言 主题语言—标题词语言、关键词语言、单元词语言、叙词语言 代码语言—分子式、结构式索引、专利号索引等 (2)按结构或原理可分为分类语言、主题语言、代码语言和引文语言 ①分类语言用分类号来表达各种概念,将各种概念按学科性质进行分类和系统编排。分类语言包括等级体系分类语言(体系分类法)和分析-综合分类语言 (组配分类法)。 ②主题语言是采用表达某一事物或概念的名词术语,用于标引、存储、检索的一种检索语言。 ③代码语言一般只是就事物的某一方面特征,用某种代码系统来加以标引和排列。 ④引文语言是利用文献之间的相互引证关系而建立的一种自然语言,其标引词来自文献的主要著录项目。它具有选词方便、词汇丰富等特点。这种方法提供了从被引论文来检索引用它的全部论文的途径。 (3)按语言的规范程度,可分为人工语言和自然语言 人工语言有主题法(标题词、单元词、叙词、关键词)和分类法(体系分类法、组配分类法)和某些代码(语义代码、化学代码等)等种类;自然语言是直接取自文献信息本身,不经加工或规范的词语或句子。
25、检索语言的理论基础
(1)概念逻辑
26、概念间的关系
(1)相容关系 ①同一关系是指外延相同而内涵不同的概念之间的关系。具有同一关系的概念之间绝大多数是同义词,学名与俗名、同一产品的正式命名与简写等等。 ②属种关系是指概念之间的外延呈包含与被包含的。 ③交叉关系是指有部分外延相重合时概念间的关系。两个交叉概念外延重合的部分一般会形成一个新概念 ,其内涵等于两个交叉概念内涵之和,这个新概念对原来两个概念中的任何一个来说,都是下位概念。 ④整体与部分关系是指一个概念表示某一事物,而另一个概念表示该事物的某一部分。 ⑤全面与某一方面关系是指一个概念表示某一事物的全部问题,而另一概念表示该事物的某一方面的问题。 ⑥不相排斥的并列关系是指同一属概念下,两个以上同级种概念之间的交叉关系。(书法家、文学家、军事家) (2)不相容关系 ①互相排斥的并列关系是指同一属概念下,两个以上外延完全不同的种概念之间的关系。 ②矛盾关系是指外延完全不同,其外延总和等于其上位概念全部外延的概念之间的关系。(金属材料+非金属材料=材料) ③对立关系是指外延完全不同,其外延总和小于其上位概念全部外延的概念之间的关系。(17世纪哲学+18世纪哲学<=近代哲学)
27、概念逻辑方法
(1)概念的划分与概括(分类) 利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形成新的概念,概念内涵与外延成反变关系等性质,对概念进行划分(缩小)或概括(扩大),形成更为专指或更为泛指的新概念,并利用划分或概括过程中所产生的概念隶属关系和并列关系,建立某种形式的检索语言结构体系,即概念等级体系,用以显示客观世界千差万别的事物之间的内在联系。 (2)概念的分析与综合 利用在概念的交叉关系中两个概念外延的相同部分可以形成一个新概念,其内涵等于原来两个概念内涵之和,并且它与原来的两个概念具有隶属关系的这种性质,进一步发展为将一个内涵较深的概念分解为两个或两个以上内涵较浅的概念,以及将两个或两个以上内涵较浅的概念合成为一个内涵较深的概念的一种概念逻辑方法,用以建立另一些形式的检索语言结构体系,即概念组配体系。
(2)知识分类
知识分类其实质是划分知识单元、组织知识体系,包括学科分类和事物分类。知识分类应当遵循的两条基本原则是客观性和发展性。客观性原则即对学科或事物进行划分和组织时,应依据知识对象固有的、客观存在的区别和联系。发展性原则是指知识分类应按照学科或事物的发展规律,将知识对象由低级到高级、由简单到复杂进行划分和组织。
(3)术语学
术语是在特定学科领域用来表示概念的称谓的集合,检索语言是由概念标识系统组成的,而概念是由术语来表达的,因此,术语是分类表 、词表的基本组成要素,检索语言其实就是一个经过精细组织的术语集。
分类检索语言
28、分类检索语言概述
分类检索语言也称分类法,是将许多类目根据一定的原则组织起来,通过标记符号 (分类号)来代表各级类目和固定其先后次序的分类体系。它是直接体现知识分类的概念 标识系统,是对概括文献信息内容及某些外表特征的概念运用逻辑方法进行系统排列而构成的。
29、分类检索语言的类型
1.体系分类法 信息检索中常用的分类语言是体系分类法,也称等级列举式分类法。体系分类法 是基于概念的划分与概括,以学科分类为基础,把概括文献内容与事物的各种类目组成一个层层隶属、详细列举的等级结构体系。 2 . 组配分类法 组配分类法又称分面分类法或分面组配分类法,是基于概念的可分析性和可综合性, 即复杂的主题概念可以分析为若干简单的主题概念,若干简单的主题概念可以综合表达 复杂的主题概念,将一个复杂的文献主题概念用若干个表达简单概念的标识组配来表达 的一种文献分类法。
体系分类法
组配分类法
30、体系分类法的微观结构
微观结构指分类法中类目的构成结构,按照类目之间的关系建立起来的类目集合称为类目体系。类目体系是分类法的核心, 它的建立涉及类目的划分、引用次序、类目的排列、类名的确定、类目之间相互关系的 处理等。 (1)类目的划分。 类目划分是把一个类目分为若干个小类,从而揭示这个类目外延的逻辑方法。 (2)引用次序。 引用次序在体系分类法中表现为分类标准的使用次序,当某一类事物连续划分需要 采用几种分类标准时,分类标准的使用次序是否合理,对分类体系有直接的影响,决定着类目体系展开方式。 (3)类目的排列 (4)类名的确定。 类名是体系分类法的“语词”,起着表达类目含义的作用。类名的选择确定应坚持科学性、确切性、简洁性。 科学性指采用比较通行的科学名词术语作为类名,一般不采用不通行的同义词、俗称、旧称、不能准确表达全称原义的简称、不通行的译名、近义词等作为类名。如有必 要,可将同义词、俗称、旧称等用括号加注于类目名称之后。例如,《中国图书馆分类 法》中的“B81逻辑学(伦理学)”“B82伦理学(道德学)”等。 确切性指类名要能准确地、恰当地反映类目的实际内容范围。不能使用概念外延大 于或小于类目实际范围的词或词组作类目名称。 简洁性指所用的类名要尽量概括、精练、简短,避免冗长拖沓。同时类名还要做到规范化。 (5)类目之间相互关系的处理。 分类法是依赖于类目之间的相互关系建立起来的。在体系分类法中,类目之间的基 本关系主要有从属关系、并列关系、交替关系和相关关系。
(1)类目的划分
(2)引用次序
(3)类目的排列
(4)类名的确定
(5)类目之间相互关系的处理
31、体系分类法的宏观结构
(1)类目体系
基本部类
基本大类
简表
详表
(2)标记系统
(3)说明与注释
(4)类目索引
主题检索语言
一、发展沿革
二、《中分表》印刷版的结构
三、电子版的结构与功能
四、第二版的评价
分类主题一体化检索语言
网络信息检索语言