导图社区 信息检索原理-第四章
华中师范大学情报学考研初试参考书,词汇控制,详细的总结了词汇控制的原则,词汇控制的内容,词汇控制工具,词表评价体系,受控词表的使用。
编辑于2022-06-04 12:20:10词汇控制
词汇控制的原则
总原则
词汇控制的内容和方法,应以作为信息存储与检索之间的语言沟通为出发点,以提高信息检索与存储的效率为目标。
具体原则
正确性
检索语言的词汇应当科学,表义准确使用普遍,而且要符合本国语言的 构词法以及有关语言、文字方面的规定,这是词汇控制的基本原则。
单义性
单义性也称专指性,在词汇控制时所选择的词汇在原则上要求一个语词 只能够表达一个确切的概念,一个概念只能用一个语词表达,而不能一词表达多 个主题概念或多个主题概念用一个词来表达。
简明性
在进行词汇控制的时候,所选择的词汇应当精炼,不应过长,应尽可能 简短明了,易于阅读和记忆,并且具有存储的容易性和检索的方便性。
兼容性
兼容性也就是说在词汇控制的时候要使某一学科或专业的词汇尽可能与 综合性词表、上属学科或专业词表、相关或邻近以及交叉学科的词表兼容,通过 词汇的兼容与互换,增强词汇的适用性。
系统性
为了能够表达词汇之间的属种关系,平行并列关系、整体与部分关系、 因果关系等,揭示词汇在整个体系中的确切含义,要求在词汇控制时,要做到信 息存储与检索语言的词汇具有一定的层次结构性,也即系统性。
稳定性
随着科学技术的进步和发展,新学科、交叉学科会不断涌现,词汇在数 量和用法方面也会不断发生变化。但是词汇控制的决定一旦做出,就应该尽量保 持相对稳定、连续和前后统一。 除了上述基本原则以外,词汇控制中的词汇选择还应考虑到族性原则,即在同义词、 近义词、准近义词中选用的词汇应当易于字面成族,具有较强的构词能力。
词汇控制的内容
概述
词汇控制实质上是把自然语言加工成情报检索语言的情报过程。 包括词量控制、词类控制、词形控制、词义控制、词间关系、先组度控制、句法关系等内容。
具体内容
词量控制
定义
所谓词量控制也就是对词表所收词汇的数量的控制。使其既能满足使用的需要,又简洁实用。
方法
词汇组配
也就是根据概念可分析可综合的原理,将复杂的概念分解为基 本的语素单位,然后通过语素单位来表达复杂的主题概念。从而缩小了 词表
词汇置代
也就是用上位词代替若干较为专指的下位概念,或者用正式概 念置代非正式概念,从而达到缩小词表规模的目的。
语义分解法
如“男生公寓”可分解为“男性"+“公寓”“女生公寓” 可分解为“女性"+公寓”,这样此表中只要收录“男性”、“女性”、 “公寓”。
词汇合理选择
在选择词汇时,多收录核心词汇和组配能力强的词汇,少 收录先组式的复合词汇。
词类控制
定义
所谓词类控制也是对词表所收词汇的种类的控制。
方法
确定选词范围
用于标引和检索的名词、名词性词组一般在以下范围内进 行选择: 1)表示具体事物的名词术语。(桌子、板凳) 2)表示具体事物的材料的名词术语。(木材、塑料、钢铁) 3)表示事物性质、现象、状态、过程等方面的名词术语。(导电性) 4)表示事物的研究方法、工艺等方面的名词术语。(调查、总结) 5)表示学科门类的名词术语。(科学、化学、物理学) 6)表示文献类型的名词术语。(百科全书、词典、字典、期刊)
设置停用词表
将不具备标引和检索意义的词类如介词、副词、感叹词等集 中列于停用词表中,以便计算机进行自动词类识别和选词,达到自动词类 控制的目的。
词形控制
定义
所谓词形控制,也就是说根据主题标引和检索的需要对字面形式不同, 但含义相同的词汇加以控制,也就是使一个主题概念只具有一个语词形式。
方法
控制语词形体
无论是全称与简称还是繁体与简体都一律以通行的字体为 标准。也就是说,用大家公认的名词术语作为标引和检索用词。
控制外来语和数字的用法
对于外来语,一般选用较为通用的译名作为标引 和检索用词,但如果外来语更为常用,也可直接用于标引和检索,如 Java 语言等。 对于数字,根据情况可以适当地选作标引和检索用词,如 U235 等。
控制外文的词形
对外文的单复数进行控制。
控制词序
一般来说采用自然词序,而不采用倒置形式。
控制语词长度
为了便于排检和计算机处理,一般规定语词长度不超过 14 个汉字,所以若语词的长度过长,可以使用简称、缩写、分解等方法来处 理,使其保持在规定长度内。
词义控制
概述
所谓词义控制,也就是对多义词或同形异义词加以控制,使其意义明 确、含义单一。 进行词义控制的原因是因为自然语言中不仅存在着许多的多义词、 异义词,而且由于在自然语言中经常使用比喻、借喻、转喻等多种手段表达语义, 造成词汇含义模糊,往往需要通过上下文才能判断他们在文中的确切意思,而我 们用于标引和检索的语词则往往是脱离上下文而单独使用的,为避免语义上的混 乱,词义控制也就不可避免。
方法
加限义词
就是在主题词后面加上限制词汇使用范围、明确词汇含义的限义 词,以达到意义明确、含义单一的目的。
加注释
就是在主题词后面加上对其含义和范围做出解释和说明性质的词 汇,达到含义单一和明确的目的。主要有三种类型的注释: 含义注释(对语词的含义或包括范围作出说明)、 用法注释(为保证语词的正使用而作的 说明)、 历史注释(用于说明语词收入词表的时间及变化情况,从使用沿 革的角度显示该语词与相关语词的关联情况)。 注释比限义词更为灵活自 由,可以更为清晰的说明语词的含义和用法,提高标引和检索的一致性和 准确性。
加定义
就是对主题词给出一个确切的定义,达到明确词义的目的。
词间关系控制
概述
:所谓词间关系控制,也就是对语词之间的等同关系、属分关系和 相关关系等加以控制,以形成一个便于揭示词间关系的语义网络。 词间关系控制 的目的在于形成一个术语体系,有助于参照系统的编制,揭示词间关系和明确词 义,以及扩大、缩小或改变检索的范围。
方法
分类方法
即把分类法的因素引入主题法,甚至直接引入一个 详细的或粗略的分类表。
图示方法
即直接绘制同心圆图、箭头图、树形结构图等图 表,直观、清晰地显示词间关系。
先组度控制
所谓先组度的控制,也就是对语词先组程度的控制。一个复合概念 既可以用两个或两个以上的单一概念的组配形式表达,也可以用先组的形式(即 复合词)直接表达,因此在词表编制过程中对复合词的选定和分解,就是词汇的 先组度控制。
句法关系控制
概述
所谓句法关系控制也就是按照事先确定的句法关系,把若干词汇 组合起来表示某一特定论题,以避免产生语义含混现象。
方法
规定引用次序
定义
就是指在对复合主题进行标引和检索时,规定各个主题因素 的组合或排列顺序。
代表
显著性引用次序
主要是根据长期标引实践经验发展起来的引用次序模 型,是一种经验模型是根据主题概念对用户心理映像的显著程度而确 定的次序。(事物部件材料-活动实施者)
范畴职能引用次序
是指将各种主题概念首先分为范畴,然后按照范畴 的性质、职能确定的组配顺序。
上下文引用次序
其特点是舍弃将最显著的语词置于款目首位的传统做 法,而是依据上下文从属原则拟定标引语句。
控制符号
控制符号也称句法控制符号,它能够有效地揭示主题词之间的语 义关系。这种控制符号主要有联系符号、职能符号、加权符号。
轮排
所谓轮排、就是说将检索语句中每一个有检索意义的语词轮流在排检 语句中出现,并对句子中其他语词做出相应处理的方法。 常见的轮排方式:简单轮排,词对轮排,转动轮排,结构轮排。
词汇控制工具
分类词表
①《杜威进分类法》;②《国际进分类法》;③《冒号分类法》;④《中 国图书馆分类法》
主题词表
①《医学标题表》;②《汉语主题词表》
分类主题一体化词表
所谓分类主题一体化词表,是指分类系统与主题系统实现完全 兼容,既能充分发挥各自特有的功能,又能相互配合,发挥最佳的整体效应。
词表评价体系
词表评价的原因
在信息组织与检索中,词表是用来揭示信息资源内容,组织信息检索系统的 重要工具。一般来说,决定信息检索质量和效率的因素有四个:检索语言的质量、 标引质量、检索质量以及其他因素。但检索语言的质量起着最为重要的作用。 我们 之所以进行词表性能的评价是因为: ①在对词表进行评价的过程中,往往会发现词表在标引和检索过程中存在各种缺 陷和不足,这为词表进行更新和维护提供了真实可靠的依据和理论基础。 ②通过对词表进行评价,我们可以把握词表在多大程度上能够满足标引和检索 的需要,这为词表以后的完善指明了方向和提供了依据。 ③通过词表的评价,可以得出各个词表性能上的优缺点,从而为用户根据不同 的需要选择恰当的词表提供了依据。
词表评价的标准
1)是否具有较高的检全率和检准率。 2)是否能满足多种检索要求。 3)是否易于信息标引和易于信息检索。 4)能否适应先进的检索方式和检索设备,适应多种检索方式和检索设备 5)能否适应多种学科和多种类型的文献。 6)能否适应图书馆和信息机构各个工作环节。 7)是否具备兼容性和通用性,以及兼容性和通用性程度。 8)是否具备进行现代化改造的可能性。
词表的宏观评价
词表的宏观评价也就是对词表整体结构的评价,词表的结构决定着 词表的功能的发挥,要想使词表具有良好的性能,就必须使词表具备结构上的完备 性和严密性。一般包括以下内容: ①在受控词表中各组成部分之间相互参照、相互指引的程度。 ②受控词表的结构特性支持标引和检索能力。 ③受控词表的结构与功能的效益。 ④受控词表在结构设计上的难易程度和进行维护的难易程度。 ⑤受控词表易于用户使用的难易程度。
词表的微观评价
定义
词表的微观评价也就是对词表中的受控语词的评价。
主要内容
对词表中受控语词的数量也即词表体积的评价
词表中所收录的语词既要能满足标引和检索的需要,又不能使词表的体积过 于庞大。词表中词量太少不能满足标引人员和检索用户的需要,而词表体积 过于庞大,会增加词表维护和管理的费用,降低词表的效益。
对词表中等同率的评价
等同率=入口词数/叙词数。等同率越高,选词就越方便,越能保证标引和检 索的一致性。
对词表中的受控语词的清晰度的评价
也就是对词表中具有范围注释、限定词和等级关系的语词(记作 a)与总词量 (记作 b)之间比例的评价。用公式表示为清晰度=a/b。清晰度越接近于 1, 词汇的语意越清晰,越能保证语意的单义性。
词表中受控语词的先组度的评价
一方面词表要具有一定的先组度,另一方面词表中的受控语词的先组度又不 能太高。这是因为词表具有一定的先组度才能增强词表标引和检索的直接性, 但先组度太高反而会增加词表的体积,降低词表的性能。
对词表中受控语词的专指度的评价
主要是评价受控词汇与文献主题和信息提问主题在内涵和外延上的一致性程 度。
对词表中受控语词的网络度的评价
主要评价受控语词揭示文献主题和表达信息提问的完备程度词表网络度的好 坏关系到检全率的高低,网络度越高检全率越高,反之亦然。
对词表中受控语词分布的均衡度的评价
即对词表中受控语词在各学科、专业范围内分布的均衡程度。如果词表所收 语词的均衡度不合理,会限制词表的广泛使用。
对词表中的受控语词的参照度的评价
也就是对词表中受控语词之间相互关联程度的评价。一个性能优良的词表往 往具有完善的参照系统。
对词表中各语词之间关联性的评价
同受控语词的参照度的评价相似,关联度的评价也是对词表中受控语词的连 接性能的评价。
对词表汇中的受控语词的用户的保障率的评价
用户保障率=词表中语词用于表达用户文献提问主题词的总次数/词表受控 语词总数。用户保障率体现了词表对用户的保障程度。
词表的定性评价
首要任务
分析词表是否很好地遵守了国家标准
具体方面
准确性
准确性就是指受控语词能够确切表达主题概念的性质。在对词表进行定 性的评价也就是看词表是否达到了一对一的严格对应进而得出词表准确度的评 价。
完整性
完整性也就是指词表结构上完整性。一个完整系统的词表具备主表、副 表、辅助索引等,对词表的完整性进行考察时,要看它的系统结构是否完整。
动态性
动态性是指词表容纳随时代发展而出现的新概念的性质,即词表的更新 速度。如果词表能够很好地反映随时代发展而出现的新主题、新事物、新学科的 话,词表就有较高的动态性。
管理体制的完备性
一个词表编制出来,并不是一成不变的,而是随时代的发展, 人们认识水平的提高和新事物、新学科的出现需要不断的修订、完善和管理的。 因此,需要建立一个专门的词表管理机构,用以维护词表的质量控制。
词表的定量评价
定义
对词表的定量评价也就是首先确定几个指标,然后通过数理统计计 算出指标值,最后根据指标值得出词表质量好坏的评价。
常用定量指标
①类目规模:是指在范畴索引中,每一个范畴所收语词的数量。 ②关联比:是指词表中含有关联项的语词与词表中所有语词的比值 ③参照度:是指词表中平均每个语词所接受参照的数目。 ④先组度:是指平均每一个语词包含单个字的数目。 ⑤等同率:是指词表中非正式叙词与正式叙词之间的比率。实际上等同率也就 是测度入口词多少的指标。
受控词表的使用
词汇控制的目的
标引过程中词表的使用
概述
标引分为两个过程,即准确分析待标引信息的主题内容和选 择词表中准确的词汇表达分析出来的主题概念。
误差和缺点
①分析失误:在内容分析的过程中,由于标引人员主观或客观地原因在进行概念分 析时出现曲解主题内容的失误。 ②表达失误:也就是在选择标引词表达内容分析的结果时,选择了不恰当的词汇。 ③删除失误:也就是标引人员在概念分析时,删除了能够表达信息重要主题内容的 主题概念。 ④词表的专指度不够:这是由于词表本身的缺陷造成的。词表缺乏最专指的词汇用 于表达分析出来的主题概念,而分析人员只能用词表其他比较泛指的词来代替。 ⑤标引的专指度不够:词表中存在能够准确表达主题概念的词,但是由于标引人员 主观方面或是对词表不够熟悉而选用了词表中泛指的语词来标引信息。
要求
①经常修订和完善所使用的受控词表 ②定期出版标引手册 ③加深标引人员的培训 ④规范本单位的标引细则
检索过程中词表的使用
在用户检索的过程中,受控词表具有指定和提示两种作用。 指定:受控词表通过参照系统从不允许使用的词汇到允许使用的词汇,指引信息检 索用户选择恰当的词汇表达自己的信息需求,从而实现在信息标引人员、信息用户、 信息内容本身三者之间的沟通,有效地满足信息用户的信息需求。 提示:在信息检索过程中的提示功能主要是通过词表的组织来实现的,也即通过词 表中的组面结构、词族以及参照系统来实现的。受控词表能够根据用户的要求比如 较高的检全率或者较高的检准率或者检全率与检准率的折中等,帮助信息检索用户 拟订各种检索策略。特别是受控词表能够防止由于未把语义上相关的词表集中在一 起而漏检相关文献的缺陷。 用户与系统的交互是信息检索过程的一个重要环节,实际上,这个交互过程是将信 息检索者表达自己信息需求所用的自然语言与系统所使用的受控语言进行交互和 转换的过程,也就是通过受控词表将信息用户的信息需求表达出来的过程。