导图社区 《信息组织》周宁 第四版
在大数据、智能化、移动互联网和云计算应用快速发展的今天,人类迎来了“大智移云”新时代。本教材系统而全面地论述了新时代信息组织的基本理论、基础知识、基本技术和实现方法。在2010年第三版出版后,信息组织领域又涌现了许多新理论、新技术、新方法、新成果,第四版将其收入其中并整合提高。本书为信息管理类专业的本科生教材,也可选作为相关专业研究生的教学用书。
编辑于2023-04-15 20:54:11 河南信息组织
第一章 引论
一、信息与信息组织
(一)信息与信息社会
1.信息
信息:是音信、消息,是物质存在的一种方式、形态或运动状态,是标记在通信系统中的信号,是构成知识的原材料。
2.信息社会
信息社会:是高度信息化,知识化的社会,它的主要特点是在社会生活中广泛应用信息技术,信息获取与传递十分方便,信息生产发达,信息消费旺盛,促进了社会经济快速发展,人民生活质量迅速提高。
(二)信息组织的诞生与发展
1.信息组织
信息组织:亦称信息整序,是利用一定的规则、方法和技术对信息的外部特征和内部特征进行揭示和描述,并按给定的参数和序列公式排列,使信息从无序集合转化为有序集合的过程。
2.信息组织的发展阶段
⑴按职能划分信息组织发展阶段
信息组织的发展主要是与信息管理整体发展和信息组织理论方法发展及信息技术发展紧密联系的,因此在发展阶段上大致与信息管理发展阶段保持基本的一致性。
①清册职能时期
在古代信息管理时期,这一时期的信息组织活动主要体现为一种清册职能,它主要通过对信息的记录和登载,告诉人们有什么信息。这时的信息主要是指图书,档案等文献信息。这种财产登记信息组织活动非常简便而不规范,手工方式和信息交流匮乏也决定了发展的不成熟性。但其围绕图书馆目录展开的初步研究中已显露了现代信息组织思想和方法的萌芽。
②查检职能时期
信息组织活动不仅告诉人们有什么信息,而且告诉人们怎样找到信息,构成这一时期的信息组织活动的主要职能就是查检职能:在近代信息管理时期,信息组织确立了“用户中心论”,并在检索点的形成和排列、整序成果的推广和应用,传统技术的更新和演化等方面得以充分体现。在这一时期,信息组织的发展可以用主题揭示语言对分类揭示语言的冲击,文摘和索引型序化成果对书目型序化成果的冲击,机械化和半机械化技术手段对手工技术手段的冲击,给予充分地概括。这些变化特征为信息组织由查检职能为主导向完整意义的组织职能发展奠定了坚实的基础。
③组织职能时期
以计算机技术,通信技术,网络技术为代表的现代信息技术的导入,把信息管理推上了一个新的发展水平,也把信息组织引入一个新境界。信息组织从完整意义上实现了整序信息,科学分流,促进选择,保证利用的组织职能。信息组织融信息搜集,信息分析,信息描述,信息揭示,信息存储于一体,现代信息管理时期中信息组织活动的社会化,信息组织产品的商品化,信息组织需求的市场化,成为这一时期最明显的标志。
⑵按组织对象划分信息组织发展阶段
①文献组织阶段
这一阶段主要以图书情报领域的信息组织工作为主流。在传统的信息管理中,图书馆的工作核心是文献组织,即图书馆馆员根据文献的形式特征和内容特征,通过编制目录,索引,文摘等方法对文献内容进行概念逻辑划分,将成千上万的文献按其标识排成一个有序的系统,向人们提供手工检索和计算机检索的过程。实质上文献组织仅仅是对文献的形式上的加工,而没有对文献的内容进行组织,也就是说仅对信息的载体进行组织,而没有组织信息本身,属于一种初级的信息组织。
②信息组织阶段
随着信息技术的发展,以纸介质为主的信息记录和组织方式的重要性正在下降,信息组织中心点正转向网络信息资源和电子介质,特别是转向自动化,功能全,速度快的信息资源组织方法。人类信息活动正从以纸介质信息为中心转向以电子媒介为中心,这种走向推动着信息组织由传统方式向现代方式转变。
③知识组织阶段
知识组织是指为促进或实现主观知识客观化和客观知识主观化而对知识客体所进行的诸如整理,加工,引导,揭示,控制等一系列组织化过程及其方法。信息是产生知识的原料,信息组织对信息的有序排列是知识组织的原料基础。知识组织的出现不是一蹴而就的,而是信息组织发展到一定阶段的必然产物。知识组织的目标是对知识存储进行整序和提供知识,它直接提供给用户直观的,可操作性强的系统化知识。对于人类社会的发展和人类文明的延续而言,信息组织不可或缺,知识组织更是最终的目的之处在,后者以前者为基础,而前者以后者为发展目标。
二、信息组织的理论方法
(一)信息组织的理论基础
1.系统论
系统论认为,系统内部各要素不是一种简单的结合,而是相互关联地有机结合在一起。在信息组织中,人们要将大量的,分散的,杂乱的信息组织成一个系统,建立起内在的关联性,使得信息系统的整体功能大于各个信息单元的功能之和。这将能充分发挥信息资源的价值与作用。基于这一原理,信息组织的目标是要建立信息系统。
2.耗散结构理论
耗散结构理论认为系统内部非平衡是有序之源,开放系统通过与外界交换物质、能量而增加、维持有序性。由于信息系统具有输入、输出,多次循环及反馈等开放性的,非平衡的基本特征,所以我们认为信息系统就是一种耗散结构系统,它与外界进行着信息的交换,既采集信息,也输出信息,可以利用耗散结构理论来指导信息系统的开发、组织和利用。
3.协同论
信息系统是由多个子系统构成开放系统,如何建立各子系统之间的协同作用机制,使信息系统由无序向有序转化,是信息组织研究中的一个重要内容,因而协同论也是信息组织的理论基础之一。
(二)信息组织的方法基础
1.语言学
语言是人类最重要的交流符号系统,是信息的载体。要把庞杂分散的信息组织成有序优化的整体,就必须建立符号系统,有了这种符号系统,信息系统的有序特征才能体现。尽管各种信息组织符号系统的形式不同,但都和自然语言一样有着共同特征:有语词,有词汇,有语法。这就信息组织的语言学基础。
2.逻辑学
逻辑学是关于思维规律的科学。思维有形象思维和抽象思维两种形式。信息组织属于抽象思维的范围,是在各种概念的基础上进行的,因而,它必须遵循科学的思维方法,如演绎推理和归纳推理,比较,分析与综合等。信息组织的行为只有符合逻辑思维规律,才能保证信息组织的优化、序化。
3.知识分类学
任何有深度的信息资源组织系统都要求按主题内容之间的关系进行组织和揭示。这就要求以已有的知识分类的成果为基础。知识分类体系是一门研究知识体系结构的学问,是进行主题之间关系处理的重要依据。信息组织以知识分类为基础,可以较好地揭示各个领域知识之间的关系和规律性,及时反映知识领域的进展。
(三)信息组织的基本方法
1.基于传统印刷型载体信息的组织方法
⑴长期以来,以纸张为记录载体的文献组织方法是以分类组织法和主题组织法为主要形式。分类组织法既是一种哲学思想,也是对知识分类体系的反映,有着悠久的发展历史;主题组织法是为了适应文献的计算机管理需要而逐步受到重视的一种文献信息组织方法。
①文献分类法是语法信息组织和语义信息组织的综合,从学科角度集约信息,便于族性检索;
②主题组织法是建立在自然语言基础上,以语法信息组织为主,语义信息组织为辅的一种综合信息组织体例,它从事物角度集约信息,便于特性检索。
⑵除此之外,传统信息组织方法包括字顺组织法,时间空间组织法,随机组织法等。在实际应用中,这些方法往往交替使用,以增加信息的检索途径。
2.网络环境下信息资源的组织方法
⑴网络环境对传统信息组织方式的冲击 (网络信息组织的特点)
①信息量剧增以及信息传递速度的加快,使得以往的手工处理和加工方式不堪重负,急需采用自动化的信息组织手段。
②信息种类增多,数据库成分复杂化,过去主要适用于文本信息的信息组织方法已不敷使用。
③用户成分发生很大变化,要求信息组织方式的透明化,易用化。
④网络信息资源共享要求信息组织标准化,兼容化。
⑵网络信息资源的组织方法
①文件方式:文件是有序组织的数据的集合,是计算机保存处理结果的基本单位。计算机有一整套文件处理的技术和方法,可以实现“按文件名进行存取”,文件管理程序可根据用户给出的文件名自动完成数据传输操作。我们所熟悉的文件传输协议FTP的作用就在于把各种类型的文本式和非文本式文件通过网络传送给用户。
②超文本/超媒体:超文本是一种新型的信息组织方法,是网络信息组织的基础。超文本技术的一大特征是信息的非线性排列,它以节点为基本单位,节点间以链接点相连,将信息组织为某种网状结构。另一大特征是其信息表达形式的多样性。超文本信息可以是文字,图形,图像,声音,动画等多种媒体形式,因此也可以称为“超媒体”。
③搜索引擎:搜索引擎是指internet上专门提供查询服务的一类工具,是目前internet上对二次信息进行组织的主要方式之一。此种方式所搜集的信息虽然丰富广博,但良莠不齐,因而查准率低。
④数据库:是将所有已获得的网络信息资源以固定的记录格式存储,用户通过关键词及其组配查询,就可以找到所需要的信息线索(即相关站点链接),并通过信息线索直接连接到相应的网络信息资源。
⑤主题树:是将信息资源按照某种事先确定的概念体系分门别类地逐层加以组织,用户先通过浏览的方式层层遍历,直到找到所需要的信息线索,再通过信息线索连接到相应的网络信息资源。
三、信息组织的技术基础
(一)信息组织的四大基本技术
⑴计算机技术
电子计算机诞生于20世纪40年代,它是人类最伟大的发明之一。计算机硬件、软件、应用开发的一整套理论,方法,技术构成了现代计算机技术。目前计算机技术正向超高速,超大型,超小型,并行处理,智能化的方向发展,新型计算机系统不断涌现。(云计算、大数据)
⑵通信技术
通信技术就是设计,开发应用通信设备,控制通信的软件,信息压缩与解码的一种理论方法与技术。其总的趋势是数字化,综合化,智能化,宽带化和个人化。(移动互联网MI)
⑶控制技术与智能化
实现控制目标的有关硬件设备,软件系统的一整套技术,称为控制技术。主要关注计算机控制,通信控制,信息处理控制等技术。
智能化是指由现代通信与信息技术,计算机网络技术,行业技术,智能控制技术汇集而成的针对某一个方面的应用。
⑷传感技术与物联网
传感技术是各类传感器,系统设备和通信控制系统的设计,建立与使用的一整套技术。
物联网是指通过各种信息传感设备,实时采集任何需要监控,连接,互动的物体或过程等各种需要的信息,与互联网结合形成一个巨大网络。其目的是实现物与物,物与人,所有物品与网络的连接,方便识别,管理和控制。
(二)信息组织中高新技术的应用
高新技术是信息组织强有力的技术支撑,其技术基础主要是四大基本技术。在信息组织中高新技术的应用比比皆是,这里只重点介绍自动标引,字符识别,语音识别及语音合成等相关技术。自动标引技术可以分为自动主题标引技术和自动分类标引技术两大类,是信息组织自动化的基础。鉴于汉语的特殊性,自动分词更是中文信息计算机自动处理的基础和前提。
1.自动分类标引技术
自动分类标引:是指由计算机代替人工对文献信息进行分类,赋予其分类标识,以描述文献主题内容的活动。按自动分类的实现途径进行划分,可将自动分类分为自动聚类和自动归类。
⑴自动归类:是指先分析待分类对象中的特征,将其与各种类别中对象具有的共同特征进行比较,再将待分类对象归入特征最近的一类,并赋其相应的分类号。自动归类根据使用的技术常分为基于词的自动分类(词典法)和基于专家系统的自动分类(知识法)两大类。
⑵自动聚类:是指从待分类对象中提取特征,再将提取的全部特征进行比较,按一定原则将具有相同或相近特征的对象定义为一类,设法使各类中包含的对象大体相等。一般是在语词共现的基础上,通过词频统计和相似性比较加以聚类的。
2.自动主题标引技术
自动主题标引:是指由计算机自动确定语词标识来表达信息资源主题的过程,包括自动抽词标引和自动赋词标引两种基本方式。
⑴自动抽词标引:是指直接从原文中抽取词或者短语作为标引词来描述信息资源的主题内容。它主要是从文献的正文,文摘或标题中直接选取标引词,利用该词在文献中出现频率作为抽词程序的基础。
⑵自动赋词标引:是指由计算机从受控词表中自动选取词语来表达文献主题内容,它与自动抽词标引的最大区别就是所使用的标引词来自于受控词表,而不是直接取自文献本身。分为基于关联词表的自动赋词标引和基于中介词典的自动赋词标引。
3.汉语分词技术
⑴汉语不像英,法,德等语种,在其句子中没有分隔标志,一个汉字可以同其他许多汉字进行组合构成不同含义的词和词组,因此计算机难于识别一个句子中哪个汉字或哪几个汉字组合是词而自动把它们分离出来,也难以准确区别有用词与无用词。所以要进行自动抽词,首先必须解决把汉语句子用计算机自动切分成词的技术,这种技术称为汉语分词技术。
⑵目前国内采用的自动切词方法主要有以下几种:
①词典匹配分词法:词典匹配方法主要是基于字符串匹配的原理进行的,即它一部词典为依据,采用一定的处理策略将汉语文本中的字串与词典中的词逐一匹配,若成功,便认定该字串为词。最常用的方法有最大匹配法,逆向最大匹配法,双向扫描法,逐词遍历匹配法,最佳匹配法等。
②设立分词标志法:在分词时,先找出切分标志(包括标点符号,词首字,词尾字,单音节单纯词,多音节单纯词,拟生词等),把句子切分成一些较短的字段,然后再用最大匹配法和逆向最大匹配法进一步把词切分出来。
③理解式分词法。其分词系统由词库,知识库和推理机三部分组成。词库中存放词条,知识库中存放已形式化的各种语法规则,语法知识以及语言学家在分析过程中进行推理判断的经验知识,推理机则利用词库和知识库提供的大量数据库与知识,模拟语言学专家的逻辑思维过程,实现自动分词。
4.字符识别技术
⑴字符识别是人工智能中模式识别的一个具体应用。所谓模式识别就是把不同模样的对象区分出来,并正确判断它是什么东西。例如,如果识别对象是中文字,就是汉字识别,如果是英文字符,就是识别26个字母。
⑵对汉字识别来说,方块字的上下左右四个部位上的笔画式样,字的笔画总数等都可以作为特征度量。提取出来的特征值将送到分类器进行分析,综合,按特征的不同输入模式,纳入某一类具有相似特征的对象类。最后由决策模块做出判断,输出识别结果。
5.语音识别与语音合成技术
⑴汉语语音识别:①预处理主要是识别系统通过采集器接收语音信息,并进行音素分割,将语音分割成一组因素系列。②语音分析器完成对音素系列的参数分析,按照具体的测度估计得出一个识别值。③再根据汉语的组词、句型和句法规则,进行判别得到识别结果。④然后将识别结果输出,以供校验,存储和使用。
⑵语音合成:汉语语音合成的输入是一个汉字文本文件,输出是一个汉语语音系列。语音合成系统首先将汉字文本的字库所对应的拼音码调出,根据拼音规则和语法规则组词、连句。然后调用语音知识库中的相关知识,根据上下文解决每个汉字的读音与连续规则输出声波供用户使用。
四、信息组织学研究的主要内容
信息组织学:是信息组织的一整套理论、方法与技术。它研究的主要内容有:信息采集、信息识别、信息资源描述、信息资源标引、信息整合、信息存储与整序、信息利用等。
(一)信息资源描述
信息资源描述:是指根据信息组织和检索的需要,对信息资源的内容特征和形式特征进行分析、选择和记录的活动。
1.信息资源描述的标准化
⑴文献著录标准化
文献著录标准化:是指在国家或国际范围内,对文献著录的原则,内容,格式等做出具有一定约束力的规范。著录的标准化,有利于推进集中编目和合作编目的开展。目前国际上影响最大,使用最广泛的著录标准主要有ISBD和AACR2。
①ISBD:是《国际标准书目著录》的简称。国际图书馆协会联合会(IFLA)先后颁布了《国际标准书目著录(专著)》(ISBD(M))和《国际标准书目著录总则》(ISBD(G))等,为文献信息描述提供了统一的框架,为各国文献描述的统一和标准化创造了条件。
②AACR2:《英美编目条例第二版》。1978年在第一版基础上根据国际编目标准调整后出版。由两部分组成,第一部分是“著录”,对各种文献资料的著录格式做了规定。第二部分是“标目、统一书名和参照”,对著录标目,个人和团体标目,地理名称,统一书名和参照款目的著录分别作了明确的规定。
⑵网络信息资源描述标准化
网络信息资源的描述问题,亦即元数据标准问题。需要建立适合网络信息资源特点的,通用的描述标准与规范。
①MARC格式的调整:这一调整过程大致经历了三个阶段,先是建立MARC/CF格式,即通过专门的MARC格式来描述计算机文件类资源;后来又建立MARC统一格式,通过一个格式来统一描述各种资料类型;进一步扩展为MARC统一格式,如增加“电子资源地址与存取”等字段,专门描述网络数字资源的特性。
②新的元数据方案:网络信息资源数量日益庞大,要用MARC来完成对所有网络信息资源的描述极为困难。由此产生了一系列元数据格式,目前在图书馆界和信息界最受关注且关应用比较广泛的是都柏林核心元数据。
(二)信息资源标引
1.标引的含义
⑴信息资源标引(文献标引):是指分析文献的内容属性及相关外表属性,并用特定语言表达分析出的属性或特征,从而赋予文献检索标识的过程。
⑵文献标引过程一般包括两个环节: ①一是主题分析,即在了解和确定文献的内容属性及帮助揭示内容的某些外表属性之后,将这些属性概括为主题并用自然语言表述,同时分析主题概念之间或主题概念因素之间的结构关系,为下一环节准备; ②二是转换标识,即用专门的主题概念或概念因素构成一定形式的检索标识。可以说,文献标引就是用特定检索标识揭示文献内容。
2.标引语言的基本概念
⑴标语语言(检索语言、索引语言):是表达文献主题概念和文献需求主题概念的简明性,单一性和关联性的概念标识系统,是根据标引和检索需要而编制的人工语言。
⑵特点:标识的简明性,即标识的形式简洁、含义明确;单一性,即标识与概念唯一对应;关联性,即标识之间建立了联系,反映概念之间的关系。
3.标引语言的类型
⑴按照信息组织的思想方法
①分类语言:也称分类法。它是用分类号表达主题概念,依据知识分类将主题概念组织、排列成类目体系,主要以类目体系的自身结构显示概念之间关系的标引语言。以学科、专业为中心的系统性是其主要特点。可细分为体系分类语言、组配分类语言、体系——组配分类语言。
②主题语言:又称主题法。是一种由受控的自然语言语词直接表达主题概念,按语词字顺排列主题概念,主要用参照显示概念之间关系的标引语言。以事物为中心的直接性是其主要特点。可进一步划分为标题语言、单元词语言、叙词语言、关键词语言。
⑵依标识组合时间的先后
①先组式语言:是指标识在编表时(标引前)就已组合好,标引和检索时不必或较少进行组配的标引语言,如主题法中的标题法就属于这种类型。
②后组式语言:是指标识主要供配置使用,而且标引时不将标识组配在一起,到检索时才将标识组配起来的标引语言,如单元词法,叙词法。
③散组式语言:是指标识主要供组配使用,而且标引时就要将表达主题概念的若干标识组配在一起的标引语言。
⑶依标识的规范化程度
①受控语言:指信息组织的标识词汇以及信息检索的索引词汇在使用前经过优选和规范化处理,并且整个语言经常处于某权威机构或检索系统的管理之下。这种语言又称为规范化语言,与自然语言相对。如主题法中的标题语言,单元词语言,叙词语言,体系分类语言等均属于受控语言。
②自然语言:指标引词汇和检索词汇直接来自所处理的文献本身,使用前未经过优选和规范化处理,与受控语言相对。如主题法中的关键词语言。
4.标引类型
①分类标引:是指对文献进行主题分析,用特定的分类语言表达分析出的主题,赋予文献分类检索标识(分类号)的过程。习惯上分类标引被称为分类,因为分类标引实质上就是对文献进行分类。 (文献分类:是指根据文献内容及其他相关属性,以分类语言/分类法为工具,分门别类地系统揭示和组织文献的过程和方法。)
②主题标引:是指对文献进行主题分析,用主题语言(主题法)表达分析出的主题,赋予文献主题检索标识(标题词,叙词等)的过程。
(三)信息资源的整序与存储
信息资源的整合与存储的实例可以从两个方面说明:
⑴一是对印刷文本的传统整序与存储方法。例如,图书馆里的图书按一定的排序规则进行整序与排架,档案管理的卷宗和专利局里的专利说明书的整序与排架方法等就是典型范例。
⑵二是在数据空间中,数字化的信息对象在数据库和网站中整序与存储有着广泛的信息空间。Web数据库和搜索引擎等都属于这种整序和存储方法。例如,中国知网CNKI和搜索引擎百度就是典型代表。
(四)信息资源的检索与利用
信息组织是信息检索与利用的基础,信息检索与利用是信息组织的目的。文献信息在经过著录和标引等方式进行描述后,再根据描述结果按一定的规则和方法进行排列,从而形成有序的,可供检索的信息集合。信息检索是指从信息集合中发现、查出所需信息的活动与过程。
1.检索语言
标引语言有多种名称,在用于检索时又称为检索语言。检索语言是用来描述文献的内容特征,外表特征和表达检索提问的一种人工语言。它是沟通信息组织和信息检索两个过程的桥梁,是标引者和检索者对话的语言。
2.检索原理
信息检索是信息组织的逆过程,它是从有序化的信息集合中查找出符合需求的原始信息。简单来说,检索过程就是按照与标引过程同样的主题词表或分类表及组配原则分析课题,形成检索提问标识,从信息集合中查获与检索提问标识相符的信息特征标识的过程。查找的过程实际上就是匹配的过程,检索词同标引词两者一致,就算找到了符合要求的信息。
五、信息组织在信息产业中的地位与作用
由于现代信息技术的发展,特别是随着Internet的兴起和迅速发展,信息生产、传输空前便捷,导致信息量急剧增长,信息质量参差不齐,信息污染日益严重。这一现象给人类提出了两个问题:其一,知识和信息的海量性和无限性与人的精力,时间的有限性形成了尖锐的矛盾;其二,知识和信息的无序性和污染性与人类使用的选择性同样是尖锐的对立。
⑴解决这一问题的根本方法就是发展信息产业,开发信息资源。信息资源开发的基本内容与环节包括信息的组织、检索和利用。信息组织信息资源开发的关键性环节,也是信息检索利用的基础。可见,信息组织既是一个相对独立的环节,又广泛渗透到其他环节,为人们获取信息提供了方法和工具。
⑵现代社会信息的基本特征是庞杂分散性,人们信息需求的特点是专业的高度选择性,内容的精良性,时间的紧迫性。两者之间的联系及其矛盾的调解就靠信息组织。
⑶信息组织是一个信息增值过程。在这个过程中,杂乱无章的原始信息变成一个有序精良的信息系统。一个相对“粗放”型的信息贫集转化为一个“集约”型的信息富集,并为信息的进一步增值打下基础。
⑷信息组织是信息生命周期管理思想的最积极、最活跃的因素。做好信息组织工作,会促进信息流通,发挥信息效用,使信息流形成良性循环,使信息在时间上更快速地传播,在空间上更广泛地传播,满足人们尽快、尽早地获得各处的信息。
综上所述,信息组织是信息资源管理的基本范畴之一,是信息资源建设的中心环节,是建立信息系统的重要条件,是信息检索与咨询的基础,是开展用户服务的有力保证。
补充(另一本)
一、对信息组织的要求
信息组织的主要目的是为了有效的检索和利用。一般认为下述因素是一个信息组织系统必须考虑的重要因素。
1.检全率
⑴亦称查全率、命中率,指系统实施检索时检出的与某一检索提问相关的信息资源量与检索系统中与该提问相关的实用信息总量之比。
⑵检全率表示检索系统检出相关信息资源的能力,是评价检索系统效率的一个重要参数。较高的查全率是检索系统的基本目标之一。
2.检准率
⑴亦称查准率、相关率,指系统实施检索时检出的与某一检索提问相关的信息资源量与检出的信息资源总量之比。
⑵检准率表示检索系统排除与检索提问无关信息资源的能力。提高检准率可以节省用户分离无关信息资源所花费的时间,对提高检索系统的使用效率具有重要作用。
3.检索速度和系统的及时性
⑴检索速度指用户实时检索时获得检索结果耗费的时间,检索速度快,可以及时检出所需要的信息资源,直接影响到检索系统的使用效果。
⑵系统的及时性指检索工具能否在较短时间内将信息资源纳入系统,以较快速度提供使用。
4.系统的易用性
⑴对于信息资源的处理和标引人员而言,系统的易用性指系统是否便于进行描述和标引操作,是否需要掌握复杂的专门技能才能使用,在处理过程中是否可以得到各种减少处理差错的提示和帮助等。
⑵对广大检索用户而言,则是指系统检索是否易于使用,操作是否复杂,是否需要预先学习才能实施检索,检索界面是否友好,是否配备有相应说明,并提供各种具有启发性的帮助等。同时易用性还包括容易获得信息的程度。
5.检索的成本效益
⑴指检索系统的成本和效益之比。检索成本一般包括检索系统设备费用,标引处理费用,检索运行费用。
⑵检索效益则是指检索系统的性能及因此产生的效益,包括获取信息取得的经济效益和社会效益。这一指标有助于在全面考虑检索成本效益的基础上选择和确定适用的信息组织方法。
二、信息组织中的控制与规范
(一)描述控制
描述控制:指根据信息资源标引与检索的需要, 对替代信息资源本身的描述记录的内容、 描述方式等所做的规定。包括:①描述项目的控制②描述级别的控制③描述格式的控制
(二)词汇控制
词汇控制:指根据信息资源标引和检索的需要,对自然语言的词汇进行选择,规范并揭示其相关性的过程。包括:①同义控制②词义控制③词间关系控制
(三)句法控制
句法控制:是指根据信息资源标引和检索的需要,通过一定的组词造句的规则,对检索语词的组合方式作出规定。常见的方法包括:①确定引用次序②使用辅助符号③轮排。
(四)相关因素控制
计算机的应用,使得组织系统中纳入多种因素控制成为可能。不少系统往往在综合多种因素的基础上确定检索结果的提供序列和进行相关资源的揭示。常用的相关因素包括:①引用关系②链接关系③用户需求。
三、规范控制的依据
信息资源的组织和检索一般是以概念逻辑为工具,以知识分类为基础,根据信息资源的特点和设备条件的状况进行的。
(一)逻辑知识
概念逻辑是揭示概念及其关系的规律的知识。信息组织既然是以概念及其相互关系为基础的,要对它实施规范与控制就必须在概念逻辑的基础上进行。信息组织过程中应了解的基本逻辑知识包括以下几个方面。
1.概念及其内涵与外延
⑴概念:是表达事物对象的特有属性或本质属性的思维形式,是检索系统交流的内容。按照形式逻辑,一个概念一般包括内涵和外延两个方面。
⑵内涵:指概念的含义,即概念所反映的对象的本质属性的总和。
⑶外延:则是指具有该属性的事物对象,即概念所包括的范围。
概念及其内涵、外延的知识是各种信息组织形式进行标引和检索的基本依据,同时也是检索语言编制时词汇控制的依据。
2.概念之间的关系
概念之间按照其是否存在共有的外延,可以分为相容关系与不相容关系两类。
⑴相容关系是指至少有一部分外延相同的概念之间的关系。包括:
①同一关系:即具有相同外延的概念之间的关系。
②包含关系:亦称属种关系,指一个概念在另一个概念外延之中,并且是另一个概念的组成部分。
③交叉关系:指部分外延重合的概念之间的关系。
⑵不相容关系是指不存在共有外延的概念之间的关系,可以分为不同论域之间的不相容关系和同一论域中的不相容关系。后者为从属于同一属概念的不相容概念之间的关系,包括:
①矛盾关系:指外延之和等于上位概念的两个不相容概念之间的关系。
②反对关系:指外延之和小于属概念的两个相互对立概念之间的关系。
③并列关系:是一个属概念下几个不存在共有外延的并列属概念之间的关系。
3.概念的限制与概括、分析与综合
⑴增加内涵,缩小外延的过程称为对概念的限制。反之,减少内涵,扩大外延的过程则称为对概念的概括。对概念的限制和概括是对概念范围进行调整,明确概念的方法,同时也可以用来作为进行信息组织的依据。
⑵在信息组织实践中,依据概念的限制和概括以及概念之间的关系为基础,可以通过概念的划分,概念的分析与综合展开检索语言系统或进行检索演算。
①对概念的划分一般可以依据明确的划分属性,将一个母项划分为若干子项,从一个属概念分出若干子概念,如此连续进行,就可以以此为基础建立起等级性的概念体系。
②对概念的分析与综合则可以根据概念的构成,将复合主题概念分解为若干子概念,并通过对子概念的组配表达符合主题概念,进行概念逻辑运算。
(二)知识分类
1.信息资源组织系统通常都要求揭示主题内容之间的联系,这就需要以已有的知识分类的成果为基础。逻辑知识是信息组织应当依据的方法,但只依靠逻辑知识显然是不够的,还必须依据人类对知识关系的发现。知识分类体系,是建立在人类对外部世界的探索和发现的基础之上的,是根据对知识之间的关系的了解建立起来的系统,它是进行主题之间关系处理的重要依据。
2.根据知识组织的不同对象和层次,现有的知识组织体系包括科学分类体系,学科分类体系,事物分类体系,行业分类体系等多种类型。这些系统从不同层次反映了人们对知识之间关系的认识,是科学,合理地进行信息组织的重要依据。
3.信息资源组织以知识分类为基础,可以较好地揭示各个领域知识之间的关系和规律性,及时地反映各知识领域的进展。但信息组织对知识分类的成果也不能全盘照搬。信息资源组织在汲取知识分类成果的过程中,应善于根据系统的信息资源特征和处理需求,将其有机地纳入系统。
四、信息资源组织的特点
信息组织除应以采用逻辑的方法,以知识分类为基础外,同时还必须根据信息资源的特点和检索需要进行,一般应考虑以下各个方面因素。
1.文献保证原则
文献保证,亦称文献根据,指信息资源组织应根据信息资源类型,数量等因素进行相应控制。信息检索系统处理的对象是各种类型信息资源,因此要有效进行信息描述及主题内容的组织和揭示,离不开对信息资源的内容、特征以及分布状况等的了解。计算机检索系统具有的,可以方便地从各种不同角度对资源进行统计分析的功能,有利于根据文献保证原则进行有效控制。
2.用户保证原则
所谓用户保证,即是指根据用户需要进行描述控制和词汇控制。这一原则随着信息资源组织应用的日益普遍,越来越得到广泛的赞同。检索系统是为用户服务的,各种控制和组织措施如不符合用户的检索要求和使用习惯,必然会影响其使用效果。因此对信息检索系统在进行规范控制时,应当有意识地从用户的使用需要出发,采用相应控制手段。为了贯彻用户保证原则,各种计算机检索系统往往将用户的检索提问作为词汇收集的来源,用以调整词表专指度,并将同义词,准同义词收入词表,增加检索入口,同时设置各种检索优化形式,改进系统的易用性。
3.与设备条件相适应
信息组织中的规范控制是在一定的设备条件下使用的,只有与设备条件的特点相一致,才能取得较好的实际效果。信息组织的发展说明各种技术方法的使用是与技术环境的发展变化密切联系的,规范控制的形式也是随着环境的变化不断调整的。应根据技术环境的变化,探索信息组织变化发展的各种形式和可能性,包括计算机环境下多种索引方法结合使用问题,超文本技术对于检索语言编制和使用特点带来的变革问题,以及将各种词汇控制,知识结构引入自然语言检索系统的应用和形式等。
可以看出,要进行有效的控制,必须在遵循逻辑的方法,结合知识分类成果的同时,依据实用的需要进行,检索系统的文献情况,用户需求,设备条件等即为实用语言的具体体现。
第二章 信息资源组织的分类语言
一、分类语言的原理与体系结构
信息资源管理的分类语言是信息组织的重要手段和方法,它用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。分类语言包括等级体系性分类语言(体系分类法)和分析综合型分类语言(组配分类法),它们可统称为分类法系统。
(一)分类语言的构成原理
1.体系分类法的构成原理
⑴体系分类法:又称等级分类法、列举式分类法,是一种直接体现知识分类的等级制概念标识系统。它是对概括文献信息内容及某些外表特征的概念进行逻辑分类(划分与概括)和系统排列而构成的。体系分类法的主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类检索文献信息的途径。
⑵分类应遵循的规则:①唯一性。在每一次划分时只使用一个划分标准。②完整性。划分后所得子类的外延之和应等于其母类的外延。③科学性。要选择事物本质的,符合分类目的的属性作为划分标准。
⑶体系分类法主要就是运用这种逻辑分类原理,依据文献内容的学科、专业性质及其他特征,对文献信息进行系统化组织的一种方法。体系分类法是由成千上万个类目构成的,类目犹如它的细胞,所以类目的划分,类目的排列,类目名称及含义,类目之间相互关系的处理是体系分类法原理的几个主要方面。
2.组配分类法的构成原理
⑴组配分类法的构成基于概念的可分析性和可综合性。即一个复杂概念可以分析为若干简单概念(或概念因素),若干简单概念可以综合为一个复杂概念。因此一个复杂的主题概念可以用若干简单概念标识的组配来表达。
⑵组配分类法是体系分类法的发展。创制组配分类法的目的,主要是为了克服体系分类法的列举式列类方法所造成的不能无限容纳概念的局限性,以及它的类目的单线排列方式所造成的“集中与分散”的矛盾。使用组配分类法既可以从很高的专指度上来标引一篇文献,也可以从很高的专指度或较低的任何专指度以及从多种角度查到那篇文献。
⑶组配分类法和体系分类法的一个很重要的差异在于:组配分类法的分类标识是散组式的,组合的,可以分拆的,其中诸因素可以变换位置的;而体系分类法的分类标识是定组的,固定的,不可分拆的,其中诸因素是不可变换位置的。
⑷分“面”是组配分类法的基本特征。所谓“面”(分面、组面)是指可以描述一类事物某一方面属性或问题的一组简单概念或类目。使用组配分类法进行标引时,根据文献的主题因素,从各个分面中摘取相应的分面类号,然后将其联结成一个能标识文献主题概念的完整分类号。
(二)分类语言的体系结构
分类法的体系包括:理论体系和技术体系。①理论体系是指编制分类法时对人类全部知识所做的最基本的划分,即基本部类或基本大类的划分,如十进法,五分法等。②技术体系是指为达到特定的功能,将众多类目构成相互联系,相互制约的整体的形式,如体系分类法,组配分类法,体系-组配分类法等。 分类法是一个具有内在联系的逻辑系统,其系统功能是通过其结构来实现的。分类法的结构分为:①宏观结构,即它的各个组成部分及其之间的组织方法,相互联系和作用的方式;②微观结构,及即类目的构成要素及其组织。
1.体系分类法的结构体系
宏观结构
⑴分类表
分类表,也称类目表,它是根据类目之间的关系,按照一定的原则组织起来的类目一览表类。分类表是分类法的主体。从表现形式上看,分类表一般由大纲,简表,主表,辅助表几部分组成。
①分类表的大纲实际上基本大类表,所谓基本大类,是指分类表中第一级类目,它代表着较大的学科或领域。基本大类一览表构成分类表的纲目,能使人们对分类表的分类体系有一个最基本的了解。
②分类表的简表也称基本类目表,一般是由基本大类与对基本大类所做的一、二次划分所得类目构成。简表是分类表的骨架。
③分类表的主表也称详表,它是在简表或大纲基础上,根据各知识领域的发展、信息生产和用户需求情况,逐级扩展而成。主表是分类表的正文,是分类标引的实际依据,是分类法的核心。
④辅助表也称附表,实际上是复分表,它是将主表中按相同标准划分某些类目所产生的一系列相同子目抽取出来,配以特定号码,单独编列,供主表有关类目进一步细分用的类目表。辅助表包括通用复分表和专类复分表两类。
⑵编制和使用说明
①分类法的编制说明一般是对分类表的编制目的和适用范围,编制原则,体系结构,辅助表,标记符号,注释等予以介绍和解释,以使人们对分类表有一个基本的,全面了解,编制说明一般置于分类表之前。
②使用说明是分类表的使用指南,它以指引人们正确使用分类表为目的,一般会对分类表的分类体系,标记符号和复分表的编制与使用,分类标引的一般规则和方法等予以详细说明。
⑶索引
①分类法索引,又称类目索引,它是一种按类名及类目相关概念名称字顺查找相应类号的类表辅助工具。它一般是将分类表中有检索意义的全部类目名称,类目的同义词,注释中出现的概念名称,甚至一些分类表中未列出的概念名称,按其字顺排列,并在每一名称注明相应的类号,方便分类法的使用者按主题概念名称字顺查找类号,而且将类表中被分散的同一事物不同方面的类目集中,使分类法在一定程度上具有主题法的性能。
②分类法的常见类型有两种:直接索引和相关索引。此外有的分类法也采用链式索引,叙词索引等形式。目前的综合性体系分类法多采用相关索引;组配分类法,如《冒号分类法》等采用链式索引。分类法索引多数单独成册,也有附在主表之后的。
微观结构
类目:是构造分类法的最基本要素,每个类目代表具有某种共同属性的文献集合。一个类目由类号,类名,类级,注释和参照组成。
⑴类号:是类目的代号,也叫标记符号,决定类目在分类体系中的位置。文献经过分类标引之后,作为组织分类文献排架标识、组织分类检索工具的检索标识。
⑵类名:是类目的名称,用描述文献信息内容的术语直接或间接表达类目的含义和内容范围。
⑶类级:是类目的级别,在印刷版中用排版的缩格和字体表示,代表该类目在分类体系中的等级(划分的层次),显示类目间的等级关系。
⑷注释和参照:对类目的含义及内容范围,分类方法,与其他类目的关系等进行说明。
全部类目的系统联系,就构成分类法的术语系统,标记系统,注释及参照系统,类目等级结构。
2.组配分类法的结构体系
⑴组配分类法可以分为分面组配分类法,组配-体系分类法和体系-组配分类法三种类型:
①分面组配分类法可以说是纯粹的组配分类法,一般限于在一个比较窄小或者比较单纯的专业范围使用。它由若干个面构成,这些面都是基本范畴,都可以作为检索的途径而无主次之分。
②组配-体系分类法和体系-组配分类法都是分面组配与体系分类相结合的混合分类法。前者以分面组配为主,接近于分面组配分类法,如《冒号分类法》;后者以体系分类法为主,接近于等级体系分类法,如《国际十进分类法》。但是这两者与分面组配分类法有一个比较明显的差别,即前两者都是首先按学科体系分类,然后再进行分面组配。
⑵不同类型的组配分类表具有不同的结构体系:
①分面组配分类表由编制说明,分面类表目次和若干分面类表组成。
②组配-体系分类表由编制说明,基本类表,一系列分面类表和分面公式以及若干通用辅表组成。
③体系-组配分类表由编制说明,大纲或简表,分类体系详表(主表)许多专类辅表和若干通用辅表组成。
(补充:分类语言的标引工作)
(一)分类标引规则
分类规则是准确,一致,充分,适用地进行分类操作的重要条件,一般是根据检索系统的需要,并结合信息资源的特点确定的。一般可以分为基本标引规则,一般标引规则,特殊标引规则三类。特殊标引规则是指只适用于各个具体知识部门的分类规则,它们是基本规则和一般规则在各基本大类的延伸。
1.基本分类规则
基本分类规则是整个分类过程中始终必须遵循的,具有指导作用的规则。包括:
⑴信息资源的分类应根据信息资源的性质,按照其各自的特点进行。
⑵信息资源的分类必须能体现分类法的逻辑性,等级性,次第性。
⑶信息资源必须归入最切合其内容的类。
⑷类分的文献必须归入用途最大的类。
⑸不能单凭题名、篇名的意义归类。
⑹应注意标引的思想性。
2.一般分类规则
一般规则是指从著作方式的角度提出来的,适用于各个知识门类的分类规则。
⑴单主题信息资源的分类标引:简单单主题、方面单主题
⑵多主题信息资源的分类标引:并列主题、从属关系主题、联结关系主题
⑶丛书、多卷书的分类标引
⑷词典、百科全书、年鉴、手册的分类标引
⑸目录、索引的分类标引
⑹关于对著作的研究、注释的标引
⑺特种文献的分类标引
⑻非书资料的分类标引
⑼网络信息资源的分类标引
(二)分类排架和分类检索系统
1.分类排架
分类标引目标之一,是对文献本身进行分类组织,亦称为排架。这是组织传统文献资源最常用的形式。通过分类排架可以将文献组织成一个按照内容之间的关系排列的系统,方便资源的开架浏览和使用。通常包括进行同类文献区分,确定分类索书号等。
2.分类检索系统
分类检索系统是一种按照类目之间的关系建立的检索工具,一般是依据一定的分类体系编制的。分类检索工具存在着多种类型,不管采用何种类型,一般都是依据一定的分类体系组织和揭示性资源,通过各种方式加以排列和显示,并同时提供检索以外的其他使用途径。
二、国内外分类法实例
(一)《中国图书馆分类法》
1.概况
《中国图书馆图书分类法》是我国新中国成立后编制出版的一部具有代表性的大型综合性分类法,简称《中图法》。
2.类目体系
⑴基本序列
基本序列,也称基本部类或部类,是分类法编制中为建立知识分类体系,对知识门类所进行的最概括,最本质的划分与排列,是确立基本大类的基础。《中图法》采用”五分法”体系,其基本序列为:①马克思主义,列宁主义,毛泽东思想,邓小平理论;②哲学,宗教;③社会科学;④自然科学;⑤综合性图书。
⑵基本大类
基本大类,也称分类大纲,是分类法中划分的第一级类目,是在基本序列基础上展开的知识分类体系框架。基本大类都是传统的,稳定的,较为概括的学科或者知识领域。《中图法》在五个基本部类的基础上,形成22个大类的知识分类框架。
⑶类目的划分与排列
立类、列类是分类法编制的基本技术。立类是指如何进行类目的设置,列类是对类目进行划分和排列,这两者是密不可分的。
《中图法》主要是从科学分类和知识分类的角度来揭示文献内容的区别与联系,按学科和专业集中文献,提供从学科和专业出发检索文献的途径。为此,类目主要按照科学知识的逻辑系统进行划分与排列。重视类目之间的内存联系,贯彻从总到分,从一般到具体,从简单到复杂,从理论到实践的划分原则,把成千上万个类目按学科系统排列,组成一个严密的概念等级分类体系。通过这个等级体系,显示各科学知识部门在分类体系中的位置,反映科学知识部门之间的亲疏远近和隶属关系。
类目的排列包括纵向排列和横向排列,纵向排列决定于分类标准的使用次序,横向排列指一个类列中同位类的排列。《中图法》类目排列的基本原则是:①优先使用事物的客观发展次序,事物内部固有的次序,科学的系统次序以及人们认识事物的逻辑次序排列同位类。②同位类的排列贯穿着从总到分,从理论到应用,从一般到具体的逻辑次序。③当某类事物的客观次序不明显或某种人为的次序更有利于检索时,则按人为次序排列同位类。主要是按类目重要程度,文献的多少,通常的习惯次序以及从现实到历史的次序排列。④对于性质相同或相似的类列,用统一或对应的排列方法,以提高助记性。
3.标记制度
标记符号也称分类号,是类目的代号。通常都采用具有固定数序特征的字母或数字符号编制标记符号。《中图法》标记符号设计的基本原则是:充分满足类目体系编列及其发展对标记系统的要求,具有很好的容纳性,表达性,易记性,简短性和可扩充性。
⑴标记符号
《中图法》采用拉丁字母与阿拉伯数字相结合的混合制标记符号。以拉丁字母标记基本大类,并可根据大类的实际配号需要再展开一位字母,用以标记二级类目。在字母段之后,使用阿拉伯数字标记各级类目。为了进一步增强标记符号的表达能力,适应类号灵活组合的需求,《中图法》在采用拉丁字母与阿拉伯数字相结合的混合制标记的基础上,还另外采用了一些其他特殊符号,以作为辅助标记符号,包括:总论复分符号-;国家地区区分号();时代区分号=;民族种族区分号“ ”;通用时间地点区分好〈 〉;组配符号:;联合符号+等。
类号的排列采用由左至右逐位对比的方法进行排列。先比较字母部分,再比较数字部分。0号中有辅助符号时,在其前的各位符号(A-Z,0-9)相同的情况下,依下列次序进行比较排列:-()“ ” =〈〉:+
⑵编号制度
《中图法》的编号制度采用基本的层累制。层累制是根据类目的不同等级,配以相应不同位数号码的编号方法,类目的等级与其号码位数是相对应的。层累制的号码可以无限纵深展开,可充分满足类目体系层层展开配号的需要,同时又有良好的表达性。
在基本上遵循层累制编号制度的同时,又采取了诸如八分法,双位法和借号法等编号的变通措施,增加配号的灵活性,扩大号码系统的容纳性。
①八分法:又称扩九法,即当某类列的同位类类号标记到8,且尚有若干同位类待标记时,则9本身不用,扩展为91,92,93…99,为第9个及以后的同位类编号。八分法一般在同位类超过9个,少于18个时使用。
②双位制:又称百分法,即在某类目下将用于配号的数字1~9不直接使用,而是分别扩展为双位数字标记其下属同位类目的编号法。一般当同位类相当多时,为避免号码冗长,采用双位制编号法。
③借号法:是采用层累标记制时,为了增加类列的容纳性而采用的借用下位类,上位类,同位类类号的一种编号方法。
4.组配技术
组配技术是指分类表中已有的表示简单主题概念的类号,按一定规则组合成一个复合类号,用以表达分类表中没有的复杂概念的一种技术。组配技术广泛应用于现代体系分类法。
《中图法》运用组配技术主要有四个方面:①编制各种类型的通用复分表,作为全表各级类目组配复分的依据;②在有关类编制专类复分表,作为某些类目组配细分的依据;③规定部分类目可以仿照已列出的类目进行细分,即类目仿分;④主类号之间使用冒号直接组配,合成新的类号。
⑴通用复分表:附在主表之后,是主表各级类目组配复分的依据。《中图法》的通用复分表有八个:总论复分表,世界地区表,中国地区表,国际时代表,中国时代表,中国民族表,世界种族与民族表,通用时间,地点和环境,人员表组成。
⑵专类复分表:是编列于主表有关类中或通用复分表类中,专供特定类目细分使用的复分表。中图法第四版主表共编列专类复分表67个。
⑶类目之间的仿分:利用相邻或相关类目的子目,作为有关类目复分依据的组配编号法,称为仿分。中图法运用仿分两种类型,即临近类目仿分和仿总论分。
5.冒号组配
⑴冒号组配技术在《中图法》中的应用
冒号组配:是将概念相关的两个或多个类目通过组配符号“:”连接在一起,以表达一个分类表未列举的较专指或较复杂检索主题的标引技术。
《中图法》只是有限地采用了冒号组配技术:通过冒号组配法,使某些专论性问题的集中分类或分散分类,为用户提供一种选择;对某些类目行行细分;在类分资料时可将若干概念相关的类目,用组配法合成分类法未列举的新主题,或对事物进行不同属性的区分。
⑵冒号组配法的使用要点
①图书分类,除主表规定可用组配编号的类目外,一般不再扩大组配编号的范围;资料分类,可根据标引的需要和概念组配的原则,较灵活地运用组配编号法标引复杂的主题或对类目进行细分。
②凡主表中已经列出的主题均不得再用冒号组配法组配表达。
③凡通过主类号的复分,仿分可以表达的主题,不得使用冒号组配法标引。
④主表类目经复分或仿分组合的类号可以用于组配。
⑤用于新主题合成时,应根据被标引的主题使用最专指类目的类号进行组配。
⑥用于类目细分时,组配类号的级位可根据用户单位该类文献自行确定,并记录在使用本上,以保证该类文献组配标引的一致性。
⑦图书分类时,属于多重列类的类目,凡注释中已明确规定采用最前标号法或最后标号法的,在编制手工检索工具时不宜再采用组配编号法标引。
⑧资料分类时,可在以下等方面扩大冒号组配法的使用范围。
(二)《杜威十进制分类法》(DDC)
《杜威十进制分类法》:简称DDC,由美国图书馆学家麦维尔.杜威所创,于1876年问世,对世界图书馆分类学有相当大的影响。其分类法体系源于美国圣路易市图书馆的哈利斯分类法,是根据培根的知识分类思想建立的。
1.DDC的分类体系
DDC划分了十个基本大类,每一大类再细分为十个二级类。依此细分到需要的级别,形成一个层层展开的十进分类体系。
2.DDC的标记制度
DDC采用单纯的阿拉伯数字做基本标记符号,所有数字作为小数理解。前三级类一律用三位数字标记,前三位数字之后用小圆点隔开,基本按层累制编号。
3.DDC的附表
DDC现有七个附表(通用或专业类复分表)
4.DDC的索引
DDC没有很详细的相关索引,将类名及类目所包含的概念名称,按字顺排列,并采用标题索引的方法集中相关标目,标明相应类号。
5.DDC的特点
⑴类目体系完整,覆盖全部知识、文献;类目详尽,等级分明,便于理解使用。
⑵首创以简明的号码标记类目的方法,便于图书排架,目录组织和检索。
⑶首次采用小数标记制。
⑷首次使用了复分和仿分方法。
⑸首创了图书分类法的类目相关索引。
⑹成立了常设管理机构,不断修订更新,保持分类法的长久生命力。
(三)《国际十进分类法》(UDC)
《国际十进分类法》:简称UDC,由比利时的奥特勒和拉封丹在《杜威十进制分类法》的基础上扩充而成。
1.UDC的类目体系
UDC的主表在9大类的基础上,采用等级列举式层层展开的方法,基本大类用0~9的一位数字表示。基本大类以下是一个逐级展开的体系。
2.UDC的标记制度
UDC的标记符号是小数制的阿拉伯数字,大类用一位数字标记,二级类用两位数字,三级类用三位数字,以此类推,大多数分类号的长短反映类目之间的从属关系。为了醒目,除有其他辅助符号间隔外,每达三位数字就用小圆点隔开。
3.UDC的组配、复分
UDC是最早提出概念分析和组配的原则,是由列举式的体系分类法向分面分类法发展的先驱,因此可以说UDC是一种“组配式”分类法。为此,UDC备有许多辅助表和复分号。
①综合符号及其用法:综合符号有加号+和斜线/两种。
②关联符号“:”及其用法。
③通用复分号及其用法:分为独立复分号和从属复分号。
④专用复分号及其用法。
⑤特殊组配复分号及其用法。
⑥字母细分法。
4.UDC的特点
①较早、较全面地采用概念分析与综合原理及冒号组配技术,是世界上第一部半分面分类法。
②类目详尽,详本目录多达15万~21万个。
③标记制度灵活,辅助符号多达十几种,表达概念能力强。
④当然UDC也有修订不及时,类目体系陈旧,组配过于复杂等不足。
(四)《国会图书馆分类法》(LCC)
美国《国会图书馆分类法》:简称LCC,它是为适应美国国会图书馆的图书排架需要,由国会图书馆的多个小组依类分工编制的。
1.LCC的类目体系
LCC的分类体系是参考当时美国流行的展开式图书分类法《克特图书分类法》,根据国会图书馆的藏书情况而确定,分为21个大类。各大类根据需要逐级细分,在细分过程中,各大类几乎都编有多种专用复分表。但是LCC没有设置通用复分表。
2.LCC的标记制度
LCC采用拉丁字母与阿拉伯数字组成的混合号码,一级类用一个字母,二级类用两个或三个字母;往下细分,用1~9999的整数,有时少量的在1~9999任意整数后用小数;然后用克特字顺号码(一个字母与一个或几个数字)细分具体的事物,即依地名,人名等取号。因此LCC的分类号包括三个层次:字母,整数或加上小数,字顺号。这样组成的类号基本上不能反映类目的从属关系。
3.LCC的特点
①类目体系有文献保证,因而实用性强。
②列类详细,是世界上类目最多的一部分类法。
③是典型的列举式分类法,较少采用组配方法。
④类号较简短,容纳概念的能力较强。
⑤有专门机构负责修订,及时反应新变化。
⑥但类目无严密的体系,没有统一的编制说明,类表索引和通用复分表,是其明显的不足。
(五)《冒号分类法》(CC)
《冒号分类法》:简称CC,是由著名的印度图书馆学家阮岗纳赞独创的分面组配式分类法。它首次发表于1933年,因使用冒号:作为分面组配符号而得名。
⑴CC的类表结构
为了适应组配的需要,CC设置了较多的基本类目。它采用分面结构将每一主题划分为若干范畴,范畴之下列出具体的点和面,形成类表。使用CC进行分类标引时,要从标引对象的主题分析入手,找出相关范畴及分面,再由分面中选择出相关的概念和它的代码,按照一定规则把各个相关的点组合成代表标引对象的类目代码,使之全面反映标引对象的特征。
⑵CC的特点
CC的特点鲜明,影响深远。作为分面组配式分类体系的代表作,超越了等级列举式分类体系的局限,可以灵活地揭示标引对象的特征,适应了对信息细密,全面,多角度检索的需求。
⑵CC自身也有一些缺陷,例如各类的划分比较注重形式,而忽略内在的联系和知识分类的惯例,使用的标记符号复杂,术语比较费解,影响其实际应用。
三、网络信息资源组织中的分类法
(一)数字化信息资源组织的特点
这里所说的特点是指数字化文献在整序方面与印刷型文献相比较所具有的不同之处及困难之处。
1.著录对象复杂
印刷型的文献作为一个整体,其物质形态决定了文献组成部分间的关系,而在数字化环境中,一系列相关信息源有时汇集于同一主页下,或是一个大型数据库中的一个组成部分。数字化文献的这种特点给文献标引和著录带来困难。标引和著录是以整体为对象,还是以具体某个单位的数字化文献为对象,难以处理。
2.储存的信息具有动态性
一是载体内储存的信息在不断变更。比如那些属连续性出版物性质的电子出版物,每隔一段时间就要更换新的内容;二是网络信息会随着时间的推移而发生变化。这两方面的问题都给著录带来麻烦。
3.网络信息是交互式、多媒体的
交互式是指在网络上各种异构数据库的数据在超文本系统中能互相交汇,也就是在同一平台上能获取各种数据,这与印刷型文献的存在方式完全不同,印刷型文献是根据线性顺序排列的。这就给分类法如何应对网络信息进行分类提出新的要求;而多媒体以其传播媒体的多样化更是给标引和著录工作带来麻烦。
4.能反映形式特征的事项不多
对印刷型文献,可以通过书名,作者姓名,出版地点,出版机构,书号,页码,价钱等来揭示其形式特征。而反映网络信息形式特征的事项较少,或很难寻找,这就使编目人员不能较为全面地揭示网络信息的形式特征。
5.利用数字化文献所需要的环境复杂
利用印刷型文献,只要信手拈来,即可阅读。利用数字化文献则需要软硬件设备,而且对所需的硬件和软件都有一定的要求。因此,编目人员在对数字化文献著录时,必须注明利用该文献时对所需要的硬软件的要求,不然是会影响用户利用数字化文献的。
6.载体形态和篇幅难以确定
数字化文献的载体形态有光盘,软盘,磁盘等,而如果是通过网络浏览到的信息,则很难断定是储存在什么载体上。这种情况给著录带来两个方面的问题:一是编目人员要熟悉各种载体的类型,规格等;二是如果遇到网络版的数字化文献,就很难进行载体的形态著录,或者就著录以“网络版”。此外篇幅的著录也是一个难点。
7.主要著录根据难以确定
主要著录根据是各类文献被优先选作提供著录该文献所需书目事项的部分,是编目的依据,编目统一化的基础。对印刷型文献来说,题名页是文献著录的主要依据。但是数字化文献的主要著录根据就找不到类似题名页这样的部位,这是因为两个方面的原因:一是电子出版机构出版电子物没有统一的出版规范可以根据;二是网络信息的出版者的类型众多,所以产生的网络信息的版式更多样化。
8.储存地点多样化
印刷型文献的收藏地点易于获取,查找方便。而网络信息则必须注明其地址,而且要求对地址的著录绝对精确,任何微小的失误都会造成地址无效。
(二)网络信息组织的分类法
目前Internet主要以两种方式采用分类法进行信息组织:一是基本以人工标引方式采用现有的文献分类法;二是以人工标引或自动标引方式采用自编的分类系统。
1.现有文献分类法在网络信息组织中的应用
⑴现有文献分类法在网络信息组织中的应用现状
①杜威十进制分类法:web上的分类目录利用DDC做分类体系始于1995年。现已有几十个站点以DDC为分类体系,这些站点以图书馆和大学为主。资源类型具有综合性全球资源,也有专题性资源,国别资源。
②国际十进分类法:UDC由6万多个类目构成,并提供多种复分表,在满足文献资料细分方面具有独到优势,它具有分面组配分类法的一些特点,通过符号组配可以获得概念的组合,因此这种分类法较适合于机检。一些网络目录利用了UDC的这些优点,建立起自己的分类系统。
③国会图书馆分类法
⑵现有分类法对网络信息组织的适应性
现有分类法在组织网络信息时具有以下优势:
①由于限定了检索范围,可以提高查准率;
②分类等级结构可以提供检索词的上下文;
③自动索引结构便于用户在查找时进行浏览;
④检索目的不明确或检索词不明确时,分类浏览方式更有效率;
⑤以知识分类为基础,以符号为标识,具备成为不同语言转换中介的条件;
⑥非文本信息在网络信息资源中所占比例日渐增大,其内容特征难以用文字表达,分类法的聚类功能及号码标识为之提供了一条可能途径。
现有分类法用于纸张信息组织时需要有所调整,主要包括:
①将分类法的文献保证扩展到包括internet信息资源,增加必要的新类目;
②修订类名,增强其表达性和通用性;
③分解和标记类号的组成因素,以识别它所表达的特定主题和主题方面;
④不断增加新的术语作为索引词,扩展分类法与其他受控词汇的联系;
⑤控制使用类目的深度,多数网络分类检索系统只使用分类法的1~3级类目。
2.用于网络信息组织的自编分类系统
有许多搜索引擎采用自编分类系统进行信息组织,具体表现为网站分类目录和网页分类索引。
⑴自编分类系统的种类
①等级式主题分类法系统:是指在分类体系中,基本上采用等级结构,一个主题充当一个类目,类目按字顺或人为次序,类目不采用标记符号表示,一个类目可以细分为若干细目,同位类的细目多按字顺排列。这种主题分类法形式的分类体系,依事物分类,而不是依学科分类,能够将相关事物的网络信息资源集中。目前大多数网络分类检索系统就是采用这种分类系统。
②分面组配分类法系统:是由若干个分面组成,每一个分面的类目可以与其他分面的类目组配,表达专指的概念。搜索引擎中的高级检索功能大多借鉴分面组配分类法的思想。
③学科分类法系统:这是将科学、技术的各个学科、领域及其分支设为类目的分类法系统。目前像中国知网这类的学术资源类网站,大多提供多级学科分类目录。科学网这类学术型网站多提供学科分类目录。科学网博客这类学术知识交流社区,也按照学科进行分类组织。
⑵自编分类系统的特点
①重视以事物为中心设置类目。与传统的文献分类体系不同,网络分类系统虽不完全放弃从学科的角度组织网络资源,但大多从便利用户使用出发,直接以检索的事物为中心设置类目,从学科角度设置的类目很少。
②类目的收录范围宽泛。类目体系展开时,其下位类不仅收入该类的从属类目,而且收入各种相关类目,从而使得一些类目的下位类数量大大增加,远高于传统文献分类法同级类目的数量。
③多重列类、重复反映。为了方便用户信息查找,这类网络分类体系一般都十分重视结合网络显示特点,采用多重列类的方法对网络信息重复反映,以便可以从不同角度着手加以使用。
④排列方式简便。对同位类的排列主要有两种方式。一是字顺方式,这种排列方式不能揭示同位类之间的内容联系,但可以方便用户对特定类目的查找,同时也有利于简化新类的增补。二是检索频率确定同位类的排列次序,在同位类中首先列举高频类,突出热门主题,方面多数用户使用。
⑤直接以语词组织信息。这些系统放弃传统分类法以标记符号表达文献主题的方式,直接以语词表达类目体系,采用链接技术连接网络文献,比使用分类标记更加方便、直观、易于理解。
⑥更新迅速。由于网络分类体系是通过链接与网络文献建立联系的,类目的调整受原有体系的束缚较少,可以根据网络资源的发展变化及时增设新类或重复反映相关类目等,往往具有较大的动态性。
⑶网络分类系统中存在的问题
①类目设置缺乏规律性。不少系统同位类的展开是多元的,往往同时采用多个标准,每一种标准使用时又不完整设类,有时还同时列出不同等级的类目,使得同位类的设置缺乏必要的规律性。这样造成某些类目之间关系含糊不清,增加了类目体系的不确定性,使得信息的查找不容易把握。
②类目归属存在着不合理现象。根据知识之间的联系,合理确定类目之间的归属,是建立分类体系的一个基本要求。网络分类系统中类目归属的不合理现象有两种情况。一类是类表在确定类目的下位类时,相关类收入范围过宽,导致收入一些超出母类外延的类目;另一类情况则是,未能按照知识之间的关系合理确定类目的归属。这类处理显然不利于分类体系的有效使用。
③同位类排列不能揭示类间关系。按照类名字顺或检索频率排序,虽然可以方便同位类的列举,但这类列举方式不能反映并列类目之间的联系,缺乏对知识门类系统显示的能力和揭示类目相关性的作用。特别在同位类采用多种划分标准的情况下,更容易造成类目关系的混乱。
④横向关系揭示上存在不一致。网络分类法通过链接的方式,将具有多重联系的类目在各相关类目下重复反映,以增加类表的多维性,是一种进步。但在处理过程中缺乏一致性及对范围的适度控制。在多重联系类目的处理上,目前国内多数网络系统的主要问题是重复反映不够。此外单一的重复反映并不能简单代替相关关系的揭示。
⑤部分类名不确切。类名有时不能确切概括类目的内涵,有时只有象征意义。此外,由于网络类目的下位类范围较宽,上位类有时很难有效限定其含义,加之网络自编分类体系一般不使用注释揭示类目的内涵,容易使一些类目的含义和范围难以确定,影响使用效果。
⑥分类规则有待完善。网络分类体系的多维性和网络文献的多样性需要详尽的分类规则。目前为止,多数系统仍没有建立起适合网络文献特点,符合网络分类体系的比较充分的标引规范,从而影响标引的准确性和一致性,无法充分揭示有价值的网络文献,造成标引质量降低,影响实际检索效果。
(三)网络信息资源分类体系的建立
1.网络信息分类的基本原则
建立一套科学的网络信息分类体系,首先必须明确基本的分类原则。其原则的确定必须根据网络信息的特点。
⑴直接性原则
分类的层次不宜太多,不应该出现转换十多次还找不到所需信息的情况。一般来说,类目在六层以下比较符合人们的习惯。
⑵数据保证原则
网络信息分类法是面向整个网络信息资源的,分类对象要明确地扩大到网络上一切以利用的资源,让各种类型的网络信息资源都能在分类法中找到相应的位置。
⑶自然性和实用性原则
网络是面向大众的,所用的类名基本上应当是自然语言,以满足广大普通用户的信息需求。同时网络信息分类的类目要少而精,要实用,不应该仅仅为了美观等因素而设立一些用处不大的类目。
⑷快捷性原则
每一类名都应有与其对应的一个快捷键或类号,以便于熟练的用户进行快速查找。
2.网络信息分类法的构建
传统分类体系与网络分类体系的相互借鉴和改造,使得编制一部网络信息分类法成为可能。在具体做法上,应注意以下几点:
⑴以传统分类主题为基础,构建多维的分类体系。
在栏目设置上,为了便于用户浏览,可以适当灵活处理,建立多维的分类模式。但这种变化必须是以传统分类主题理论体系为基础的。
⑵按需设类,突出重点,便于浏览。
一方面,因为一般用户对事物的认识要比对学科的认识更为直观和清晰,按主题和事物划分可以降低用户浏览时的认识负担。因此网站栏目应根据实际需要而设,并且尽可能的删除与主题无关的栏目。另一方面,类目的规范程度主要地由用户群的结构而定。此外,为了便于用户以最快捷的方式访问到网站提供的热门栏目和信息,在栏目的设置上可以不拘泥于原有分类体系的逻辑层次划分,而是根据信息量和访问频率提升某些重要栏目的级位,将网站最有价值的内容放到突出位置。
⑶控制类目级别,减少栏目层次。
网站的栏目设置与划分的目的是让用户以最快的方式找到想要访问的页面信息,如果严格按照传统分类体系设置栏目,很可能会将用户感兴趣的页面埋藏在5、6层页面之下,显然这会让用户失去继续浏览的兴趣。因此,在栏目设置和划分时,应将大多数栏目的层次控制在3,4层为宜,专业性强的栏目可以适当延伸。为了控制栏目层次,栏目设置可以不局限于单一标准的逻辑划分,而是使用若干标准同时对某一上级栏目进行划分,建立若干从属于上级栏目的平行的子栏目,从而满足网络用户多途径,多角度的检索特性。
⑷网络信息分类法与主题词表的结合。
网络信息分类法的着眼点绝非只是分类法本身,而且要顺应分类主题一体化的发展。因此必须考虑到网络信息分类法与主题词表的结合。主题词表中的词能被分类体系完全囊括,而且应具有严格的对应关系。
四、分类法应用实例与实践
(一)传统分类法的应用
1.传统分类法的优势
⑴类目划分明确,逻辑关系完善
⑵广泛应用于文献机构
⑶伸缩性好,包容性强
2.传统分类法直接用于网络信息资源组织的困难
⑴难以适应网络信息资源特点
⑵类目体系专业,不适应大众用户
(二)自编分类法的实践
四大门户网站:新浪、网易、腾讯、搜狐
第三章 信息资源组织的主题语言
一、主题法的原理与体系结构
(一)标题词描述语言
1.标题语言的原理
标题语言是最早产生的一种主题语言,标题是主题标目的简称,它是直接表达文献主题的标识,大多是对文献内容所论及事物名称及其特征的规范表达,众多标题集合而成的主题标识系统,就是标题语言。
⑴标题的性质
①直接性:标题基本上是用事物的名称直接表达文献主题,或者说它是直接指出文献的内容所论述的事物。
②直观性:标题采用自然语言的语词形式作为其符号形式,因此,其含义比较直观。
③受控性(规范性):标题是受控制的,不是所有的事物名称或事物名称的所有自然语言形式都可以成为标题。标题只是选择那些可能成为文献主题的事物及其较为通用,准确,专指,检索效果好的名称,并设法实现名称与概念的唯一对应。
④语义关联性:虽然标题一般不直接表达事物之间的关联,但是它一方面尽可能利用字面成簇的机会反映标题之间的语义关系。因此在确定和使用标题时,不能忽视它的语义关联性。
⑤先组式:标题基本上是一种先组式标识,一个标题可能只有一个部分,也可能是由几个部分组成,当它是由几个部分组成时,一般是预先组合好了的。即使少数标题没有组合好,其使用时的组合也是预先设计好了的。
⑥示范性:现成的标题具有示范性,这意味着标引所用的标题不必总是已经列举的现成标题,表引人员可以参考现有标题,自拟一些新的标题表达现有标题没有表达的事物,特别是新的事物。
⑵标题语言的特点
①用受控的自然语言语词作标识,直观地表达主题概念,直接地标引文献。
②以字顺序列组织标识,提供直接的主题检索途径,有利于进行特性检索。
③主要用参照系统间接显示标题所表达的主题概念之间的关系,形成语义网络。
④按事物集中文献,而不是按学科、专业集中。因此标题语言适合于从事物出发的检索,不适合于从学科出发的检索,不便族性检索。
⑤提供先组式的主题标识,标识含义比较明确,选用标识比较容易。但是,多途径检索的可能性较小。
⑥标引所用的标题不必都是标题表所列举的现成标题。允许必要时自拟标题表达新的或没有列出的主题概念,适应能力较强。
⑶标题的类型
①单级标题:即一个标题仅由一个名词术语构成。它可以是一个单词,称单词标题或元词标题,也可以是一个词组,称词组标题或复词标题。
②带说明语的单级标题:“期刊,化学的”。
③多级标题:由两个或两个以上的标题词采用组配符号-连接起来的标题形式称为多级标题。“肿瘤-治疗”
④倒置标题:将复词标题中具有检索意义的后置部分依次作为入口词前置,并用逗号,与原入口词连接的标题形式称为倒置标题。“低速飞机”“飞机,低速”
⑤带限定词的标题:“桔(树)”“桔(水果)”。限定词一般都置于括号中,用于做形式复分。
⑥混合标题系统:在标题法实践中,常同时采用上述几种标题形式中的若干种。
⑷标题词的范围及选词原则
标题词的职能,是直接地、精确地表达文献所论及或涉及的事物,即主题。一切事物,凡能成为研究对象者,其“名”在原则上都可作为标题词。
①具有检索意义:这是指必须选择用户有可能用来作为检索标识表达其检索课题的词作标题。
②适当专指度:标题词必须符合直接地精确地表达文献所论及或涉及的事物,以达到一个标题词只代表一个概念的要求。
③通用性和准确性:通用性是指必须选用能普遍接受的词作为标题词。准确性是指标题的字面形式与其表达的概念应该吻合。
④唯一性:这是要求一个概念只能用一个标题表达;一个标题只能表达一个概念;一个标题只能用一种字面形式;同性质的标题字面形式应尽量一致。
2.标题表
⑴标题表的作用
标题表即标题词表,是标题词的汇编,是一部标题词典。
①登录经过控制的标题(正式标题)和非标题(非正式标题),并不断予以更新完善,是标引和检索选用标题的依据。
②不仅按字顺组织标题和非标题,而且用参照系统显示标题之间以及非标题和标题之间的关系。既便利查找和准确选用标题,又便于检索时的扩大,缩小和改变检索范围。
③详细的注释和说明提供标引和检索使用标题的方法指示,为正确一致地使用标题提供保证。
④体现标题控制的原则,提供标题控制的规范。标题的使用者可以根据规则拟用标题表没有列举的标题。
⑵标题表的结构
①编制和使用说明:通常表现为标题表的导言或单独的使用手册。
②主表:标题表的主表,或称字顺主表,是标题表的主体部分。它按标题和非标题的字顺排列。
③副表:标题表的副表是主表的辅助部分,它的表现形式有几种:一是复分标题表或副标题表,二是复分标题索引,三是标题分类表。
⑶标题词款目的结构
标题、标识、注释、参考、副标题
(二)叙词描述语言
1.叙词语言的前身——单元词语言
⑴单元词语言是主题法系统中的一种后组式语言。单元词法目前已发展为叙词法。单元词法同标题法一样,也是以取自自然语言并经过规范化处理的语词作为标识,以表达文献所论及或涉及的事物的。
⑵单元词法的基本原理是:任何一个复合概念都可分解为若干单元概念,而每个单元概念一般只需用一个词来表达。
⑶单元词法的特点:它的标题是组配构成的,而且是后组式的,即到检索时才将它们组配起来。后组式标识是单元词的重要特点。
2.叙词语言的原理
⑴叙词语言:是以受控的自然语言词汇作标识,主要以标识的概念组配来表达主题概念的一种后组式主题语言。我国又称为主题词语言。它既以单元词语言为直接基础,又综合了多种标引语言的原理和方法。其中,概念组配是决定着它的特点和性能的基本原理。
⑵概念组配与字面组配的区别
①两者的本质不同:a)概念组配本质上是在概念分析的基础上进行概念综合,概念组配结果所表达的概念与参加组配的各方所表达的概念在逻辑上是有联系的,往往表现为下位概念与上位概念的关系。b)字面组配是利用构词法进行词的分拆和组合,它符合构词规律,但是不一定符合概念逻辑,字面组配的方法比较简单直接,但是对概念的表达时常不够准确。
②两者的词汇单元不同:①单元词是字面上不能再分的词汇单元,相对来说,独立表达能力较差。b)叙词则有概念特征,尽可能选用能够表达学科或事物的基本概念的语词,不仅收单词,而且收词组,对主题的表达能力较强,因此叙词对文献概念的揭示往往更准确。
⑶叙词语言的特点(参考基础)
①直观性:直接以规范化了的自然语言叙词作为标识符号,直观性强。
②专指性:直接从文献论述和研究的具体对象和问题出发进行选择,并采用叙词组配来描述主题。可根据需要直接选作叙词或通过组配加以表达。
③适应性强:对不断出现的新事物,新学科,新概念和新的研究课题,叙词法能随时加以增删和修改。
④迅速准确:采用字顺排列方式,查找方便,迅速准确。
⑤后组式:主要采用后组式概念组配的方法,具有较大的灵活性。
⑥多维检索:又叫多途径检索,即对同一主题的文献可以从多种途径检索得到。
⑦网络结构:主要体现于叙词表中的叙词字顺索引的参照系统、范畴索引,词族索引,叙词的词族图等几个方面。这种网络结构的编制和建立,揭示了事物及其概念在各个学科领域,各个方面的内在联系,加强了叙词法的学科系统性和族性检索作用。
3.叙词表
⑴叙词表的结构体系
就总体结构来说,叙词表一般都是由一个主表和若干辅表构成的。作为叙词表组成部分的各种排列表或索引,以及词的关系图,归纳起来有以下几种:
①叙词字顺表:一般是叙词表的主表,它是将叙词和非叙词完全按字顺排列,并有标注事项和显示词间关系的参照系统。
②叙词分类索引:也称分类表或范畴索引。是一种重要的辅助索引。它是将叙词按其概念所属学科或范畴分成若干大类,在大类之下再分成若干小类,在小类之下则将叙词按字顺排列,形成一个类似体系分类表的概念分类系统。
③叙词等级索引:也称簇系表或词簇索引。它是利用概念的等级关系(概念成簇原理)将叙词汇集在一起成为一簇,构成一个从泛指叙词到专指叙词的等级系统,可以从一族中外延最广的叙词(族首词)出发,找到一系列同簇的叙词,并且可以确定它们之间的层层隶属关系。
④叙词轮排索引:也称轮排表。它是利用字面成簇的原理,将有相同单词的词组叙词汇集在一起,排列在那个单词之下,从而可以从那个单词出发,查出含有该单词的某一个或全部词组叙词。
⑤叙词双语种对照索引:如英汉对照索引等。这是建立在两种语言之间语词等价关系的基础上,提供从另一种语言字顺入手查词途径的一种索引。
⑥专有叙词索引:如地区索引,人物索引,机构索引,产品索引等,这些索引一般与主表不重复,实际上是主表的一个组成部分。
⑦正式叙词索引和款目词索引:前者仅限于正式叙词,后者包括正式叙词和非叙词。这种索引是叙词的简本,可方便检索人员查阅和携带。
⑧叙词关系图:也称词簇图或语义关系图。这是用图示的方法来显示同族叙词之间的关系,比较清晰。
⑵字顺表的款目结构
对一个正式叙词及其相关项目的著录就构成一条正式叙词款目;
对一个非正式叙词及其相关项目的著录就构成一条非正式叙词款目。
正式叙词款目和非正式叙词款目一般由:款目词项、标注项和参照项三类项目组成,但两者的著录项目,尤其是参照项目的差别很大。
(三)关键词描述语言
1.关键词语言的原理
⑴关键词:是指那些出现在文献的标题以至摘要、正文中,对描述文献主题内容具有实质意义的语词,以及对揭示和描述文献主题内容来说是重要的,带关键性的(可作为检索入口的)那些语词。
⑵关键词法:就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只做极少量的规范化处理,按字顺排列,以提供检索途径的方法。
⑶关键词语言的原理(➕特点):
①直接抽取文献中或题名中的语词作标识,对作为标识的词不加规范或只作极少量规范处理。
a)从题名中抽取的关键词一般可以有效地将检索者指向所需的文献;保留题名关键词的上下文有助于增强主题表达的明确性和专指度,关键词语言一般以题名作为关键词的唯一来源或主要来源。
b)关键词语言对抽出作为关键词的词一般不加规范,即保持它的原文中的词义和形式。但是为了便于计算机处理,在文献著录的过程中,可能要求对题名甚至文摘中的某些词或符号予以改写,这可以说是对关键词做极少量的预先规范化。
②不编制受控词表来进行词汇控制,不显示词间关系,只是编制禁用词表(非关键词表)来控制抽词。
禁用词表:或非关键词表,是将那些没有实义或无检索意义的词,如冠词,介词,连词,感叹词,代词以及部分形容词,副词,动词等非关键词,预先编制成表,以便于计算机自动抽词或人工抽词时排除这些非关键词,抽出关键词。
③每个关键词都是平等的,都按字顺轮流排至检索位置,提供多途径的主题字顺检索。
一般地,每一文献的关键词有多个,它们不仅都能作为检索入口,分别提供主题字顺检索途径,而且共同表达文献主题,有时还与非关键词一起表达主题概念。
2.关键词索引的类型
⑴一类是带上下文的关键词索引,包括:题内关键词索引,题外关键词索引和双重关键词索引;
⑵另一类是不带上下文的关键词索引,包括:单纯关键词索引,词对式关键词索引和简单关键词索引。
3.关键词语言的性能
⑴关键词语言的缺点:
①由于关键词法直接采用文献中的自然语词做关键词,对自然语言中大量存在的等同关系词不加规范统一,也不显示等同关系。导致漏检的可能性较大。
②关键词法不显示关键词之间的等级关系和相关关系,难以进行族性检索,特性检索的查全率也不高。
③为了加速和简化检索工具的编制过程,多限于从文献标题中抽取。由于一些标题对文献内容的表达不充分或不准确,会使关键词检索有一定的漏检或误检。
④在机编索引情况下,由于机械的抽词和轮排,其中有不少关键词款目是不起检索作用而徒增篇幅的。
⑵关键词语言的优点:
①标引时无需主题分析和查看词表,简便易行,因而降低对标引人员的要求,节省大量人力。
②标引和索引编制易于实现自动化,从而显著节省时间,大大缩短检索系统信息组织和报道的时差,保证信息报道和传递的及时性。
③关键词是文献中使用的自然语词,表达主题比较直观,专指,可以保证较高的查准率。
二、国内外主题法实例
(一)汉语主题词表
《汉语主题词表》是一部大型的综合性主题词表。它是在专业词汇的基础上编制而成的综合性检索工具书。该词表主要为电子计算机存储,检索文献之用,同时也兼顾手工标引与检索的需要,用于组织卡片式主题目录和书本式主题索引。此表既适用于综合性的信息工作机构,也适用于专业性信息工作机构。
1.《汉语主题词表》的选词原则
主题词是主题词表的基本成分,是标引和检索的直接依据。
⑴主题词的选定,主要是从社会主义建设出发,贯彻为四化服务的原则,对不同政治观点用词及其语义关系应注意其思想性和政治内容。
⑵选定的主题词,主要是各个学科领域内经常出现的,在实际检索工作中有一定的作用频率的,并能汇集一定的文献量或具有组配意义的最基本的名词术语。
⑶主题词的词义必须明确,必须是能表达文献主题和使用者查询课题的特定概念。
⑷主题词的名称一般为科学上的通用名称。
⑸词组的选定。主题词从词形结构来说,可以分为单一主题和复合主题。单一主题词表现为单词形式,复合主题词表现为词组形式。词组在概念上和词形上都可以进行分解,并用组配方法来表达。在选词过程中,哪种情况下用词组,哪种情况下采用组配,必须明确规定。
2.《汉语主题词表》的体系结构
《汉语主题词表》是一部收词量大,结构体系完整的叙词表,全表由主表,附表和辅助索引三大块构成。
⑴ 主表
主表是《汉语主题词表》的主体,由社会科学主表和自然科学主表两部分组成。主表的基本构成单元是叙词款目和非叙词款目,均按款目词的汉语拼音按字母顺序排列,构成字顺体系。
⑵词族索引
《汉语主题词表》的词族索引是排除了同义和相关语义关系,只反映属分语义关系的一种字顺和阶梯式的等级索引。
⑶范畴索引
范畴索引是根据叙词的学科和词义范畴,划分若干类,每类下再按字顺组织的分类系统。
⑷英汉对照索引
英汉对照索引是为了在标引和检索英文文献时,参考英文叙词的一种辅助工具。英汉对照索引的每条款目由英文名,汉语叙词组成,按英文字母顺序排列。
⑸附表
附表是为了控制主表的词量,避免体积庞大,而将一些专有名词独立出来,分别按字顺编排而成的。它是主表的组成部分,收录的主题词一般都具有单独概念的性质,并具有较强的检索意义和组配功能。《汉语主题词表》共有四个附表:世界各国政区名称,自然地理区划名称,组织机构,人物。
(轮排索引:目前《汉表》的轮排索引只包括自然科学部分,收入《汉表》自然科学部分的全部词汇,包括单词,词组,正式叙词和非叙词,采用题内关键词索引的方式编制。)
(二)《医学标题表》(MeSH)
《医学标题表》简称MeSH,名为标题表,实则为叙词表,它由美国国家医学图书馆编制,在国际医学系统内得到了广泛应用。
MeSH的标题结构和种类
①主标题。又称主叙词,有以下几种结构:单词标题,短语标题,倒置标题。MeSH的主叙词除论题主叙词外,还有出版物类型主叙词,特征词,地理主叙词等。
②副标题。又称限定词,用于专指主标题的某一方面而限定主标题。MeSH有四种标题:论题副标题,形式副标题,地理副标题,语言副标题。
(三)《中国分类主题词表》
《中国分类主题词表》简称《中分表》,是在《中图法》类目与《汉表》主题词对应的基础上,将分类法与主题法、先组与后组融为一体的一种文献标引和检索的工具。《分类号——主题词对应表》、《主题词——分类号对应表》
《中国分类主题词表》的特点
⑴优点
①通过将《中图法》类目与《汉表》主题词的对应,建立起了一个分类语言与主题语言结合的一体化工具,可以利用它同时进行分类主题的标引和检索,简化操作程序,降低标引难度,改进标引和检索的质量。
②其分类法部分是将《中图法》、《资料法》融为一体的体系,可以同时供图书资料单位标引使用;在作为图书标引工具时,《资料法》部分的类目可以作为《中图法》对应类目的说明对待。
③其主题法部分,除收入原有的叙词外,还包括近年来中文图书标引中新增的叙词和对应表编制时的新增词,以及《分类号——主题词对应表》中出现的主题词组配形式,是《汉表》叙词比较完整的版本。
④改进了字顺表的款目结构,改进了排检方法,采用音序和字形结合排序,符合人们查找习惯,使得编排紧凑,便于查找,易于使用。
⑵不足
①本表中的类目和对应的主题词之间只是一种先组语言和后组语言之间的兼容互换关系,很难进行两者之间的精确转换,不少类目下对应主题词的数量往往不充分,不能详尽包括标引类目深层含义或隐含主题。
②类目的处理由人工按照概念关系的理解转化完成,存在随意性和不一致性,有时过多,有时过少,有时存在着错误,影响对应的质量。
(四)《社会科学检索词表》
《社会科学检索词表》是中国社会科学文献信息中心编制的一部供社会科学文献资料标引和检索的词表。该词表采用分类主题一体化的形式,其分类表部分使用与传统分类体系结合的分面结构。由分类表,字顺表和英汉译名对照表三部分组成,是国内供社会科学领域文献单位进行标引和检索的多学科性的工具。
《社会科学检索词表》的结构
⑴分类表:《社会科学检索词表》的分类表部分是一部将传统分类法设置特点和分面分类法结合编制的分面分类系统。
⑵字顺表:《社会科学检索词表》收入主表的全部主题词,包括正式叙词和非叙词。叙词款目通常由款目叙词,分类号,参照项组成,其中分类号可以揭示与分类体系的联系。
⑶英汉译名对照表:英汉译名对照表是一个英汉对照的词表,全表不标注分类号和参照符号,主要供对外交流时参考使用。
三、网络信息资源组织中的主题法
主题法是网络信息组织的另一种主要模式。在网络信息资源组织中,主题法的使用一般分为两种形式,一是采用现有的词表,包括叙词表和标题表,另一种就是广泛采用关键词法。
(一)关键词法在网络信息组织中的广泛应用
主题语言在网络信息组织中的应用目前主要表现为关键词语言在网络搜索引擎中的广泛应用。网络搜索引擎关键词检索功能主要有以下几种:
1.简单关键词查询
它只是要求将关键词直接输入查询框中,可以输入一个或多个关键词,不要求对关键词加以限制,系统按照自己的规则可能会将输入的关键词分解为几部分,并将包含每部分字符的信息都显示出来,也可能查出字面相同但内容相差很远的信息。
2.高级关键词查询
大多数搜索引擎提供以下一项或多项高级的关键词查询功能,对检索用的关键词进行限制。
⑴布尔查询
大多数搜索引擎具有布尔逻辑查询功能,有的允许逻辑与、逻辑或、逻辑非三种逻辑运算,有的只能进行其中的两种或一种逻辑运算。不同搜索引擎提供的运算方式也有不同,大多数搜索引擎采用命令方式使用布尔算符,如AND OR NOT或+号和-号。
⑵精确查询
又称词组查询,是将一个词组当做一个独立的运算(往往用双引号括起来),进行严格匹配,提高效率。
⑶模糊查询
也称概念查询,它不仅可以根据输入的关键词进行查询,而且会自动的用关键词的同义词,近义词进行查询,从而提高查全率。
⑷截词查询
在搜索引擎中目前多只提供右截断法,截词符多采用星号※。
⑸位置查询
目前只有少数搜索引擎具有位置查询功能,而且大多数只有一种临近位置运算,即Near运算。
⑹字段查询
这是将关键词查询限定在特定字段进行的一种功能,在搜索引擎中,字段查询多表现为限定前缀的形式。主要限定的字段有题名,URL,主机名,域名,链接等。
⑺限制查询
这是将关键词查询限制在特定信息范围内进行,限制的信息范围主要有网络系统,信息类型,时间段及语种等。
⑻管道查询
这是用管道符号“|”连接两个或多个关键词,查询时系统自动地先对前一个词进行匹配,然后在其基础上再对后一个词进行匹配,以次类推,以达到逐渐缩小检索范围,提高查准率的效果。
⑼区分大小写查询
有的搜索引擎能够区分检索词的大小写,将同一个词的大写形式和小写形式视为不同的词进行查询,有的搜索引擎则不区分关键词的大小写。
⑽自然语言查询
这是指用户可以直接用自然语言的字,词,句子作提问式进行检索,系统可以自动分析提问的要求,识别需要查询的关键词及词间关系。
(二)现有主题词表在网络信息资源组织的应用
目前,使用现有主题词表组织网络信息资源的还不多,主要是美国《国会图书馆标题表》(LCSH)和《医学标题表》(MeSH)被一些网络信息资源检索系统采用。
四、信息组织方法的发展与应用
(一)本体和本体库
1.本体
本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。本体有不同类型,如领域本体,常识本体等。
本体应用领域广泛,包括知识工程,信息存储,索引和检索,自然语言处理,人工智能等,是人类在语义层面处理信息的重要工具之一。目前常用的本体库有HowNet、WordNet、FrameNet、VerbNet等。
2.WordNet
是一种基于认知语言学的英语词典。它不仅把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。
3.HowNet
知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。计算机化是知网的重要特色。
(二)Folksonomy
Folksonomy 是指“群众”自发性定义的平面型、非层级结构式标签分类。中文术语包括分众分类法,通俗分类法、大众分类法,民众分类法,大众标签,社会化标签等不同的翻译名称。
Folksonomy应用于非常多的信息分享环境,是信息组织、检索、推荐的一种方法。用户给网页,图片,视频,博客,播客,学术文章等信息内容设置标签,形成了folksonomy。标签可以解释为用户自发地,自由地用非控词汇给信息资源添加注释,通常是无结构的文本标签或关键词。由此,folksonomy包括用户,标签和资源三个根本要素,通过用户设置的标签,对信息资源进行组织,检索和推荐。
(补充):自然语言标引与检索
自然语言:是指直接使用不经过控制的自然语言中的语词作标识进行信息资源的标引和检索。
(一)用以标引和检索的自然语言类型
1.关键词法
这是最早用于计算机信息检索的自然语言形式。早期主要用计算机自动抽取文献题名,文摘或正文中有检索意义的语词,通过轮排生成各种类型的关键词索引,包括题内关键词索引,题外关键词索引等,同时也用来建立数据库,供机检使用。是目前主要应用形式。
2.文本检索
这是一种不进行标引,直接利用计算机的功能,通过自然语言中的语词对信息资源的文本数据进行匹配检索的方式。匹配的对象包括题名,文摘,正文等。进行文本检索的前提是需要有电子文本。这种检索形式的优点是不需要标引,对信息资源的处理速度快,可以及时投入运行,其不足是检准率低。通常通过各种与词汇控制结合的形式加以改进,以便达到较好的检索效果。
3.自由标引
通常指由标引人员直接选择自然语言中语词进行标引。这种标引可以克服受控标引速度慢,周期长的不足;同时依据标引人员的智力判断,标引准确度比关键词法高,通常用于文献资源增长量大,需求迫切的领域。自由标引不需要依据词表,但一般应通过建立严格的标引规则,规范对各种类型文献资源的分析和处理,以提高标引质量,保证有检索价值的信息得以揭示。
4.自然语言入口词检索
包括在受控系统中使用入口词表检索与后控检索,两者都将自然语言语词作为检索入口,通过入口词与控制语言的转换和结合,实施检索。两者的不同是:受控系统的入口词表,由不用作标引的非正式主题词组成,本身不用来标引,只起提供检索入口的作用。检索使用时,将入口词转换为对应的标引词进行匹配查找。后控词表中的入口词既用作检索入口,其本身也是检索匹配的依据。
5.自动标引
亦称计算机标引,机标,指直接使用计算机对信息资源进行处理,确定其检索标识的活动,通常包括自动抽词标引,自动赋词标引,自动分类等类型。
(二)文本检索系统中的检索技术
文本检索模块是用户进行检索交互的窗口,通常根据资源特点和用户需要建立相应的检索界面,以适用的方式提供检索结果,并通过一定的检索优化形式,建立优化重组机制,改进系统的使用效果。
(三)文本检索系统的存储模块
信息存储模块是文本检索系统的基础和核心部分,往往是根据系统处理的文本对象的特点由相应的部分构成的。以网络检索工具为例,其构成成分和相关工具可以简单归纳为:顺排索引,倒排索引,结构索引,实用索引,检索日志,词典。
第四章 置标语言工具
一、概述
实现网络文献的有效组织,需要从文献的内容、结构和显示三个方面着手。
①文献内容包含了文献所描述和表示的所有内容,是文献存在的根本所在。在网络环境下,需要提供简单方便的机制来描述文献的内容,且所提供的描述机制尽量是机器可读的,也就是计算机能够理解和识别的。
②文献结构是文献内容的组织形式,对于数字化文献来说,文献结构也是计算机的处理模型,直接决定了计算机对文献的处理方式。
③除了文献结构和内容之外,还需要考虑文献内容如何显示,不同的逻辑元素如何区分。
针对上述三个要求,人们提出了标记语言的方法。标记语言的基本思想是给文献需要加注部分置于不同类型和名称的标签,这些标签不仅能够标注文献的内容和结构,也能标注其表现形式。
二、SGML
(一)SGML简介
1.SGML的概念
SGML:通用标记语言标准。是一种电子文献的格式或描述文献的一种计算机语言。SGML从两个层次——结构和内容来描述文献,其核心是文档类型定义DTD。同时SGML也是一种元语言,是一套用来定义其他更专门性标记语言的通用规则。
2.SGML的标记
标记分为两种,程序标记和描述标记。程序标记用来描述文档显示的样式(如字体的大小,类型,字形,颜色等)。描述标记也称普通标记,用来描述文档中的语句的用途(如篇,章,节或者内容表等),而不是描述语句所显示的样式。制定SGML的基本思想就是把文档的内容与样式分开。
SGML规定了在文档中嵌入描述标记的标准格式,指定了描述文档结构的标准方法,这是SGML的精华。SGML的主要特点是它的通用性与独立性。通用性是指SGML可支持无数的文档结构类型;独立性是指它与硬件,软件独立。
(二)SGML原理
SGML认为,一个典型的文档由结构,内容和样式三部分构成。结构是文档内容之间的顺序和相互关系;内容是文档信息本身,即原始信息;样式则确定内容如何显示。
1.结构
为了描述文档的结构,SGML定义了一个称为文献类型定义(DTD)的文件,它为组织文档的文档元素提供了一个框架。此外,DTD还为文档元素之间的相互关系制定了规则,可以确保文档的一致性。
2.内容
包括信息名称(标题),段落,项目列表和表格中的具体内容,具体的图形,声音,视频和动画等。确定内容在DTD结构中的位置的方法称为”加标签”,而创建SGML文档实际上就是围绕内容插入相应的标签。
3.样式
SGML本身定义的样式设置标准,即文档样式语义学和规范语言(DSSSL)。一个文档一般由三部分组成:SGML声明、文档类型定义(DTD)及SGML文档实例。
(三)SGML应用
1.电子出版
通过SGML增强电子文档的结构化处理,进行知识聚类,让创作人员更集中于内容的创作,提高作品的重复利用性,可移植性以及共享性。
2.电子数据交换
政府和商务领域要求按照程序特定的格式处理,传递,存储电子数据,SGML则是其中的结构化处理标准之一。
3.图书馆领域
将SGML应用于图书馆自动化系统,不但符合国际标准,而且符合www网络的应用要求,不但能描述结构化书目信息,还可以描述非结构化图,文,声,像及全文信息。
4.其他应用
例如,超媒体和超文本文档,数据库,电子邮件,专家系统,交互式电子技术手册等。
(四)SGML特点
1.优点
SGML是一个极端精密复杂的系统,它规模宏大,功能丰富,充满各种选项。用它来标记文献以使文献信息不依赖于特定的软硬件,而且具有方便的可互操作性和格式的可转换功能,以适合多种应用或反复使用的目的。
2.缺点
SGML过于庞大和复杂,并未得到十分广泛的应用:①SGML应用程序不易开发;②SGML文件不易在Web上传播;③缺乏厂商的支持。
三、HTML
(一)HTML简介
1.HTML的概念
HTML:超文本标记语言。是经过简化的SGML的DTD的具体应用应用实现。HTML语言简单易用,它提供了一种文本结构和格式,使其能够在浏览器上呈现给访问它的用户。它在文件中加入了标签,使其可以显示各种各样的字体,图形以及闪烁效果,还增加了结构的标签,并且提供了链接到internet上其他文档的超链接。HTML成为Web上的通用语言,用它可以方便的制作网页,建立链接,构建网站。
2.HTML的主要功能
⑴发布信息
出版联网文档,向全世界发布信息。这种文档可包含标题,文字,表格,列表,图像,动画,声音和影视文件等。
⑵获取信息
通过超链接可以检索和阅读联网文件。方便用户与因特网上任意网站链接,及时从网上获取各种信息。
⑶交流信息
设计交易单,实现交互,及时方便地交流信息。这是一种用来从读者处收集信息的Web文档,可以与远程服务单位做交易,实现电子商务的各种业务活动。
3.HTML的标签与属性
一个HTML文档通常由文档头,文档名称,表格,段落和列表等成分构成。为了表达方便,我们把这些成分称为文档元素,简称为元素,它们是文本文档的基本构件,并且使用超文本标记语言HTML规定的标签来标识这些元素。
HTML标签由三部分组成,左尖括号“‹”,“标签名称”和右尖括号“›”。左尖括号表示标签的开始,右尖括号表示标签的结束。标签通常是成对出现的,例如‹H1›与‹/H1›分别表示一级标题的开始标签和结束标签。
某些元素还可以包含属性,属性是指背景颜色,字体属性,它是包含在开始标签中的附加信息。
(二)基本标签与属性
1.基本标签与HTML文档结构
‹HTML›、‹HEAD›、‹TITLE›、‹BODY›、‹Hn›、‹PRE›
2.属性
属性是指用来修改HTML标签之间的元素特性,例如标签之间的元素的对齐方式,字体属性,图像的大小等。
(三)字符样式
1.物理样式和逻辑样式
2.转义字符串
(四)表格标签与属性
表格是HTML文档中的重要内容,一张表格有许多表元素组成,例如表的名称,表行,列表标题,列表数据单元等。HTML为表格规定了表元素标签和属性。
(五)链接标记与属性
1.超链接的概念
超文本链接:通常简称为超链接,或者简称为链接。链接是HTML的一个最强大和最有价值的功能,链接是指文档中的元素或图像与另一个文档,文档的一部分或者一幅图像链接在一起。在HTML中,简单的链接标签是‹A›,也称为锚签。
2.相对路径和绝对路径
文档路径分两种:相对路径与绝对路径。相对路径是指相对于当前工作路径的路径,而绝对路径是指一个完整的路径。如果一个文档在同一路径下,HTML可以使用相对路径来链接文档,这样比较简洁,否则只能使用绝对路径。
3.链接URL
URL:是识别Internet上任何一个文件地址或资源地址的标准表示法,称为统一资源地址。WWW使用URL来指定在其他服务器上文档的位置。一个信息资源在网络上的URL地址通常由三个部分组成:①请求服务的类型;②网络上的主机名;③服务器上的文件名。
4.链接文档内部、链接电子邮件程序、链接图像文件,链接声音文件、链接视频文件
(六)多媒体页面
使用图像作页面背景。设置页面背景音乐。嵌入声音到页面。嵌入视频到页面。
(七)框架
在页面设计中,经常将浏览器窗口划分为几个部分,各个部分分别装载不同的HTML文档,实现这一特性的是框架机制。框架通常的使用方法是在一个框架中放置目录,将目录款目对应的内容在另一个框架中显示,方便用户浏览。
(八)表单
表单标签‹FORM›:用来收集用户的信息,它可以包含让用户输入文本和选择项目的接口构件,例如文本域、按钮,复选框,单选按钮和选择列表。
四、XML
(一)XML简介
1.XML的概念
XML:可扩展标记语言。它同样是SGML的一个简化子集,它将SGML的丰富功能与HTML的易用性结合到Web的应用中,以一种开放的自我描述方式定义了数据结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系。
2.XML的特点
⑴灵活性与简洁性
XML克服了HTML标签种类有限的固定模式、不能涉及深层次信息结构的局限性。提供了用户自主定义标签,深层次描述信息对象的框架。XML经过精心设计,整个规范简单明了。
⑵开放性与可扩展性
XML文档具有较高的可读性,并尽量保持与SGML的互换性。开放式标准XML的基础是经过验证的标准技术,并针对网络做最优化。XML继承了SGML的80%的功能,同时继承了的SGML的元语言的特征。它既可以作为应用语言在WWW的上直接利用,又可以用于开发应用语言。
⑶实用性
XML有严密但不复杂的规则,广泛的应用程序的可利用性。HTML是web上最简洁的数据表现方式,适用于一些数据结构不复杂,利用期较短的信息发布浏览。而XML适合具有较深的数据结构,需长期保存和再利用的信息。
⑷高效性
XML克服了HTML精细编排不方便和全文检索的结果不精确的弱点,成为SGML的优秀子集。它以20%的SGML的难易度实现了80%的功能。
3.XML的应用
XML凭借其独特优势在众多的领域得到了应用和支持,包括多媒体信息处理,科学研究,电子商务,数字图书馆等。
4.XML技术体系
将以XML为代表和基础的所有相关技术和标准称为XML技术体系。主要包括文档类型定义(DTD)、XML模式(XML Schema)、XML命名空间(XML Namespaces)、层叠样式表(CSS)、可扩展样式表语言(XSL)、可扩展样式表语言转换(XSLT)、XLink、XPointer。
①DTD:可以看作是一类xml文档的模板,用来定义文档的逻辑结构,它规定了XML文档所使用的元素、实体、元素的属性,元素与实体之间的关系,使得数据交流与共享得以正常进行,验证了数据的有效性。
②XML模式:也是用来定义文档的逻辑结构,与DTD相比提供了更多的数据类型和功能,而且XML模式本身也采用XML语法,不像DTD那样采用独特的非XML语法。
③XML命名空间:是使用URI区别的一组名称的集合,并且要求同一个集合中的名称不能重合。由于URI在网络上是唯一的,使用了命名空间机制的XML文档中的标签在网络上也是唯一的。
④CSS:是利用简单的规则控制元素内容在浏览器中的显示方式,最初用于HTML控制HTML元素的显示。自XML诞生以来,由于XML数据内容和数据显示分离的特性,CSS与XmL结合的更好。
⑤XSL:由两部分组成:XSLT和格式化对象FO。XSLT是用来将原始XML文档结构转换成当前显示需要的结构。FO是指一组定义显示对象,如字体,颜色及版式描述等。XSL不仅适用于数据显示,而且也可用于XSLT将XML文档转换成不同的表现和结构。
⑤XLink、XPointer:为了使XML文件具有类似HTML超链接的功能,W3C制定了XLink和XPointer两种标准。其中XLink规定了XML之间的链接的规则,XPointer则规定了XML文档中不同位置的链接规则。
(二)XML文档结构
XML文档必须以XML声明开始,XML声明中可以使用version、encoding、standalone三个属性。
(三)DTD
DTD声明:DTD的作用是为XML定义一套标签的使用标准。DTD通常处于XML声明和XML文档实例之间,在DTD中可以定义元素、属性和实体引用。
(四)XML Schema
XML Schema的优点:
①XML Schema本身是XML文档。它与DTD不同,不需要特定的语法,可以被解析和处理。
②XML Schema提供一个可扩展的内容模型。DTD的内容模型是固定的和不可扩展的,而XML Schema允许开发者创建用于描述数据模型的新元素和属性。
XML Schema比DTD支持更多的数据类型集合。
XML Schema支持命名空间。
XML Schema的核心概念是数据类型,分为简单类型和复杂类型。
(五)CSS
XML文档本身只存储数据内容和结构,格式化显示需要样式表,样式表有两种类型,CSS和XSL。CSS是一种非常简单易懂的语言。
(六)XSL
XSL提供比CSS更为强大的功能,本身是XML的一个应用,XML由两部分组成:利用XSLT转换和显示部分。利用XSL格式化XML文档有两个基本步骤:第一步,创建XSL样式表文件。第二步将XSL应用到XML文档。
(补充):XML、XML Schema、XSL之间的关系
SGML、HTML、XML之间的关系
五、HTML5及其应用
第五章 信息资源描述的元数据方案
一、元数据概述
(一)元数据概述
1.元数据的由来
元数据这个术语,最早出现在计算机科学领域,而传统的图书馆卡片,图书的版权说明都是元数据的表现形式,是在元数据这一术语出现之前就一直被使用着的。
2.元数据的定义
元数据:是关于数据的数据,同时也是结构化的数据。它对信息资源进行描述和解释,促进信息资源的检索,管理和利用。元数据可以为各种形态的信息资源提供规范的描述方案和检索工具,为分布的,由多种信息资源组成的信息系统提供整合的工具和纽带。
3.元数据的功能
⑴支持资源发现
这主要体现在元数据支持通过多种方式检索信息;可以识别信息资源;并根据元数据内容对信息资源进行聚类,方便用户浏览;可以区分不同的信息资源;可以定位具体的信息资源。
⑵组织数字信息资源
采用元数据可以对各类数字资源资源进行组织,通过对网页,电子期刊,电子图书等进行元数据描述,形成元数据数据库,达到对各类数字信息资源组织的目的。
⑶支持资源的互操作
元数据是对信息资源的描述,它不仅方便用户理解,还可以很容易的通过机器进行处理,这就提升了资源的互操作性。尤其是许多元数据方案采用XML进行表示,并且可以通过各类元数据之间的映射,解决资源互操作的问题。
⑷支持数字识别
元数据往往包含资源的唯一标识(如URL和DOI),因此可以通过元数据识别具体信息。
⑸支持存档和保存
元数据不仅要满足信息资源用户的信息需求,还要利于资源的存档和保存。通过记录信息资源的格式、产生、变化等方面的信息,保证资源的持续可访问性。
二、元数据的分类
(一)按元数据的功能分类
1.管理性元数据
主要用于资源的管理,它涉及资源创建的时间和方式,资源获取权限的控制,资源版本控制,资源数字化的选择标准等。
2.描述性元数据
它从用户角度出发,通过对信息资源的描述方便用户发现和鉴别资源,它主要描述信息资源的主题和内容特征,常用的元素如:标题,摘要,作者,关键字等。
3.技术性元数据
它从系统角度出发,是与系统功能相关的信息及其行为模式。它包括硬件和软件文档,资源的数字化信息,系统响应时间的记录,许可和安全数据等。
4.保存性元数据
它是与信息资源保存管理相关的元数据,典型的例子有:资源的物理状态描述文档,有关保存资源物理版本和数字化版本的文档,数据的更新和迁移信息。
5.使用性元数据
它涉及信息资源利用的级别和类型特征,包括资源的展出记录,用户使用情况记录,资源复用和多版本信息等。
(二)按元数据复杂程度分类
1.一级
采用简单的记录格式。目前,因特网上很多搜索引擎均采用这种格式,它们用全文抽取关键词的方法建立关键词和分类索引,支持分类检索和主题检索。
2.二级
为结构化的格式。结构的复杂程度低,如DC元数据和LDIF元数据,它们的结构相对简单,便于普及与理解,是面向各类用户的元数据方案。
3.三级
为复杂格式。元数据结构较复杂,需要有一定的专业知识才能理解,是面向特定领域的专业人员的,但在特定领域中发挥重大作用,并成为行业标准或国际标准,如MARC在图书馆领域的应用。
(三)按描述的资源类型分类
网络资源,文献资料,人文科学,社会科学数据集,博物馆与艺术作品,政府信息,地理空间信息,数字图像,档案库与资源集合,技术报告,连续图像等。
三、元数据的结构
元数据方案定义了元数据的结构及内容,通常元数据方案的总体结构可以分为三个层次:
(一)内容结构
内容结构定义元数据的构成要素,可包括描述性元素,技术性元素,管理性元素,结构性元素。这些构成要素要满足元数据的功能需求,因此往往与元数据的功能相对应。
(二)句法结构
句法结构定义元数据的格式及其描述方式。例如元素的分区分段组织,元素选取使用规则,元素描述方法,元素结构描述方法,结构语句描述语言等。有时句法结构需要标明元数据是与所描述的数据对象捆绑在一起,还是作为单独数据存在但以一定形式与数据对象链接。句法结构还要描述与相关标准,DTD结构和命名空间等的链接关系。
(三)语义结构
语义结构定义元素的具体描述方法,体现元数据的语义特征。例如描述元素时所使用的标准,遵循的描述规范或自定义的描述要求。有些元数据方案本身定义了语义结构,有些则由应用该元数据方案的具体单位规定语义结构。
四、都柏林核心元数据
(一)DC概述
柏林核心集(简称Dublin Core)是一种通用简单的元数据。1995年3月,由联机计算机图书馆中心(OCLC)和美国国家超级计算应用中心(NCSA)主持在美国俄亥俄州的都柏林召开了第一届元数据研讨会。大会最后确定了一个包含13个数据单元的元素集,即都柏林核心元素集。后来增加到15个单元。
(二)DC的基本元素
①资源内容描述类元素:题名、主题、描述、来源、语种、关联、覆盖范围。
②资源知识产权描述类元素:创作者、出版者、其他责任者、权限管理。
③资源外部属性描述类元素:日期、类型、格式、资源标识符。
(三)DC的应用
DC能较好地解决网络资源的发现,控制和管理问题,对于现在的数字图书馆研究也有很有意义。DC的各种项目遍及各地,涉及社会学,政府,图书馆,教育,商业,科学研究等多个领域。
五、复杂元数据方案MARC
(一)MARC概述
MARC:是机器可读目录的简称,它是计算机能够识别和阅读的一种目录。(是根据文献特点和文献机构之间信息交换的需要建立的标准化的计算机可读格式。)
(二)MARC21(2709)
MARC 21用目录地址方法组织数据,每条MARC记录分为四个区,投标区、目次区、数据区和记录结束符。
(三)MARC(XML)
长期以来,人们利用MARC21(2709)格式进行数据交换与资源共享取得了很大成绩。但(2709)毕竟是专业人员的专用格式,一般用户很难看懂。为了使普通用户便于阅读和理解,LC推出了MARC(XML)格式。
(四)ISO 2709 与 GB 2901
1.国际标准ISO 2709
《文献工作——文献目录信息交换用磁带格式》(ISO 2709)是在MARCⅡ格式的基础上产生的。是一种通用的机器格式要求。它定义的文献目录记录一般结构:记录头标、目次、数据域、记录分隔符。
2.国家标准 GB2901
《文献目录信息交换用磁带格式》(GB 2901-82)我我国于1982年发布的国家标准。它与ISO 2709兼容,但也有不少新的描述。
(五)CNMARC
CNMARC:是中国机读目录的缩写,是我国通用的机器目录通讯格式。它是用于中国国家书目机构同其他国家书目机构以及国内图书馆与情报部门之间,以标准的计算机可读形式交换书目信息。它是依据UNIMARC以及我国出版物的一些特殊情况和规则的新变化而编制的。
六、其他元数据
(一)METS
METS:(元数据编码和传输标准)是用来将数字图书馆中与数字对象相关的描述性元数据,管理性元数据和结构性元数据进行编码的个标准,它采用W3C的XMI Schema表示。
(二)MODS
MODS:(元数据对象描述模式),是美国国会图书馆为使MARC标准在数字资源组织中发挥更大作用,在立足现实的基础上,扬弃传统,面向未来而开发的一种新的文献编目元数据。以MARC21的元素和语义为基础,从中抽取元素,用XML模式语言进行语法表示。
(三)EAD
EAD:是美国档案界开发的元数据编码标准,目标是向MARC对于图书类资源一样,为档案资源及特殊文献资源提供一个元数据标准,方便档案馆,博物馆等机构对档案类,特殊文献集以及手稿文献集等馆藏资源进行标引,存储,维护,检索和利用。
(四)GILS
GILS:(政府信息定位服务)是一种支持公众查询,获取和使用政府公开信息资源的开放环境下的分布式信息资源及利用体系,是政府信息资源数据方案的典型代表。
(五)PICS
PICS:(Internet内容选择平台),它是由W3C组织开发的一种描述Internet资源的元数据标准。
(六)CDF
CDF:(频道定义格式),是IT界第一个应用于Web推技术的频道框架。CDF使用XML,将XML应用嵌入HTML。
(七)MCF
MCF:(元内容框架)采用对象,属性类型,属性值的形式描述元数据,并允许重复使用对象与属性,这种嵌套关系描述了复杂的文件层次结构。
七、元数据互操作
(一)元数据互操作的背景
元数据互操作:就是采用了不同的元数据方案的系统之间相互传输,共享和利用元数据的能力。这种能力既包括系统软件,硬件的互操作能力,也包括元数据的数据格式,内容和语义的互操作能力。
通过元数据的互操作能够达到:①支持跨系统的整合检索;②支持跨系统的信息组合;③支持跨系统的服务集成。
(二)元数据互操作的层次
1.语义互操作
语义互操作是指在元数据的共享和通信过程中,共享和通信的双方能够理解元数据的语义,如理解元素表达的含义,在语义层面上达成一致。
2.语法互操作
基于扩展标记语言的XML的应用从语法意义上使各类元数据标准的互通成为可能。XML由于自身的特点,使得它成为元数据互操作的基础,为各种互操作模式提供语法支持。
3.结构互操作
结构互操作是通过建立一个标准的资源描述框架解决元数据互操作问题。用这个框架来描述所有的元数据格式,这样只要能够解析这个标准描述框架,就能解读相应的元数据格式。RDF描述框架就是这样一个描述资源特征及资源间的关系的框架,利用它可以实现各种元数据之间的互操作。
(三)元数据互操作协议
Z39.50、OAI-PMH
(补充):信息描述工作
(一)信息描述工作的要求
信息描述工作:亦称元数据创建工作、信息资源编目。它是依据描述规则,对信息资源的特征进行分析,选择,记录的操作过程。对信息资源记录的结果即为元数据,亦称为款目。
为了保证元数据的质量,信息描述操作必须客观反映信息资源的特征,严格遵循元数据规范进行操作,一般应做到:
①准确:对信息的描述应真实反映其内容特征,使用户可以通过描述,对信息资源的特征有一个准确的了解。
②规范:指信息资源的描述应严格遵守相应的描述规范,并在可能时依据相关的规范文档或控制词表。
③完备:描述项目应比较完备时,使得可以从信息资源的各种特征出发,进行检索操作。
(二)信息描述工作的方式
1.按照描述的资源对象
信息描述工作,即信息资源编目,可以分为文献编目,档案编目,博物馆藏品编目,网络资源编目等。一般均根据信息资源的特点和相应的描述规范进行处理。
2.按照描述操作的设备条件
①手工编目:直接以手工方式进行描述款目的制作,用于编制卡片式目录或书本式检索工具。
②机读编目:以计算机为工具,通过输入编目数据,在程序控制下输出书目产品,生成机读目录和各种手工检索工具。
③联机编目:可以在联机状态下进行编目操作和提供编目数据,建立联机检索工具,并提供各种产品。
3.按照其处理的方式
①原始编目:是指直接根据信息资源的特征所进行的编目。
②复制编目:是指利用其他单位已经完成的编目数据进行的编目。
4.按照编目采用的组织形式
①集中编目:是由一中心编目机构进行编目,向其他机构提供编目数据的编目方法。一般采用建立全国集中编目中心,地区集中编目中心等形式。
②共享编目:是指两个或多个编目机构共同进行编目活动,通过各个参加机构通力协作,使编目结果为各参加机构共享的一种编目形式。
第六章 信息组织的数据库方法
一、数据库组织方法概述
(一)数据库组织方式的特点
1.数据共享
数据共享是建立数据库的主要目标之一。数据库是为多用户,多应用目的建立的,尤其是分布式数据库的诞生,更加使得数据库可以向位于不同地理位置,不同的应用以及不同的用户服务,实现最大程度的数据共享,这样可以降低系统开发成本,并有利于促进社会信息化和信息社会化。
2.数据独立性
数据独立性是指数据与应用之间可以相互独立的特性,它包括物理数据独立性和逻辑数据独立性。所谓逻辑数据独立性是指局部逻辑数据结构与整体逻辑数据结构之间的独立性,而物理数据独立性是指应用程序对存储结构与存取方法的独立性。
3.最小冗余性
由于数据库可由多个用户共享,它必须集成各类用户所需的数据,将各个性质不同的数据文件集成为一个统一体。对于数据文件中的各种冗余数据库提供了去除冗余的方法,把数据冗余限制在尽可能小的范围内。
4.安全性
数据库可以为多个用户和多种应用实现数据共享,在共享中存在安全和保密的问题。必须对数据的共享范围进行严格控制,只允许有合法使用权限的用户访问允许他存储的数据。与数据的安全相关的是数据保密问题,即合法用户合法地访问到机密数据后,能否对这些数据保密。
5.完整性
数据库的完整性是指数据的正确性,有效性和一致性,防止数据库存在不符合语义的数据和错误的输入与输出。为了保证完整性,数据库管理系统要为数据库添加完整性约束条件,根据约束条件在用户进行数据存取时进行完整性检查。
6.可恢复性
硬件,软件故障和人为原因等都可能使数据库遭到破坏。数据库提供了多种恢复策略,保证数据库的数据可以从错误状态恢复到某种逻辑一致的状态。
(二)信息资源数据库的分类
1.按照信息组织的级次分
⑴参考数据库
参考数据库是指引用户到某个信息源以获得原文或其他细节的一类数据库。它包括书目数据库和指南数据库两种。
⑵源数据库
源数据库是指能直接提供原始资料或具体数据的数据库,用户不必再查阅其他信息源,它可以分为:①数值数据库②文本-数值数据库③全文数据库④术语数据库⑤图像数据库⑥多媒体数据库⑦混合型数据库
2.按照信息内容类型分
⑴文献数据库
文献数据库主要用于存储文本信息:包括图书,期刊,专利,科技报告,法律法规等文献载体。根据信息处理的层级,又可将文献数据库分为一次文献数据库(如全文数据库)二次文献数据库(书目数据库)和三次文献库。
⑵事实数据库
事实数据库描述的不是文献信息,它提供的是关于各类型事物的实体性信息,如机构,人物,产品,年代,地理位置,事件等,每个条目都是对一个事实确切,完整的描述。按信息内容划分有:人物数据库,机构名录数据库,产品或商品信息数据库,投资指南库,基金指南库,商标志指南库,技术标准库等。
⑶数值数据库
数值数据库是一种以自然数值形式表示、计算机可读的数据集合。数值数据库中的数据可分为微数据和宏数据两类。气象数据库,地理信息数据库,物价数据库,证券数据库等是数值数据库的典型例子。
⑷多媒体数据库
多媒体数据库:是多媒体技术与数据库技术结合的产物,它要为不同媒体提供存储,组织,检索,利用等功能模块。多媒体数据库的内容包括:媒体对象本身,媒体语义信息,媒体内容信息。
3.按照信息的结构化程度
①结构化数据库:对应传统数据库。这些数据库存储的数据是完全结构化的。
②半结构化数据库:主要用于存储半结构化的数据。
③无结构数据库:无结构数据则是指纯文本,图形,图像,视频,音频信息。从用户角度看,这些数据不具有结构和描述信息,往往采用多媒体数据库的技术进行管理。
与结构化数据相比,半结构化数据具有如下特点:
⑴隐含的模式信息
以XML为例,一个XML文档就是典型的半结构化数据,它本身既包含模式,又包含数据,模式信息隐含在数据之中,这种特性使得其具有“自描述”特征,即数据文件本身既包含数据,又包含了描述数据的模式信息,是结构与数据的统一体。
⑵不规则的结构
与结构化数据不同,半结构化数据的数据结构是不规则的,同类数据可以具有不同的模式定义。
⑶模式信息量大,变化快
许多半结构化数据的模式定义包含大量信息,如XML中大量的标签及其属性,而模式本身也根据需要不断变化。
⑷先有数据,后有模式
许多情况下,半结构化数据不是先有模式,而是先有数据,后有模式。
⑸非强制性
半结构化数据的模式不对数据结构进行强制性约束,只描述数据的结构信息,同时模式没有严格的类型约束。
⑹不完全性
由于非结构化数据描述的对象是复杂的和多变的,因此无法对其全部特征进行描述,所以半结构化数据是只描述数据部分结构的非精确模式。
二、数据库系统结构及其信息组织方法
(一)单用户数据库系统的信息组织方法
单用户数据库系统是数据库应用的初级阶段。在这个时期,数据库的信息内容多数为文献型数据。
(二)主从式数据库系统的信息组织方法
主从式数据库系统是在单用户数据库系统的基础上发展起来的,信息资源都组织在各个数据库里。主从式数据库系统的信息组织方法是:信息资源集中存放在主机上,数据库管理系统和应用软件也存放在主机上。
这样的组织方法的特点是:①信息资源集中存放,方便管理,更新容易,软件相应要简洁一些;②主机负担过重,投资大,用户的通信费用负担重。
(三)分布式数据库系统的信息组织方法
随着网络通信技术的发展,网络上不同计算机上的资源共享成为可能。分布结构的数据库系统应运而生。它的数据分散存储在计算机网络中的多台计算机上,而这些分散存放的数据在逻辑上又是统一的集成体。
分布式数据库系统特别适合地理分散的跨国公司和实体组织对数据库应用的需要。其系统成本低,可靠性好,数据共享性强,利用率高。由于节点多,扩充性好,因而深受用户欢迎。
(四)C/S数据库系统的信息组织方法
客户机/服务器(C/S)数据库系统有效地客服了前三种系统的处理速度和效率不理想的弱点,它把DBMS(数据库管理系统)功能和应用分开。
C/S结构的数据库系统是一个开放式系统。客户机与服务器一般都可以在不同的计算机系统上运行,支持不同的数据库应用开发工具,可移植性好,因而发展很快。
(五)B/S数据库系统的信息组织方法
因特网的迅猛发展,为数据库的广泛应用营造了良好环境,Web数据库应运而生。Web数据库融Web技术和数据库技术为一体,它是一种基于internet应用的新型数据库。实际上,Web数据库是浏览器/服务器(B/S)结构的数据库。
Web数据库的信息组织可以是传统的数据库组织,也可以是扩展的非结构化的信息组织。
(六)数据模型的拓展
第一代数据库系统(层次式DBS和网状DBS)按照图论的观点,数据模型是一个联通的有向图。
第二代数据库(关系数据库)的数据模型用二维表描述,若干个相互关联的二维表的集合就构成了一个关系数据库模型。
第三代数据库模型是面向对象的模型(OOM),其核心概念是对象。
三、半结构化数据库系统
半结构化数据库系统可以分为数据集成子系统和数据发布子系统等模块。
四、多媒体数据库
数据库不仅要提供文字,图表信息,而且要提供图形,声音,图像,视频信息;这种实现了图像,文本,声音一体化管理和服务的数据库称为多媒体数据库。它开辟了数据库技术的新阶段。
(一)多媒体数据库的关键技术
1.多媒体计算机系统
在硬件方面主要是要特定的计算机系统和网络环境。
在软件技术方面不仅要求有多媒体操作系统,多媒体数据库管理系统和应用软件的支持,而且需要先进的模型方法和实用的数据压缩技术。
2.多媒体数据库数据模型
①面向对象的数据模型;②超媒体模型;③非第一范式模型。
3.数据压缩技术
为了使多媒体信息实时处理达到实用化水平,必须对多媒体数据进行有效压缩。压缩过程是:采样,量化,编码与压缩。
(二)多媒体数据库的设计、建立与利用
多媒体数据库的设计与建立,其原理与方法和常规数据库类似,只是在数据类型和建模方法方面进行了扩充。多媒体数据库中所含的数据内容可以分为如下几类:①多媒体数据对象本身;②多媒体数据的语义信息;③多媒体数据的格式信息;④多媒体数据的内容特征。
多媒体数据的检索是多媒体数据库利用的主要方式,根据多媒体数据库存储的数据内容,可以将其分为基于语义的多媒体数据检索和基于内容的多媒体数据检索。
五、NoSQL数据库及其广泛应用
NoSQL数据库泛指非关系型的数据库,是一项全新的数据库革命性运动。传统的关系数据库在应付Web2.0网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库,则由于其本身的特点得到了非常迅速的发展。
(一)关系型数据库与NoSQL数据库比较
⑴关系型数据库更适合于表达结构化数据,而NoSQL数据库则主要针对半结构化和非结构化数据进行存储和管理;
⑵关系型数据库能支持复杂的查询,NoSQL数据库则基于其采用的数据模型,提供键值索引查询,列查询,无法提供复杂的查询;
⑶但在海量数据的查询响应速度上NoSQL的优势尽显,其特殊的存储和索引结构能快速返回所需数据,大大优于关系型数据库;
⑷另外在大规模数据环境下,数据库扩展方面,NoSQL数据库也更加容易。
第七章 网络环境下信息资源的组织
一、网络环境的变迁
(一)因特网发展的三个阶段
因特网的发展可以分为三个阶段,分别以门户、搜索和web 2.0为特色。
1.第一阶段,因特网发展初期,网上信息还不充足,以门户为代表的信息组织方式,将足量的信息聚合在一起,满足了用户对内容的需求,例如Yahoo的分类目录。
2.第二阶段,因特网内容逐渐丰富,信息由稀缺变为过度,用户选择信息的成本不断增加,搜索引擎的出现满足了用户对信息的个性化和定制化需求,围绕搜索形成的各类应用成为因特网的核心应用,比如Google、Baidu等。
3.第三阶段,用户对信息的要求进一步提升,用户已经不满足于仅充当信息的接收者,他们需要有主动发布信息的渠道,成为信息的创建者并彼此沟通协作形成用户社区,这一阶段出现了维基百科,博客网站,Facebook,Twitter,QQ空间,微信等技术和应用。
(二)Web1.0与Web2.0
1.Web1.0:在因特网发展的三个阶段中,前两个阶段通常被称作Web1.0。Web 1.0网站的页面信息来源于Web服务器,用户只能被动读取信息内容,无法创建网站内容,致使用户之间,用户与Web网站的隔离,此时Web无法满足用户的创造性与个性化。
2.Web2.0:第三阶段常被称作Web2.0,与Web1.0相比,Web2.0中的网站与用户的本质界限消失了,用户不仅可以获取网站信息,还可以通过更具交互性的Web界面贡献(创造)信息。Web2.0的核心理念:①鼓励用户参与;②利用集体智慧;③倡导用户合作;④资源的开放与共享;⑤增强用户体验。
二、网络信息资源概述
(一)网络信息资源的定义
1.网络信息资源:是以电子数据的形式将文本,图像,声音,动画,视频等多种形式的信息存放在光磁等非纸质印刷的载体中,并通过网络通信,计算机或终端等方式再现出来的信息资源,是通过计算机网络可利用的各种信息资源的总和。
2.计算机网络发展对传统信息资源组织方式带来的冲击:
⑴信息量剧增以及信息传递速度的加快,使得以往的手工处理和加工方式不堪重负,急需采用自动化的信息组织手段。
传统的信息组织方式大多是以人工方式进行的,需要手工编制和维护分类表,词表,进行著录,标引等信息处理工作。而现在网上提供的大量实时信息,全文信息,多媒体信息等时效性信息不允许过多的中间加工环节,必须实现信息组织的自动化,如自动分类,自动标引,分类表自动编制和管理的自动化等。
⑵信息种类增多,数据库成分复杂化,需要新的信息组织技术。
因特网中除了文本信息以外,还包含大量的非文本信息,如图形,图像,音频,视频信息,这些非结构化信息不像书目信息那样格式化,规范化,是非结构化数据,需要采用新的信息组织技术。
⑶用户成分、规模和需求发生很大变化,要求信息组织方式的透明化,易用化。
在网络环境下,用户成分逐渐多样化,复杂化,不同年龄,行业和文化层次的人都可以通过计算机终端直接利用网络的信息资源。由于普通用户缺乏专业的信息处理和信息检索技能,所以要求网络信息组织方式简便实用,使普通用户能用自己熟悉的语言与网络交互或提供不同的界面满足不同水平用户的需要。在这方面传统的高度专业化,规范化的信息组织方式已不适应发展要求。
⑷网络信息资源共享要求信息组织标准化,兼容化。
信息网络是对信息资料进行存储,加工和利用的协作系统,系统间的交流及网络资源的共享要求各方面的整体配合。因此网络化的前提条件就是在网络建设,信息处理等方面采用一系列标准,使信息组织与加工标准化,兼容化,支持信息资源的系统级互操作。
(网络信息形式的非线性、交互性和动态性,需要信息组织方法及时而灵活。)
(二)网络信息资源的特点
1.信息数量大,内容丰富
互联网是一个开放的数据传输平台,上面的信息资源数量巨大,类型多样,如学术,商业,政府,个人,娱乐,新闻信息等。它一方面给用户提供了较大的信息选择空间,另一方面大量无价值的冗余信息也给用户带来了很大的麻烦。
2.信息更新及时,变化加快
由于网络技术的发展,与传统信息源相比,网络信息源变化更加快捷新颖,且数据量在不断增加。
3.信息表现形式多样化
互联网有着表现形式丰富的信息资源,如声音,图像,文字,视频,动画等,在多媒体形式表现的同时,用户跟信息之间的交互性得到极大的增强。
4.信息非线性排列,无序性增强
网络信息源利用超链接,构成了立体网状信息链,把不同国家,不同地区,不同内容,不同格式的信息通过节点链接起来,使得信息之间的关联度增强。但同时无序性的状态也日益突出。
(三)网络信息资源的种类
1.按对应的非网络信息资源分
许多网络信息资源具有传统信息资源的对应物,进行过数字化和网络化的组织,形成了网络信息资源,包括:图书馆馆藏目录,电子书刊,参考工具书,数据库,其他类型的信息。
2.按信息交流的方式分
信息交流需要通过一定的媒介和载体,这些载体包括正式出版物,半正式出版物,非正式出版物,因此可以将网络信息也划分为:非正式出版信息,半正式出版物,正式出版物。
3.按网络信息资源的层次分
指示信息、信息单元、文献、信息资源
三、Web信息组织与发布
(一)Web信息组织的技术条件
1.确定网上信息资源标识的统一命名方法:URI包括统一资源地址URL和相应的路径与文件名。
2.存取资源的网络协议:超文本传输协议HTTP。
3.在资源之间很容易跳转、浏览的超文本链接技术:它源于HyperText的HyperLink。
(二)网页设计与信息发布
内容设计、结构设计、接口设计、素材制作、素材采集,素材采编、网页编著、信息集成、信息发布。
四、网络环境下信息组织的层次
1.信息源层
网络环境下的信息资源都是数字化的,因此数字化是网络信息组织和利用的第一步。零散的信息源需要通过聚集的方式加以整合,形成有结构的信息集合。
2.信息集合层
信息集合反映了信息资源的规模性和有组织的特性。信息集合层网络对应各个网站的数据服务器,包括各类关系型数据库,文献数据库,书目数据库,多媒体数据库,元数据库等。
3.信息视图层
在网络环境下,尤其是Web环境下,采用网页(HTML)展示信息内容是最普遍的方式。HTML网页是面向用户的,为用户提供所需的信息视图,在信息视图上所含的多个信息单元都是从信息集合中抽取的。
五、不同层次的信息组织
1.信息源层的信息组织
由于信息源的多样性,使得信息源层的信息组织多种多样。因此必须针对不同的信息源的类型、特征进行处理,并为其选取合适的组织方式。信息源层的组织可以采用各类方法如分类描述,主题标引和元数据组织等方式,其最终目的是使之符合信息集合的结构特性。
2.信息集合层的信息组织
信息集合则对应宏观的信息组织方式。信息集合层的组织方式有以下几种:
⑴文件组织方式
这种信息集合中,文件为信息单元,这个集合体现出一种层次性的文件目录关系。文件内容并未经过有效的组织和标引,这种组织方式如FTP服务器中的各种文件。
⑵数据库组织方式
数据库中,信息单元为数据库中的一条条记录,它是数据库组织的基本单位。它不再以单个文件作为组织的对象,而是以表征信息资源的记录为组织单位,因此可以通过自由组合和查询形成各类信息视图。
⑶搜索引擎
搜索引擎要解决的是结构化程度低的网页信息,信息源即是各个网站的信息视图。因此搜索引擎在该层次的主要特征就是爬取海量的Web网页信息并加以组织,在组织过程中同样用到了文献数据库中的索引数据库的组织方式。
⑷资源分类与主题标引
分类语言和主题语言是描述资源的有力工具,因此在对网络环境下的信息源进行标引时,其同样适用。这种方式往往要建立分类体系和标引方案。
3.信息视图层的信息组织
信息视图层组织方式有:HTML超文本组织,文件组织,框架组织,超链接组织,XML组织。HTML文件内容的组织,目的是将信息展示给用户。XML作为信息视图,其面向的对象不是用户,而是计算机,它需要通过计算机的处理并将结构再以HTML网页的方式展示给用户。
六、Web2.0环境下信息资源的组织
Web2.0环境,是Web2.0理念、技术和应用的集合体。在web 2.0环境下,信息资源的组织方式和方法体现了不同的特点:
(一)面向用户
在Web2.0环境下,用户参与到网络信息资源的建设之中,用户成为信息的创造者,博主撰写博文,论坛上用户发表帖子,在维基百科中用户贡献知识等。因特网中用户创造资源,导致网络信息资源组织人员开始从用户角度考虑信息资源的组织问题,尤其是如何帮助用户组织其个人信息资源。
(二)面向协作
Web2.0环境下,用户除了贡献信息内容外,还在一定的环境下,为了某个共同目标,完成一定的任务,形成协作关系,并通过协作共同进行信息资源的组织。这种协作关系可以是紧密的方式,即具有明确的目标,参与的人之间具有较强的约束;也可以是松散的方式,参与的人不具有强约束关系。
(三)社会化特征
社会化特征主要体现在用户对信息对象的处理行为上。这种行为可以是:用户浏览,下载,观看,评论,搜集信息对象,这些行为本身不会对信息对象的内容做出改变,但却使信息资源本身富含了社会化特征。社会化特征可以对信息资源进行整序,这种整序在Web2.0时代越来越重要。
(四)面向机器理解
面向机器是与面向用户相对的。HTML这类信息视图适合于用户的理解,但不适合与机器理解,让机器理解信息内容的原因包括如下几点:第一,只有机器理解了信息内容的结构和语义,才能够对其进行自动处理,提高处理的效率。第二,许多情况下让机器自动处理信息内容是十分必要的。另外,出于资源整合和共享的需要,常常需要在信息集合层进行信息的交换和传输,这种情况就需要数据服务器彼此理解信息内容,自动交换信息。XML是促成机器理解信息的基础,建立在XML基础上的各类协议则可以支持不同层次的机器理解。
第八章 索引数据库与搜索引擎
一、索引数据库与索引机制
搜索引擎的核心是支持它的庞大的索引数据库。
搜索引擎是将各网页的特征值和网址抽取倒排、排序与归并建立特征索引数据库,这样形成了全方位的索引机制。
二、搜索引擎的诞生与发展
(一)搜索引擎的诞生
因特网的迅速发展,各种基于因特网的协议,FTP,HTTP等相继出现。尤其是HTTP协议的出现,使得万维网信息资源的数量猛增,成千上万的Web站点提供各类信息资源和服务,使得网络信息资源汇集成一个信息海洋,数据量大和无序导致用户很难找到所需的信息。因此不需要将这无序的信息有序化,在这样的背景下,搜索引擎应运而生。
搜索引擎:是指接受用户的提问,检索某数据库,并将与提问相匹配的信息对象反馈给用户的检索工具,广义的讲不仅指信息检索程序本身,而且还指界面,相关的入口,程序,支持它的索引数据库和服务。
(二)搜索引擎的分类
1.从搜索过程的层次划分
常规搜索引擎、元搜索引擎
2.从索引数据库的信息媒介划分
图像搜索引擎、视频搜索引擎、网页搜索引擎
3.从搜索引擎所涵盖的信息资源的广度划分
综合性搜索引擎、专业搜索引擎
4.根据网页内容的组织和处理方式划分
Web目录式搜索引擎、全文数据库式搜索引擎、Web结构分析型搜索引擎
(三)搜索引擎的发展趋势
1.个性化
Web 2.0时代的到来,更加强调用户体验,强调重视用户的个体偏好,许多搜索引擎开始提供用户注册和偏好设置功能,推出个性化的搜索首页,满足用户的特定需求。
2.智能化
搜索引擎通过信息抽取,语义标引等技术可以提高其智能化水平,更清晰定义信息的语义特征。
3.整合化
用户希望在搜索引擎的反馈结果中包含多种类型的相关信息,这样就不需要重复检索各类信息。因此许多搜索引擎已经开始将图像,网页,视频的搜索结果以整合的方式反馈给用户。
4.垂直化
因特网上的信息量越来越大,海量的信息导致用户在综合性搜索引擎搜索某个特定主题领域的信息时,其他无关主题,领域的信息也会返回。因此许多面向特定主题的垂直搜索引擎开始出现,由于只关注特定主题领域的信息内容,在索引量和检索结果的相关性上都大大增强。
5.移动化
随着移动互联网的发展,移动终端逐渐成为新的获取信息的工具,因此许多搜索引擎都开始推出基于移动平台的搜索服务,通过手机等移动终端都可以访问搜索引擎。
6.开放式
各个搜索引擎为了拓宽自己的应用范围,都开始开放搜索接口和数据库,使第三方开发人员可以快速的搭建各式各样的搜索服务。
三、搜索引擎的系统结构
1.搜索器
是从因特网上采集信息的专用程序,亦称网络机器人,蜘蛛,爬虫等。其功能是日夜不停地在网上漫游,不断地从网上采集并及时送回相关信息。
2.索引器
是从搜索器返回的纯文本信息文件抽取索引项,生成倒排工作文件,进而逐步建立索引数据库。
3.索引数据库
是搜索引擎的核心,它既是索引器提供的产品,又是检索器进行工作的基础。由四类文件组成,倒排地址表,倒排索引和其他索引文件和纯文本文件。
4.检索器
是对具体搜索引擎所配置的索引数据库而研制的专用检索程序包,它的职责是从用户接口接受并理解用户需求,将其转换成检索指令,对索引数据库实施检索,并将结果集按内容的相关度排序,并使排序结果文件向用户反馈。
5.用户接口
作用是接受用户的检索需求的输入,并进行语法检查,使其规范。可以分为两个部分,用户需求提交接口和搜索结果反馈接口。前者用于接受用户需求,后者则将搜索引擎针对用户提交的需求检索得到的结果反馈给用户。
四、搜索引擎的使用方法
1.布尔检索
布尔逻辑检索是指支持布尔逻辑运算的信息检索,所有的搜索引擎都提供某种形式的布尔逻辑检索,或者使用“简单化”的布尔逻辑(使用加号和减号),或者使用完全的布尔逻辑(AND、OR、NOT)
2.截词检索
在众多的搜索引擎中,多数均支持利用词根进行截词检索。截词一般用词根加上截词符(通常用*号)表示,这样可以大大简化带有不同后缀等词的检索。
3.词组与名称检索
在利用搜索引擎进行网络信息检索时,允许用户用两个词进行检索,两个词既可以相邻,组成词组形式,用引号界定输入进行检索,又可以将这两个词出现在上下文中且相距一定距离。有些搜索引擎还使用了NEAR等类似的运算符,描述两个词之间的间隔距离。
4.范畴检索
为了提高查准率,往往需要将检索限制在网页的一个特定部分或几个部分进行,这就是范畴检索。常用到的范畴有Title,Date,URL,Links,图像等。
五、搜索引擎的实例
Google、百度
六、元搜索引擎
1.元搜索引擎:是指能够同时检索多个搜索引擎并将结果综合的搜索引擎。可以将元搜索引擎分为元搜索网站和客户元搜索程序,前者采用基于Web的搜索界面,提供与常规搜索引擎类似的搜索功能,后者则需要用户安装使用。
(元搜索引擎:又称多元搜索引擎或集成式搜索引擎。是指通过一个统一的用户界面,帮助用户在多个搜索引擎中实现检索,并对检索结果进行优化处理的搜索引擎。元搜索引擎是对多个独立搜索引擎的整合,调用,控制和优化利用。)
2.元搜索引擎的优越性(以Copernic客户元搜索程序为例)
⑴检索范围更广泛
任何一个搜索引擎都不可能实现对整个网络信息资源的全面检索,而且不同搜索引擎的搜索范围都各不相同,因此当前即使最强大的网络搜索引擎也会出现漏检现象。使用元搜索引擎可以覆盖更多的网络空间,它返回的检索结果是多个搜索引擎检索结果的合集。
⑵智能性
常规的网络搜索引擎仅仅呈现给用户一个检索结果列表,元搜索引擎可以在结果中进行二次检索,点击历史记录,就能立即看到当时的检索结果。
⑶灵活性和易用性
元搜索引擎的使用非常简单,友好的人机交互界面和专业的人性化的功能设计,使它拥有更多的用户。
第九章 信息组织的广泛应用
一、数字图书馆的信息组织
(一)数字图书馆概述
数字图书馆:是采用现代高新技术所支持的数字信息资源系统,是下一代因特网上信息资源的管理模式,将从根本上改变目前因特网上信息分散不便使用的现状。通俗地说,数字图书馆是没有时空限制的、便于使用的、超大规模的知识中心。
(二)数字图书馆的功能与体系结构
1.从应用角度来看,数字图书馆系统应具有以下功能:
①多媒体文件管理;
②智能全文检索;
③文件使用控制、版本控制;
④多功能网络编辑阅览;
⑤系统和网络通信安全管理;
⑥智能信息搜索引擎;
⑦出版业务支持工具。
2.数字图书馆的系统结构设计一般采用三层结构:客户端表现层、服务器层和存储层。
①客户端表现层:可以是因特网的任何用户,通过因特网与服务器层连接,共享数字图书馆的信息资源。
②服务器层:可以是Web服务器,应用服务器,具体包括元数据服务器,安全服务器,系统服务器,搜索服务器等。
③存储层:包括数字图书馆服务器和对象服务器。
(三)元数据与数字图书馆
数字图书馆是网络环境下的分布式系统,它不仅要解决和研究某个节点内部如何利用元数据对信息进行组织和管理,而且还要研究如何在不同的节点之间进行元数据的交流和共享,以达到对整个网上信息资源的高效组织和管理。
(四)应用实例:中国国家数字图书馆、世界数字图书馆
二、电子商务的信息组织
(一)电子商务概述
电子商务:是指两方或多方通过计算机和计算机网络所进行的一切商务活动,它包括企业和企业之间的商务活动,网上零售业,电子行业和物流配送等全过程。电子商务是通过公共计算机进行商务活动的方式,它是网络应用和商务活动发展的方向。
电子商务模式:B2B模式、B2C模式、C2B模式、C2C模式
(二)电子商务系统的体系结构
1.电子商务网络基础设施
计算机网络是电子商务的基础。我国电子商务的基础网络主要由中国公众多媒体信息网组成。
2.电子商务基础平台
电子商务基础平台由CA认证中心、支付网关与客户服务中心组成。
3.电子商务应用系统
电子商务应用体系通过业务网关直接建立在中国公众多媒体信息网和internet网上,并通过该网络实现各种电子商务应用和服务。
(三)电子商务系统设计与信息组织
1.电子商务系统的设计步骤
⑴商务分析阶段:这是实现电子商务应用计划的第一步,这一阶段的工作主要是进行充分的商务分析,包括需求分析和市场分析两个方面。
⑵系统设计阶段:在完成商务分析的基础上,这一阶段要充分结合商务和技术两方面因素,提出电子商务系统的总体格局。
⑶系统实现阶段:分两条线推进:一条线是按照电子商务系统设计方案来全面调整、变革传统的组织管理和业务流程,以适应电子商务运作方式的要求;另一条件是按照电子商务系统设计,全面进行计算机软硬件配置,网络平台建设等,从技术上保障电子商务系统的正常运作。
⑷整合运行阶段:系统实现阶段完成后,就可以将经过变革的组织、管理和业务流程,与已经建好的电子商务技术平台和信息系统整合起来。进入整合运行阶段,开始实现电子商务应用。
2.电子商务网站设计的基本原则
⑴加强广告宣传,注重页面外观设计;
⑵积极引导消费者,并有切实可行的促销措施;
⑶有效的信息导航,降低用户搜索信息的难度;
⑷建立社区,促进用户之间的交流;
⑸建立会员制,吸引大量的固定用户;
⑹信息可视化,挖掘用户对信息的感性认知能力;
⑺建立信用,加强安全;
⑻提供全程服务,突出最新内容。
3.购物网站的信息组织要素
网站设计要素、分类体系、购物篮、银行卡和信用卡支付、安全问题、顾客跟踪、产品促销
4.个性化电子商务网站的设计
个性化电子商务:是指电子商务平台的个性化。
电子商务的个性化包含三个方面的内容:一是需求的个性化定制;二是信息的个性化定制;三是对个性化商品的需要。
5.电子商务网站的建设方法 (具体内容)
⑴申请域名,租用空间
建设网站必须申请域名,要有自己的网站地址,还需要一定的磁盘空间,可以自己添置设备,也可租用磁盘空间。
⑵网站策划
包括网站创意,网站设计和网页制作等。网站创意要根据业务范围突出主题内容。在网站设计中,主页设计十分重要,它不仅浓缩了网站的主要内容,而且还要以鲜明的特色吸引广大用户。
⑶后台数据库的开发与维护
数据库建设是信息组织的重要内容。后台数据库的设计,建立,维护与利用是商务网站建设的重要内容。
⑷向电子银行申请,成为特约网站
商务网站的一个必要条件就是向电子银行提出申请,成为相关银行的特约网站。
⑸与配送中心签署协议,建立信息交换与结算机制
物流配送体系,是电子商务的基础。商务网站与配送中心合作非常重要。签署相关协议,规范化运行,及时交换信息并办理结算手续,才能建立长期的合作关系。
⑹系统集成
将信息流,资金流,物流集成在一起,协调运行,才能使电子商务发挥作用。
⑺技术培训
对管理人员与用户及时培训是开展电子商务的必要条件。随着形式的发展要不断进行技术培训。
6.遵循电子商务技术标准
EDI标准、识别卡标准、通信网络标准、其他相关标准
(四)电子商务网站实例:阿里巴巴的淘宝网、亚马逊
三、电子政务的信息组织
(一)电子政务概述
1.电子政务的定义
电子政务:是政府机构运用现代信息工程技术,将其管理和服务职能转移到网络上,通过重组政府组织结构,优化工作流程,超越时空制约实现政务信息与政府业务的共享与集成,向全社会提供规范,透明,高效和全方位的管理与服务。
2.电子政务的功能
电子政务的功能非常广泛,按照政府服务对象的不同,可以将电子政务的功能分为三个方面:
⑴政府间的电子政务(G2G):是指上下级政府,不同地方政府,不同政府部门之间,包括同一级政府内部各部门之间的联网应用。
⑵政府对企业的电子政务(G2B):指政府通过电子网络系统为企业提供各种服务,如企业工商登记,税务登记,纳税申报等各项与政府部门有关工作都可以运用信息网络手段在互联网上进行。
⑶政府对社会(公众)的电子政务(G2S):指政府通过电子网络系统为社会公众提供各种服务,如信息发布服务,信息咨询服务,教育培训服务,就业,医疗,社会保障服务等。
3.电子政务的特点
⑴电子政务相对传统政务的优点:
①决策科学化:电子政务的应用和推广,深刻地影响政府决策的整个过程,有力推动政府决策的科学化进程;
②管理高效化:电子政务使很多事项都可以通过互联网以快捷,安全的方式进行办理;
③政府运行机制的革命性变化;
④过程动态化:互联网对任何层面的管理活动及其结果都可以得到及时准确的反馈,并保持监督的同步性;
⑤拓宽宣传途径:互联网的开通使得他们大大开阔视野,对宣传工作的影响将波及政府决策的合法性及其实际贯彻与执行;
⑥跨越服务时空:人们步入互联网,可以不受时空条件限制,在网上自由选择自己所需要的各种服务方式和服务种类。
⑵电子政务的弱点
①脆弱的网络:互联网是强大的,同时也有它的软弱性。一般情况下,总有一部分节点处于故障状态;
②难控的病毒:计算机病毒是随着计算机技术的发展而产生的一种畸形怪胎;
③社会的观念:电子政务的发展对公共权利的形式和运作起到一定的限制和监督作用,因此容易引起少数公务员的抵触情绪;
④无统一标准:我国在这一方面有一些规定,但没有中长期总体规划,特别是有关统一的技术标准;
⑤无相关法律:与电子政务相关的法律法规的制定还比较薄弱,有许多地方还处于法律真空状态。
⑶电子政务相对于其他信息系统的特点
①安全性:电子政务要强调从硬件,操作系统,数据库等各方面的安全维护;
②透明化:在实际应用中存在各种应用环境。用户只关心能不能得到自己所需要的信息,中间平台的各种环节对用户来说应该是透明的。
③个性化:因为对使用信息的人来讲,每个人都希望自己能有一个满足自己要求的一个应用空间。因此就要求从应用建模、智能化等方面构建个性化的电子政务系统。
4.电子政务的发展阶段
⑴网上信息发布阶段:政府仅在网站上发布公共服务的信息。
⑵单向交流阶段:政府提供便民服务。
⑶双向交流阶段:政府能够与公民在网上双向互动。
⑷全方位事务处理阶段:政府的公共服务出现全方位的电子化特征。公民不仅通过网络传输表格,还可以直接在网上完成交税,交费等事项。
(二)电子政务系统的体系结构
1.网络拓扑结构:外网、专网、内网
2.层次体系结构:应用层、交换层、数据层、网络层
(三)电子政务信息组织方法
1.电子政务信息的分类
⑴从信息的媒体种类角度分:数值,文本,声音,图形,图像,音频,动画,视频。其中数值,文本使用的最多,其次是图像,声音,视频,而动画,图形使用较少。
⑵从组织层次的角度分:一次信息,如关于机构和个人的介绍;二次信息,如对自由文本,超文本,主页方式等网上信息进行索引。
⑶从信息的层次角度分:结构化信息,如各类政府表格;半结构化信息,如各种政府文件;非结构化信息,如个人照片。
2.层次结构组织方法
主题语言组织方式、分类语言组织方式
3.超链接组织方法
在电子政务系统中,不同类型的信息被组织在一起构成一个Web页。不同的web页之间通过超链接联系在一起,这种链接可以指向网页内部,也可以指向同一网站的不同页之间,还可以指向网站之外的网页。
4.数据库组织方法
数据库是成熟的信息组织方法,是对大量的规范的数据进行管理的技术。电子政务中有大量的规范数据,因此采用数据库技术组织电子政务中的信息是显然的。
5.文件组织方法
文件是一种历史较长的信息组织方式,文件组织信息的优点是简单方便,除文本信息外,它可以组织图像,图表,视频等,甚至可以组织程序。Internet已混合了不同的文件类型和不同的文件格式,它们都可以用来存储电子政务中的各项信息。
6.遵循电子政务标准
借鉴电子商务标准化的研究方法;遵循我国电子政务标准。
(四)电子政务门户实际:中国政府门户、美国政府门户
四、数字博物馆
(一)数字博物馆概述
数字博物馆:是指那些将自身的文物与标本藏品及陈列展览采用计算机化技术进行处理、加工、整序并上网以提供社会观众浏览的多媒体数字化信息机构。三个基本特征是:①文物标本资源数字化,②信息传播网络化,③观赏浏览公众化
(二)数字博物馆的元数据组织
1.博物馆元数据的作用
博物馆的元数据要同时兼顾博物馆的实体性产品及其数字化信息资源两个方面。
2.国际上较为成熟的数字博物馆元暑假标准
CDWA元数据、VRA元数据
(三)数字博物馆实例:故宫博物院
第十章 社交媒体的信息组织
一、概述
(一)社交媒体
社交媒体:是人们彼此之间用来分享意见,见解,经验和观点的工具和平台,也被人们称为社会化媒体、社会性媒体,指允许人们撰写,分享,评价,讨论,相互沟通的网站和平台。社交媒体的产生前提是web 2.0的发展,主要包括社交网站,微博,微信,博客,论坛等。
(二)社交媒体的类型及优势
1.社交媒体的类型
2.社交媒体的作用
(三)社交媒体的内容生成模式
UGC:User-Generated Content,用户产生内容
(四)社交媒体的信息组织方式
所谓社交媒体应该是大批网民自发贡献,提取,创造新闻资讯,然后传播的过程。有两点特色,一是人数众多,二是自发的传播。
二、社交网站的信息组织
(一)社交网站的应用
社交网站:是指一种网络服务网站,即社会性网络服务(SNS),专指帮助人们建立社会性网络的互联网应用服务。社交网站信息资源的特点有:①信息发布的动态性,②信息内容的广泛性,③信息发布的无序性。
(二)社交网站的信息组织方式
1.数据挖掘:是一个利用各种分析工具,在海量数据中发现模型和数据间关系的过程。这些模型和关系可以用来做出预测。数据库,人工智能,数理统计,可视化是数据挖掘的技术基础。
2.知识发现:是在数据挖掘的基础上,从数据集中识别出有意义的,简洁的,潜在有用的知识,向使用者屏蔽原始数据的繁琐细节。
3.信息重组:是一种知识再创造型的劳动,是对大量信息进行筛选,解构,组合及序化的过程,是实现信息增值的过程。
4.信息整合:是将各个应用系统的信息数据进行有机的整合集成,实现对业务应用信息数据共享的过程。
(三)社交网站的信息组织案例:人人网
三、微博、微信的信息组织
第十一章 信息组织的发展趋势
一、信息构建
信息构建是信息组织集成化的体现。它是信息组织的发展方向之一。
(一)信息构建的沿革
信息构建(IA):是组织信息和设计信息环境、信息空间或信息体系结构,以满足需求者的信息需求的一门艺术和科学。IA包括调查,分析,设计和执行过程,它涉及组织标识,导航和搜索系统的设计,目的是帮助人们成功地发现和管理信息。
(二)信息构建核心内容
1.信息构建的适用范围
从信息构建的定义和基本思想来看,信息构建的理论和方法不仅适合于网络信息的组织,而且适合于所有的信息集合。
2.信息构建的主要内容
IA的核心要素就是网站的信息组织系统,标识系统,导航系统和搜索系统等四大系统。
⑴组织系统:负责信息的分类,由它确定信息的组织方案和组织结构,对信息进行逻辑分组并确定各组之间的关系。
⑵标识系统:负责信息内容的表述,为内容确定名称、标签或描述,标引名称可以来源于控制词表或词库、专家或用户、已有的标识实践等。
⑶导航系统:负责信息的浏览和在信息之间移动,通过各种标志和路径的显示,让用户能够知道自己看过的信息、自己现在的位置和自己可以进一步获得的信息内容。
⑷搜索系统:负责帮用户搜索信息,通过提供搜索引擎,根据用户的提问式,按照一定的检索算法对网站内容进行搜索,并提交给用户搜索的结果。
(三)信息构建在网站信息组织中的应用目标
Web信息构建的实质是通过信息组织系统,标识系统,导航系统和搜索系统的设计和处理,帮助人们在网络和Web环境中更成功地发现和管理信息,有效的解决用户的信息需求。它是组织管理网站信息资源的基础。
Web信息构建的目标有两个方面:①从对信息的处理结果看,要达到信息的清晰化和信息可理解两个目标;②从用户的使用结果看,要达到网站信息有用性,可用性强和使用者具有良好的用户体验两个目标。
二、信息可视化
信息可视化是信息资源组织与检索的热点研究课题之一。实践证明,它已成为一个跨学科、影响深远的研究领域。
(一)信息可视化的由来
信息可视化(IV):就是利用计算机支撑的、交互的、对抽象数据的可视表示,来增强人们对这些抽象信息的认知。可视化是这样一个过程,它将信息转化为一种视觉形式,充分利用人们对可视模型快速识别的自然能力去观测,浏览,判别和理解信息。在这个过程中,人们利用计算机系统从屏幕上观察交互图形、图像,并通过可视模型处理信息。
信息可视化的过程就是从信息维映射到可视维的过程,一般来说,通用信息的可视化可分为四个步骤:抽象,转换,映射,隐喻
(二)信息可视化的内容
1.信息资源描述与存储的可视化
⑴文本描述与存储的可视化:知识分类与图符法、统计分析与图像列阵法、聚类与内容关联法。
⑵语音信息描述的可视化:一是调用语音-文本转换软件,将语音信息转换为文本信息;二是对转换后生成的文本信息可视化。
⑶图像特征描述的可视化
2.检索过程的可视化
检索过程的可视化主要是指检索提问式构造的可视化和检索接口的可视化。 检索式可视化的意图在于利用检索词的语义扩展技术及可视化技术显示出概念间的关系及相关的检索词,以便用户能更准确的表达检索需求。
3.检索结果提供的可视化
⑴数据库检索结果提供的可视化:由于数据库的定义规范,可视化的接口形式容易实现归一化。建立图库,关键词库,自由词库是其环境要求。
⑵网络信息检索结果提供的可视化:主要指对网络信息检索结果进行可视化加工。由于网络信息最主要的特点就是页面之间的相互联系,因此对于网络进行检索结果提供的可视化技术主要是可视化的表现这种关系。
三、知识组织
(一)知识管理与知识管理系统
知识管理(KM):就是通过集体智慧的杠杆效应达到增强响应能力与创新能力的学科。
知识管理系统:是用来支持知识管理活动的计算机系统,以及该系统所承载的知识管理的内容,方法和工具。通常具有三大模块:基于内容提供、基于技术实现、基于文化和管理。在知识管理系统中,知识组织是系统的核心与基础。
(二)知识组织的主要内容
知识组织:就是为促使或实现主观知识客观化和客观知识主观化,而对知识客体所进行的诸如整理,加工,引导,揭示,控制等一系列组织化过程及其方法。知识组织的目标在于对知识进行整序和提供,其任务则是要建立知识组织系统(KOS)。
⑴知识组织的发展是由用户的信息需求和技术发展两个因素向前推动的。
①从信息需求的角度角度出发,用户对信息资源的利用程度随着科技进步及其对经济发展推动作用的增强而不断加深,不再满足于一般层次的文献服务,信息服务,而是要求通过文献信息的深层次开发,将分散的专门知识信息加以集中利用,集中组织,进行文献信息的内涵知识二次开发,进行知识重组,从中提炼出对用户的研究,开发与管理创新思路的形成起着至关重要作用的知识基因,供其使用。
②从技术的发展角度,由于现代计算机技术的广泛应用,使用计算机技术进行知识组织和分发成为一条极为重要的途径。总体来说,根据不同的知识和载体,采用不同的知识组织技术。有关知识组织的核心技术包括文本映像,摘要整理,概念聚类,语义索引。新的技术包括采用XML技术,基于本体的知识组织,语义网络等。
⑵从文献组织到信息组织再到知识组织,是人类对知识的利用不断深化的结果,它们都是为了解决信息需求与信息利用的矛盾而产生的。
①文献组织是为满足人们利用科技文献的需要而出现的一种独立的活动,它是对知识的载体进行的组织;
②信息组织是信息时代出现的产物,在信息社会,随着internet的兴起与发展,信息类型,信息媒体多种多样,信息爆炸,信息的质量层次不齐,为了满足人们的信息需求,需要对纷繁芜杂的大量信息进行整序优化,于是提出了信息组织;
③随着信息的快速增长及信息技术的飞速发展,产生了知识获取的需求。人们需要能够解决具体问题的知识,而知识存储的分散化和无序化,制约了人们获取所需知识的能力,为了优化知识的获取,就需要超越知识呈现的外在形式,而对其内容进行精细的分析与组织,提出了知识组织。
⑶信息组织是知识组织的基础,知识组织是信息组织的延伸和发展,知识组织来源于信息组织,但又高于信息组织,它是知识管理和知识服务的基础,是信息组织发展的高级阶段。
(三)知识组织的方式
按照知识组织的对象不同,可以将知识组织方式分为基于知识元素的知识组织方式和基于知识关联的知识组织方式。基于知识元素的知识组织方式主要注重知识元素本身的内容与意义,如分类,聚类,元数据等;基于知识关联的知识组织方式主要注重知识元素间的关系和约束,通常采用可视化的图形形式,其代表的有知识地图,知识图谱与语义Web等。
⑴知识地图
知识地图:是对概念和知识关联的切实表述或分类,它起到了一种搜索导航的功能,可以使用户快速找到他们所需要的知识点,然后重新返回到相关的知识源。主要类型有:面向程序的知识地图,面向概念的知识地图,面向能力的知识地图,面向社会关系的知识地图。
2.知识图谱及可视化分析
知识图谱:本质上是语义网络,是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从关系的角度去分析问题的能力。
3.语义Web
语义Web:是一种使用可以被计算机理解的方式描述事物的网络,它的基本思想就是让机器或设备能够自动识别和理解网上的内容,使得Web信息获取更为便捷。
它的核心是:通过万维网上的文档添加能够被计算机所理解的语义元数据,从使整个互联网成为一个通用的信息交换媒介。所依赖的核心技术包括,XML、RDF、Ontology(本体)
(四)知识组织的发展趋势
⑴在大数据环境下,知识组织方式必须做出适应于处理海量信息的改变。人们利用移动互联网条件和网络机器人的智慧及时处理创造新的多种知识组织与服务模式。这就意味着创新的知识组织方法将会要求基于用户阅读行为遗留下的大量数据浏览痕迹,提炼出用户的不同知识需求,再根据不同的需求目标进行知识组织,从而实现更具针对性的交互式知识服务体验。
⑵这种新的组织方式更加重视与用户需求之间的呼应,重点放在透析用户需求,探讨用户的阅读行为知识,并结合大数据的方法和技术对行为知识进行获取,组织和应用,最后根据目标组织知识,呈现给用户有针对性的高效的知识服务。
⑶最终实现的交互式知识服务体验将会是知识组织的发展趋势,知识组织在未来必将真正实现考虑用户需求和用户隐形知识,建立面向个性化服务的创新组织机制。