导图社区 信息组织(信息检索)信息管理学
信息资源管理考研 情报学 档案学 信息分析,包含概述、方法、网络信息组织、知识组织等。干货满满,有需要的朋友赶紧收藏吧!
编辑于2024-02-12 16:56:34信息组织
概述
概念
信息整序
根据一定的组织规则,将采集到的无序信息运用一定的技术方法对其内部特征和外部特征进行解释和描述,使之从无序集合成为有序信息集合的过程
组织对象
内部特征
外部特征
由其物理载体直接反映的
内容/步骤
选择
序
有序:约束性,规律性
分析
逻辑关系
语义语用语法
内部外部特征
细化挖掘加工整理
描述与揭示
特定需要
主题形式载体
著录:外部特征/标引:内部特征
存储
格式顺序/特定载体
原则
客观性
系统性
宏观/微观
与其他部门
采集/组织/传递/检索
部门内部工作流程
不同技术的使用
满足特殊性要求/统一标准
目的性
用户
市场
机构
现代性
思想:标准化
技术:自动化
类型
特性
渗透
增效
依附
有序
方法(传统)
理论基础
语言学:符号载体
逻辑学:思维方法
系统论:整体,同一
协同论:子系统协同运作
耗散结构理论:无序到有序
自组织理论:自发
思想方法
分类法
内容特征,相互关系,等级结构
符号标识
简单,明确,排序性好
方便,结构等级描述揭示,充分发挥分类法的作用
数字字母,通用性,不受语种限制
不直观
一定角度,揭示联系
主要联系
先按传统学科分类,下设细分新学科专业
主题法 与分类法对比定义
主题中心
语词标识
字顺排列,参照系统
分类-主题一体化
分类法/主题法/原理渗透,结构融合
学科体系,等级结构,逻辑排列 主题概念,字顺排列,参照系统
分类词表-叙词表/叙词表-分类词表
信息描述与揭示
检索语言
基本原理
定义
功能
描述/一致性
集中/揭示
等级结构
参照系统
轮排聚类法
范畴分类体系
排列/序化
分类
字顺
分类字顺排列
相符性比较
分类
先组
后组
定组
理论基础
概念逻辑
概念
对事物本质属性的概括/内涵加外延反变关系/种差加邻近属概念
按照外延重合程度
相容概念
同一
属种
交叉
整体与部分
全面与某一方面
不想排斥的并列
不相容概念
相互排斥的并列关系
对立
矛盾
概念逻辑方法
概念的划分与概括
概念的分析与综合
知识分类
系统研究事物的方法
分类:学科/事物
原则:客观性/发展性
术语学
分类法
概述
定义
类目,规则,组织,标记符号,次序,知识分类,概念,概念逻辑,排列
特点
集中
揭示
词典
线性
功能
反映,逻辑,全貌,
系统,通用,族性
符合,依据,规范
主要的分类法
体系分类法/等级列举
定义
概念逻辑,学科分类
类目,组成,体系
特点
学科,线性,等级列举
先组定组
符号标记
结构
微观(类目体系)
类目划分
标准:内容,形式
过程
引用次序
类目划分标准的引用次序
越前越集中
逻辑,目的,主题,需求
排列次序
系统,逻辑,统一,相关
同位类
类名确定
科学性
确切性
间接性
相互关系
从属
交叉
并列
相关
宏观
类目体系
主表
基本部类
基本大类
简表
详表
复分表
标记系统
纯数字/数字字母混合
顺序/层累/混合/分面标记
说明注释
编制说明
大类说明
类目注释
索引
直接索引
相关索引
分类主题对照
组配分类法/分面分类
定义
概念逻辑
复杂,简单
分类
全分面分类:完全组配
半分面分类:体系+组配
特点
先组优+后组优
结构
编制说明,基本类表,分面类表,分面公式,通用辅表
分面分析法
基本
具体
引用次序/排列次序
标记系统
标记制度
分面标记制
分段
回溯标记制
直接加/不能轮排多途径
标记符号(分面符号)
标点符号
数字或字母
主题法
概述
定义
语词标识,字顺排列,自由组配
主题中心,规范名词,参照系统
特点(优+缺
规范名词:专指
语词标识:直观
灵活组配:
主题中心:
功能
控制系统
引导
方便
主要的主题法
标题词
标题列举
先组
参照系统
单元词
单元词,后组,号码相同可组配
优点
后组:灵活,适应,体积小,检索途径,扩检缩检
词独立/组配:每一个单元词都可以作为检索入口
缺点
字面组配
无参照系统
不直观不系统
关键词
原理
关键词,自然语言
字顺
轮排
特点
优点:自然语言,关键词,轮排,自动
缺点:族,不揭示关系,轮排需要计算机
分类
题内
题外
词对式
叙词/主题词
原理
定义
叙词/主题词,概念为基础,规范化,组配功能,揭示关系,动态变化
叙词法:单元概念,规范化,概念组配,后组
概念组配
叙词表
主题词选择与规范
选择
词表范围
文献检索要求,文献增长
被选词,检索意义价值,频率,完整明确
规范
词形/同义
词义/多义
范围
先组度
词间关系
用参照系统揭示
同义:正式词/引导词
属分:专指度
相关
主题词组配
原理:概念组配,后组
交叉:复合
限定:缩
联结:只揭示关系
特点
叙词标识
直观
规范
后组
灵活组配
适应性/新
概念组配
揭示语义关系,网络结构,系统性,族性
参照系统,范畴分类系统,等级系统,词族图
与其他检索语言的关系
分类-主题一体化
网络环境下的检索语言
分类语言(传统与网络发展对比)
形式
电子化
传统
网络:直观方便/链接检索/速度效率/成本修订更新
多维化
超文本:改变线性,技术,体系多维
网络分类目录:标准,关系,设类多维
内容
聚类标准主题化
类目划分随意性
类目排列非逻辑性
类名通俗性/稳定性
公众分类法
趋势
调整传统
发展创新:网络分类目录
主题语言
传统
学术检索:标题,叙词
搜索引擎:关键词
辅助词表
后控词表
禁用词表
自然语言
优点
易用
准确
适应
后控词表
区别
只用于检索
部分控制部分关系
收词丰富,动态
使用方便灵活,面向用户/保障功能
优点
后控,对象,简单
语义完整,检索便捷,减轻负担
自然+人工,查全,查准
信息著录
含义
概念
对象
目的
过程
结果
基本要求
准确性
规范化/标准化
作用
揭示
组织
信息著录
目录组织
检索
标识/数据记录
信息著录的标准
机读目录
特点
伸缩性强,适应面广
包括 001~999 个字段,其中 999 字段为用户自定义的字段
字段内容著录详尽,字段下又设子字段以及重复字段
字段作用强大,可检索的字段多
每条 MARC 记录可分为头标区、目次区、数据区
元数据
概述
概念
关于数据的数据
描述,促进,协助,工具,组织
含义
对象
成分
通常是从信息资源中抽取出来的用于说明其特征、内容的数据,如题名、版本、出版数据、 相关说明等
结果
目的
作用
著录与描述
基本功能
定位与检索
无实体
抽取,语义,联系,示址
评价与选择
描述,了解,判断
资源管理
资源保护与长期保存
都柏林元数据(DC)
定义
是一种通用简单的元数据,是一种跨领域的信息资源描述标准,其中,信息资源被定义为,任何具有标识的东西
应用
应用的数据类型没有根本性的限制
包含15个元素,分为三种类型:资源内容相关,资源知识产权相关,资源外部属性相关
各元素可选择可重复可扩展,不同国家地区行业可以根据具体需要选择全部或部分元素进行资源描述也可以增加其他必要元素
优点:简单易懂,运用灵活,国际通用,可扩展性,语义互操作性
都柏林元数据与机读目录
相同
本质:元数据
目的:信息格式化
描述,著录,检索
不同
著录内容
对象
网络/传统
主体
非专业/专业
详简程度
简/详细
标识方法
单词词组/数字字母
数据形式
15元素/三区(头标/目次/数据)
评价
信息标引
含义
定义
作用
承上启下
目的
分类
主题标引
分类标引
步骤
主题分析
定义
中心思想,重点:结构,要素,关系
步骤
主题类型
单主题
单元主题
复合主题
多主题
显性主题/隐性主题
主题结构
构成主题和各个基本主题的要素及其相互关系
目的:中心,动态,限定,主要/次要,选择提炼确定
方面
主体因素
通用因素
位置因素
时间因素
文献类型
方法
对象,具体,模型,要素,关系
全部要素,关系,具体,模型分析
内容特征/根本依据,外表特征/辅助依据
概念转换
定义
以主题分析为基础,赋予标识,结果是形成检索标识
方法
直接转换
分解转换
审核
质量控制
一致性
查全率查准率
专指度
查准率
标引深度
查全率
自动标引
含义
定义
特点
分类
方法
统计分析法
词频分析
齐夫,卢恩(自动抽词/去高低频)
加权分析
逆文献频率
词频/文献频率/标引词/特征词
词区分度
相关性
价值测度
n-Gram分析
统计学习
定义
通过学习过程,确定标引词与相关词,不相关词之间的关系,并以此为基础确定标引值
过程
学习
集合,词频,促进词/削弱词,计算取值,得出阈值
标引
语言分析法
句法
语义
人工智能
自动分类
分类
基于词
根据那些可以代表文章主题内容的词汇对文章进行类别判定的一种方法
步骤
选择一种分类体系,利用现有分类法、词表、 同义词典等工具,形成归类底表
抽取表达主题内容的关键词,并将其与预先设计的“分类号关键词 ”所形成的矢量空间模型进行匹配,找出每个关键词涉及的分类号
把所有分类号进行逻辑运算归并整理,结合各种复合表索引库,根据级别,得出每个分类号的权值级别。级别最高的类,即为该文献应归的类
基于知识
知识库/专家系统
聚类
网页特征表示
特征抽取,特征选择,数学转换
词频,位置
相似度计算
聚类
标引
评价
分类标引
定义
原则
规则
主题标引
定义
规则
选词规则
组配规则
相互关系
标记语言
通用标记语言SGML
超文本标记语言HTML
可拓展的标记语言XML
MARC XML
网络信息组织
特点
产生传播,速度和数量,自动化
种类增多,数据库成分复杂化,非结构化
用户的信息行为,非专业化,透明,易用化
信息形式,非线性,交互动态,超文本
方法
分类法
传统文献分类法
严格等级体系
等级结构,概念体系,类目关系
自用标引,分类组织
学术性资源,图书馆资源
自编分类系统
分类
网站分类目录
网页分类索引
特点
以事物或主题为中心
用户需求
主题中心类目
内容特征,需求特征,载体特征体系
具有实用性,缺乏严密性
语词标识
多重列累,重复反应
网状结构
多重途径
类目范围
从属
相关
更新迅速
链接
动态
主题法
叙词
专业数据库;独立叙词表/集成在数据库中的叙词表
概念
缺点
自动
自然
成本
关键词
概念
特点:不受控,受控程度较低
搜索引擎:自动索引软件 文献数据库:语词标识系统(分类/主题浏览)
具体技术/方式
文件法
概念
优点
简单方便
组织非结构化信息的天然单位
缺点
难以平衡网络负载与文件数量
难以处理结构化信息组织活动,逻辑结构较为简单
在文件数量较大时 需要将文件本身作为信息管理组织的对象
数据库
概念
优点
规范化处理
数据管理与应用程序完全分离
多媒体数据库,半结构化数据库的发展
缺点
难以处理非结构化信息
对用户与数据库的服务端要求较高
不能提供知识关联,语义关联
主题树
概念
优点
结构清晰,简单易用
范畴分类体系
树型目录结构
缺点
事先确立
结构与可用性限制
人工组织
超媒体技术
概念
优点
跳跃性思维
突破媒体类型限制
链接检索/避免检索语言复杂性
缺点
盲目性
定位难
记录难
众包
概念
外包,非特定,大众网络,整合
个人承担/开源个体生产
Wiki
Tag
自由分类法
定义
特点
优点
平面化/非等级结构的类目结构
兼顾分类、主题双重功能
动态变化/容易更新
简单易用/自由共享/tag cloud
缺点
缺乏层次性
表达概念模糊
语义不精确
缺乏同义词控制
不规范/无序
完善
与传统分类法
与元数据
知识组织
概述
概念
蒋永福
主观知识客观化/客观知识主观化/组织化过程
布鲁克斯
知识地图:分析相互影响与联系/标记节点/形成并展示其有机结构
基于本体的知识地图
塞恩
思想基因进化图谱/知识单元及其影响联系
特征
知识表示
王知津
狭义:文献整序/分类标引编目
广义:知识两要素(知识因子有序化/知识关联网络化)
主观知识表示
逻辑标识
产生式规则
语义网络表示
框架表示
面向对象的表示法
客观知识表示
分类标引
主题标引
原理:词典,特征相符性比较,标识符号
区别:分类:语义+语法;主题:语法为主语义为辅
语义视角下知识表示
语义网
概念
大量机器可理解的数据
原有万维网加入机器可理解的内容
数据及相关关系由术语表示,计算机通过属于及其形成的关系网络来获取和理解数据的含义,从而进行逻辑推理,完成从前无法完成的工作
核心/组织机制
信息描述:基于XML,RDF
语义表示:基于本体,赋予语义,实施语义互操作
本体
概念
共享概念模型的明确形式化规范说明
要素:概念,属性,公理,取值,名义
含义
特征
内容
直接体现语义
结构
多维网状
使用
分布式共享
逻辑推理
关联
知识图谱