导图社区 DAMA-CDGA数据治理工程师-9.文件和内容管理
文件和内容管理指针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理,重点在于保持文件和其他非结构化或半结构化信息的完整性,并使这些信息能够被访问。
编辑于2024-03-05 20:25:41不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
社区模板帮助中心,点此进入>>
不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
9.文件和内容管理
引言
文件和内容管理
指针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理
重点在于保持文件和其他非结构化或半结构化信息的完整性,并使这些信息能够被访问
业务驱动因素
主要驱动因素包括法规遵从性要求、诉讼响应能力和电子取证请求能力以及业务连续性要求
良好的档案管理还可以帮助组织提高效率
那些基于有效管理的本体及其他良好组织、条理清晰、可检索的网站,有助于提高客户和员工的满意度
法律法规要求组织保留某些活动的档案
档案包括纸质文件和电子存储信息ESI
良好的档案管理是维持业务连续性的必要条件,还可以使组织具备针对诉讼的响应能力
电子取证是查找可能作为法律诉讼证据的电子档案的过程
组织应对电子取证的能力取决于其主动管理电子邮件、电子文件等档案以及原始应用程序数据和元数据的水平
提高效率是改进文件管理的驱动力
文件管理方面的技术进步,有助于组织简化流程、管理工作流、消除重复性的手动任务并实现协作
目标和原则
目标
确保能够高速有效地采集和使用非结构化的数据和信息
确保结构化和非结构化数据之间的整合能力
遵守法律义务并达到客户预期
原则
组织中的每一个人都应该在保护组织的未来方面发挥作用
档案和内容处理方面的专家应充分参加制度和规划的制定
档案管理原则
问责原则
组织应指派适当的高级别管理人员,采用制度和流程来指导员工,并确保计划的可审计性
完整性原则
建立信息治理规划,使组织创建或管理的档案和信息具有合理性以及适当的真实性和可靠性保证
保护原则
建立信息治理规划,确保对个人信息或其他需要保护的信息提供合理的保护
遵从原则
建立信息治理规划,遵从适用的法律法规和其他有约束力的机构及组织的制度要求
可用原则
组织应确保以及时、高效和准确搜索其信息的原则来维护其信息
保留原则
组织的信息应保留适当的时间,并考虑所有运营、法律、监管和财政以及其他所有相关约束的要求
处置原则
组织应根据其制度、适用的法律法规以及其他有约束力的机构要求,提供安全和适当的信息处置
透明原则
组织应以工作人员和利益相关方可以理解的方式记录其制度、流程和活动,包括其信息治理规划
基本概念
内容
指文件、档案或网站内的数据和信息
内容管理
定义
包括用于组织、分类和构造信息资源的流程、方法和技术,以便以多种方式存储、发布和重复使用这些资源
内容的生命周期
动态
进行日常更改
静态
很少或偶尔更改
管理
正式管理
严格存储、管理、审计、保留、处置
非正式管理
通过临时更新
企业内容管理
内容管理在网站和门户中尤为重要
当在整个企业范围内进行内容管理时,称之为企业内容管理ECM
内容元数据
元数据对于管理非结构化数据至关重要,无论是传统上认为的内容和文件,还是现在理解的“大数据”
没有元数据就无法对内容进行编目和组织
内容建模
定义
是将逻辑内容概念转换为具有关系的内容类型、属性和数据类型的过程
层次
产品级别
会产出实际的可交付成果
组件级别
进一步详细说明构成信息产品模型的元素
内容分发方法
推式
拉式
交互式
受控词表
概述
受控词表是被明确允许用于通过浏览和搜索对内容进行索引、分类、标引、排序和检索数据的定义列表
系统的组织文件、档案和内容离不开受控词表
受控词表的一个例子是用于出版物分类的都柏林核心元素集
受控词汇表构成了参考数据的一个类型
类似其他参考数据一样,需要管理它们的值和定义,以确保完整性和时效性
因为它们有助于解释和支持其他数据的使用,所以他们也可以被视为元数据
词汇表管理
是针对任何给定的词汇进行定义、寻源、导入和维护的过程
词汇表视图
是受控词汇表的子集,涵盖了受控词汇表领域内有限范围的主题
当目标是使用包含大量术语的标准词汇表时,词汇表视图是必要的,但并非所有术语都与顾客需要的信息有关。例如,仅包含与营销业务单元相关的术语视图是不会包含于财务相关的术语
微控制词汇表
包含一般词汇表中不包含的高度专业化术语的词汇表
微控制词汇的一个示例是具有医学学科子集的医学词典
术语列表
仅仅就是一个列表,不会描述术语之间的关系
选择列表
通常隐藏在应用程序中
术语管理
包括具体说明术语最初是如何定义和分类的,以及开始被不同的系统使用,之后如何维护
同义词环
是指一组含义大致相同的术语
允许搜索其中一个术语的用户去访问该词环其他术语相关内容
开发同义词环手册的目的是用于检索而非索引
规范表
是描述性术语的受控词汇表,旨在促进特定领域或范围内的信息检索
分类法
分类方案和打标签
分类方案是代表受控词的代码
主题词表
本体
描述类(概念)、个体(实例)、属性、关系和事件
文件和档案管理
文件
是包含任务说明,对执行任务或功能的方式和时间的要求以及任务执行和决策的日志等的电子或纸质对象
档案
只有部分文件才能称为档案
可以用于证明所做决策和所采取的行动是符合程序的
可作为组织业务活动和法规遵从性的证据
文件管理
包括文件和档案的整个生命周期中控制和组织它们的流程、方法和技术
包括电子和纸质文件的存储、编目和控制
档案管理
是文件管理的一部分
档案可以是物理的、电子的、网站、硬件上的文件或者混合档案
重要档案在发生灾难时恢复组织运营所必必需的档案
在档案上签名有助于档案的完整性
特点
内容
内容必须准确、完整、真实
背景
关于档案的创建者、日期及其他描述性信息应该在创建档案时收集、组织并维护
及时性
档案应该在事件、行为或决定发生后立即创建
永久性
一旦成为档案,则在档案的法定保存期内不能改变其内容
结构
档案内容的外观和排版需要清晰,它们应被记录在正确的正确的表格和模板上
许多档案同时以电子和纸张两种形式存在
档案管理要求组织知道哪个副本(电子或纸质)是正式的档案副本,以履行档案保存义务
一旦档案的副本确定下来,其他的副本便可安全销毁
数字资产管理
它专注于存储、跟踪和使用视频、徽标、照片等富媒体文件
数据地图
是所有ESI数据源、应用程序和IT环境的清单,其中包括应用程序所有者、保管人、相关地理位置和数据类型等信息
电子取证
取证是一个法律术语,指诉讼的预审阶段,双方当事人互相要求对方提供信息,以查明案件事实,并了解双方的论点有多强
信息架构
是为信息体或内容创建的结构
组件
受控词表
分类法和本体
元数据映射
搜索功能规格
用例
用户流
信息架构和内容制度共同描述了“什么”,即哪些内容将在系统中被管理
设计阶段描述了“如何”实施内容管理制度
搜索引擎
是一种根据术语搜索信息并检索内容中包含这些术语网站的软件
组件
适当的搜索引擎软件
漫游网络的爬虫
将URL保留起来的存储
关键字和文本
排名规则
语义模型
是一种知识建模,描述一系列概念网络以及它们之间的关系
结合到信息系统,语义模型允许用户能够以非技术的方式提出信息问题
组成
语义对象
是模型中表示的事物
语义约束
表示UML中的关联或关联类模型,这些模型有助于识别模式和趋势,并发现可能看起来不相干信息之间的关系
语义搜索
侧重于语义和语境而非预先设定的关键字
语义搜索引擎可以使用人工智能基于单词及其语境来识别查询匹配
语义搜索的要求包括弄清楚用户想要什么,也就是需要像用户一样思考
非结构化数据
电子格式
文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表格、XML文件、事务性消息、报告、图形、数字图像、视频、音频
纸质文件
也包含大量的非结构化数据
数据管理的基本原则既适用于结构化数据也适用于非结构化数据
工作流
应该通过一个工作流管理内容开发,以确保内容按时创建并获得适当的批准
它应该通过使用内容管理系统CMS或其他系统来实现自动化,而不是人工处理
活动
规划生命周期的管理
规划档案管理
制定内容策略
创建内容处理制度
定义内容信息架构
实施的生命周期管理
获取档案和内容
管理版本的控制
备份和恢复
管理保管和处置
审计文件/档案
发布和分发内容
开放访问、搜索和检索
通过可接受的渠道分发
工具
企业内容管理系统
文件管理
文件管理系统是用于跟踪和存储电子文件和纸质文件的电子影像的应用程序
通常具有存储、版本控制、安全性、元数据管理、内容索引和检索功能
文件管理系统具有权限管理模块,管理员可以根据文件类型和用户凭据来管理访问权限
电子签名可以确保文件传送者的身份和信息的真实性
数字资产管理
音频、视频、音乐、数码照片
图像处理系统
用于采集、转换和管理纸质件的影像和电子文件
采集技术包括
扫描
光识别
OCR
智能字符识别
ICR
表单处理
图像
矢量
使用数字公式而不是单独的色彩块
非常适用来创建那些经常需要调整大小的图形
文件格式包括.EPS/.AI/.PDF
栅格(位图)
使用固定数量的彩色像素来形成完整的图像
调整大小时会影响分辨率
文件格式包括.JPEG/.GIF/.PNG/.TIFF
MS WORD的DOC格式
档案管理系统
要有自动保管和处置、电子取证支持和长期归档能力
支持重要的档案程序,以保留关键业务档案
内容管理系统
CMS用于收集、组织、索引和检索内容,将内容存储为组件或整个文件,同时保持组件之间的链接
虽然文档管理系统可以对其控制下的文档提供内容管理功能,但是内容管理系统本质上独立于文档的存储位置和存储方式
CMS负责管理内容的整个生命周期
内容和文件工作流
工作流工具支持业务流程、路由内容和文件、指派工作任务、跟踪状态及创建审计跟踪
在内容发布之前,工作流支持对内容的审核和批准
协作工具
博客、WIKI、RSS等
受控词汇表和元数据表
标准标记和交换格式
可扩展表示语言XML
提供了一种表示结构化和非结构化数据和信息的语言
越来越重要
XML提供了将结构化数据整合到具有非结构化数据的关系型数据库的功能
非结构化数据可以存储在关系型数据管理系统BLOG或XML文件中
XML可以将结构化数据与非结构化数据集成到一起
XML还可以用于创建企业或公司门户,为用户提供一个可以连接到各种内容的接入点
XML可以识别和标记非结构化数据/内容,以便计算机应用程序可以理解并处理它们
基于JavaScript语言的轻量级的数据交换格式JSON
是一种开放的、轻量级的数据交换标准格式
它的文本格式独立于语言,易于解析,但仍是使用C语言家族的习惯方式
JSON正成为互联网、NOSQL数据库的首选格式
作为XML的替换者,JSON用于在服务器和网络应用程序之间传递数据
资源描述框架RDF和万维网联盟W3C规范
RDF以主语(资源)-谓语(属性名称)-宾语(属性值)表示式或三元组的形式描述资源
Schema.org
使语义搜索引擎更容易搜索内容,并使网络爬虫更容易将内容于搜索匹配
电子取证技术
方法
诉讼应诉手册
诉讼应诉数据映射
实施指南
就绪/风险评估
档案管理成熟度
低于标准的
发展中的
基本的
积极的
完成变革的
电子取证评估
组织和文化变革
文件和内容治理
信息治理架构
信息的激增
管理高质量内容
度量指标
档案管理
电子取证
企业内容管理