导图社区 信息分析
信息分析思维导图,适用于期末复习。 信管专业必修课 主要内容为信息分析的概述、工作框架、信息分析建模及常用模型以及信息分析方法,包括内容分析法、引文分析法、因子分析、聚类分析、德尔菲法、回归分析法、时间序列分析、模糊综合评价法、层次分析法等
编辑于2022-05-12 14:50:09信息分析
第五章 信息分析方法
本章思考题
时间序列分析的方法思路
内容分析法的基本步骤
同被引与引文耦合的异同
德尔菲法的实施程序
5.1 相关分析方法
相关关系的基本概念
广义相关分析,是以相关为基础和核心,研究各种形式的相关关系。
三类基本关系
因果关系
虚无关系
相关关系
相关关系的分类
按相关因素的多少区分
分为单相关和复相关
按相关的程度区分
零相关、低度相关、显著相关、高度相关、完全相关
按相关关系的数学模型的不同来描述
分为直线(线性)相关和曲线(非线性)相关两大类。直线相关又可分为正相关和负相关;曲线相关又可分为抛物线相关、指数曲线相关、双曲线相关……等多种形态。其中,线性相关是最基本的。
散点图
判断相关关系紧密程度的一般标准如下:︱r︱< 0.3时,没有相关关系 0.3≤︱r︱<0.5时,低度相关 0.5≤︱r︱<0.8时,显著相关或中度相关︱r︱≥0.8时,高度相关
相关系数是对两个随机配对的变量之间关系的量度,用以度量两个随机变量X和Y之间的相关程度
不足:不能准确地反映变量间关系的密切程度
相关系数的双尾检验
当相关系数偏大或偏小时,均不需要检验,只有当其接近0.5左右时,需要检验其是否本来不相关,而是由于抽样误差等原因造成了相关系数比实际偏高的情况。在相关系数的检验中,检验统计量为t。零假设(H0)为:相关系数等于零。
主要的相关系数
皮尔逊(Pearson)简单相关系数
用于scale测度水平的变量连续、可测量
皮尔逊相关的约束条件: 1 两个变量间有线性关系 2 变量是连续变量 3 变量均符合正态分布,且二元分布也符合正态分布 4 两变量独立
斯皮尔曼(Spearman)等级相关 系数和肯德尔(Kendall τ)秩相关 系数
用于Ordinal测度水平的变量等级
偏相关(Partial Correlations)系数
描述的是当控制了一个或几个附加变量的影响时,两个变量的相关性。多个变量时
偏相关分析对于辨别变量间的虚假相关有极为重要的作用
5.1.1 内容分析法
1、内容分析法简介
最大的特点
定量与定性相结合
局限
首先,对分析对象的要求比较严格,需要一定数量、相同类型的文献,以保证能够抽出具有单义特征、达到足够统计量的分析单元作为内容分析的对象;其次,存在分析深度和工作量的“两难”处境。
定义
一种对具有明确特性的传播内容进行的客观、系统和定量的描述的研究技术。
2、内容分析法的形成与发展
3、内容分析法的理论基础
逻辑推理
趋势推理
共变推理
因果推理
比较方法
不同内容群比较
内容内比较
有标准的内容比较
趋势比较
4、内容分析法的一般步骤
(1)提出研究问题或假设
将研究目标加以清楚明白的陈述;研究工作要以研究主题为指导。
(2)确定研究范围
就是要详细说明所分析内容的界限,对研究对象给出明确的操作性定义。操作性定义必须包括两个方面:指定主题领域与确定时间段。
(3)抽样
第一阶段,对内容的原始资料进行抽样;第二阶段,选择分析样本迄止时间;第三阶段,选择内容。
(4)选择分析单元
分析单元是指实际计算的对象,为内容分析中最重要、同时也是最小的元素。分析单元的选定主要取决于为了实现研究目标需要哪些信息。
(5)建立分析的类目
内容分析的核心问题在于建立媒体内容的类目体系。
(6)建立量化系统
数据的测度水平可划分为定类(名目尺度)、定序、定距(等距尺度)、定比(等比尺度)四种。
(7)进行内容编码
将分析单元置于内容类目称作编码
(8)分析数据资料
这一阶段的工作包括三个部分:① 描述统计结果;② 推断统计分析; ③ 相关分析和因果分析。
(9)解释结论
(10)信度和效度检验
信度是对文献编码一致性、分类准确性和方法稳定性的检验。测量和程序必须具有信度,即多次测量同样的原材料而能得到类似的结论。
效度是指结论与事实的相符程度,以及与理论研究结果的适用性。效度分析,主要考察调查结果与设计的调查目标是否接近及其程度。
编码者信度分析的基本过程
①对评判者进行培训
②由两个或两个以上的评判者,按照相同的分析维度,对同一材料独立进行评判分析
③对他们各自的评判结果使用信度公式进行信度系数计算
④根据评判与计算结果修订分析维度(即评判系统)或对评判者进行培训
⑤重复评判过程,直到取得可接受的信度为止
编码者信度的另一种计算方式
5、内容分析法的主要类型
(1)贾尼斯的分类
符号媒介分析
实用内容分析
语义内容分析
(2)按内容分析采用的分析单元来区分
① 词频分析
主题词词频分析
指示词词频分析
② 篇幅分析
6、内容分析的相关软件
7、内容分析法的应用
总结某个主题的研究概况
研究特定人群的观点
研究信息本身的含义和对受众的效果
获取事实性的数据
8、内容分析法的应用实例
5.1.2 引文分析法
1、引文分析的相关概念
参考文献或被引用书目被称为被引用文献(cited paper)引用了参考文献的那篇文献则称为引用文献(citing paper)。
名词解释
所谓引文分析就是用数学和逻辑学方法对期刊、论文、专著等研究对象的引用和被引用现象和规律进行分析,以揭示它们所蕴含的研究对象所具有的特征或对象之间关系的一种方法。
2、引文分析的基本假设
假设之一,文献间形式上存在的联系表明,文献间在内容上必然存在某种联系
假设之二,若引用形式一样,则文献间内容联系的程度一样,对于每种内容间的联系均可定义相应的计量单位
假设之三,上述联系均具有简单的可加性
3、引文的引证结构
① 引文链
引文链是由引用关系形成的文献之间的一种链状关系
② 引文网络
文献群体及由其相互引用关系形成的结构称为引文网络
4、引文分析的测度指标
计算题
① 引文率
是衡量研究对象吸收情报能力的一个相对指标,根据研究对象不同可分为期刊引文率、著者引文率、学科引文率、机构引文率、国家引文率等。
例如:期刊引文率=该刊中参考文献总数 ∕ 期刊载文量即每篇论文平均占有的参考文献数
② 影响因子
某期刊,第k年的影响因子=在第k年对该期刊在第k-1年和第k-2年发表文献的引用数量 ∕ 该期刊第k-1年和第k-2年发表的文献数量
③ 自引率
就是对主体本身范围内文献引用的次数与主体引用的文献总数的比值。 =主体的自引次数∕主体引用的文献总数
④ 即时指标
是测度期刊被引用速度的指标。 =该年度对该刊当年发表文献的引用次数 ∕ 当年该刊发表的文献总数
⑤ 耦合强度
当两篇文章同时引用一篇或多篇相同的文献时,这种现象称为引文耦合,这两篇文献就具有耦合关系。引文耦合的文献之间总存在着这样或那样的联系,其联系的程度(共同引用的文献数)称为耦合强度。
⑥ 共引文强度
当两篇(或多篇)论文同时被别的论文引用时,则称这两篇论文具有“共引文”关系,引用它们的论文的多少,称为共引文强度。
5、引文分析的主要类型
(1)将引文款目作为独立计量单位
引文量的分析、引文量按被引作者的分布、引文量按文献类型的分布、引文量按语种的分布、引文量按时间的分布以及文献自引(self-citation)分析
(2)将款目间的联系作为计量单位
引文耦合与共引文分析
文献的聚类分析
是指以耦合强度或共引文强度等为基本的计量单位,对一定的引用文献集合或被引文献集合中学科或专业内容上所存在的或疏或密的联系进行分类的定量研究方法。
6、引文分析的工具
引文分析的工具主要有《科学引文索引》SCI、《社会科学引文索引》SSCI、《艺术与人文科学引文索引》A&HCI、《工程索引》EI、《期刊引证报告》JCR等。对于中文文献,还可以考虑使用《中国科学引文索引》CSCI和《中国社会科学引文索引》CSSCI。
7、引文分析的局限
对文献的引用动机呈现多样性,使得引用文献与被引文献之间的联系变得十分复杂。
为了方便量化研究,引文分析对参考文献不加区别的等价看待,从而忽略了文献之间重要性的不同。
引文数据本身的准确性也往往难以保证。
8、引文分析方法的应用
简答题
研究文献结构和科学结构
研究文献的动态规律和用户行为特征和需求特点
研究科学发展史
评价人才、机构和成果
测定某一学科的影响和某一国家某些学科的重要性
研究学科信息源分布、评价和选择期刊和文献等
确定科研资助政策和重点研究领域等
尤其在学科进展、动向与趋势的分析预测方面,引文分析法以其独特的分析途径,能够较客观而深入地揭示出科学活动中的多种相关关系和结构关系。
5.1.3 因子分析
引入
因子分析的核心思想是用较少的互相独立的因子反映原有变量的绝大部分信息
因子既能包含原来众多变量代表的信息,又能解释这些变量相互依存关系。
1、因子分析的数理统计背景
因子分析是一种主要用于数据化简和降维的多元统计分析方法。
式中A称为因子载荷矩阵,其元素(即各方程的系数)aij表示第i个变量xi在第j个公共因子Fj上的负荷,简称因子载荷(aij的绝对值越大,表明xi与Fj的相依程度越大)。
几个相关概念
因子载荷
在因子不相关的前提下,因子载荷aij是变量xi与因子Fj的相关系数,其绝对值的大小直接反映因子Fj对解释变量xi的重要程度。
变量共同度
变量xi的共同度是因子载荷矩阵第i行元素的平方和,刻画了全体因子对变量xi的信息解释的程度,是衡量因子分析效果的重要依据。
因子的方差贡献
因子Fj的方差贡献是因子载荷矩阵第j列元素的平方和,反映了因子Fj对原有变量的解释能力。该值越高,说明相应因子的重要性越高。因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。
2、因子分析的过程
① 问题的定义
变量必须达到/符合等距尺度或者等比尺度
样本容量至少为因子分析所涉及变量数目的4~5倍
② 计算并检验协方差(相关)矩阵
相关系数矩阵
巴特利特球度检验
H0:相关系数矩阵是单位阵
对应的概率p值小于给定的显著性水平α,则应拒绝H0,认为相关系数矩阵不太可能是单位阵,原有变量适合作因子分析
KMO测度
KMO测度值>0.5意味着因子分析可以进行,而在0.7以上则是令人满意的值。
③ 选择因子分析的方法
主成分分析法
④ 确定因子数目
根据特征根,结合因子碎石图确定。
特征值λ
一般选取特征值大于1的特征根
根据因子的累计方差贡献率确定
所保留因子的累积方差贡献率在85%以上是令人满意的,但至少不能低于60%。
⑤ 因子旋转
目的是使某些变量在某个因子上的载荷较高,而在其他因子上的载荷则显著得低。因子旋转实质上是利用因子对变量进行更好的“聚类”,进而提高因子的可解释性。
因子旋转并不影响变量xi的共同度,却会改变因子的方差贡献率,从而使因子更容易理解,更容易命名。
因子旋转方式有两种:正交旋转和斜交旋转。最常用的是正交旋转方式中的方差最大法(Varimax)。
⑥ 因子解释
即使经过旋转后,仍有可能存在一个因子的所有因子载荷均较高的情形,这种因子通常可以称之为一般或者基础性因子
⑦ 计算因子得分
因子得分是因子分析的最终体现。注意:wj1,wj2,...,wjp为第j个因子在第1,2,...,p个变量处的因子得分系数。注意,它并不等于因子载荷aij。
⑧ 模型的适合度
因子分析的最后,应该对构建的模型是否适合问题本身有一个认识,这就涉及到模型的适合度的判断。这种判断常常基于残差矩阵(特殊因子矩阵)而进行。
如果残差矩阵中的值都比较大,那么我们有理由认为模型并不是很适合;反之如果残差矩阵接近于零矩阵,那么显然公因子可以很好的解释变量的方差,模型是合适的。
因子分析法的实例
1.考察原有变量是否适合进行因子分析
2.提取因子
因子解释原有变量总方差的情况
因子的碎石图
因子载荷矩阵
3.因子的命名解释
旋转后的因子载荷矩阵
因子协方差矩阵
旋转后的因子载荷散点图
4.计算因子得分
5.综合评价
5.1.4 聚类分析
1、聚类分析的概念
聚类分析是(cluster analysis)是根据事物本身的特性建立个体分类的多元统计分析方法。它能够将一批样本(或变量)的数据根据其诸多特征,按照在性质上的亲疏程度,在没有先验知识(没有事先指定分类标准)的情况下进行自动分类,产生多个分类结果。
2、聚类分析的几点说明
所选变量应符合聚类的要求
各变量的变量值不应有数量级上的差异
统一计量单位
各变量间不应有较强的线性相关关系
3、聚类分析的类型
R型聚类分析是对变量进行分类处理
Q型聚类分析是对样本进行分类处理
4、聚类分析尚未完全解决的问题
(1)尝试+自圆其说
① 一个大致的判断标准② 看哪种方法最后得出的结论能让你满意
(2)Demirmen准则
根据树状结构图来分类
(3)two-step cluster的BIC值
BIC值(Bayes信息规则):BIC值最小,同时相邻两步的最小类间距离比最大的步骤对应的分类数目为可能的最佳分类数。
(4)利用方差分析
伪F统计量较大而类数较小的聚类水平。 用伪t2统计量评价合并两个类的效果,该值大说明不应合并这两个类,所以应该取合并前的水平。
(5)利用碎石图
与因子分析中的碎石图不同
聚类:横轴为各类的距离(从凝聚状态表中获得),纵轴为类的数目。
因子分析:横轴为因子编号,纵轴为特征值(表示了各因子的贡献度)。
类间距离小形成类的相似性大,类间距离大形成类的相似性小
聚类分析实例
凝聚状态表
谱系图、树形图
冰挂图
注
个体:平方欧氏距离
类间距:组间平均锁链距离
因子分析和聚类分析 实例二
5.2 预测分析方法
5.2.1 德尔菲法
1、德尔菲法的含义和由来
德尔菲法的含义是通过卓越人物来洞察和预见未来。该方法广泛应用于科技预测、政策制定、经营预测、方案评估等方面。 专家预测法(以德尔菲法为主)的使用率占被使用预测方法的近四分之一。
2、德尔菲法的特点和用途
主要特点
匿名性
反馈性
统计性
用途:特别适用于两类课题
① 对于缺乏足够原始数据的军事和技术领域的预测,以及需要根据众多因素的影响才能作出评价的军事和技术领域的预测
② 对于那些社会、经济、科学技术的发展在很大程度上取决于政策和人为的努力,而不是主要取决于该领域本身的预测。
德尔菲法主要有以下五方面用途
对达到某一目标的条件、途径、手段及它们的相对重要程度作出估计
对未来事件实现的时间进行概率估计
对某一方案(技术、产品等)在总体方案(技术、产品等)中所占的最佳比重作出概率估计
对研究对象的动向和在未来某个时间所能达到的状况、性能等作出估计
对方案、技术、产品等作出评价,或对若干备选方案、技术、产品评价出相对名次,选出最优者
3、德尔菲法的步骤与关键问题
步骤
经典德尔菲法实施的程序
实施德尔菲法的两个关键问题
专家的选择
调查表的设计
几种常用的调查表
① 目标-途径调查表
② 事件实现时间调查表
③ 要求对问题做出一定说明的调查表
④ 技术(方案、产品)评价调查表
4、结果的数据处理和表达
(1)对相对重要性指标的评价(数据处理和表达)
采用专家意见的集中程度和协调程度等指标来衡量
① 集中程度的表示方法
评分算术平均值
对象的满分频度
对某对象满分的专家数 与 对该对象作出评价的专家总数 之比
对象的评价等级(名次)和
式中:Sj ——对象j的评价等级和; Rij ——就专家i给对象j的评分Cij在给全部评价 对象的评分(Ci1,Ci2,…,Cij,…,Cin)中 排出的等级(名次); mj ——给对象j作出评价的专家总数。 评价等级和越小的对象,相对重要性越大(越优)
② 协调程度可以用变异系数来表示
变异系数反映的是专家对对象相对重要性评价的协调程度,亦即专家评价的一致程度。
变异系数<0.25,可称一致性较好 式中:Vj ——是全部专家对j对象评价的变异系数; σj ——是全部专家对j对象评价的标准差,代 表了专家评价的变异程度; Mj ——全部专家对j对象评分的算术平均值。
式中:Dj—全部专家对j对象评价的方差,它代表了专家评价的离散程度; Cij—i专家对j对象的评分; Mj—全部专家对j对象评分的算术平均值; mj—参加对j对象评价的专家总数。 可见,变异系数Vj是全部专家对j对象评价的标准差与算术平均值之比,Vj值越小,说明专家意见的协调程度越高,即一致性越好。
⑵ 对事件实现时间预测(结果的处理与表达)
般以中位数代表专家意见的协调程度,以上下四分点代表专家意见的分散程度。
杨奇公式
若K表示(中位数时间)与(进行预测的时间)间距,则下四分点位于2K/3处,上四分点位于5K/3处
(3) 从若干方案中选择最佳方案(评价结果的数据处理和表达)
从考虑专家和不考虑专家里面选
5、实施德尔菲法,如何衡量结果的可信程度
(1)专家意见的集中程度和协调程度
(2)专家意见的权威程度
专家权重P的相关因素
专家发表意见时的判断依据
专家对所回答问题的熟悉程度
(3)专家参与调查的程度
用参与的专家人数、应答率和积极系数三个指标明
6、德尔菲法的局限性及改进
局限性:缺乏严格的论证、缺乏一致的评估尺度、专家知识的局限。
措施
5.2.2 回归分析法
回归分析法概述
回归分析法主要解决以下两个问题
确定几个变量之间是否存在相关关系,如果存在,找出它们之间适当的数学表达式
根据一个或几个变量的值,预测或控制另一个或几个变量的值,且要估计这种控制或预测可以达到何种精确度
回归分析法类型
线性回归
非线性回归
简单线性回归
概述
回归分析是通过其他变量来预测某一变量的值
进行回归分析首先需要建立数学方程式,描述要被预测的变量,即因变量和自变量之间的关系
然后评价和检验回归模型是否与实际数据一致
只有我们对模型的效果感到满意,才能用它来进行评估和预测
模型
确定性模型
一阶线性回归模型
误差变量ε的必要条件
确定回归系数(参数估计)
可以采用最小二乘法:在各点处的偏差的平方和达到最小
一个因变量y的某次观测值与这个因变量的平均值的差称为变差,各次观测值变差的平方和称为y的总变差平方和,记为:
即:Syy=Q+U
总的偏离=未解释的偏离+回归已代表的偏离
Q—y的剩余(变差)平方和,或误差平方和
U—y的回归(变差)平方和
模型评估(拟合优度检验)
一元线性回归方程的拟合优度检验采用R²统计量(判定系数)
R²衡量了y的差异中能够被x的差异解释的部分在总差异中所占的比例
R²的值越大,模型拟和数据的效果就越好。R²等于自变量x和因变量y的简单相关系数r的平方
回归诊断
误差变量ε的必要条件
ε的概率分布为正态分布(残差分布直方图)
分布的均值为0(同上)
ε的标准差是不依赖于x的一个常数(残差与 的 散点图)
与任意特定的y值相对应的ε值和与其他y值相对应的ε值相互独立(残差与时间的关系图)
回归方程的应用(预测及其置信区间)
点预测
特定y值的预测区间
非线性回归分析法(本质线性关系)
对于某些曲线y=f(x),可以通过变换变量的方法将其转换成直线方程。可以应用线性回归法来求解问题。
回归分析的步骤
确定回归方程的自变量和因变量
确定回归模型
通过观察散点图确定应通过哪种数学模型来概括回归线
建立回归方程
在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程
对回归方程进行各种检验
检验回归方程是否真实地反映了事物总体间的统计关系及回归方程能否用于预测等
一元
R²
多元
t检验、F检验
利用回归方程进行预测
根据回归方程对事物的未来发展趋势进行预测
回归分析在SPSS中的实现
回归方程的统计检验
回归方程的拟合优度检验
检验样本数据点聚集在回归线周围的密集程度,从而评价回归方程对样本数据的代表程度
对于一元线性回归方程的拟合优度检验采用R²
对于多元线性回归方程的拟合优度检验采用调整的R²能更准确地反映回归方程对样本数据的拟合程度
回归方程的显著性检验(F检验)
检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当
一元线性回归方程显著性检验的H0:回归系数与0无显著差异
多元线性回归方程显著性检验的H0:各个偏回归系数与0同时无显著差异
回归系数的显著性检验(t检验)
研究回归方程中每个解释变量与被解释变量之间是否存在显著的线性关系,也就是研究解释变量能否有效地解释被解释变量的线性变化,它们能否保留在线性回归方程中。
一元线性回归方程的回归系数显著性检验的H0:回归系数与0无显著差异
多元线性回归方程显著性检验的H0:第i个偏回归系数与0无显著差异
关于回归分析的统计检验有三点补充说明
回归方程的拟合优度(1)越高,则回归方程的显著性检验(2)也会越显著。反之亦然
在一元线性回归分析中,回归方程的显著性检验(2)和回归系数的显著性检验(3)的H0相同,用于计算概率p值的统计量不同,但作用是相同的,二者可以相互替代。并且(2)中F统计量的值恰好等于(3)中t统计量的值的平方
在多元线性回归分析中,要注意区分(2)与(3)的含义、H0、统计量。
多重共线性
当回归模型中使用两个或两个以上的自变量时,这些自变量往往会提供多余的信息,且这些变量之间彼此相关
检测方法
计算模型中各对自变量间的相关系数,并对各相关系数进行显著性检验
如果有一个或多个相关系数是显著的,就表示模型中所使用的自变量之间相关,因而存在多重共线性问题
多重共线性产生的问题
变量之间高度相关时,可能会对回归的结果造成混乱,甚至会把分析引入歧途
多重共线性可能对参数估计值的正负号产生影响,特别是β1的正负号可能同预期的正负号相反
下列情况暗示存在多重共线性
模型中各对自变量间显著相关
当模型的线性关系检验(F检验)当前H0:β1=β2=β3=...=βk=0显著(能够拒绝H0)时,几乎所有回归系数βi的t检验却不显著(不能拒绝H0)
回归系数的正负号与预期的相反
解决共线性的措施
将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关
检验共线性指标
容忍度(Tolerance)
若某自变量容忍度小于0.1,则存在共线性问题
方差膨胀率(VIF)
容忍度的倒数,越大则共线性问题越严重
如果VIF(容差和因子)全部小于10,则说明模型没有多重共线性问题,模型构建良好
特征根(Eigenvalues)
若多个维度的特征根等于0,则可能存在共线性问题
条件指数(Condition Index)
若某个维度的条件指数大于30,则可能存在共线性问题
多元线性回归实例
回归方程的拟合优度检验
本例中应参考调整的判定系数,0.924较接近1,因此认为拟合优度较高,被解释变量可以被模型解释的部分较多,未能被解释的部分较少。
回归方程的显著性检验
如果显著性水平α为0.05,由于概率p值小于显著性水平α,应拒绝回归方程显著性检验的H0,认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系是显著的,可以建立线性模型。
回归系数的显著性检验
依据该表可进行回归系数的显著性检验,写出回归方程和检测多重共线性。如果显著性水平α为0.05,除投入人年数以外,其他变量的回归系数显著性t检验的概率p值都大于显著性水平α,因此不应拒绝H0,认为这些偏回归系数与0无显著差异,它们与被解释变量的线性关系是不显著的,不应该保留在回归方程中。
将解释变量的筛选策略改为backward
回归分析结果: 立项课题数=-94.524+0.492*投入人年数意味着投入人年数每增加一个单位,会使立项课题数平均增加0.492个单位。
曲线估计
在SPSS中采用多种模型进行曲线估计的结果中,应以判定系数为主要依据选择最优模型
常见的曲线估计模型
注意这里Logistic与后面的不太相同,应用使用后面的
5.2.3 时间序列分析
对事物本身随时间变化规律的研究
倾向变动分析预测的方法体系
概述
时间序列数据的概念
按照一定的先后顺序(例如时间,或其他具有各种不同意义的单调递增的量,如温度或速度)建立起来的同一变量的一组数列或一组观察数据就是时间序列数据。
时间序列数据的特点
时间序列分析的目标
对时间序列数据进行分析,发现其中蕴含的规律,从而预测出未来的时间序列变量值
大多数公司可以很好地预测公司所有产品的总体需求量,且误差不超过5%,但是针对单个产品的预测,误差会较大。
时间序列分析的假设基础
待预测变量的历史信息可获得并可量化
惯性原则。假设过去的模式将持续到未来
近大远小原则。假设离预测时间越近的数据影响力越大
时间序列的组成因素
一个时间序列中的数据模式或者数据行为有几个组成因素。通常假设有4个独立的因素共同提供时间序列的确切值
长期趋势运动(趋势线或趋势曲线)
循环运动(周期1年以上,由非季节因素引起的波动)
季节运动(周期1年或更短,由季节性因素(如自然、生产、消费等)引起的波动)
随机波动(通常认为其近似服从正态分布)
具有上升趋势的非平稳序列
具有异方差性的非平稳序列
具有波动性的非平稳序列
具有周期性的非平稳序列
现实课题中的时间序列的非平稳性往往是多种非平稳性特征的组合
存在异常值的序列
有“簇集性”特征的序列:在一段时间内具有相似的水平,在不同的水平间呈跳跃性变化
倾向线的拟合(趋势外推法和简单回归分析法)
趋势外推法
以时间为基本参数,通过归纳分析过去和现在的数据去推断未来的发展趋势或预测将来可能出现的事件。
趋势外推法的基本前提或基本假设
未来必定是过去和现在的延续,即认为:①影响和决定事物过去和现在的发展因素,在未来也基本保持不变;②事物的发展属于渐进变化,而不是结构性的突变。
为避免预测精度和可靠性的下降,应用趋势外推法预测时,超前时间应与可靠的原始数据覆盖时间大体相等(或小于数据覆盖时间跨度的1/3)
举例
非线性回归
LOGISTIC
GOMPERTZ
趋势外推模型
趋势外推法只考虑序列长期发展趋势,对于本例这种波动性较大的数据拟合效果较差(R2=0.746)
Y=800545.3+47047.970t
简单回归模型
y=914326.8+6.052*x
标准化回归系数来比较不同自变量对因变量的作用大小
未标准化回归系数用于构建回归方程
例2 倾向线的拟合
小结
简单回归分析法通常用于序列间关系和结构的分析
趋势外推法主要用于长期的预测分析
二者实质上都是利用回归分析的原理,在参数估计方法上也没有什么区别
平滑方法(倾向线的逐步修正)
减少随机波动(消除不规则因素引起的波动)的最简单的方法之一就是平滑法
移动平均法 (M方法)
一次移平值
——第t时期及其以前(n-1)个时期的数据的移动平均值(移平值)
t——时期序号
yt——第t时期变量的数值
n——每段跨越的时期个数,即所包含的数据个数(移平跨度)
合理的选择移平跨度n是用好移动平均法的关键
移平跨度n值的确定
在M方法中,n值是关键参数。n值的大小产生两个影响
n值越大,对波动的“修匀”程度越好,但对变化反映的灵敏度降低,对趋势反应越滞后
n值越小,对波动的“修匀”程度越差,但对变化反映的灵敏度提高,对趋势反应越提前
选择n值可参照以下情况
对脉冲式波动,由于偏离较远的点是偶然性因素造成的,应给予较少的考虑,所以n值宜取大
对阶梯式波动,区间内部较平稳,如果n取大,对事物发展起很大作用的大跳跃就不能很好地反映,所以n值宜取小
移平值起点M1位置的确定
中位:M1与yt数列前n个点的中间对齐
尾位:M1与yn对齐
尾位往后一位:M1与yn+1对齐
简易预测
这个值是否可信,就要看Mt的波动程度
若波动大则不可信,若波动平稳则为可信预测值
“一次移平值+尾位加1对齐方式”
简易预测: Y13=(20+15+22)/3=19
预测精度: 均方误差(MSE)=92/9=10.22
利用一次移平值的趋势外推
二次移平及线性平滑时间关系模型
把Mt作为(t+1)时刻的预测值
二次移平值
——第t时期的二次移平值
——第t时期的一次移平值
线性平滑时间关系模型
t——时期的序号
l——由当前时期t到需要预测的时期之间的时期个数
yt+l——第(t+l)时期的预测值
bt——斜率,即单位时期的变化量
at——截距,即当前时期t的数据水平,at=yt
平滑系数at、bt的计算公式
采用M方法进行预测时的注意事项
时间序列数据的倾向线为线性趋势时,才能用二次移动平均进行预测
预测模型,只有当l>0时才有意义,其预测发展线也只有在第t时期及其以后才存在
M方法的优缺点及适用范围
优点
计算简单、直观性强、容易掌握
缺点
① 基于M方法的预测模型(及其平滑系数的计算)是经验性的,不如理论性模型可靠
② M方法对不同时期的数据赋以相同的权重,忽视了不同时期的信息对预测值影响的强弱差异
指数平滑法(S方法)
S方法的思路
M方法每个数据权重相等,事实上这是不合理的
S方法采用重近轻远的原则对不同时期的数据赋予不同的权重
平滑值(加权平均值)为
一次指数平滑值
——第t时期的一次指数平滑值
yt——第t时期研究对象的数值
α——加权系数,且
用S方法所得的新估计值等于新数据与原估计值的加权之和,即:(新估计值)=α(新数据)+(1-α)(原估计值)=(原估计值)+ α(新数据-原估计值)
二次指数平滑值
三次指数平滑值
采用S方法进行预测时的注意事项
时间序列数据的倾向线
线性趋势
二次指数平滑法(也称为线性指数平滑法)
非线性趋势
三次指数平滑法(也称非线性指数平滑法)
5.3 评估分析法
评估
评估的广义性
评估是各种领域里的一项最基本的活动之一,也往往是信息分析许多课题研究中的中心内容和主要工作。同时,各种类型的决策的前提是进行评估,因此,可以说评估是非常广义的。
五种代表性的评估
项目(方案)评估
能力(功效)评估
技术(环境)评估
成果(效益)评估
优先(优选)评估
评估的基本特点
相对性、模糊性、非直观性、靠近决策、受到人的主观因素和价值观念的潜在影响。
对评估方法的要求
应具有客观性、通用性
在方法上追求评估的综合性
能够将定性的事物或模糊的抽象的概念转换成半定量的、可测度的量化表达形式
5.3.1 综合评估法
“综合”有两方面的含义,一是指对一组单个的评估因素进行综合,二是指对不同的人的评估进行综合。
对单个因素进行评估之后,如何用某种形式进行综合,而得出整体评估结果呢?采用的形式通常有三:加法、乘法、加乘法
相加评分法
把单因素的效用值测度出来之后进行相加而得出总的评估结果
相乘评分法
将单因素的效用值进行相乘运算而得出综合评估结果
加权和法
在综合评估中,引入权重
权重的确定方法
权重概念的本质是反映人进行判断时的价值观念和价值取向
方法
直接经验法、专家咨询法、排序法、环比法、优序图法、逐步调整法和层次分析法(AHP法)
排序法
根据对各因素的定性比较判断,先确定其相对重要性的排序,令最不重要的因素的权重为1,其他因素的权重逐步增加1,然后再将序数转换成权重分配。
该方法只能反映出因素之间重要性的差异,而不能反映出这种差异的大小或程度
环比法
定义
首先,把各因素任意排成某一顺序列,比较相邻的两个因素之间的重要程度,得出其重要性的对比比率,即环比比率
其次,将序列中的最末一个因素定为一个基准数,把环比比率转换成这一基准数上的定基比率,定基比率实际上就是权重分配
最后,进行归一化处理,归一化后得到的结果即为所要的权重
优缺点
优点:简单易行,比排序法更合理,精度也较高
缺点:因素未充分进行比较,当按不同顺序排序时,计算出的权重值可能不同
优序图法
对所有因素进行全部组合的成对比较,并且用方格图为工具
简单优序图法
每一方格内是两两相比的结果。若前者比后者重要则填“1”,否则填“0”
由于在合计值中,因素D为0,为了在最后的加权值中保留因素D,要对合计值进行调整,在各项都加1;再进行归一化处理
加权优序图
将0和1的选择改为0~5的选择
逐步调整法(以四个因素为例)
将四个因素进行定性对比,粗略判断每个因素的重要性程度,根据重要性程度的顺序假定一组对应的权重值。
进行组合因素和单个因素的重要性相对比较。根据某几个因素组合以后与另外一个因素的比较结果来调整上述假定的权重。
进行多次的组合和比较,不断调整权重值,得到逐步修正以后的一组权重值。进行归一化处理,得出最后确定的权重值。
例:Jason选工作(加权和法、计分模型)
可利用计分模型分析多准则决策问题,做出最佳决策。
S1:列出需要考虑的标准(因素/评价项目)
S2:给每个标准赋予权重,表示标准的相对重要性
S3:对每个方案在各个标准上打分,即各方案满足各标准的程度
S4:计算每个决策方案的分值
表:三个决策方案的得分
优点
它采用的主观权重值最能够反映决策者的个人喜好
注意
在其他应用中,标准的权重值可能是一个对应每个标准重要性的百分比。
此外,多准则决策问题涉及到子标准,使得决策者能够将更多细节结合到决策过程中去。
5.3.1 模糊综合评价法
背景
某科研单位共收到下级申报的科研课题A1、A2、A3、A4、A5共5项,但由于经费有限,不可能全部同意,因而需要对这5项课题进行综合排序。为此邀请9名专家对此进行评议
步骤
确定评价项目为5项,确定其权重分别为:0.15、0.20、0.10、0.25、0.30
确定评价等级共分5级,其价值量分别为:0.9、0.7、0.5、0.3、0.1
9位专家首先对课题A1进行评议
据此可以建立模糊评判矩阵
课题A1的模糊评价结果
B=AR=(0.15 0.20 0.10 0.25 0.30)
=(0.244 0.538 0.207 0.012 0.000)
课题A1的综合评价结果
Q1=B·C
各等级的隶属度加权和(综合隶属度向量,作为新的关于等级的权重)与对应的等级价值量加权求和
5.3.2 层次分析法
层次分析法是将决策问题有关的元素分解成目标、准则、方案等层次,在此基础上对人的主观判断作定量描述的一种分析方法。
概述
AHP法的基本思路
首先找出解决问题涉及的主要因素,按其关联、隶属关系构成递阶层次模型,通过对各层次中各因素的两两比较的方式确定诸因素的相对重要性,然后进行综合判断,确定评价对象相对重要性的总排序
分解
将复杂系统分解成有序的递阶层次结构模型
判断
因素相对重要性的两两比较,建立判断矩阵
综合
单层排序和总排序
AHP的基本步骤
① 将问题概念化,找出研究对象所涉及的主要因素
② 分析各因素的关联、隶属关系,构造递阶层次结构
③ 对同一层次的各因素关于上一层次中某一准则的重要性进行两两比较,构造判断矩阵
④ 由判断矩阵计算被比较因素对上一层次该准则的相对权重,并进行一致性检验
⑤ 计算各层次因素相对于最高层次,即系统目标的合成权重,进行层次总排序,并进行一致性检验
优点
当一个决策者的独特的主观判断构成决策过程的重要部分时,它依然有效。
基本原理与计算方法
建立递阶层次模型
层次间自上而下的逐层支配关系
大致可分为三层:目标层、准则层和方案层,分别对应于最高层、中间层和最低层
构造判断矩阵
在构建出递阶层次结构之后,再按照某一准则,对同一层次的元素相对于上一层次的某个元素进行两两比较,按标度构造出判断矩阵
表:Saaty标度(1~9)
单一准则下的排序
判断矩阵建立之后,可以求得在该准则下,各元素相对重要性的排序(例如和积法、特征根法)
一致性检验
测度某判断矩阵中两两比较的一致程度、前后判断的一致程度
判断矩阵的一致性指标CI,其值越小,矩阵的一致性程度越好
对于不同阶数的判断矩阵,为达到满意,一致性的CI临界值应该不同。需要对CI临界值根据判断矩阵的不同阶数进行修正
平均随机一致性指标RI修正CI的方法
判断矩阵的一致性指标CI与同阶平均随机一致性指标RI之比,称为随机一致性比率,记为CR
Saaty认为,当CR≤0.1时,可认为判断矩阵具有满意的一致性,但对高阶矩阵不易通过
因此,统计学家直接求得各阶矩阵临界CI值,检验时只要将计算得出的CI值与表中的CI临界值作比较,当CI值小于同阶CI临界值时,即通过一致性检验
层次总排序
根据递阶层次结构从最高层次(目标层)开始自上而下逐层进行合成排序,直至最低层次(方案层)
对于层次总排序也需进行一致性检验。这一步骤也是从上到下逐层进行的
例:Jason的选车问题(应用AHP法)
S1:构建层次
整体目标:选出最好的车
标准:价格、MPG、舒适、样式
决策方案:雅阁、土星、雪佛兰
S2:两两比较(AHP的基石)
S3:综合处理
① 列求和
② 标准两两比较矩阵(归一化处理)
③ 行求算数平均数
S4:计算随机一致性比率
将两两比较矩阵中的第i列的每一项乘以第i条标准的优先级,得到一个“加权值”向量
将(1)中得到的加权值向量除以对应标准的优先级
价格: 1.687/0.398=4.236MPG: 0.347/0.085=4.077舒适性:0.907/0.218=4.163样式: 1.274/0.299=4.264
计算由(2)得到值的平均数,此平均数可用λmax表示
λmax =(4.236+4.077+4.163+4.264)/4=4.185
计算一致性比率(CI)
CI=(λmax-n)/(n-1) ,其中n为比较项的个数
CI=(4.185-4)/(4-1)=0.0616
计算随机一致性比率(CR)
CR=CI/RI (一致性指标/平均随机一致性指标)
CR=0.0616/0.90=0.068
由于CR<0.10,可认为一致性是可接受的。这个两两比较的一致性程度达到要求
Jason在确定了4个标准的优先级后继续选车
各标准下偏好的两两比较矩阵
4个标准下每辆车的优先级
例:AHP法与模糊综合评价法的综合
期刊网站的评价指标体系
用AHP法与模糊综合评价法对期刊网站进行评价
期刊网站的综合评价方法应当包括三方面的内容
第一,综合评价指标体系及其评价标准的建立,这是整个评价工作的前提
第二,用定性或定量的方法确定各指标的具体权重
第三,各指标评价值的综合计算
1、指标权重体系
(1)层次分析法的标度及各层判断矩阵
采用Saaty标度,请了11名专家,对评价指标作了两两比较,最后综合专家的调查,确定各判断矩阵
一级指标的两两比较矩阵
各二级指标的两两比较矩阵
(2)系统评价模型各指标的权值
2、综合评价值的计算
(1)分方案汇总模糊综合评价结果
(2)分方案建立模糊评判矩阵R
(3)有了权重矩阵ω和若干个模糊评判矩阵R,就可以用模糊综合评价法计算,得到若干个方案的模糊评价结果(各等级隶属度的加权和)B1=ω*R = (b1 , b2 , ., b5 )
(4)计算各个方案的综合评价结果
各等级的隶属度加权和(作为新的关于等级的权重)与对应的等级价值量加权求和
小结
AHP法是一种很有价值的方法,可以从不同角度论述和归纳,诸如,AHP法是
一种专门的评估方法一种新的系统方法一种简单有效的多目标决策方法一种综合人的主观判断的客观方法一种分析复杂的定性问题的拟定量方法
重点
正确理解有关基本概念的含义
掌握AHP方法的实施和具体操作
熟练地进行单层次的全部计算
AHP的局限性
① 只能从已知方案和因素中选优,不能产生方案
② 人的主观判断对结果的影响较大
AHP法还在发展中,已有的主要发展包括
对更复杂的问题提出了反向层次分析法、模糊层次分析法、成本效益分析的层次分析法以及边际排序方法、动态排序方法等各种派生的层次分析法。
第四章 SPSS
SPSS应用示例
频数分析
常用统计量
集中趋势:均值、众数、算术和
离散程度:极差、方差、标准差
描述统计量过程
描述性统计量
均衡性分析
依据3σ准则(异常值通常为3个标准差之外的变量值)找出异常值。关于均衡性的判定:异常值的总比例大于0.3%。
数据探索
茎叶图
箱线图
在箱图中,凡是与四分位数值(图中方框上下界)的距离超过1.5倍四分位数间距(箱高)的都被定义为异常值。其中离方框上下界的距离超过1.5倍的为离群值;超过3倍的则为极值。
解读
多维交叉表分析
一般选择离散型变量或分类变量来形成交叉表。如果要使用连续型变量必须先对变量进行组距式分组。
交叉列联表卡方检验的H0是行列变量不相关。
若交叉列联表中有20%以上单元格中的期望频数小于5,则一般不适宜用卡方检验。
比率统计
两个具有Scale测度水平的变量之比的概述统计表,以反映两个变量数量上的对比关系和一致性。
①总体来说,比率的均值为……②……比率均值高于样本,……比率均值低于样本③……AAD(平均绝对离差)和COD(离散系数)高于样本整体水平,……低于④基于均值和中位数的变异系数为……,说明其比率的离散程度高⑤总结:……高于均值,……低于均值,……离散程度高(比率差异较大)
举例
总体来说,36个地区的财产保险保费收入占全部保费收入的比率的均值为0.422,即全国各地平均保费收入中的42.2%为财产保险收入,但直辖市的平均比例(34.9%)较低,自治区的平均比例(52.7%)高于全国平均水平。就AAD(平均绝对离差)和COD(离散系数)而言,全国总的情况为0.054和0.131,基于均值和中位数的变异系数分别为26.5%和27.1%。相比较,自治区的AAD和COD都远高于全国水平,即其比率的离散程度高,从变异系数上也同样可以证明这点。直辖市和省、市的比率离散程度大致相同。总之,在各自治区的保费收入中,财险收入所占比例较高(高于全国平均水平),但其发展水平差异较大(离散程度高于全国平均水平)。
第三章 信息分析建模及若干常用模型
3.1 模型的概念及相关问题
模型方法就是为揭示研究对象的形态、特征和本质,通过抽象化和理想化处理,构造其相似物的方法。
3.1.1 模型的概念
“模型”意为尺度、样本、标准。通常认为,如果把现实世界中的某些事物叫做一个现实原型,那么模型就是对这种现实原型的一种抽象或模拟
3.1.2 模型的分类
实体模型:实体模型是用实体代替原型。
抽象模型(符号模型):抽象模型是用语言、符号、图表、数学公式等去代替原型。
逻辑模型:用于模拟和表达对象之间的逻辑关系
类比模型:用于模拟和说明对象的结构关系、功能关系等
物理模型:是指利用物理概念和限制条件直接建立的电子系统模型
数学模型:数学模型简称MM,是用数字、字母(如拉丁字母、希腊字母)及其他符号来体现和描述现实原型的各种因素形式以及数量关系的一种数学结构。数学模型描述的是系统的行为和特征而不是系统的实际结构。
社会模型:近些年,数学模型也越来越多地用于社会科学,如经济管理模型、人口模型、政府绩效评价模型等
计算机模型:实体模型或抽象模型在计算机中以软件形式的实现,这就是我们通常所说的计算机模拟或仿真。
3.1.3 模型的基本组成
系统:描述的对象
目标:系统的目标
组分:构成系统的各组成成分或子系统
约束条件:系统所处的环境及约束条件
变量:表述各组分的量的变化,它分内部变量外部变量及状态变量
相关:表述不同变量之间的数量关系
3.1.4 模型的特点
客观性:在某种程度上反映系统的本质特性
抽象性:进行合理地抽象
简化性:以利于运用和调整及降低成本
通用性:尽量采用标准形式或准标准形式
适应性:建模条件发生变化时,不作修改或少作修改
3.2 建模的一般过程
3.2.1 建模的基本原则
3.2.2 建模的过程
1、模型准备
了解问题的实际背景,明确建模目的,搜集必需的各种信息,尽量弄清对象的特征。
明确问题
确定目标
2、模型假设
根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言做出假设。
3、模型构成
根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的工具,构造各个变量间的关系或结构。
4、模型求解
可采用定量或定性方法,对模型进行分析求解。
5、模型分析
能否对模型结果做出精确的分析,决定了模型能否达到更高的档次。
3.3 信息分析的典型模型(一)
3.3.1 宏观分析模型举例
PEST
宏观分析
四大类影响企业的主要外部环境因素:政治(Political)经济(Economic)社会(Social)技术(Technological)
(1)政治和法律影响因素
主要包括政治制度与体制,政局,政府的态度;政府制定的法律、法规等。
(2)经济影响
构成经济环境的关键战略要素:GDP、利率水平、财政货币政策、通货膨胀、失业率水平、居民可支配收入水平、汇率、能源供给成本、市场机制、市场需求等。①社会经济结构:行业结构、分配结构、交换结构、消费结构、技术结构等。②社会经济发展水平:宏观经济政策
(3)社会和文化影响
影响最大的是人口环境和文化背景。人口环境主要包括人口规模、年龄结构、人口分布、种族结构以及收入分布等因素。
(4)技术影响
显而易见而未可预料。技术影响可能是创造性,也可能是破坏性的。技术环境不仅包括发明,而且还包括与企业市场有关的新技术、新工艺、新材料的出现和发展趋势以及应用背景。
[总结与分析]
PEST 变形:例如SLEPT (加上法律)或STEEPLE :社会或人口统计、技术、经济、环境(自然)、政治、法律和道德因素。有时地理因素也许也是重大的。
3.3.2 行业分析模型举例
5力模型
对公司的竞争环境进行集中分析
5种竞争作用力
共同决定产业竞争的强度以及产业利润率
①现有竞争对手的竞争
一个企业的竞争行动对其竞争对手会产生显著影响。
②进入威胁
有一些公司从其他市场通过兼并扩张进入某产业,他们通常用自己的资源对该产业造成冲击。
潜在进入者的威胁在相当大程度上是取决于行业的进入壁垒
③替代威胁
替代品所提供的价格性能选择机会越有吸引力,该产业的利润“上盖”就压得越紧。
④买方侃价能力
买方压低价格、要求较高的产品质量或索取更多服务项目,并从竞争者对立状态中获利。
⑤供方侃价能力
供方压力可以迫使一个产业因无法使价格跟上成本的增长而失去利润。
[总结与分析]
无论是从现有的产业地位还是从进入威胁、替代威胁、买方侃价能力、供方侃价能力等角度,XX都己经建立起明显的竞争优势,形成了自己良好的企业核心能力。
SCP
SCP模型,即Structure市场结构、Conduct市场行为和Performance市场绩效相结合的研究模式,分析在行业或者企业受到冲击时,可能的战略调整及行为变化
内容
Structure市场结构
进入壁垒
规模经济
市场集中
Conduct市场行为
一体化行为
创新行为
定价行为
Performance市场绩效
利润
产品质量
分析
短期分析逻辑
市场结构决定市场(企业)行为,市场(企业)行为决定市场绩效。
从长期来看
市场结构、企业行为和经济绩效之间存在相互作用的复杂关系:已不再是单向作用的直线过程,而是建立起了相互联系的网状结构。
SCP构架的好处
不仅能够确定关键的分析因素,而且能够理解各因素之间的相互关系。
不仅能够透彻地分析现状,而且能够预测未来环境因素变化产生的影响。
[实例] 中国冰淇淋产业的SCP分析
一、对冰淇淋产业现状的SCP分析
二、我国冰淇淋产业的发展趋势
产品方面
企业方面
三、发展对策
企业角度
行业协会角度
政府角度
3.4 信息分析的典型模型(二)
3.4.1 微观分析模型举例
SWOT
企业外部环境和内部条件分析,从而寻找二者最佳可行战略组合
内容
Strengths代表企业的长处或优势
Weaknesses是企业的弱点或劣势
Opportunities代表外部环境中存在的机会
Threats为外部环境所构成的威胁
企业战略的制定必须使其内部能力(强处和弱点)与外部环境(机遇和威胁)相适应,以获取经营的成功
[总结与分析]
(1)劣势-威胁,WT组合,防御型战略 企业应尽量避免处于这种状态。
(2)劣势-机会,WO组合,扭转型战略 企业已经鉴别出外部环境所提供的发展机会,但同时本身又存在着限制利用这些机会的组织弱点。
(3)优势-威胁,ST组合,多种经营战略 企业应巧妙地利用自身的长处来对付外部环境中的威胁,其目的是发挥优势而减低威胁。
(4)优势-机会,SO组合,增长型战略 一种最理想的组合。
补充
SWOT模型的基本思想:企业战略的制定必须使其内部能力(强处和弱点)与外部环境(机遇和威胁)相适应,以获取经营的成功。
SWOT分析不能一次就完成,必须去定期修改这个表。将SWOT分析视为一个连续的过程。
实例
[实例2]利用SWOT模型制定战略
[实例3]SWOT模型分析得出企业战略
7S分析模型
内容
在企业发展过程中,要全面考虑企业的整体情况,只有在软硬两方面7个要素都能够很好地沟通和协调的情况下,企业才能获得成功。
硬件要素分析
战略
根据企业的内外环境,对可得资源进行分配,以适应企业不同发展阶段的需求
结构
组织结构必须与战略相协调,结构的组织要素包括企业的目标、协同、人员、职位、相互关系、信息等,将这些要素进行有效的组合就是企业结构,通常的结构形式有集中功能化形式、去中心化形式、矩阵、网络化形式等
制度
在战略实施过程中,应制定与战略思想相一致的制度体系,要防止制度的不配套、不协调,更要避免背离战略的制度出现
软件要素分析
风格
包括组织结构的文化风格和领导者的管理风格,通常情况下,杰出企业都呈现出既中央集权又地方分权的宽严并济的管理风格
共同的价值观
7S模型的核心,如组织对战略的理解和掌握、组织的信仰和态度
人员
员工是产生效能的源泉,也是企业战略实施的关键,因此,企业要作好充分的人力准备,并了解他们的类型
技能
员工的个人能力是企业作为整体反映出来的独特竞争力,员工要掌握一定的技能,需要依靠严格、系统的培训
[适用范围]
7S模型适用于企业组织构建,战略制定,企业文化等多方面。
[总结与分析]
7S模型既包括企业中的“硬件”要素,又包括企业中的“软件”要素。 麦肯锡的7S模型提醒世界各国的经理们,软件和硬件同样重要。
波士顿矩阵
BCG矩阵是一种有用的理论,它提供了一种框架,帮助人们理解性质各异的业务,以及确定战略资源分配的优先次序。
(1)现金牛(低增长,高市场份额) (2)吉星(高增长,高市场份额) (3)问号(高增长,低市场份额) (4)瘦狗(低增长,低市场份额)
牺牲短期利润以获取市场份额的组织,将产生最高的长期利润。
定性模型的综合应用
宏观环境分析----PEST模型行业战略环境分析----波特五力模型/SCP模型企业内部分析----波士顿矩阵/7S模型企业竞争态势分析----SWOT模型
3.5 典型的定量模型----Bass扩散模型
Bass Model是一种消费者耐用品扩散模型(基本S型扩散模型)模型假设没有重复购买者,并且每个人的购买量都是一个单位。
由于该模型是基于没有重复购买这个假设的,因此该模型适用于耐用消费品市场。
揭示产品生命周期
利用过去的数据建立模型,研究产品生命周期曲线的发展情况
预测产品的销量
根据模型,预测产品未来的销量。
扩散过程是创新产品不断被更多消费者所采用的过程。在新产品的市场扩散过程中,由于个人性格、文化背景、受教育程度和社会地位等因素影响,不同的消费者对新产品接受的快慢程度有所不同。根据快慢的差异,把采用者划分成五种类型,即:创新采用者、早期采用者、早期大众、晚期大众和落后采用者。
本章思考题
模型的含义及主要类型
模型建立的一般过程
SWOT分析模型、PEST分析模型、7-S分析模型、BCG模型、Bass扩散模型的基本内容
第二章 信息分析的工作框架
2.1 信息分析课题选题与规划
2.1.1 选题
选题来源
(1)从现实生活中选题
- 现实的需要- 社会热点、难点问题- 实践项目
(2)从理论研究中选题
- 填补研究空白- 开拓研究问题- 过去研究的不足
(3)从个人经历中选题
- 个人好奇心- 个人兴趣
(4)从不同学派、观点的学术争论中选题
(5)从学科渗透、交叉中选题
(6)从直觉思维、意外发现中选题
(7)寻找研究问题的捷径:建议或指派
- 职业人士的研究需要- 权威人士的研究建议- 他人指派或委托
选题原则
必要性与可行性
综合性与针对性
及时性与预见性
科学性与创新性
选题步骤
课题提出
在日常工作中一方面要不断获取分析国内外最新动向
另一方面要充分了解本地区本部门科学研究活动和存在问题,以便出课题,一旦时机出现,立即投入工作。
课题分析
对于已提出的研究课题,需要进一步分析,明确课题的目标、范围、意义、环境、存在的问题等。
要结合用户的信息需求和课题涉及领域的水平现状、存在问题和发展方向等,综合分析考虑选题的必要性问题。
初步调查
要求信息分析人员围绕课题展开调查,对本部门、本地区的技术和资源条件,信息资料条件及可研究力量进行调查与分析、初步落实选题的可能性。
课题论证
课题论证步骤
课题选定
经过以上分析论证,符合选题原则的课题一般不只一个,这就要求进行筛选确定。要综合考虑多种因素,既有横的比较,也有纵的分析,一般要邀请用户、专家、领导协商讨论,必要时还要重新进行分析和论证,以提高课题的使用价值,防止一般化。
开题报告
开题报告(或课题申请书)是预研究的成果,即以书面方式汇报选题的目的、意义、依据、初步拟定的实施方案等,征求有关方面的意见,经审批后,最终以课题合同书的形式固定下来。
内容
研究意义,即为什么要进行这个课题的研究,这个课题是为什么人、为什么事服务的。
研究目标,即该课题研究所要达到的目的。
研究内容,研究目标的实现,是通过研究内容来达成的。从某个角度看,研究内容是研究目标的具体化和细化。
拟解决的关键问题,即该课题所要解决的最主要的问题。
技术路线,即为了达到研究目标、完成研究内容,研究者所采用的研究方法和研究工具及其研究步骤。
2.1.2 课题规划
2.2 信息收集、整理与评价
2.2.1 信息源
2.2.2 信息收集
信息检索法
系统检索法
以描述文献内容特征或外部特征的检索标识为检索突破口,以检索工具的利用为检索手段,具有较高检索效率,是文献信息搜集的主要方法。
追溯检索法
浏览检索法
社会调查法
社会调查又称实际情况调查,是一切以信息搜集为目的的社会实践活动的总称。社会调查是搜集非文献信息的主要途径。
现场调查
访问调查
样品调查
问卷调查
调查问卷的设计
调查问卷的设计
提问的内容
一份较完整的调查表的提问大致包括三部分内容:基本信息;行为信息;态度信息。
提问的方式
根据调查者的需要,提问可以采取下述四种方式中的一种或几种组合:自由式提问;封闭式提问(二分法提问、多项选择提问);事实性提问;态度测量式提问。态度测量表主要分类别量表、顺序量表、差距量表和等比量表。
提问的顺序
实践证明,提问的顺序直接影响到调查表应答和回收效果。在具体操作时,一般采用“漏斗法”安排所提问题的先后次序。所谓“漏斗法”,是指把调查者所提的所有问题按下列原则编排,使之形成“形状”酷似“漏斗”的调查表的方法。
原则
“先大后小”原则、“先易后难”原则、“先一般后敏感”原则、“先趣味性后实质性”原则、时间性原则、相关性原则
调查问卷设计中的其他注意事项
用语准确、含义清楚、避免使用模糊或双关词汇考虑提问的必要性考虑提问的可能性把握所提问题的数量和难易程度避免引导性或一般化的提问避免双重提问尽量避免假设性提问合理的使用说明词
调查表的发放和回收
- 面候调查- 函寄调查- 留置调查- 网络调查
2.2.3 信息整理
文献信息整理方法
分类筛选:根据课题需要,将收集到的信息按一定标准分类,并剔除部分错误信息或无用信息的活动。
阅读和摘录:一般将阅读分为浏览、略读、精读和摘录。
序化处理:把所有信息排列成有序整体,为获取所需信息提供方便。
改编重组:对原始信息进行汇编、摘录、分析、综合等内容浓缩加工。按加工深度不同,主要有汇编、摘录和综述三种
口头和实物信息整理方法
形式整理:按来源或类型、按使用方向、按内容线索。
内容整理:分类整理、数据整理、观点整理。
网络信息整理方法
明确信息来源
浏览信息
分类
内容筛选与数据清洗
2.2.4 信息评价
文献信息评价
口头和实物信息评价
网络信息评价
2.3 信息分析的六个步骤
2.3.1 浏览、阅读已搜集和整理的原始资料
- 浏览搜集的信息,并对整个信息有个总体把握- 再次仔细地阅读每篇信息,寻找内在联系和外在联系- 确定遗漏的信息,并从信息中发现解决问题的突破口
2.3.2 创造最初的假设
- 思考问题的进度- 回答Who,What,Where,When,How,Why等问题
- 通过问题的结构化使最初的假设结构化,即在把问题分成其组成部分——关键驱动因素的基础上,再做出关于关键驱动因素的“可讨论的建议方案”。- 把可讨论的最高一层的建议方案(即最初的假设)记录下来,再将其分成多个子问题或子假设,并考虑每一个问题的可能答案。
创建最初假设的方法
- 推理方法:通过学习大量的案例来形成结论的方法。- 比较方法:通过对以前类似事件的比较分析,得出当前事件与以前类似事件之间的关联处,从而推断出当前事件可能出现的结果。- 信息淹没法:让信息分析人员完全沉浸在与研究课题相关的信息资料之中,通过阅读和分析,信息分析人员自发的、本能地形成假设。
2.3.3 再搜集、整理、评价信息
- 收集遗漏信息- 获取更多的能证明或反驳假设的信息
突出两个方面的特点
行为上更具目标性和指导性
内容上更具专指性和准确性
2.3.4 确定前提
- 确定具有类似观点的信息组- 对信息组的内容进行归纳,总结
- 从最初假设的各个子假设出发,再结合搜集的信息和已经阅读信息的体会,针对每个子假设,从信息中提取支持或反驳,或与子假设相关联的信息。- 根据提取的信息确定假设前提,或支持假设的论据,确定与子假设相对应的观点。- 在已经设立的问题树后罗列出支持或反驳子假设的前提或事实。
2.3.5 验证假设并形成推论
- 得出的推论是经提炼的,用于证明假设的论点- 验证各级假设- 得出的推论将包括从信息中得出的其他结论- 得出的推论必须包括结论的可能性分析
2.3.6 形成最终的结论
- 得出结论并反思- 制作信息分析产品
2.4 信息分析产品的制作与传播
2.4.1 信息分析产品的类型及制作
系统资料类产品
动态报道产品
研究报告类产品
2.4.2 信息分析产品的评价
信息分析产品评价的必要性
评价信息分析产品的指标体系
2.4.3 信息分析产品传播、利用和反馈
本章思考题
选择信息分析课题的主要方式有哪些?
信息分析数据收集的途径与方法有哪些?
信息分析研究的主要步骤有哪些?
第一章 绪论
1.1 信息分析的内涵
1.1.1 信息分析的概念
信息链角度的观察
美国学者A. Debons等认为要从人的整个认知过程的动态连续体中理解信息,他们将认知过程表达为信息链1:facts→signal→data→information→knowledge→wisdom事实 符号 数据 信息 知识 情报
信息链1是从信息的形态出发构建的,它们之间的关系是并列、转化或层次关系
信息链2:信息源→信息收集→信息整理→信息分析→信息产品→信息利用
信息链2是从信息工作过程出发构建的,它们之间的关系是过程转化关系。
信息分析是情报研究范围的扩展和社会信息化发展的结果,是针对特定的需求,对信息进行深度分析和加工,提供有用的信息和情报。
1.1.2 信息分析与相关研究的关系
信息分析与科学研究
信息分析是一种面向应用的科学研究,是科学研究的一个重要组成部分,也是科学研究的前提或基础。
区别
(1)研究对象不同
信息分析的研究对象是社会信息。科学研究的研究对象是自然现象和社会现象。
(2)研究目的不同
信息分析是为人们决策和行动提供情报和智慧(工具主义)。科学研究是认识、揭示自然界、社会和人类思维的规律(本质主义)。
(3)研究功用不同
两类信息分析:面向科学技术跟踪和特定科研项目的信息分析为科学研究服务;以科学抽象(即透过现象,揭示研究对象的本质、规律和联系的思维过程)为主要特点的信息分析本身是一种科学研究。
(4)研究性质不同
信息分析是商业性、经营性的。科学研究是公有性、无私利性的。
信息分析与软科学研究
联系
信息分析和软科学研究都涉及信息的分析和加工,都为决策和行动提供依据和参考。
区别
信息分析的研究范围更加广泛,而软科学则侧重对策研究。
从发展上看,软科学研究以信息分析为基础,而信息分析借鉴软科学的对策研究方法是一种趋势。
信息分析与咨询服务
联系
二者的基础活动都是信息的采集、加工、传递和反馈,都是为客户决策和行动提供智力支持服务,并且都是面向市场的商业信息活动(政府部门和企业内部的信息分析机构例外)。
区别
咨询服务更强调专业性(professional),更注重依赖咨询人员的专业经验和具体研究去解决客户的实际问题。
信息分析与竞争情报
竞争情报(competitive intelligence)是关于竞争环境、竞争对手和竞争策略的信息研究,是市场竞争激化和社会信息化高度发展的产物,是信息分析工作的新发展。
两者之间的区别:(1)竞争情报是信息分析中面向企业的信息研究,范围较信息分析狭窄,换句话说,竞争情报是信息分析的组成部分。(2)竞争情报以市场竞争为内容,以竞争对手分析为核心,具有强烈的对抗性和针对性,而信息分析的其他研究这一特征相对较弱。
1.1.3 信息分析的抽象工作目标
(1)从混沌的信息中萃取出有用的信息。(可采用比较、判别、检索、相关分析等方法)
(2)从表层信息中发现相关的隐蔽信息,从离散的信息中识别出聚类的信息。(可采用内容分析、聚类分析、数据挖掘、知识发现等方法)
(3)从过去和现在的信息中推演出未来的信息。(可采用德尔菲法、情景分析、时间序列分析等方法)
(4)从部分信息中推知总体的信息。(可采用统计学方法、系统辨识、内容分析等方法)
(5)运用相关信息对事物的状态、性能和效果进行评价。(可采用层次分析、模糊综合评价等方法)
1.2 信息分析的领域
1.2.1 科技信息分析
科技信息分析是信息分析的传统领域。科技活动在相当大的程度上影响一个国家的科技和经济发展程度与水平。
特点
- 以文献和技术样本作为主要载体,内容表达比较规范- 涉及众多科学技术领域,专业性强- 更新迅速,尤其是技术开发类信息
科技信息分析的重要特点是以文献分析为基础。
主要内容
- 科技发展战略信息分析- 科学前沿和发展态势分析- 技术预见与技术热点分析- 科技竞争力评价- 课题或项目的背景调研和相关文献分析- 学科、专业、课题的专用数据库建设
1.2.2 经济信息分析
经济信息的特点
- 数量巨大,种类繁多- 与经济活动直接相关的经济信息一般具有明显的经济成本相当部分的经济信息是非文献形态- 一些经济信息动态性强,更新快
经济信息分析的特点
- 需要系统的数据积累和体系化的分析方法与工具- 需要具备良好的市场调查能力- 针对性强,作业驱动的经济信息分析占了相当的比重- 具有时效性要求
经济信息分析的主要内容
- 经济活动中的动态分析- 经济预测和预警分析- 企业竞争分析- 为制定经济规划和经济政策而展开的经济模型分析、经济对策分析面向社会公众的各种经济咨询分析
1.2.3 社会信息分析
社会信息包括社会现象描述信息和社会知识记录信息。
社会信息的特点
社会信息中较多主观因素,较少客观因素
社会信息中较多相对性,较少绝对性
社会信息中较多定性思辨,较少定量分析
社会信息中较多综合性,较少专业性
-社会信息中较多依附性,较少独立性
社会信息分析的特点
- 涉及大量的价值判断- 一般难以对分析环境和分析对象进行严格控制- 总体上以定性方法为主,并越来越注重采用定量方法
社会信息分析的主要内容
- 社会发展态势分析- 国情省情分析- 突发性危机事件预警分析- 公共政策的效果分析- 社会科学学术信息分析
1.3 信息分析方法论
1.3.1 方法与方法论
方法是方法论的原材料,是方法论的基础。方法论是对方法的理论概括和总结,是系统化了的方法体系。方法论是有关方法的性能、评价、应用、开发、结构体系以及规律性的知识体系,是系统化的理性认识。
1.3.2 信息分析方法的来源
信息分析方法的最大特点是综合性和工具性。
1.逻辑学
2.系统分析
3.图书情报学
4.社会学
5.数学统计学
6.经济管理学
1.3.3 信息分析方法的体系结构
信息分析最基本的四大功能
广义的相关分析
预测分析
广义的评估分析
其他功能
信息分析方法
相关分析方法
内容分析法、扎根理论、引文分析法、链接分析法、因子分析法、聚类分析法、社会网络分析法、关联树法……
预测分析方法
时间序列法、回归分析法、德尔菲法、情景分析法、人工神经网络分析法、马尔科夫链分析法……
评估分析方法
模糊综合评估法、层次分析法、网络层次分析、指数评估法、数据包络分析法、系统动力学分析法……
其他分析方法
仿真模型、动态规划法、博弈论方法、神经网络方法、社会调查法、文本分析、数据挖掘、机器学习、知识图谱、信息可视化……
1.4 信息分析职业人员的理想素质结构
1.4.1 两类知识
显性知识
隐性知识
隐性知识对信息分析的意义
能使信息分析人员在不完全认识部分或细节的情况下认识整体。
有利于信息分析人员从已有研究成果和自己的观察和实验中不断获得新的“暗示”,从而不断提出新问题,不断把研究向前推进。
隐性知识的获得更多地靠个人的亲身实践,这提醒信息分析人员除了掌握信息分析相关的理论方法等显性知识外,还要通过职业实践亲身感悟和获取相关的隐性知识。
要求信息分析人员高度重视团队的价值,重视核心成员的作用。
1.4.2 两类思维
发散性思维
收敛性思维
1.4.3 两类方法
定量研究
定性研究
1.4.4 必要的张力
1.5 信息分析的产生与发展
1.5.1 信息分析的产生背景
提高科技劳动效率的需要
科学技术管理科学化的需要
1.5.2 信息分析的发展趋势
1.内容领域的综合化
2.服务方式的社会化
3.信息分析理论和方法体系日趋完善
4.信息分析与预测技术手段日益现代化
5.开发利用互联网络资源
6.信息分析与预测工作国际化趋势日益显著
总而言之,信息分析工作的发展方向应该是建立在现代开放的企业制度之上,以数据库为基础,以网络为依托,面向市场、面向全世界的全方位的现代信息咨询服务。
本章思考题
什么是信息分析?
信息分析的抽象工作目标是什么?
信息分析的方法体系是什么?
信息分析的主要发展趋势如何?
你对信息分析职业的看法是什么?
浮动主题