导图社区 23 统计与数据科学
这是一篇关于23 统计与数据科学的思维导图,主要内容包括:主题,数据科学和大数据,统计调查,数据来源,变量和数据,统计学。
编辑于2024-10-22 13:46:5323 统计与数据科学
统计学
两大分支
描述统计
数据收集、整理和描述的
(1)如何取得所需要的数据 (2)如何用图表或数学方法对数据进行整理和展示 (3)如何描述数据的一般特征
了解与居民生活相关的商品及服务价格水平的变动情况,收集统计局发布的CPI数据,利用统计图展示CPI,利用增长率计算CPI的走势
推断统计
利用样本数据推断总体特征
(1)参数估计:利用样本信息推断总体特征 (2)假设检验:利用样本信息判断对总体假设是否成立
随机抽取部分顾客进行调查,再对顾客总体满意度进行评估,验证满意度高的客户更倾向于成为忠诚客户
变量和数据
变量
定量变量
数量
企业销售额、注册员工数
定性变量
分类变量
类别
企业所属行业、员工性别
顺序变量
类别且有顺序
员工受教育水平
数据 数据是对变量进行测量、观测的结果。
定量数据 数值型数据
具体的数值。如企业的销售额是1000万元
分类数据
类别,一般用文字来表述,也可用数字描述。如,用1表示“男性”,2表示“女性”
顺序数据
类别,一般用文字描述,也可用数字描述。如用1表示“硕士及以上”,2表示“本科”,3表示“大专及以下”
数据来源
按收集方法
观测数据
直接调查或测量而收集
GDP、CPI、房价、进出口总额、企业利润
实验数据
一种新产品使用寿命的数据,一种新药疗效的数据。自然科学领域的数据大多都是实验数据
两新
从使用者角度
一手数据
亲自直接的调查、观察和科学实验的数据
二手数据
来源于别人的调查或实验的数据
科研论文、公开出版物、统计年鉴
统计调查
种类
按调查对象的范围
全面调查
全面统计报表、普查(人口、经济)
经济普查:对象是中华人民共和国境内从事第二、第三产业活动的全部法人单位、产业活动单位和个体经营户。
非全面调查
非全面统计报表、抽样调查、重点调查和典型调查
按调查登记的时间 是否连续
连续调查
在一定时期内的数量发展过程变化(总量累计)
工厂的产品生产、原材料的投入、能源的消耗、人口的出生、死亡
非连续调查
在一定时点上的状态
生产设备拥有量、耕地面积
方式
统计报表
自上而下地统一布置,自下而上地逐级提供
原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序
1.按报送周期长短:日报、月报、季报、年报等; 2.按报表内容和实施范围:国家的、部门的、地方的统计报表。
普查
某一时点状态上
一次性的或者周期性
①经济普查每10年进行2次,逢年份末尾数字为3、8的年份实施;(经的笔画 3+8) ②人口普查每10年进行1次,逢“0”年份实施;(口的样子0) ③农业普查每10年进行1次,逢“6”年份实施(农的笔画6)
经济频繁 人口、农业少
规定统一的标准调查时间
人口普查
11月1日0时
多1个人
农业普查 经济普查
1月1日0时
较准确,规范化程度较高
使用范围比较窄,只能调查基本及特定的现象
抽样调查
根据样本调查结果来推断总体数量特征的
(1)经济性:最显著的优点 (2)时效性强 (3)适应面广 (4)准确性高:工作量小,各环节可以做的更细致,登记性误差往往较小
重点调查
所选择的重点单位就调查的标志值来说在总体中占绝大比重
了解基本状况和发展趋势,不要求掌握全面的数据。
(1)为了及时了解全国城市零售物价的变动趋势,就可以对全国的35个大中型城市的零售物价的变化进行调查 (2)全国工业企业的增加值和资产总额情况,只需对全国大中型工业企业进行重点调查即可 (3)取得某些现象主要标志的基本情况或变动趋势,例如国家统计局的全国5000家工业企业联网直报制度就属于重点调查
典型调查
有代表性的单位进行的调查,了解性质程度
(1)弥补全面调查的不足 (2)在一定条件下可以验证全面调查数据的真实性
数据科学和大数据
数据科学这个词最早由丹麦的计算机科学领域先驱“彼得•诺尔”提出。
大数据
海量、高增长率和多样化的信息资产
特性 “4V”特性
数据量大
起始计量单位是PB、EB、ZB、YB、BB
数据多样性
(1)结构化数据是指存储在数据库里,可以用二维表结构实现表达的数据。 (2)非结构化数据是指结构不规则或不完整,没有预定义的数据,如办公文档、文本、图片、报表、图像、音频信息、视频信息 (3)半结构化数据是介于完全结构化数据和完全非结构化数据之间的数据,具有一定的结构性,例如员工简历,
价值密度低
价值密度的高低与数据总量的大小成反比。有用数据占比少
数据的产生和处理速度快
大数据的处理要符合“1秒定律”。
数据挖掘 以解决实际问题为出发点;
含义
大量的、不完全的、有噪声的、模糊的、随机的
(1)数据源必须是真实的、大量的、有噪声的 (2)发现的是用户感兴趣的知识 (3)发现的知识是可接受的、可理解、可运用的 (4)并不要求发现放之四海而皆准的知识,只支持特定的发现问题
常用算法
分类
监督学习 确定目标对象属于哪个预定类别,
在邮件系统中区分出垃圾邮件, 在贷款客户中判断出有风险客户等。
聚类分析
无监督学习 划分的类是未知的,根据观察学习来确定数据之间的关系。
客户细分、文本归类、结构分组、行为跟踪
关联分析
根据一个数据项的出现预测其他数据项
啤酒尿布案例,购物篮分析发现交易数据中不同商品之间的联系规则,
趋势与演化分析
统计学的回归分析方法
特征分析
异常分析
数据可视化
科学可视化
面向科学与工程领域的数据,几何、拓扑和形状特征
空间坐标和几何信息的三维空间测量数据、计算机模拟数据和医学影像数据
信息可视化
对象是非结构化、非几何的抽象数据
如金融交易、社交网络和文本数据。
主题