导图社区 CDA数据分析师一级考试教材全部知识点及难点真题
CDA Level1知识点汇总,包括:第1章绪论、第2章表格结构数据与表结构数据、第3章数据库应用、第4章描述性统计分析、第5章多维数据透视分析、第6章业务分析方法。
编辑于2023-01-08 15:51:41 北京市CDMP,全称Certified for Data Management Professional,即数据管理专业人士认证,由数据管理国际协会DAMA International建立,是一项涵盖学历教育、工作经验和专业知识考试在内的综合认证。 总结了CDMP英文考试的所有知识点,考点,以及历史真题。 适用于从事数据管理,数据治理,数字转型等方面的高级职业认证。 章节和知识点较多,因此分章节和完成时间分发。 (第1-3章 数字管理 数字伦理 数字治理) (第4-6章 数据架构 数据建模和设计 数据存储和操作) (第7-9章 数据安全 数据集成和互操作 文件和内容管理) (第10-12章 参考数据和主数据 数据仓库和商务智能 元数据管理) (第13-17章 数据质量 大数据和数据科学 数据管理成熟度评估 数据管理组织与角色期望 数据管理和组织变革管理) 考证 CDMP 数据管理 DMBOK 数字化转型 DAMA 数字化 数据管理专家
CDMP,全称Certified for Data Management Professional,即数据管理专业人士认证,由数据管理国际协会DAMA International建立,是一项涵盖学历教育、工作经验和专业知识考试在内的综合认证。 总结了CDMP英文考试的所有知识点,考点,以及历史真题。 适用于从事数据管理,数据治理,数字转型等方面的高级职业认证。 章节和知识点较多,因此分章节和完成时间分发。 (第1-3章 数字管理 数字伦理 数字治理) (第4-6章 数据架构 数据建模和设计 数据存储和操作) (第7-9章 数据安全 数据集成和互操作 文件和内容管理) (第10-12章 参考数据和主数据 数据仓库和商务智能 元数据管理) (第13-17章 数据质量 大数据和数据科学 数据管理成熟度评估 数据管理组织与角色期望 数据管理和组织变革管理) 考证 CDMP 数据管理 DMBOK 数字化转型 DAMA 数字化 数据管理专家
CDMP,全称Certified for Data Management Professional,即数据管理专业人士认证,由数据管理国际协会DAMA International建立,是一项涵盖学历教育、工作经验和专业知识考试在内的综合认证。 总结了CDMP英文考试的所有知识点,考点,以及历史真题。 适用于从事数据管理,数据治理,数字转型等方面的高级职业认证。 章节和知识点较多,因此分章节和完成时间分发。 1-3章 4-6章 7-9章 10-12章 13-17章 考证 CDMP 数据管理 DMBOK 数字化转型 DAMA 数字化 数据管理专家
社区模板帮助中心,点此进入>>
CDMP,全称Certified for Data Management Professional,即数据管理专业人士认证,由数据管理国际协会DAMA International建立,是一项涵盖学历教育、工作经验和专业知识考试在内的综合认证。 总结了CDMP英文考试的所有知识点,考点,以及历史真题。 适用于从事数据管理,数据治理,数字转型等方面的高级职业认证。 章节和知识点较多,因此分章节和完成时间分发。 (第1-3章 数字管理 数字伦理 数字治理) (第4-6章 数据架构 数据建模和设计 数据存储和操作) (第7-9章 数据安全 数据集成和互操作 文件和内容管理) (第10-12章 参考数据和主数据 数据仓库和商务智能 元数据管理) (第13-17章 数据质量 大数据和数据科学 数据管理成熟度评估 数据管理组织与角色期望 数据管理和组织变革管理) 考证 CDMP 数据管理 DMBOK 数字化转型 DAMA 数字化 数据管理专家
CDMP,全称Certified for Data Management Professional,即数据管理专业人士认证,由数据管理国际协会DAMA International建立,是一项涵盖学历教育、工作经验和专业知识考试在内的综合认证。 总结了CDMP英文考试的所有知识点,考点,以及历史真题。 适用于从事数据管理,数据治理,数字转型等方面的高级职业认证。 章节和知识点较多,因此分章节和完成时间分发。 (第1-3章 数字管理 数字伦理 数字治理) (第4-6章 数据架构 数据建模和设计 数据存储和操作) (第7-9章 数据安全 数据集成和互操作 文件和内容管理) (第10-12章 参考数据和主数据 数据仓库和商务智能 元数据管理) (第13-17章 数据质量 大数据和数据科学 数据管理成熟度评估 数据管理组织与角色期望 数据管理和组织变革管理) 考证 CDMP 数据管理 DMBOK 数字化转型 DAMA 数字化 数据管理专家
CDMP,全称Certified for Data Management Professional,即数据管理专业人士认证,由数据管理国际协会DAMA International建立,是一项涵盖学历教育、工作经验和专业知识考试在内的综合认证。 总结了CDMP英文考试的所有知识点,考点,以及历史真题。 适用于从事数据管理,数据治理,数字转型等方面的高级职业认证。 章节和知识点较多,因此分章节和完成时间分发。 1-3章 4-6章 7-9章 10-12章 13-17章 考证 CDMP 数据管理 DMBOK 数字化转型 DAMA 数字化 数据管理专家
CDA L1教材
第1章绪论
1.1数据分析概述
1.1.1数据分析的分类
业务描述性分析方法
数据挖掘分析方法
宏观
微观
需求层
数据层
分析层
输出层
1.1.2数据分析的基本流程
业务描述性分析方法
业务理解
数据获取
数据处理
数据分析
结果展现
数据挖掘分析方法
业务理解
数据理解
数据准备
建模
模型评估
模型发布
1.1.3数据分析的落地方法
EDIT
Exploration 业务运行探索
Diagnosis 问题原因诊断
Instruction 业务策略指导
数据驱动型业务决策方式作为企业重要决策方式之一受到广大企业决策者的广泛认可,以下关于数据驱动型业务描述错误的是 A.经验为主数据为辅 B.数据为主经验为辅 C.数据比经验更可信 D.经验比数据更可信 正确答案:B,C,你的答案:A,D回答错误解析:即便是数据驱动型业务决策方式,也应以经验为主数据为辅,所以BC的描述是错误的,所以答案是BC
Tool 数据&算法工具
1.2数据分析师概述.
1.2.1数据分析师的不同角色与职责.
1.2.2数据分析师原业道德和行为准测
第四条 专业审慎高效的完善各项业务流程
保证数据的合法性、时效性、全面性
保证工具与算法的前沿性、适用性、高效性
不断迭代并优化业务指标与数据模型
撰写专业可视化报告,提出具有商业价值的建议
1.3数据相关的安全与立法
1.3.1冬国的数据隐私相关法
1.3.2我国大数据立法的历程和晨望.
1.4本章练习题
第2章表格结构数据与表结构数据.
2.1表格结构数据
2.1.1表格结构数据概述.
2.1.2表格结构数提特征
2.2表格结构数据的获取、引用与使用
2.2.1表格结构数据的获取
TXT,Tab生成的制表符分割
CSV,“,"逗号分割
2.2.2表格结构数据的引用、查询与计算方法
A:A 整列引用
1:1 整行引用
在电子表格工具中可以使用公式引用数据,下面的引用公式写法错误的是()。 A A:A B B1:D17 C 1:50 D A8:20 参考答案-------------------------------- 正确答案:D你的答案:C 题目解析 从单元格地址到单元格地址,不能从单元格地址到行号,所以D选项是错误的。
2.3表结构数据.
2.3.1表结构数据概述
2.3.2表结构数据特征
引用、操作和计算的对象 是 字段或记录行
所有字段的记录行数相同
存在“主键”,(范式规范的第二范式)
非空且不重复
关于表结构数据使用及分析特征,描述错误的是 A.可以引用多数据源数据 B.可以进行单元格计算 C.可以搭建多维数据环境 D.可以合并不同表中不同字段信息 正确答案:B,你的答案:D回答错误 解析:单元格计算是表格结构数据特征,所以描述错误的选项是B
理解主键的业务意义是使用表结构数据进行分析的前提,主键的业务意义指的是 A.表的业务记录单位 B.表的行识别符 C.表中非主键字段的计算对象 D.表的业务逻辑 正确答案:A,你的答案:B回答错误 解析:B是主键的物理意义,C与D是错误描述,所以A是主键业务意义,是正确答案
主键是表结构数据中的重要内容,以下对于主键特征的描述正确的是? A.主键字段具有非空不重复的特征 B.主键字段的物理意义是作为表的业务记录单位 C.主键字段可以是由多个字段构成 D.可以通过SQL语句确认表的主键字段 正确答案:A,C,D,你的答案:A,B,C,D回答错误 解析:主键字段的业务意义是作为表的业务记录单位;物理意义是定位表中的某个具体数值。
2.4表结构数据的获取、加工与使月
2.4.1表构数据的获取
应用表格结构
引用表结构
数据源相同
后台
前台
外部
(多选题)收集多源数据是进行数据分析工作中的重要步骤之一,以下可以成为表结构数据数据源的有()。 A CSV格式的数据文件 B 数据库 C Excel文件 D 网页数据 参考答案-------------------------------- 正确答案:ABCD 你的答案:ABC 题目解析 应用ETL功能可以导入所有选项中提及数据源中的数据到DW中作为表结构数据使用。
2.4.2数据库与商业智能的概念解析
RDBMS 关系型数据库
定位
OLTP 联机事务处理系统
transaction processing
DB 数据库
DBMS 数据库管理系统
以下属于数据库管理系统功能的是() A.数据库对象定义 B.数据库文件读写 C.数据查询 D.数据更新 正确答案:A,C,D,你的答案:A,B,C,D回答错误 解析:数据库管理系统(DataBase Management System)是用于管理数据库的软件,它对数据库进行统一的管理和控制,其主要功能包括对数据库中各种对象的定义,数据的存储、更新和查询调用等操作。
Table 数据表
ETL
Extract 抽取
Transform 清洗转换
Load 加载
DW 数据仓库
OLAP 联机分析处理
analysis processing
创建多维数据模型的过程
多维数据模型是数据仓库中数据组织的一种模型,多维数据模型工具功能定位是()? A.OLTP B.OLAP C.DW D.Cube 正确答案:B,你的答案:A回答错误 解析:OLAP是联机分析处理,是搭建多维数据模型的处理过程
2.4.3表结构数据的合并
公共字段
主副连接
横向合并多表信息、完善数据源内容是利用表结构数据的重要方法之一,在横向合并两个数据表时的对应关系决定合并结果的什么 A.主附关系 B.合并结果行数 C.合并结果数据范围 D.合并结果数据类型 正确答案:B,你的答案:A回答错误 解析:表的合并行数是对应项乘积的结果,所以B是正确选项
E-R实体关系图
Full join
union all
2.4.4表结构数提的汇总
聚合函数
SUM
COUNT
DISCINCTCOUNT
以下聚合函数中,使用正确的是 A.COUNT(*) B.MIN(*) C.MAX(*) D.SUM(*) 正确答案:A,你的答案:D回答错误 解析:COUNT()函数对一个或多个字段的值进行计数,COUNT(*)表示对表中所有字段的取值进行计数;而其他聚合函数只能对一个字段的值进行聚合计算。
AVERAGE
MIN
MAX
函数
=
函数表达式
参数
操作符
返回值
2.5本章练习题
第3章数据库应用.
3.1数据库相关概念
3.1.1数据库简介
关系数据库
非关系数据库
3.1.2认识数据库
处理流程
业务理解
数据理解
数据清洗
数据输出
整体框架
数据库
数据表
字段
在关系型数据库中,最小的存储单位是 A.数据库 B.表 C.字段 D.记录 正确答案:C,你的答案:D回答错误 解析:数据库存储层级自上而下分别是数据库、数据表、字段,字段是最小存储单位,所以选C
关系
数据库 DB
数据库管理系统,如MySQL
结构化查询语言 SQL
3.1.3 SQL
分类
数据定义语言DDL
create
alter
drop
数据操作语言DML
insert
update
delete
数据查询语言DQL - Query
select .. from .. where...
数据控制语言DCL - 用来定义权限和安全级别的
grant
revoke
特点
不区分大小写
可以换行
结束符是 ;
注释符号
--空格
#
/* xxxx */ 多行注释
3.1.4数据仓库
DW
ODS层 基础
抽取清洗后 DSA层
分析和展示后 EDW层
DW 与 DB的区别
DB对应OLTP,指操作型处理,联机事务处理
DW对应OLAP,指分析型处理,联机分析处理
3.2数据定义语言
3.2.1DDL在业务中的作用
增删改查
3.2.2定义数据库
create database <>
show databases
use <>
drop database
3.2.3数据表
数据字典
字段名-描述-数据类型-主键-外键-非空-唯一-自增-初始默认
create table <> ()
( , , , ) 字段
show tables
desc <>
alter table <> ....
rename <>
change <原字段> <新字段> <类型>
modify <> <> [排序]
add <><> [排序]
drop <>
(复合题)学生信息表student包含id(学生编号)和stuname(学生姓名)。 (2)以下哪个语句可以用来删除student表中的id字段? A update table student delete id; B drop id from student; C delete id from student; D alter table student drop id; 参考答案-------------------------------- 正确答案:D你的答案:C 题目解析 对表进行增加、修改及删除字段操作时应使用alterta ble 语句,只有D满足条件。
drop table <>
3.2.4数据类型
DATETIME 是时间点
TIME 是计时时长
3.2.5约束条件
主键约束
一个表只能有一个主键约束
非空且唯一
单主键, 跟后面
多主键,不是多个主键,而是复合主键,用 primary( , , )
删除约束条件
删主键 alter table <> drop primary key;
删唯一 alter table <> drop index <>;
删自增 alter table <> modify <字段><类型>;
删非空 alter table <> modify <字段><类型>;
删默认 alter table <> modify <字段><类型>;
3.3数据操作语言
3.3.1DML的作用
3.3.2添加数据
insert into <>() values (),()....();
load data infile '英文绝对地址\\ or /' into table <> fields terminated by '\t' [ignore 1 lines];
向数据库的表中添加数据时必须小心谨慎,使用关系型数据库向数据表中添加数据时应注意() A.字段的个数和添加的数据取值个数可以不一致 B.字段的顺序和添加的数据取值的顺序可以不一致 C.字段的数据类型和添加的数据取值的数据类型可以不一致 D.以上都不对 正确答案:D,你的答案:B回答错误 解析:字段和添加数据的字段个数,数据类型,字段顺序都要一致才能正确添加,所以选D
3.3.3将查询结系添加到表中
insert into <> select <> from <>
create table <> as select <> from <>
3.3.4更新数据
update <> set <>=<>, ... [where ...];
3.3.5删除数据
delete from <表名> [where...];
在SQL命令中关于删除命令DELTE的用法中,DELETE FROM后跟 A.表名 B.字段名 C.记录行号 D.数据库名称 正确答案:A,你的答案:C回答错误 解析:delete from+表名,所以选A
删除数据表中的数据有多种方法,在以下SQL语句中删除表中所有数据但保留表结构的命令是 A.DELETE B.DROP C.CLEAR D.REMORE 正确答案:A,你的答案:C回答错误 解析:Delete是删除记录但不删除数据库对象,所以选A
truncate <表名>; 相当于格式化重建
truncate(a,0)取整
3.4数据查询语言
3.4.1单表查
select {*|字段列表|表达式|公式|常量}
from
where
group by
having
order by
limit
顺序不能变
select 后的说明
常量: select 1 [from <>]
返回1个1的值,或者跟表一样长的个数1
公式:select 1+1 [from <>]
返回公式作字段名,计算结果作位值
表达式:select 1+1=3 [from <>]
返回表达式计算的真伪
字段名:select <>
*通配符
去重 distinct
必须位于第一个字段前
多个字段去重,指多个字段都重复的才会去掉
(复合题)student表中有4个字段:StudentlD(学生编号)、Class(班级)、CourselD(课程编号)、score(分数): (1)student表中记录了同学每一次考试的成绩。那么以下哪组SOL代码取数的结果中,StudentID字段取值不会出现重复? A select StudentID,max(score)from student group by StudentID; B select distinct StudentID,Score from student; C select StudentID from student; D select StudentID from student where studentID is not null; 参考答案-------------------------------- 正确答案:A 你的答案:B 题目解析 A选项按StudentID字段分组后的结果中StudentID字段不会出现重复值。
别名
as 可以省略
select ...as... from ... as ....
条件查询
多条件
where ( ... and ... )
where <> in ( , , )
in 等同于 any/or
not in??
SQL中每个函数出现的位置都是有要求的,稍有错误就会导致语法错误或者结果数据的计算错 误。SQL中的count、sum、avg、max、min等函数,不可以出现在()子句中。 A select B where C having D order by 参考答案-------------------------------- 正确答案:B你的答案:A 题目解析 由于sql语句的执行顺序:from→on→join→where →group by→having→select→distinct→union→or der by→limit,where子句中不能用聚合函数。
在SQL语句中,设置别名可以增强代码的可读性,别名又分为表别名和列别名,其中列别名不能用于()子句中。 A select B where C from D join 参考答案-------------------------------- 正确答案:B你的答案:C 题目解析 在SQL语句中可以设置表别名和列别名,SQL语句的执行顺序是from→on→join →where→ group by→having→select→order by,列别名是在select子句中指定的,所以where子句中不能用列别名,表别名是在from 和join中指定的
空值查询
where <字段> is [not] null
只能用is,不能用=
limit [a,]b
a是偏移量,默认0,从a+1开始
b取几个
limit只是行数,针对并列的行值,它不去重,都算进行数
聚合函数
仅count可以对文本,其他仅对数值
仅count可以对多个字段计算,其他仅1个字段
其他都忽略null
count忽略都是null的行,某个字段是null的行不忽略
分组查询
组内聚合 group_concat() from ... group by...
分组后筛选
having
支持where子句中的所有操作符和语法
但where针对数据表筛选条件,分组前就筛选剔除
分组聚合前,因此不能用聚合函数作筛选条件
(复合题)数据库中有两个表,users表中有3个字段(userid.user_namecreate.at),orders表中有3个字段(order id.useridamount)。 (2)运行以下SQL查询语句,哪句不会报错? A select user_id,avg(amount) from orders where avg(amount)>2000; B select user_id,avg(amount) from orders group by user_id where avg(amount)>2000; C select user_id,avg(amount)from orders where avg(amount)>2000 group by user_id; D select user_id,avg(amount) from orders group by user_id having avg(amount)>2000; 参考答案-------------------------------- 正确答案:D 你的答案:C 题目解析 SQL查询语句的书写顺序中,where 子句应该在groug by子句之前,且where子句中不能用聚合函数。
显示发帖数超过5个的语句是 A.select id,count(name)from t1 group by id; B.select id,count(name)from t1 group by id having count(name)>5;C.selectid,count(name)from t1 group by id having count(name)>5 order by count(name); D.selectid,count(name)from t1 where id>100 group by id; 正确答案:B,你的答案:C回答错误 解析:每个分组计算发帖个数(count(name))之后,我们希望输出结果大于5(count(name)>5)。这里还是比较好理解的,难度在于对having的理解。我们平时用到条件子句时,它前面的关键词都是where,而这里用的是having。在使用GROUP BY对数据进行分组时需要使用HAVING作为限制条件的关键词。
但having针对分组聚合后的结果筛选,所以having的条件必须存在与分组后的结果中
分组聚合后,可以引用聚合函数作为筛选条件
(复合题)建立如下数据库表:create table department(departid int not null primary key,deptname varchar(20) not null):create table employee(employeeid int not null, deptid int not null,ename varchar(20)not null job varchar(10), sal decimal(10,2): (2)以下sQL语句中,错误的是()。 A select avg(sal) from employee; B select deptid,avg(sal) from employee group by dep tid; C select deptid, job, avg(sal) from employee group by deptid.job; D select deptid, avg(sal) from employee group by dep tid HAVING job='clerk; 参考答案-------------------------------- 正确答案:D 你的答案:C 题目解析 having子句中的筛选字段必须是可以出现在分组结果中的字段。
3.4.2函数
concat (,,) 包含null的化,整体返回null
(多选题)INT型数据是数据库中经常需要用到的一类数据。以下可以对INT型数据使用的SQL函数有()。 A round B max C abs D concat 参考答案------------------------- 正确答案:A,B,C你的答案:A,B,C,D 题目解析 concat 函数用于处理字符串数据。
replace(s,s1,s2) s字段下的字符串替换
group_concat([distinct] ...[order by ..] [ separator 'xx'])
ifnull( xx , alt_value) 如果空则替换为
if ( xx, true_value, false_value)
case when xx then true_value [when xx2 then true_value2 .... else false_value end;
积分表result中有ABCD四列,要求:1)当A列值大于等于B列时,选择A列否则选择B列2)当C列值大于等于D列时,选择C列否则选择D列 用SQL语句实现正确的是:() A.select(when A>=B then A else B)MAX_AB,(when C>=D then C else D)MAX CD from result; B.select(case when A>=B then A else B)MAX_AB,(case when C>=D then C else D)MAX_CD from result; C.select(case when A>=B then A else B end)MAX_AB,(case when C>=D thenCe lse D end)MAX CD from result; D.select(case A>=B then A else B end)MAX_AB,(case C>=D then C else D end)MAX_CD from result;
开窗函数
over()
over(partition by 字段)
over(partition by 字段1 order by 字段2)计算以字段1分区,字段2开始的累计值
row_number() over() 排名1
dense_rank() over() 排名1
rank() over() 排名1
3.4.3多表查询.
union 去重
使用SQL合并数据简单方便,以下关于SQL中union关键字的描述,不正确的是()。 A union合并数据集的字段个数必须相同 B union合并数据集的字段数据类型必须相同 C union合并数据集的字段顺序必须相同 D union合并后的数据集的行数是合并前的总行数 参考答案-------------------------------- 正确答案:D你的答案:C 题目解析 union合并数据集后去重,union all 不去重,所以unio n去除重复值后的行数小于合并前的数据集的总行数。
union all 不去重
多表(事实表,度量表);一表(维度表)
某产品在一年内卖出300件,退回50件,请问销量是多少 A.300件 B.250件 C.350件 D.无法统计 正确答案:D,你的答案:B回答错误解析:问题未明确指出查看的维度,指标需与维度结合才能统计出结果
结合表名代表的业务意义判断以下可以连接在一起的表是 A.订单表与订单详情表 B.库存表与进货表 C.销售表与客户表 D.产品表与产品尺码表 正确答案:A,C,D,你的答案:A,B,C,D回答错误解析:B是进货业务与存货业务两个不同业务模块下的事实表相连,不同业务的事实表间需要通过共用的维度表才能连接,所以是错的,ACD都是正确选项
在零售业务中的客户表与销售人员表的对应关系是 A.一对多 B.一对一 C.多对多 D.不存在直接关系 正确答案:D,你的答案:C回答错误 解析:客户表是维度表是一表,销售人员表也是维度表是一表
join... on
SQL 使用on 关键字实现两表字段间的关联,在连接查询时建立连接的关键字段可以有()个。 A一个 B两个 C多个 D一个或多个 参考答案---------------------------- 正确答案:D你的答案:A 题目解析 连接查询时的连接条件可以是一个或多个。
(复合题)数据库中有两个表,users表中有3个字段 (user iduser name.create_at),orders表中有3个字段(order-id.user_id,amount)。 (1)查询users 表中存在而 orders表中不存在的use rid,以下选项中正确的是()。 A. select users.user_id from users left join orders on users.user_id=orders.user_id; B select users.user_id from users right join orders on users.user_id=orders.user_id; C select users.user id from users left join orders onu sers.user id=orders.user id where orders.user id is null; D select users.user_id from users right join orders on users.user id=orders.user id where users.user id is null; 参考答案-------------------------------- 正确答案:C你的答案:D 题目解析 A选项以users 为主表左连接,返回users表中所有的user_id。B选项以orders为主表右连接,返回 orders表中所有的user id。D选项以orders为主表右连接并筛选users 表中userid为空的记录,返回的是orders表中存在而users表中不存在的user_id。而C选项以users 为主表左连接并筛选orders 表中userid为空的记录,返回的是users 表中存在而orders表中不存在的user_id。
join ... using (公共字段)
全外连接 full join MySQL不支持,用 union 取代
交叉连接 from a,b 或者 cross join
连接条件
on<不等值>
where<>
3.4.4子查询
必须括号()
最多嵌套255层
关于子查询的语法规则,正确的是 A.子查询必须放在圆括号里 B.由外到内执行,先执行外部的主查询,再执行内部的子查询 C.可以嵌套无数个子查询 D.所有的子查询都必须添加别名 正确答案:A,你的答案:C回答错误 解析:子查询必须放在圆括号里,最多可以嵌套32个子查询,数据库管理系统在执行时由内到外执行,先执行括号内的子查询,再执行括号外的主查询,其中表子查询必须添加表别名
由内向外执行
子查询作为from后的子表,要给与表别名
子查询作为中的计算字段,要给与字段别名
子查询可以出现在select,where、having、from、join子句中。
子查询如果在SQL语句中放错位置是会报错的,子查询可以出现在以下哪个子句中 A GROUP BY B ORDER BY C HAVING D LIMIT 参考答案--------------------------------- 正确答案:C你的答案:D 题目解析 子查询可以出现在SELECT、WHERE、HAVING、FROM、JOIN子句中。
检索销量表中销量最好的商品id和销量,下列SQL语句正确的是() A.SELECT 商品id,销量FROM 销量表WHERE销量=MAX(销量) B.SELECT 商品id,MAX(销量)FROM销量表GROUPBY销量 C.SELECT 商品id,MAX(销量)FROM 销量表GROUP BY 商品id D.SELECT 商品id,销量FROM 销量表WHERE 销量=(SELECT MAX(销量)FROM销量表) 正确答案:D,你的答案:C回答错误 解析:第一步先查询最高销量是多少:SELECTMAX(销量)FROM销量表;将第一步的查询结果作为筛选条件,第二步再查询满足条件的商品id和销量;因此需要用到子查询进行条件筛选
where/having 下的比较
where xxx 操作符><= (子查询)
where [not] exists (子查询)
where [not] in (子查询)
where xxx 比较操作 any/some (子查询)
where xxx 比较操作 all(子查询)
SQL中all关键字可以实现逻辑运算,它能将单个值与子查询返回的单列值集进行比较,下面关于all的含义描述正确的是()。 A 满足所有条件 B 满足任意一个条件 C 一个都不满足 D 满足一个条件 参考答案-------------------------------- 正确答案:A你的答案:A 题目解析 in或not in表示是否在其中,等于其中任意一个条件即可,all表示每一个,全部条件都满足。
子查询是SQL 语句中常用语法,合理地使用子查询可以让代码更简洁。以下关于子查询,说法不正确的是()。 A表子查询必须添加表别名 B引用表子查询中的计算字段,必须添加列别名 C所有的连接查询都可以替换为子查询 D所有的子查询都可以替换为连接查询 参考答案----------------------------------------- 正确答案:D你的答案:C 题目解析 当where子句的查询条件是聚合函数时,子查询不能替换为连接查询。
3.5视图
3.5.1视图的作用
3.5.2创建视图.
create view <> as <select ....>
3.5.3修改视图
create / replace / alter view .
3.5.4删除视图.
drop view ....
3.6本章练习题.
第4章描述性统计分析
4.1统计学概述.
4.1.1统计学的定义及应用
围绕数据的科学
收集-处理-分析-解释
数据的直接来源有 调查 和实验
开源数据抓取,非开源数据爬取
描述性统计分析
分布特征描述分析
推断性统计分析
根据样本推断整体的估计和检验
4.1.2统计学的基本概念.
总体和样本
参数和统计量
参数指总体某个特征
统计量指样本某个特征
在研究全国成年男性的平均体重的问题时,下列说法正确的是() A全国成年男性的平均体重’为总体统计量,常用希腊字母μ表示 B全国成年男性的平均体重为总体参数,常用英文字母s表示 C全国成年男性的平均体重为样本统计量,常用希腊字母μ表示 D全国成年男性的平均体重为总体参数,常用希腊字母μ表示 参考答案 正确答案:D你的答案:A题目解析 参数是指总体的某个特征,而统计量是样本的某个特征,总体参数一般用希腊字母μ表示,样本统计量般用英文字母s表示
主要特征
比例
均值
方差(标准差-开方后)
某部门员工的每天办公时长X(以小时计时)服从正态分布,现测得6名员工的某天办公时长如下:9、10、6、7、8.3、7.7。 计算该样本的均值AVERAGE=8 计算该样本统计推断的标准差STDEV.S=1.43 计算变异系数(或称离散系数)STDEV/AVERAGE=0.18 计算该样本统计推断的方差VAR.S=2.036 题目要求计算样本标准差、方差,因此需要减去一个自由度。即分母取6-1=5
数据的概括性度量分集中趋势、离散程度、偏态、峰度的度量,下列属于描述性统计中,用来度量离散程度的有()。 A标准差 B协方差 C四分位差 D异众比率 参考答案-------------------------------------------- 正确答案:A,CD你的答案:A.B,CD 题目解析 协方差是度量相关性的。
次要特征
容量
标准差系数
变量与数据
变量
特征
数据
按表达
定性
定量
按搜集
调查
实验
按时间
横截面
时间序列
混合截面
面板
数据等级
分类数据
顺序数据
数值数据
由低到高
低级可被高级用
高级方法不可用于低级
4.2数据的描述性统计分析
4.2.1集中趋势的描述
分类数据的集中趋势
众数
特征
不受极端值影响
不唯一性
(复合题)销售A、B、C、D、E5种型号的加湿器共20台,销售记录如表4-19所示。 表4-19加温器销售记录,加湿器型号这一列变量的众数是0。 A 7 B A型 C C型 D 5 参考答案---------------------------- 正确答案:C你的答案:A 题目解析 加湿器型号这列变量是类别型变量,对于类别型变量我们可以用众数进行集中趋势的描述,需要先对各个类别进行频数统计。其中,A型加湿器销售了5台,B型加湿器销售了2台,C型加湿器销售了7台,D型加湿器销售了3台,E型加湿器销售了3台。其中销量最多的是C型加湿器,所以C型是众数。
顺序数据的集中趋势
二分位数
也叫中位数
特征
不受极端值影响
离差绝对值之和最小
在进行缺失值填补时,若数据呈明显的偏态分布,则可考虑采用下列哪种方法?0 A将存在缺失值的样本删除 B将存在缺失值的变星删除 C中位数填补 D均值填补 参考答案--------------------- 正确答案:C你的答案:A 题目解析 中位数不受具体数据分布的影响。
四分位数
下四分位数
中位数
上四分位数
(多选题)数据的描述性统计分集中趋势、离散程度、分布形态的描述,下列属于描述性统计中集中趋势度量的有0。 A均值 B众数 C四分位差 D极差 参考答案------------------------------ 正确答案:A.B你的答案:A,B,C 题目解析 C、D选项都是描述数据离散程度的。
数值数据的集中趋势
平均数Average,均值Mean,期望Expect 是一个
算数平均数
未分组简单算数平均数
分组加权算数平均数
特征
最常用,默认使用
易受极大值的影响(2nd Max)
离差之和等于零
离差平方和最小
调和平均数
常用于跟时间相关的效率和速度的计算,倒数的算数平均数的倒数
常用于效率问题研究
极易受极小值影响(Min)
未分组简单
分组加权
几何平均数
数据乘积的个数方根
常用于比率问题研究
会受极端值影响,但影响一般,极大和极小差不多 (Normal)
未分组简单
分组加权
平方平均数
数据平方的平均数的平方根
常用于长度距离问题的研究,如向量长度,空间中点与点的距离等
极易受到极大值的影响(Max)
未分组简单
分组加权
4.2.2离数程度的描述
分类数据的离散程度
异众比率
非众数的频数/总数居个数
特性
不受极端值影响
越大,众数代表性越差
顺序数据的离散程度
极差
也称范围Range=MAX-MIN
特性
最简单,也最容易受极端值影响,不常用
极差越大,越分散
四分位差
上分位数与下分位数的差
特性
不受极端值的影响
局部指标,只描述中间50%的离散性,即Range
四分位差是一组数据的上四分位数与下四分位数之差,下面选项错误的是 A.四分位差受极端值的影响 B.四分位差是一个局部指标,衡量了处于50%数据的离散程度 C.四分位差越大,说明处于中间50%数据越分散 D.顺序数据适合用四分位差来度量离散程度 正确答案:A,你的答案:D回答错误 解析:四分位差不受极端值影响
数值数据的离散程度
平均差
数据与平均数的离差的绝对值的平均数
未分组简单
分组加权
性质
全面测量数据,越大越分散
容易受极端值的影响
用于绝对值损失函数
因为计算用到绝对值,导致数学性质较差,实际中较少使用
方差、标准差
方差是数据与算数平均数的离差的平方的算数平均数
标准差是方差的平方根
总体
未分组简单
分组加权
样本
未分组简单
分组加权
样本的分母是n-1的原因是由于自由度限制,数据总数-不等价约束条件的个数
特征:
方差越大,数据越分散
也会受极端值的影响
在平方损失函数中用到的就是方差
离散系数
也称变异系数
平均差系数
平均差/算数平均数
标准差系数
标准差/算数平均数
性质:
测量相对离散程度,不同组数据间的比较
可以消除数据水平和计量单位不同对离散程度的影响
4.2.3分布形态的描述
偏态
数据分布的偏斜程度
方法一
方法二 皮尔逊偏态系数
未分组
分组加权
性质
SK=0,对称分布;SK>0为正偏(右偏)尾巴在右边,峰在左;SK<0为负偏(左偏)尾巴在左,峰在右
正负0-0.5低度;正负0.5-1中度;正负>1高度偏态
比较
对称分布
左偏分布
右偏分布
(多选题)数据分布有右偏左偏之分,关于右偏分布,下列说法正确的是0。 A偏度系数小于0 B均值小于中位数,中位数小于众数 C偏度系数大于0 D均值大于中位数,中位数大于众数 参考答案 ---------------------- 正确答案:C.D 题目解析 如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则众数<中位数<平均数。
峰态
数据分布的尖峰扁平程度
未分组
分组
性质
K=0,适中与标准正态分布近似
K>0,尖峰分布
K<0,扁平分布
4.2.4描述性统计图表
整理数据的重要工具-统计表
频数分布表
频数
频率
累计频数
累计频率
展示工具-统计图
饼图-常用于结构分析
条形图-常用于对比分析
帕累托图-大到小二八原则
直方图-常用于观察数据的分布形态
箱线图-常用于观察数据分布特征
盒须图:最大,上四分,中位,下四分,最小
盒须图(箱线图)是利用数据中的5个统计量来描述数据的一种方法,适用于对几个样本数据的比较。在箱线图中Q1到其最近的内限距离为()。 A IQR B.1.5IQR C.0.5 D.0.75 正确答案:B,你的答案:A回答错误 解析:我们看到的这两个T形的盒须就是内限。上面的T形线段所延伸到的极远处,是Q3+1.5IQR(其中,IQR=Q3-Q1)与剔除异常值后的极大值两者取最小,下面的T形线段所延伸到的极远处,是Q1-1.5IQR与剔除异常值后的极小值两者取最大。

关于箱线图,说法错误的是() A.箱体上端为该组数据的上四分位数 B.箱体下端为该组数据的下四分位数 C.箱体中间的线为该组数据的平均值 D.箱体的高度,是四分位差 正确答案:C,你的答案:D回答错误 解析:C箱体中间的线为该组数据的中位数,不是均值
关于箱线图的描述,下列说法正确的是() A.箱线图中顶端和底端的两条线分别表示全部数据中的最大值与最小值 B.最顶端和最底端线段中间的距离表示四分位差 C.上下四分位数之间的的高度反映了中间50%数据的集中程度 D.中位数越靠近上四分位数,说明中间50%的数据中的后半部分越分散 正确答案:C,你的答案:D回答错误 解析:箱线图中最顶端和最底端的两条线表示去掉异常值后的最大值和最小值;四分位差表示的是上下四分位数之间的距离,反映了中间50%数据的集中程度;中位数越靠近上四分位数,说明中间50%的数据中心前半部分越分散
下图表中,适用于展示连续型数据的数据分布情况的是() A.条形图 B.饼图 C.直方图 D.箱线图 正确答案:C,D,你的答案:A,C回答错误 解析:条形图和饼图常用于展示离散型数据的情况,直方图和箱线图均可以展示连续型数据的情况
线图-常用于描述变量的时间序列变化
散点图-常用于描述变量间的相关关系
一般情况下:表头在上,图头在下
4.3常用的数据分布.
常用概念基础
随机试验
概率
P(X)~[0,1] 含义是事件X的概率值范围从0到1
常记
离散随机变量X
取值为
对应概率
连续性随机变量X
取值为
对应的概率密度
期望
也成平均数、均值,表示集中趋势
离散型随机变量
连续型随机变量
方差
表示随机变量的离散程度
离散型
连续性
4.3.1两点分布与二项分布
两点分布
两个对立随机事件的一次分布
二项分布
将两点分布的试验独立重复进行多次,其结果服从二项分布
伯努利分布,B指伯努利试验
n次中X的结果为k的概率
已知随机变量X服从二项分布X-B(n,p),且E(X)=2,D(X)=1,则P(X=3)=() A.1/4 B.1/3 C.3/8 D.1/2
4.3.2正态分布与标准正态分布
正态分布
也叫常态分布,高斯分布,是一个连续性分布
概率密度函数
分布函数
P(a<X<b)区间的概率分布函数
性质
概率密度函数在x轴的上方,即f(x)>0
最高点对应的x为μ,也是中位数和众数
正态分布是一个分布族,每个特定正态分布通过期望μ和方差σ²区分
曲线对于期望μ对称
正态曲线下的总面积(概率)等于1
标准正态分布
取正态分布中的μ为0,方差σ²=1
密度函数
分布函数
性质
最高点对应的x在期望0处
对于0对称,y轴对称
分布是唯一的,确定的,对称轴确定,宽度也确定
常用计算对X~N(0,1)
P(X≤2)=Φ(2)
P(X>2)=1-P(X≤2)=1-Φ(2)
P(X<-2)=P(X>2)=1-P(X≤2)=1Φ(2)
P(1<X≤2)=P(X≤2)-P(X≤1)=Φ(2)-Φ(1)
P(|X|<2)=P(-2<X<2)=P(X<2)-P(X<-2)=P(X<2)-P(X>2)=P(X<2)-(1-P(X<2))=2P(X<2)-1=2Φ(2)-1
正态分布转化为标准正态分布
假如X~(1,4),那么
均值μ正负1个σ,即P(μ-σ<X<μ+σ)=2Φ(1)-1=0.6826,即68.26%
均值μ正负2个σ,即P(μ-2σ<X<μ+2σ)=2Φ(2)-1=0.9544,即95.44%
均值μ正负3个σ,即P(μ-3σ<X<μ+3σ)=2Φ(3)-1=0.9974,即99.74%
4.3.3 χ²分布
卡方分布
n个随机独立变量,都符合标准正太分布,则它们的平方和服从自由度为n卡方分布
特点
卡方分布是平方和,故其变量值始终为正
分布形状取决于自由度n的大小,通常为不对称正偏分布,极限n,是对称的正态分布
卡方分布的期望E=n,方差Var=2n
可加性
若X~N(0,1) 则 χ²~χ²(1)
总体为正态分布N(μ,σ²) 则 样本 (n-1)s²/σ²~χ²(n-1)
应用
卡方常用于含离差平方和的研究,如方差的估计,方差的假设检验,列联分析
可以分析分类变量的相关性
(多选题)如果想分析分类变量之间的相关性,可以采用以下哪种方法0。 A 卡方检验 B t检验 C 计算皮尔逊相关系数 D 计算列联相关系数 参考答案----------------- 正确答案:A.D 题目解析 B、C选项只能用来分析数值型变量,分类变量用不了这两种方法。
4.3.4 t分布.
学生氏分布
t分布由标准正态分布X和卡方分布Y来定义
某手机电池生产商对电池的生产工艺进行了改进,并对外宣称改进后的电池能够显著的提高手机待机时间,为了检验该改进工艺是否有效,我们将进行t检验。通常在t检验之前我们首选需要进行() A.工艺改进前后的数据相关性分析。 B.使用线性回归,检验工艺改进对待机时间的影响。 C.进行F检验,判断两个总体的方差是否存在显著差异。 D.使用卡方的独立性检验查看工艺改进与待机时间是否相关。 正确答案:C,你的答案:D回答错误 解析:t检验之前先要F检验,判断方差是否有显著差异。
特点
当n≥2时,E(t)=0,当n≥3时,Var(t)=n/(n-2)
n增加,t分布接近标准正态分布,实际n≥30,已经非常接近了
应用
小样本需要用t分布,大样本t接近标准正态所以也可以用
4.3.5 F分布
费希尔(Fisher)分布
用卡方来定义
特点
期望E=n/(n-2),n>2 ; 方差Var=2n(m+n-2) / m(n-2)(n-4),n>4
F分布的p分位数
若t~t(n),则t²~F(1,n)
同一正态总体N(μ,σ²)的两个独立样本方差s₁²和s₂²的关系是:s₁²/s₂²~F(n₁-1,n₂-2)
应用
F分布广泛应用在离差平方和的比较问题中,比较中用除法结果会服从F分布
在方差分析,回归方程的显著性检验中都应用F分布
4.3.6分位点的概念
分布中某点的右侧面积为α分位点
分位点是根据右侧面积(概率)来确定X的值
分布函数是根据X的值来确定左侧的面积(概率)
标准正态分布的分位点
计算方式
右侧面积为α,左侧面积为1-α
找到面积1-α,对应的X的值就是Z
4.4 相关分析
变量关系分析包括
关系存在性研究
关系程度大小研究
相关性分析
关系方向的研究
关系形式的研究
关系传递的研究
4.4.1相关分析的含义
按强弱划分
函数关系
相关关系
没有关系(独立)
按形式划分
线性关系
非线性关系
二次函数
对数形式
指数形式
正弦函数形式
按照变量数量来划分
简单关系
一对一
多重关系
一对多
多对多
4.4.2简单线性相关关系的描述.
散点图
自变量
因变量
4.4.3简单线性相关关系的度量.
Pearson相关系数
要求两个变量都是数值数据
总体
样本
r的特点
相关系数的取值范围是[-1,1],0以下负相关,0及以上正相关
r=1完全正相关,r=-1完全负相关
r越趋于1表示相关越密切,r越区域0表示相关也不密切
r=0表示不存在线性相关关系,但不能说明没有关系,可能有其他非线性相关关系
一家企业科研投入与专利产出的相关性描述,根据表格信息r=0.03,显著性0.76,下列选项中正确的是() A 专利产出与科研投入高度线性相关 B 专利产出与科研投入线性相关性不显著 C 专利产出与科研投入存在线性相关性,但是相关性较弱 D 加大科研投入就能够提高专利的产出 参考答案---------------------------- 正确答案:B你的答案:C题目解析 相关性是只有0.03,且其P值很大,所以是不显著的。
Spearman等级相关系数
针对两个顺序数据衡量其相关程度
d被观测的两个变量的等级差值,若有并列等级,取并列的总等级的平均值,如2人并列第2,计2人都是第2.5名,n为样本容量
r的特点同pearson相同
列联分析
针对分类数据计算相关关系
使用相关系数是注意的问题
相关系数是对等衡量x和y的,两者互换不影响系数大小
相关系数只反应线性相关程度,不反应因果关系
Level II介绍相关系数的显著性检验和假设检验
4.5本章练习题
第5章多维数据透视分析
5.1多维数据模型
5.1.1多维数据模型概述
搭建的过程叫建模,另一类建模是数学模型建模
5.1.2多维数据模型创建方法
“*”代表多表
某零售企业数据库中产品表与品牌表的对应关系是()。 A 多对一 B 一对一 C 多对多 D 一对多 参考答案-------------------------- 正确答案:A 你的答案:B 题目解析 一个品牌下有多种产品,所以选A。
“1”代表一表
连接线中间的箭头代表筛选器
单向筛选器
双向筛选器
一表出维度是附表
多表出度量是主表
一对一很少出现,也没必要
横向合并两表时不太可能遇到的连接关系是 A.一对一 B.一对多 C.多对多 D.多对一 正确答案:A,你的答案:C回答错误 解析:一对一指的是两表具有相同主键,在数据库中基本不会出现这种情况,所以答案是A
多对多会实际出现,但要避免
2)若零售表与店铺日目标表相连,下列说法错误的是? A.可以建立连接关系,对应关系是多对多 B.可用公共字段不止一个 C.两表建立连接关系后,汇总计算结果没有实际参考意义 D.可以建立连接关系并汇总求值使用 正确答案:D,你的答案:C回答错误 解析:多对多的连接关系,汇总求值时会出现重复计算的问题

4)店铺表左连接店铺日目标表,对应关系是? A一对一 B一对多 C多对多 D多对一 参考答案 正确答案:B你的答案:C 题目解析 店铺表和店铺日目标表的公共字段是店铺id,店铺表是一,店铺日目标表是多
类型一规则
维度字段下的度量值汇总规则,同数据透视表
类型二规则
维度字段合并同类后包含的不同的公共字段作为筛选依据,以不同公共字段汇总度量值
连接模型
星型模型
一个事实表和多个维度表相连
分析为某电商销售情况,使用订单表、产品表与客户表搭建了多维数据模型,在这三表间进行多维透视分析时,以下选项中描述正确的是()。 A三表生成星型模型连接 B三表生成星座模型连接 C三表生成雪花模型连接 D三表生成交叉模型连接 参考答案--------------------- 正确答案:A 你的答案:B 题目解析 一个事实表连接两个维度表是星型模式,所以选A。
雪花模型
维度表和其他维度表连接,再与事实表连接
星座模型
多个事实表与某个维度表连接
(1)订单表与订单提成表都是用来记录交易行为的数据表,从图5-26中判断订单表与订单提成表间的连接关系是()。 A 雪花模型 B 星型模型 C 交叉连接 D 星座模型 参考答案----------------------------- 正确答案:C 你的答案:D 题目解析 从订单表到订单提成表有多条筛选路径,所以是交叉连接,选C。
1)若将这四张表建立多维分析模型,属于哪一种模式? A.星座模式 B.星型模式 C.星座模式+星型模式 D.无法建立连接 正确答案:C,你的答案:B回答错误 解析:一个事实表与多个维度表相连是星型模式;多个事实表共用某个维度表是量元模式

5.2 5W2H思维模型
5.2.1 5W2H思维模型概述
What 分析对象是什么
Why 为什么分析
Where 分析的空间维度是什么
When 时间维度是什么
Who 分析的参与角色有谁
How much 分析的度量是什么
How to do 结果决策如何
了解了主要分析维度后再进一步落实到具体的数据表及数据字段时就可以使用哪种思维方法帮助理清线索? A.业务流程分析 B.帕累托分析 C.因果分析 D.5W2H分析 正确答案:D,你的答案:C回答错误 解析:5W2H是一种从梳理业务线索落实到具体数据中的思维分析方法。
5.2.2 5W2H思维模型应用案例.
销售漏斗模型
潜在
接触
意向
明确
投入
谈判
成交
5.3多维数据透视分析应月案例
5.3.1业务场景介绍
人货场
根据上图各表字段内容及连接关系判断,上图反映的业务模块是 A.进销存 B.人货场 C.流量、转化、客单价 D.以上都不是 正确答案:B,你的答案:A回答错误解析:上图描述的是服装电商中人货场的业务场景,所以选B

某电商平台为分析人货场业务模块情况搭建了多维数据模型,在模型中,以订单号+产品号为主键的订单详情表应连接人、货、场中哪个业务模块下的数据表 A.人 B.货 C.场 D.以上都不对 正确答案:B,你的答案:C回答错误 解析:B,订单详情表精确到产品,所以可用来连接货
在“人货场”的业务模块下,有可能成为描述“场”的情况的相关数据表是 A.订单表 B.订单详情表 C.客户详情表 D.区域表 正确答案:A,B,你的答案:A,B,D回答错误 解析:“人货场中的“场”指的是与交易行为相关的业务模块,所以AB是正确选项
进销存
5.3.2案例设计制作过程
先通过5W2H思维模型梳理出数据范围
5.4本章练习题
第6章业务分析方法
6.1业务指标分析
指标与指标值
指标是某种观测或行为的数值量化方法
业务指标-销售额合计
财务指标-营业收入
指标分析是业务描述性分析中观测业务行为结果的重要方法,以下关于指标的概念描述正确的是 A.指标间可组合成为新指标 B.指标需与统计维度结合使用 C.指标可以描述财务行为的结果 D.指标可以描述业务行为的结果 正确答案:A,B,C,D,你的答案:A,B,D回答错误 解析:四项均正确
根据量化对象是业务行为结果还是财务行为结果,可以将指标分为业务指标及财务指标两大类,以下说法正确的是? A财务指标是按照财务规则来对财务情况进行量化的指标 B业务指标是按照业务规则来对业务情况进行量化的指标 C业务指标需要按照业务行为量化要求灵活定义 D财务指标需要按照财务行为量化要求灵活定义 参考答案 正确答案:A.B.C你的答案:A.B.C,D 题目解析 财务是一种通用的商业语言,财务指标具有严格的定义标准。
指标具体量化计算后的数值结果就是指标值
1000万元
透视维度逻辑下的
指标=度量+汇总规则
所有产品的销量总计
指标值=维度+度量+汇总规则
不同产品的销量合计
上表每行记录的业务意义是 A.访问来源的指标情况 B.访问渠道的指标情况 C.访问来源不同日期的指标情况 D.访问渠道不同日期的指标情况 正确答案:C,你的答案:A回答错误 解析:表中数据的主键是访问日期+访问来源,主键是业务数据的记录单位,所以正确答案是C

6.1.1 通用指标计算方法.
求和类指标
常规求和
累计求和
注意点
累计求和一般跟顺序维度一起使用
求和指标的单位要一致
求和前对指标的正负逻辑作确认或转换,如收入为正,支出为负
计数类指标
常规计数
非重复计数
比较类指标
均比计算
均比差异=汇总值-总平均值
注意
总平均多以算数平均为主,受极端影响大,因此样本差异大时,不好用
外部因素干扰,均比无法反应本身能力水平
基准比计算
基准比差异:汇总值-基准值
注意
基准值应被广泛认可和权威制定
外部因素干扰,基准比也无法反应本身能力水平
标准比计算
标准比差异值:汇总值-标准值
注意
标准值所取的标准维度项应具有发挥稳定的特征,波动大,其他观测维度无法被标准维度评估
环境等影响,对标准维度和其他维度项的影响要相同
目标比计算
目标比差异:汇总值-目标值
目标完成率:汇总值/目标值x100%
注意
可以设计不同维度各自的目标,回避外部环境影响
设计要多方考虑,保证公平合理
销售人员的业绩表现直接影响企业的盈利水平,以下可以用来描述销售人员业绩情况好坏的指标是 A.目标完成率 B.目标比差异百分比 C.均比差异百分比 D.标准比差异百分比 正确答案:A,B,你的答案:A,B,D回答错误 解析:使用对比类指标,计算方式可以使用百分比或者差异百分比
同环比计算
同比:当期-同期
环比:当期-上期
注意
适用于长周期业务行为,时间太短没意义
注意大环境因素的影响和干扰
短周期影响的用同比,没有影响的可以用环比
同环比是业务描述性分析中针对时间维度使用的重要指标,以下选项中不适用于做同环比的是 A.日销售额 B.年产量 C.季度净利润率 D.月毛利率 正确答案:A,你的答案:B回答错误 解析:A选项指标汇总周期太短,不适用于同环比,同环比指标应满足长周期,高汇总的特点,所以选A
为某IT综合服务商销售人员绩效应使用的对比方式是 A.基准比 B.标准比 C.均比 D.同环比 正确答案:D,你的答案:C回答错误 解析:销售绩效可以用同环比或目标比等,前三个选项不适用于销售绩效,所以应选D
销售人员的业绩表现直接影响企业的盈利水平,以下可以用来描述销售人员业绩情况好坏的指标是 A.同比增长率 B.目标比差异百分比 C.均比差异百分比 D.标准比差异百分比 正确答案:A,B,你的答案:B,C,D回答错误解析:销售人员绩效过程中可以自己和自己进行同环比也可以和目标作对比,其余对比方式不适用于对销售人员业绩情况进行评估描述,所以AB是正确答案
6.1.2 场景指标
客户分析类指标
客户生命周期类指标
新增类
数量类
新增注册会员数
新增访客数
访客数UV,新增访客数指新注册的访客
某电商某日某渠道各不同阶段人数统计结果: 进入首页|1000查看商品页|700加入购物车|500完成支付|100 (1)当日UV是多少?() A 1000 B 700 C 500 D 无法计算 参考答案---------------------------------- 正确答案:A 你的答案:A 题目解析 UV是当日到店人数统计,进入首页即到店,所以选A。
新增到店
新增下载
质量类
新增活跃用户数
新增活跃用户数占比
新增活跃/新增
新增注册用户数(占比)
新增付费用户数(占比)
新增XX用户数(占比)
留存类
单位时间留存人数
3日留存
30日留存
年留存
单位时间留存率
在电商运营业务中描述客户质量好坏程度时使用的指标是()。 A登录用户数 B注册用户数 C留存率 D浏览用户数 参考答案--------------------------------------- 正确答案:C 你的答案:B 题目解析 C是正确答案,其余选项是客户属性的统计结果,与客户质量好坏程度无关。
活跃用户数
DAU
WAU
MAU
沉默用户数
其他属性的留存
会员
复购用户
高价值用户
(复合题)某电商企业为实现业务增长需要对流量进行分析,请回答以下关于流量分析的相关问题。 (1)在该电商企业中,一般不划归在流量分析任务中的行为是()。 A了解流量渠道特征 B了解引流行为效果 C了解流量人群特征 D了解流量付费情况 参考答案---------------------------------------------- 正确答案:D 你的答案:C 题目解析 对流量付费情况的分析应归属于转化阶段的分析任务,所以是错误的,所以选D。
流失类
单位时间流失人数
3日流失
30日流失
年流失
单位时间流失率
单位时间流失召回人数
单位时间流失召回率
留存率曲线
客户行为类指标
浏览量PV
pages 店铺页面总浏览数量,越大反应粘性越强,关注度越高
某电商某日某渠道各不同阶段人数统计结果: 进入首页|1000查看商品页|700加入购物车|500完成支付|100 (2)当日PV是多少?() A 2300 B 1000 C 1300 D 无法计算 参考答案------------------------------- 正确答案:D你的答案:A 题目解析 PV是浏览量,以上数据无法统计计算,所以选D。
访问数
Visits 到达到离开算1次,越大说明用户对店铺越有兴趣
某电商某日某渠道各不同阶段人数统计结果: 进入首页|1000查看商品页|700加入购物车|500完成支付|100 (2)当日Vistis是多少?() A 2300 B 1000 C 1300 D 无法计算 参考答案------------------------------------------ 正确答案:D 你的答案:D 题目解析 Vistis是浏览次数,一进一出即一次流量,以上数据无法统计计算,所以选D。
平均访问深度
浏览量/访问数 = pages / visits
即一次访问行为中浏览的平均页面数,越大说明用户越喜欢店铺的内容
跳失次数
点开页面直接关闭页面
跳失率
跳失次数/访问数,说明无效访问的占比
其他触点统计
跳转次数
停留时长
访问间隔
评论量
付费转化率
退货率
...
客户价值类指标
收入类
客单价
用户生命周期价值LTV
用户平均收入APRU
总收入/总用户数
成本类
用户获取成本CAC
CPM 千次曝光收费
CPS 实际销售收费
CPC 点击次数收费
客户运营成本
促销
福利
产品分析类指标
进货类
进货额
进货量
订单平均进货量
订单平均进货额
缺货量
缺货率
缺货量/预期采购数量
到货平均时长
准时交货率
准时交货次数/接单总次数
到货损毁率
订单满足率
...
库存类
库存数量与金额
时点值
时间内的平均值
业务指标:总数(总金额)/天数,如库销比
财务指标:(期初+期末)/2,如存货周转率,存货周转天数等
存货周转率
主营业务收入(成本)/存货平均余额
分析目的是短期偿债能力,分子用主营业务收入
分析目的是存货管理水平,分子用主营业务成本
存货周转天数
单位时间天数(如365)/存货周转次数
库销比
平均库存金额或期末库存金额/总销售金额
DOI/DOS
安全库存
动销天数
某电商平台进行分析时,不能直接描述商品销售情况好坏的指标是 A.库存周转率 B.库销比 C.动销金额 D.动销天数 正确答案:D,你的答案:C回答错误 解析:D是正确描述,动销天数用来辅助描述销售行为的风险程度而不是好坏程度
SKU,SPU
某电商平台使用SKU与SPU来衡量不同产品,以下描述中属于SPU的是 A.可口可乐整箱装 B.饮料 C.可口可乐零度500ml*24 D.可口可乐 正确答案:A,你的答案:D回答错误解析:A是正确描述,SPU是商品的品类细分,比大品类细,比具体商品粗
销售类
售前
产品曝光人数
产品曝光次数
产品搜素次数
产品点击次数
产品收藏次数
售中
产品销量,销售额
售罄率
销售件数/进货件数
产品毛利额,毛利率
产品浏览付费转化率
产品付费次数/产品浏览次数
产品询价购买率
销售次数/被询价次数
点击付费转化率
复购率
售后
发货数量
退货数量
损毁率
退货率
投诉件数
召回件数
业务分析类指标
客户拜访次数
接通率
回访次数
引导客户注册人数
广告投放数
效果(绩效)分析类指标
资产使用效率
除存货资产外的各类资产周转率
主营业务收入或成本/资产平均余额(不含存货)
投入产出比
总收入/投入总成本
坪效
销售额/营业面积
店销
屏销
翻台率
上座率
员工绩效水平
非销售岗位
业务员工绩效评分
出勤率
满意度
销售岗位
销售目标完成率
连带率
产品销售数量/成交单数
客户满意度
6.1.3指标体系.
指标体系概述
搭建指标体系
明确指标体系的服务对象是谁
明确指标体系的使用目的
明确指标体系所处的维度环境
常见使用树状指标体系
树状体系图用来描述指标间的逻辑构成关系,以下选项中不属于树状体系图中拆解上层指标依据的是 A.父子级构成关系 B.逻辑计算关系 C.数据连接关系 D.业务联系关系 正确答案:C,你的答案:B回答错误 解析:C,数据连接关系是数据表合并时使用的逻辑,与树状体系图无关
维度字段间的层级关系又称为字段间的父子级关系,以下满足父子级关系的字段是 A.月份与星期 B.省份与城市 C.订单与订单详情 D.品牌与产品 正确答案:B,C,D,你的答案:A,B,D回答错误 解析:A月份对应多个星期的同时星期也属于多个不同月份,所以两者间不具备父子级关系,其他选项(BCD选项)是正确选项
搜集指标数据
DB,ETL,DW
计算指标值
OLAP
分析指标值
OLAP,BI
6.2业务模型分析.
6.2.1分类模型
步骤
将核心业务目标拆解为多个不统独两周
使用平均值,中位数等将不同度量周分为多个不同区间
将业务对象的属性,行为结果等进行量化处理,将业务对象映射到不同区间进行分类
客户分类模型
用户贡献价值模型
客单价为x,购买频次为y
分区:高价值,中价值X2,低价值
RFM模型
三个指标
R,最近一次消费
F,消费频次
M,消费金额
M值高低划定重要,和一般
RF高高,为价值
重要价值,保持现状
一般价值,刺激消费
RF高低,为发展
重要发展,提升频次
一般发展,挖掘需求
RF低高,为保持
重要保持,用户回流
一般保持,流失召回
(1)结合图7-36与图7-37内容思考该公司一般保持用户的特点是()。 A即将流失 B贡献价值高 C已经流失 D以上都不对 参考答案-------------------- 正确答案:A 你的答案:C 题目解析 R与M值都低,说明用户贡献价值低,对店黏性差,即流失的风险高,所以选A。
RF低低,为挽留
重要挽留,重点召回
一般挽留,不再尝试
用户忠诚度模型
类似于RFM的三个指标
FM划分九区,低价值x3,普通x3,进阶x2,忠诚x1
低价值仅能维持成本,无法获利更多,重点看普通以上
R分三区:易流失,潜在,FM的九区
价值模型中,一般认为营销实现价值提升难度最小的用户群体是 A.大众会员 B.保值会员 C.进阶会员 D.忠诚会员 正确答案:B,你的答案:A回答错误 解析:价值模型中一般右上左下提升难度大,其余阶段随着贡献价值的升高提升难度会随之逐渐增大,所以选B

接前两题,如果要想办法针对一类人群进行有针对性的营销,应选择的人群是 A.大众会员 B.保值会员 C.进阶会员 D.忠诚会员 正确答案:B,你的答案:A回答错误 解析:综合提升难度及右侧人数占比判断,难度小,人数占比大的人群投入资金少,产生价值高,所以选B
1)此电商当前面对资金短缺及时间紧迫的情况,应选择哪类人员进行针对性营销效果较好? A忠诚用户 B进阶用户 C普通用户 D低价值用户 参考答案 正确答案:C你的答案:B题目解析 选择人数多且转化难度低的普通用户

产品分类模型
波士顿矩阵
销售增长率,市场占有率
明星,现金牛,问题产品,瘦狗
6.2.2漏斗模型
关系型销售模式
潜在,接触,意向,明确,投入,成交
粗细:容量,口的大小
斜率:转化效果
体型:节奏均匀稳定
流速:转化效率
为某教育培训企业评估销售行为推进力度好坏程度可以使用()。 A销售阶段周转化率 B销售目标达成率 C库存周转率 D成交金额环比增长率 参考答案--------------------------------- 正确答案:A 你的答案:B 题目解析 销售阶段转化情况适用于漏斗模型分析,用来描述推进力度。
漏斗模型用来掌握业务流程中个递进阶段情况,以下选项中漏斗模型不适用的选项是 A.状态递进力度 B.业务流程中的风险情况 C.各阶段业务行为效果情况 D.业务行为获利情况 正确答案:D,你的答案:B回答错误 解析:获利情况不是阶段递进过程,不适用于漏斗分析模型,所以选D
在销售过程分析中,针对商机进度情况进行管理分析常常使用过销售漏斗模型,此时应用漏斗模型的主要目的是对商机的 A.风险管控 B.分层定位 C.绩效管理 D.效果评估 正确答案:A,你的答案:B回答错误 解析:漏斗模型用于及时发现风险阶段,解决阶段风险,让尽可能多的商机过渡到更高阶段从而实现销售收入最大化的目的,所以选A
用户行为漏斗模型
浏览页面,加购,支付,支付成功
电商收入由黄金公式的3个指标构成,某电商企业急需解决现金流不足问题,在不考虑融资的情况下,应针对黄金公式中的()指标进行突破。 A流量 B转化率 C访问次数 D访问量 参考答案---------------------------------------------------------- 正确答案:B你的答案:A 题目解析 流量需要投入大量成本,在企业资金出现问题时,应优先解决黄金公式中转化率的问题。
“黄金公式”清晰地描述出电商企业收入的构成,在公式中最重要的指标是 A.转化率 B.购买频次 C.流量 D.浏览量 正确答案:C,你的答案:A回答错误 解析:C是正确描述,电商以流量为王,有了流量才能考虑剩下的转化率与客单价两个指标
AARRR
获取,激活,留存,获益成交,推荐传播
在各选项中,适用该电商AARRR模型使用的指标是 A.ARPU B.CRM C.MTD D.CVM 正确答案:A,你的答案:D回答错误 解析:ARPU是每用户平均收入,是评估AARRR模型效果的重要参考指标之一,所以选A,其余选项都与AARRR模型无关
6.3业务分析方法论
6.3.1 帕累托分析方法洁
二八分析法,帕累托图
递减的柱形图
递增的累计百分比
通过数据分析为某电商平台定位核心用户群体可以使用的分析模型是()。 A 5W2H B 帕累托分析 C 漏斗模型 D AB测试 参考答案-------------------------------------------- 正确答案:B 你的答案:C 题目解析 帕累托分析用于定位重点对象。
2)接上题,用哪种图表表现主要用户类别? A.堆积柱形图和堆积折线图的组合图 B.簇状柱形图和堆积折线图的组合图 C.堆积柱形图和折线图的组合图 D.簇状柱形图和折线图的组合图 正确答案:D,你的答案:B回答错误 解析:帕累托图是簇状柱形图和折线图的组合图

6.3.2 A/B测试分析方法
明确目的
明确对象和分组
明确内容和方案
结果分析和检验
6.3.3 同期群分析方法
同期群是对同一时间内的相同特征用户群组
同属性的几个不同期客户群的在时间轴下的观测比较
6.3.4 因果分析方法
鱼骨图
SEMMA
样本
探索
修订
建模
评估
数据分析方法论为分析项目提供了基础框架,以下不属于数据分析方法论的选项是 A.CRISP-DM B.SEMMA C.AB测试 D.UML 正确答案:D,你的答案:B回答错误 解析:前三个选项是常用的分析方法论,D选项UML是统一建模语言的缩写,不属于数据分析范畴
6.4本章练习题
第7章业务分析报告与数据可视化报表
7.1可视化分析图表
7.1.1业务图表决策树.
7.1.2比较类图表(横向对比).
实际与目标
油量表
圆环百分比
水滴图
对象之间对比
柱形图
水滴图
条形图
词云图
树状图
雷达图
度量值最好8个以内
相同属性挨着
同一单位
区域之间对比
染色地图
热力图
散点气泡
某公司下属多家门店,公司想要查看某个时间段内多个门店的客户满意度、客户回购率以及销售额的情况,合适的图是() A.箱型图 B.折线图 C.气泡图 D.散点图 正确答案:C,你的答案:D回答错误 解析:C选项中只有C气泡图可以表示三个维度的相关关系,所以正确答案为C选项
比较类图表主要用于在实际值与目标值之间、不同对象之间或者不同区域之间进行数值结果的对比分析,下列属于比较类图表的是? A.油量表 B.词云图 C.染色地图 D.面积图 正确答案:A,B,C,你的答案:A,B,C,D回答错误 解析:面积图属于序列类图表
7.1.3序列类图表(纵向)
折线图
面积图
柱形图
漏斗图
以下选项中能够划归于图形决策树中属序列类图表的是 A.漏斗图 B.桑基图 C.箱型图 D.饼图 正确答案:A,你的答案:B 解析:A,漏斗图描述状态阶段的顺序递进关系,属于序列类图表
7.1.4构成类图表
饼图
环形图
瀑布图
能够展现全年四个季度收入累计构成的瀑布图属于 A比较类图表 B序列类图表 C构成类图表 D描述类图表 参考答案----------------------- 正确答案:C你的答案:B 题目解析 不同的时间推移下一个完整的事项是由不同的阶段构成的,来描述各个构成阶段的分布情况的时候,也属于构成类图表,答案选C瀑布图。
堆积条形图
比较类图表种类最多,应用最广泛,下列哪种不属于比较类图表? A.油量表 B.圆环百分比进度图 C.堆积条形图 D.散点地图 正确答案:C,你的答案:D回答错误 解析:堆积条形图属于构成类图表。
图中提供了销售人员的销售数据,请根据数据回答以下内容: 2)上题选择的图表属于哪种类别? A.比较类 B.构成类 C.序列类 D.描述类 正确答案:B,你的答案:A回答错误 解析:堆积柱形图属于构成类图表

7.1.5描述类图表
直方图
箱线图
散点图
业务描述性分析中可视化图表可分为业务类图表及统计类图表两大类,关于统计类图表坐标轴特征描述正确的是 A.可以使用客户类别作为坐标轴 B.可以使用价格档位作为坐标轴 C.可以使用年份作为坐标轴 D.可以使用产品ID作为坐标轴 正确答案:B,你的答案:C 解析:B是正确描述,统计类图表如直方图、箱型图、散点图等,体现数值的分布特征,不能使用业务维度坐标轴
业务图形决策树将业务描述性分析中使用的图表分为了四个不同类别,包含在业务图形决策树中的图表类别是 A.仪表类 B.描述类 C.预测类 D.统计类 正确答案:B,你的答案:D回答错误 解析:B是正确描述,四类图表分别是构成类、对比类、序列类及描述类
7.2业务分析报表
7.2.1业务分析报表的分类与区别
静态图静态报表
商业智能报表BI
BI报表需要结合业务需求进行设计、分析、制作完成,在BI报表的设计阶段主要是将抽象的业务逻辑转化为具象的()的过程。 A数据 B可视化图表 C维度和度量 D切片器 参考答案----------------------------------- 正确答案:C你 的答案:B 题目解析 BI报表设计的核心内容是明确业务需求涉及的维度与度量。
(多选题)为决策者呈现分析结果时可以以BI报表的形式或者静态报表的形式呈现分析结果,那么BI报表与静态报表的区别主要是()。 A侧重业务面的完整描述 B动态信息展现 C以图表表格为主要展现形式 D基于多源数据环境制作 参考答案----------------------------------------- 正确答案:A.B,C,D你的答案:B.D 题目解析 4个选项全部属于两者的区别内容。
分析报表的主要作用是通过可视化图表的形式将各种分析结果完整、准确地呈现给阅读者,帮助阅读者读懂数据,从而进一步发现数据背后隐藏的业务问题。下列说法正确的是? A静态报表的主要载体是电子表格工具 BBI报表的数据源获取方式是应用 C目前市面上主流的BI工具包括Power BI、Tableau和Access DBI报表获取信息的主动权在报表使用者手中 参考答案 正确答案:A.D你的答案:A,CD 题目解析 BI报表的数据源获取方式是引用;Access是数据库软件
区别
数据源结构不同
数据源数量不同
分析侧重点不同,全面描述
普及程度不同
展示形式不同,图为主,表为辅
信息获取方式不同
7.2.2业务分析报表的创建方法
业务理解
数据搜集
5W2H
ETL
数据加工
数据分析
报表展示
7.3业务分析报告
7.3.1业务分析报告的分类.
Word
PPT
4)针对用户做一场专题分析汇报,需要制作一份报告,此报告的载体哪种比较合适? A.Excel B.Word C.PPT D.Power Bl 正确答案:C,你的答案:D回答错误 解析:商业分析报告用Word或者PPT,若还需演讲分享,则应用PPT
日常通报型
周期回顾型
周期回顾型报告主要回顾的是过去周期内业务行为结果的好坏程度,下列选项属于周期回顾型报告的是() A.2020年1月1日某网站网络上传、下载过程中信息包的损失情况 B.某公司2020年7月进行的半年财努分析 C.某电商平台“双11“商品促销活动的活动效果评估报告 D.某电商平台“618不同渠道用户人群的付费行为特征分析报告 正确答案:B,你的答案:C回答错误 解析:BA是对短周期内业务变化情况的实时监控,是日常通报型报告;C和D是针对某一个特殊主题进行的有针对性的总结,是专题回顾型报告,正确答案是B
专题回顾型
数据分析人员使用业务分析报告汇报分析成果,下列属于业务分析报告作用的是 A评估一段时期内业务的好坏情况 B发现合作机会 C检验业务的真实性 D以上都是 参考答案------------------------------- 正确答案:D 你的答案:A 题目解析 业务分析报告用于评估业务行为好坏情况、发现市场商业机会及合作机会、检验业务结果的真实性、发现问题及提出对问题的解决方案,所以ABC都正确,所以选D。
数据分析人员使用业务分析报告汇报分析成果,以下不属于业务分析报告调整完善阶段的是 A确定主题 B发现问题 C KPI指标分类分析 D 规划结构、提纲、主要内容 参考答案--------------------------------- 正确答案:A你的答案:C 题目解析 主题应在设计阶段确定。
7.3.2业务分析报告模写注意事项
条理清晰结构完整
论点明确
图、表、文字相结合
术语规范统一
减少不必要的主管推测
7.3.3业务分析报告案例1
7.3.4业务分析报告真例2.
第8章CDA职业发展
8.1CDA职业概述.
8.1.1CDA职业背景
8.1.2CDA系业特点
8.1.3CDA联业前景
8.2CDA认证简介.
8.2.1CDA认证标准.
8.2.2 CDA认证方式.
8.2.3CDA认证流程
8.2.4CDA认证证书
8.3CDA持证人与会员
8.3.1成为CDA会员
8.3.2CDA持证人权益
8.3.3年检和继续教育
附录A数据类型列表
附录B练习题答案及解析.
附录C名词解释.