导图社区 数据分析
数据分析报告是以数据为基础:发现问题、说明事实、给出建议;数据分析包括:论点(要解决的问题)、论据(分析思路)、论据(数据)。
社区模板帮助中心,点此进入>>
项目时间管理6大步骤
项目管理的五个步骤
电商部人员工作结构
暮尚正常运转导图
产品经理如何做好项目管理
车队管理
创业者10条创业经
创业十大思维误区
管培生课程作业
商业模型
数据分析
业务问题拆解
沟通业务、产品需求:描述清楚背景、预期、评价指标,预期是否能达成还受到现实情况制约,要依次捋清楚(产品经理一书)
数据获取
数据处理
特征标准化、归一化
z-score、max-min、L1\L2范数标准化
缺失值
平均值、众数、补零、模型预测等
异常值
聚类、异常点检测(孤立森林)、时间序列
类别型
one-hot编码、哑变量
数据不平衡
欠采样、过采样、Smooth采样
数据分析方法
方差分析:分类型自变量对数值型因变量的影响
多维度拆解
对比分析
假设检验
相关分析等等
数据可视化
pandas\pyecharts\matplotlib\power bi \tableau:数据分析自动化
特征工程
特征选择
过滤法
相关性、卡方检验、互信息(信息增益)等
包装法
根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征
嵌入法
先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小排序选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣
特征降维
PCA
LDA
因子分解
特征组合
加减乘除法组合各类特征
数据分布规整
数据是否符合正态分布
数据偏离较大,做异常处理;变换变量表达式 np.log1p
模型建立
线性回归
机器学习
Logistic Reggression
GBDT
损失函数负梯度做残差近似值,损失函数用姨阶泰勒展开
XGB
损失函数用二阶泰勒展开,精度更高,以及增加正则项防止过拟合
LGB
GOSS、EFB、直方图
Catboost
类别特征处理(TS:target statistic)、新增特征组合
SVM
Bayesian
深度学习
模型评估
回归
MAE、MAPE、wMAPE、MSE、 RMSE
分类
accuracy、recall、precision、F1、AUC、ROC
上线实验
A/B实验
三原则:随机性等(产品经理一书)
业务效果评价
数据分析报告
原则:现初步建立框架,完善初版再逐步更新迭代
参考:艾瑞传媒--公众号、行业报告库--小程序
行业数据分析报告:PEST
内部数据分析报告:
定期检测数据在某些指标异常波动
业务、产品经验感知的问题:针对表象定位问题、发现原因、解决问题
数据自由探索:行业分析、市场分析
公司财务、市场等定期业务指标报告
定义
以数据为基础:发现问题、说明事实、给出建议
数据分析包括:论点(要解决的问题)、论据(分析思路)、论据(数据)
完成方式
专题报考:总-分-总
PPT、图表、BI
算法工程师
业务数据分析师