导图社区 数据科学家技能图谱鱼骨图
数据科学家的主要需要技能,详细总共有10个部分,每个部分都有详细的需要技能,内容详细,下图从基础知识 5% 、编程 15% 、统计学 30% 、文本挖掘 50% 等方面做出总结,快收藏加关注不迷路哦!
编辑于2020-02-11 16:50:11数据科学家
1、基础知识 5%
矩阵和线代基础
哈希函数、二叉树、大0计算
关系代数、数据库基础
内联接、外联接、交叉联接 o联接
CAP定理(一致性、可用、分区容错)
列表数据
Entropy
数据帧和数据序列
数据切分(分区、分表)
联机分析处理
多维数据模型
ETL(抽取、转换、加载)
报告 Vs 商业智能 Vs 分析
JSON&XML
NoSQL
Regex
Vendor Landscape
ENV Setup
3、编程 15%
Install Pkgs
Factor Analysis
函数
处理数据帧
选取数据子集
读取原始数据
读取CSV数据
数据帧
列表
类别因子
数组
矩阵
向量
变量
Rapid Miner
IBM SPSS
表达式
R基础
安装R
安装R Studio
Excel 的使用
Python基础
2、统计学 30%
选取一个数据集 (比如:UCI库)
描述统计学 (均值、中 位数、标准偏差)
探索性数据分析
直方图
百分位和异常值
概率论
贝叶斯定理
随机变量
累计分布函数
连续分布 (正态、泊松、高斯)
方差分析
概率分布函数
中心极限定理
蒙地卡罗方法
假设检验
假定值(p-value)
卡方检验
估计
置信区间
最大可能性估量
核密度估计
回归
协方差
相关性
波尔逊系数
因果关系
最小二乘拟合
欧几里得距离
4、机器学习 50%
机器学习是什么
数值变量
分类变量
有监督学习
无监督学习
概念、输入和属性
训练集和测试集
分类器
预测
Lift
过拟合
偏差和方差
树和分类
分类准确率
决策树
Boosting
朴素贝叶斯分类器
K近邻
逻辑斯特回归
线性回归
感知器
分类聚类
K均值聚类
神经网络
情感分析
协同过滤
打标签
词汇映射
子主题
子主题
5、文本挖掘 50%
词汇映射
文本分类
使用NLTK
使用Weka
使用Mahout
特征提取
购物篮分析
关联规则
支持向量机
词频和权重
文档矩阵
非结构化信息管理架构
文本分析
命名实体识别
语料库
6、可视化 40%
使用R探索数据(直方图、箱图等)
多变量可视化
ggplot2
直方图和饼图
树和树形图
散点图
线图
空间图表
调查绘制
时间轴
决策树
D3.js
infoVis
IBM ManyEyes
Tableau
7、大数据 60%
Map-Reduce基础
Hadoop组件
分布式文件系统
数据复制远离
安装Hadoop/Cloidera/HortonWorks
名称和数据节点
任务追踪器
Map-Reduce编程
Sqoop:从HDFS加载数据
Flume/Scribe:处理非结构化数据
SQL以及Pig
数据仓库以及Hive
日志系统 (Scribe、Chukwa)
使用Mahout
Zookeeper Avro
Storm:实时 Hadoop
RHadoop:RHIPE
rmr (递归删除命令)
Cassandra数据库
MongoDB、Neo4j
8、数据提取 80%
数据格式概要
数据格式概要
数据发现
数据源和数据采集
数据集成
数据融合
转换数据、丰富数据
数据调查
谷歌OpenRefine
多少数据?
使用数据仓库
9、数据规整 80%
正则化(标准化)
数据清理
处理缺失值
无偏差估计
合并稀疏值
特征提取
去噪
抽样
分层抽样
主成分分析
10、工具箱 100%
Excel-Analysis ToolPak
Java、Python
R、R Studio 、Rattle
Weka 、Knime、RapidMiner
Hadoop
Spark、Storm
Flume、Scibe、Chukwa
Nutch、Talend、Scraperwiki
WebScraper、Flume、Sqoop
tm、RWeka。NLTK
RHIPE
D3.js、ggplot2、Shiny
IBMLanguagewre
Cassandra.MongoDB