导图社区 数据科学家技能图谱鱼骨图
数据科学家的主要需要技能,详细总共有10个部分,每个部分都有详细的需要技能,内容详细,下图从基础知识 5% 、编程 15% 、统计学 30% 、文本挖掘 50% 等方面做出总结,快收藏加关注不迷路哦!
干货分享!我对算法导论的目录进行了整理与总结,下图包括了 第一部分 基础知识 、 第二部分 排序和顺序统计量 、 第三部分 数据结构 、第四部分 高级设计和分析技术、第五部分 高级数据结构 等方面的知识,后续还会跟更新更多的知识点,快收藏加关注不迷路哦!
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。本思维导图介绍了人工智能的应用和学习方向,内容比较全面,值得好好学习!
社区模板帮助中心,点此进入>>
低质产品原因分析鱼骨图
单身原因鱼骨图
高中地理大气思维导图
教育机构的能源节约鱼骨图
淮南山南新区放松休闲轻徒步
视光部经营不善分析
自信鱼骨图
个人工作总结鱼骨图
学霸的八大学习环节
PMP变更鱼骨图
数据科学家
1、基础知识 5%
矩阵和线代基础
哈希函数、二叉树、大0计算
关系代数、数据库基础
内联接、外联接、交叉联接 o联接
CAP定理(一致性、可用、分区容错)
列表数据
Entropy
数据帧和数据序列
数据切分(分区、分表)
联机分析处理
多维数据模型
ETL(抽取、转换、加载)
报告 Vs 商业智能 Vs 分析
JSON&XML
NoSQL
Regex
Vendor Landscape
ENV Setup
3、编程 15%
Install Pkgs
Factor Analysis
函数
处理数据帧
选取数据子集
读取原始数据
读取CSV数据
数据帧
列表
类别因子
数组
矩阵
向量
变量
Rapid Miner
IBM SPSS
表达式
R基础
安装R
安装R Studio
Excel 的使用
Python基础
2、统计学 30%
选取一个数据集 (比如:UCI库)
描述统计学 (均值、中 位数、标准偏差)
探索性数据分析
直方图
百分位和异常值
概率论
贝叶斯定理
随机变量
累计分布函数
连续分布 (正态、泊松、高斯)
方差分析
概率分布函数
中心极限定理
蒙地卡罗方法
假设检验
假定值(p-value)
卡方检验
估计
置信区间
最大可能性估量
核密度估计
回归
协方差
相关性
波尔逊系数
因果关系
最小二乘拟合
欧几里得距离
4、机器学习 50%
机器学习是什么
数值变量
分类变量
有监督学习
无监督学习
概念、输入和属性
训练集和测试集
分类器
预测
Lift
过拟合
偏差和方差
树和分类
分类准确率
决策树
Boosting
朴素贝叶斯分类器
K近邻
逻辑斯特回归
线性回归
感知器
分类聚类
K均值聚类
神经网络
情感分析
协同过滤
打标签
词汇映射
子主题
5、文本挖掘 50%
文本分类
使用NLTK
使用Weka
使用Mahout
特征提取
购物篮分析
关联规则
支持向量机
词频和权重
文档矩阵
非结构化信息管理架构
文本分析
命名实体识别
语料库
6、可视化 40%
使用R探索数据(直方图、箱图等)
多变量可视化
ggplot2
直方图和饼图
树和树形图
散点图
线图
空间图表
调查绘制
时间轴
D3.js
infoVis
IBM ManyEyes
Tableau
7、大数据 60%
Map-Reduce基础
Hadoop组件
分布式文件系统
数据复制远离
安装Hadoop/Cloidera/HortonWorks
名称和数据节点
任务追踪器
Map-Reduce编程
Sqoop:从HDFS加载数据
Flume/Scribe:处理非结构化数据
SQL以及Pig
数据仓库以及Hive
日志系统 (Scribe、Chukwa)
Zookeeper Avro
Storm:实时 Hadoop
RHadoop:RHIPE
rmr (递归删除命令)
Cassandra数据库
MongoDB、Neo4j
8、数据提取 80%
数据格式概要
数据发现
数据源和数据采集
数据集成
数据融合
转换数据、丰富数据
数据调查
谷歌OpenRefine
多少数据?
使用数据仓库
9、数据规整 80%
正则化(标准化)
数据清理
处理缺失值
无偏差估计
合并稀疏值
去噪
抽样
分层抽样
主成分分析
10、工具箱 100%
Excel-Analysis ToolPak
Java、Python
R、R Studio 、Rattle
Weka 、Knime、RapidMiner
Hadoop
Spark、Storm
Flume、Scibe、Chukwa
Nutch、Talend、Scraperwiki
WebScraper、Flume、Sqoop
tm、RWeka。NLTK
RHIPE
D3.js、ggplot2、Shiny
IBMLanguagewre
Cassandra.MongoDB