导图社区 数据科学家路线
1.Fundamentals原理
Env Setup 环境安装
Vendor Landscape
Regex 正则表达式(Regular Expression)
NoSQL 泛指非关系型的数据库,意为Not Only SQL
JSON & XML JSON是一种轻量级的数据交换格式,易于阅读和编写,也易于机器解析和生成
Reporting vs BI vs Analytics 报表与商业智能与分析
ETL ETL是抽取(extract)、转换(transform)、加载(load)的过程
Multidimensional Data Model 多维数据模型
OLAP 联机分析处理(Online Analytical Processing)
Sharding 分片
DataFrames & Series Pandas数据结构
tabular data 列表数据
CAP Theorem CAP定理
Inner、Outer、Cross、Theta Join 内连接、外连接、交叉连接、θ连接
Relational Algebra 关系代数
Hash Functions,Binary Tree,O(n) 哈希函数,二叉树,时间复杂度
Matrices & Linear Algebra 矩阵和线性代数
2.Statistics 统计
Pick a Dataset(UCI Repo) 找数据(UCI数据集)
Descriptive Statistics(mean, median, range, SD, Var) 描述性统计(均值,中位数,极差,标准差,方差)
Exploratory Data Analysis 探索性数据分析
Histograms 直方图
Percentiles & Outliers 百分位数和极值
Probability Theory 概率论
Bayes Theorem 贝叶斯定理
Random Variables 随机变量
Cumul Dist Fn(CDF) 累计分布函数(Cumulative Distribution Function)
Continuos Distributions(Normal, Poisson, Gaussian) 连续分布(正态、泊松、高斯)
Skewness 偏度
ANOVA 方差分析
Prob Den Fn(PDF) 概率密度函数
Central Limit THeorem 中心极限定理
Monte Carlo Method 蒙特卡罗方法
Hypothesis Testing 假设检验
p-Value P值
Chi2 Test 卡方检验
Estimation 估计
Confid Int(CI) 置信区间
MLE 极大似然估计
Kernel Density Estimate 核密度估计
Regression 回归
Convariance 协方差
Correlation 相关性
Pearson Coeff 皮尔逊相关系数
Causation 因果性
Least2 fit 最小二乘法
Eculidean Distance 欧氏距离
3.Programming 编程
Python Basics Python基础知识
Working in Excel Excel干活
R Setup, RStudio R 安装R和RStudio
R Basics R的基础
Varibles 变量
Vectors 向量
Matrices 矩阵
Arrays 数组
Arrays 数组
Lists 列表
Data Frames 数据框
Reading CSV Data 读取CSV
Reading Raw Data 读取原始数据
Subsetting Data 构建数据集
Manipulate Data Frames 操作数据框
Functions 函数
Factor Analysis 因子分析
4.Machine Learning机器学习
What is ML? 机器学习是啥子哟
Numerical Var 数值变量
Categorical Var 分类变量
Supervised Learning 监督学习
Unsupervied Learning 非监督学习
Concepts, Inputs & Attributes 概念、输入和特征
Traning & Test Data 训练集和测试集
Classifier 分类
Prediction 预测
Lift Lift曲线
Overfitting 过拟合
Bias & Variance 偏差和方差
Trees & Classification 树分类
Classification Rate 分类正确率
Decision Tress 决策树
Boosting 提升方法
Naive Bayes Classifiers 朴素贝叶斯分类
K-Nearest Neighbour K近邻分类
Logistic Regression 逻辑斯谛回归,简称逻辑回归
Ranking 排序,PageRank
Linear Regression 线性回归
Perceptron 感知机
Hierarchical Clustering 层次聚类
K-means Clusterning K聚类
Neural Networks 神经网络
Sentiment Analysis 情感分析
Collaborative Fitering 协同过滤
Tagging 标签/标注
5.Text Mining / NLP
Corpus 语料库
NLTK-Data 自然语言工具包
Named Entity Recognition 命名实体识别
Text Analysis 文本分析
UIMA UIMA 是一个用于分析非结构化内容(比如文本、视频和音频)的组件架构和软件框架实现
Term Document Matrix 词-文档矩阵
Term Frequency & Weight 词频和权重
Support Vector Machines 支持向量机
Association Rules 关联规则
Market Basket Analysis 购物篮分析
Feature Extraction 特征提取
Using Mahout 使用Mahout
Using Weka Weka是一款免费的,基于JAVA环境下开源的机器学习以及数据挖掘软件
Using NLTK 使用自然语言工具包
Classify Text 文本分类
Vocabulary Mapping 词汇映射
6.Visualization数据可视化
Uni, Bi & Multivariate Viz 单/双/多 变量
ggplot2 R语言的一个经典可视化包
Histogram & Pie(Uni) 直方图和饼图(单变量)
Tree & Tree Map 树图和矩形树图
Scatter Plot (Bi) 散点图(双变量)
Line Charts (Bi) 折线图(双变量)
Spatial Charts 空间图,应该就是地图的意思
Survey Plot 图形探索
Timeline 时间轴
Decision Tree 决策树
D3.js 知名的数据可视化前端框架
IBM ManyEyes Many Eyes是IBM公司的一款在线可视化处理工具
Tableau 国外知名的商用BI
7.Big Data 大数据
Map Reduce Fundamentals MapReduce框架
Hadoop Components Hadoop组件
HDFS Hadoop的分布式文件系统
Data Replication Principles 数据复制原理
Setup Hadoop (IBM/Cloudera/HortonWorks) 安装Hadoop
Name & Data Nodes 名称和数据节点
Job & Task Tracker 任务跟踪
M/R Programming Map/Reduce编程
Sqoop: Loading Data in HDFS Sqoop是一个工具,用来将传统数据库中的数据导入到Hadoop中
Flue, Scribe: For Unstruct Data 2种日志相关的系统,为了处理非结构化数据
SQL with Pig 利用Pig语言来进行SQL操作
DWH with Hive 利用Hive来实现数据仓库
Scribe, Chukwa For Weblog Scribe是Facebook开源的日志收集系统Chukwa是一个开源的用于监控大型分布式系统的数据收集系统
Using Mahout
Zookeeper Avro Zookeeper,是Hadoop的一个重要组件,它被设计用来做协调服务的
Storm: Hadoop Realtime Storm是最新的一个开源框架
Rhadoop, RHipe 将R和hadoop结合起来2种架构
rmr RHadoop的一个包,和hadoop的MapReduce相关
Classandra 一种流行的NoSql数据库
MongoDB, Neo4j MongoDB是文档型NoSQL数据库Neo4j是最流行的图形数据库
8.Data Ingestion 数据获取
Summary of Data Formats 数据格式概要
Data Discovery 数据发现
Data Sources & Acquisition 数据来源与采集
Data Integration 数据集成
Data Fusion 数据融合
Transformation & Enrichament 转换和浓缩
Data Survey 数据调查
Google OpenRefine Google发布的开源的数据处理软件
How much Data 多大的数据
Using ETL
9.Data Munging 数据清理/数据转换
Dimensionality & Numerosity Reduction 维度与数值归约
Normalization 数据规范化
Data Scrubbing 数据清洗
Handling Missing Values 缺失值处理
Unbiased Estimators 无偏估计量
Binning Sparse Values 分箱稀疏值
Feature Extraction 特征提取/特征工程
Denoising 去噪
Sampling 抽样
Stratified Sampling 分层抽样
Principal Component Analysis 主成分分析
10.ToolBox工具箱
MS Excel / Analysis ToolPak 微软的Excel 后者是Excel自带的分析工具库
Java, Python 两种常见编程语言
R, R-Studio, Rattle R语言RStudio是R的IDE,集成了丰富的功能Rattle是基于R的数据挖掘工具,提供了GUI
Weka, Knime, RapidMiner Weka是一款免费的,基于JAVA环境下开源的机器学习以及数据挖掘软件KNIME是基于Eclipse环境的开源商业智能工具RapidMiner是一个开源的数据挖掘软件,提供一些可扩展的数据分析挖掘算法的实现
Hadoop Dist of Choice 选择Hadoop的哪个发行版
Spark, Storm Hadoop相关的实时处理框架
Flume, Scribe, Chukwa Flume是海量日志采集、聚合和传输的系统Scribe是Facebook开源的日志收集系统chukwa是一个开源的用于监控大型分布式系统的数据收集系统
Nutch, Talend, Scraperwiki Nutch是一个开源Java实现的搜索引擎Talend是一家专业的开源集成软件公司,提供各类数据工具ScraperWiKi是一个致力于数据科学领域维基百科网站,帮助个人和企业获得最专业的可视化数据,并支持对数据进行分析和管理
Webscraper, Flume, Sqoop Webscraper是网页爬虫Flume是海量日志采集、聚合和传输的系统Sqoop是Haddop套件
tm, RWeka, NLTK tm是R语言的文本挖掘包。 RWeka是R的软件包,加载后就能使用weka的一些算法NLTK是自然语言工具包
RHIPE R与Hadoop相关的开发环境
D3.js, ggplot2, Shiny Shiny是RStudio团队开发的一款在线网页交互可视化工具。可以将R语言作为半个BI用
IBM Languageware IBM的自然语言处理
Cassandra, MongoDB 2种NoSql数据库