导图社区 机器学习开发流程
python机器学习框架,机器学习开发流程. 1.首先获得原始数据. 2.然后明确问题建立模型:根据数据类型划分应用种类. 3.然后数据的基本处理,用pandas处理数据(缺失值,合并表
这是一篇关于机器学习开发流程的思维导图,讲述了获取数据、数据处理、特征开发、算法训练、模型评估、保存和加载模型等。
社区模板帮助中心,点此进入>>
安全教育的重要性
个人日常活动安排思维导图
西游记主要人物性格分析
17种头脑风暴法
如何令自己更快乐
头脑风暴法四个原则
思维导图
第二职业规划书
记一篇有颜又有料的笔记-by babe
伯赞学习技巧
机器学习开发流程
获取数据
scikit-learn:
from sklearn.datasets import load_* (小规模数据集)
from sklearn.datasets import fetch_* (大规模数据集)
kaggle、UCI
数据处理
数据集划分:
sklearn.model_selection.train_test_split(array,*options)
特征工程
特征抽/提取: sklearn.feature_extraction
字典特征提取:
sklearn.feature_extraction.DictVectorizer(sparse=True)
文本特征提取:
sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
CountVectorizer.fit_transform()
CountVectorizer.inverse_tyansform()
CountVectorizer.get_feature_names()
sklearn.feature_extraction.text.TfidfVectorizer
特征预处理:
无量纲化
归一化
sklearn.preprocessing.MinMaxScaler(feature_range=(0,1))
标准化
sklearn.preprocessing.StandardScaler()
特征降维
特征选择
过滤式:sklearn.feature_selection.VarianceThreshold(threshold=0.0)
相关系数取值范围:(-1,1)
嵌入式
主成分分析
PCA降维:sklearn.decomposition.PCA(n_components=None)
算法训练
转换器与预估器
转换器transfer-特征工程
预估器estimator-机器学习算法
模型评估
保存和加载模型
from sklearn.external import joblib
保存:joblib.dump(estimator,'xxx.pkl')
加载:estimator=joblib.load('xxx.pkl')
应用