导图社区 scikit-learn思维导图
scikit-learn是基于Python语言的机器学习工具,简单高效的数据挖掘和数据分析工具,可供大家在各种环境中重复使用,希望下图梳理的内容对你有所帮助!
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
SKLEARN fit接口接收的数据都要是二维的,即每个样本就是一行
decomposition
主成分分析
PCA:主成分分析
n_components
是整数时表示想要降维到的参数个数,
是小数时表示降维到含有信息量与原来的信 息量占比,需同时要带有svd_solver="full"
n_components="mle"表示最大似然估计
接口fit
transform(x):查看降维后的数据
explained_variance_:查看降维后保留的信息量
explained_variance_:查看降维后每个特征保留的信息量占比
TruncatedSVD:截断的SVD
SparsePCA:稀疏主成分分析
MiniBatchSparsePCA:小批量稀疏主成分分析
KernelPCA:核主成分分析
IncrementalPCA:增量主成分分析
因子分析
FactorAnalysis
独立成分分析
FastICA:独立成分分析的快速算法
字典学习
DictionaryLearning:字典学习
MiniBatchDictionaryLearning:小批量字典学习
dict_learning:字典学习用于矩阵分解
dict_learning_oneline:在线字典学习用于矩阵分解
高级矩阵分解
LatentDirichletAllocation:具有在线变分贝叶斯算法的隐含狄利克雷分布
NMF:非矩阵分解
其他矩阵分解
SparseCoder:稀疏编码
neighbors
KNeighborsClassifier
tree
DecisionTreeClassifier:分类树
DecisionTreeRegressor:回归树
export_graphviz:将生成的决策树导出为DOT格式、画图专用
ExtraTreeClassifier:高随机版本的分类树
ExtraTreeRegressor:高随机版本的回归树
model_selection
cross_val_score(model,x,y,cv,scoring) 交叉验证,返回的是cv次的分数列表
train_test_split(x,y,test_size,random_state) 数据拆分
返回xtrain,xtest,ytrain,ytest
ensemble
RandomForestRegressor
RandomForestClassifier
utils
shuffle:打乱数据
cluster
KMeans
参数
cluster_centers_
收敛到质心。如果算法在完全收敛之前就已经停下来了(受到参数max_iter和tol的控制),所返回的内容将与labels_属性中反应出来的聚类结果不一致
labels_
每个样本点对应的标签
inertial_
每个样本点到距离他们最近的簇心的均方距离,又叫做“簇内平方”
n_iter_
实际的迭代次数
接口
fit
fit_predict
fit_transform
get_params
predict
score
set_params
transform
svm
SVC
属性
support_vectors_: 返回支持向量
n_support_:返回每个类中支持向量的个数
preprocessing
MinMaxScaler:归一化
feature_range,控制数据压 缩的范围,默认我[-1,1]
StandardScaler:标准化
均值为0,方差为1
LabelEncoder
OrdinalEncoder
categories_
OneHotEncoder
Binarizer:二值化
根据阈值将数据二值化(将特征值设置为0或1), 用于处理连续性变量。大于阈值的值映射为1, 小于阈值的值映射为0
KBinsDiscretizer
PolynomialFeatures:可以进行特征的构造,构造的方 式就是特征与特征相乘(自己与自己,自己与其他人)
degree:控制多项式的次数 interaction_only:默认为False,如果指定为 True,那么就不会 有特征自己和自己结合的项,组合的特征中没有 a2 和 b2 include_bias:默认为 True 。如果为 True 的话,那么结果中就会有 0 次幂项,即全为 1 这一列
https://www.cnblogs.com/liweiwei1419/p/9715702.html
input
SimpleImputer
missing_values:告诉SimpleImputer数据 中的缺失值是什么,默认空值为np.nan
strategy:填补缺失值的策略
mean:使用均值填补
median:使用中值填补
most_frequent:用众数填补
constant:与fill_value联用
fill_value
可输入字符串或数字表示要填充的值
copy
默认为True,将创建特征矩阵的副本,反之 则会将缺失值填补到原来的特征矩阵中。
metrics
mean_square_error
卡林斯基-哈拉巴斯指数calinski_harabaz_score
pairwise_distances_argmin #对两个序列中的点进行匹配的函数
confusion_matrix:混淆矩阵
accuracy_score:准确率accuracy
precision_score:精确率precision
recall_score:召回率recall
precision_recall_curve:精确度-召回率平衡曲线,可以展示不同阈值下的精确度和召回率如何变化
f1_score:F1 measure
linear_model
LogisticRegression:逻辑回归
fit_intercept:布尔值,可不填,默认为True,是否计 算此模型的截距。如果为False,则不会计算截距
normalize:默认为False,当fit_intercept设置为False时,则忽略此参数。如果为True,则特征矩阵x在进入回归之前将会被减去均值(中心化)并除以L2范式(缩放)。如果你希望进行标准化,请在fit数据之前使用preprocessing模块中的标准化专用类StandardScaler
copy_x:默认为True,如果为真,将在X.copy()上进行操作,否则的话原本的矩阵x可能被线性回归影响并覆盖
predict:预测标签
predict_prob:预测标签的概率
说明
sklearn中fit接收的数据都是二维的 一般问题分为两类,一类是分类问题,模型的名字带有classifier。另一类是回归问题,名字带有regressor。