导图社区 年度个人工作计划
年度个人工作计划,工欲善其事必先利其器,主要写了机器学习的相关函数、数据结构、python工具及实践工具。有需要的尽情查阅吧。
机器学习及数据分析第一章绪论的思维导图,整理了机器学习的类别、机器学习的应用场景、机器学习的实践工具、机器学习的应用领域、机器学习的基本术语的内容,有兴趣的可以看看哟。
社区模板帮助中心,点此进入>>
本周工作总结与下周工作计划
内衣测评
端午节
怎么美白?
财富规划思维导图
家庭战略转移思考
篮球大纲
预警类型
《断舍离》读书笔记
2019年年中总结(闵利利)
机器学习与数据挖掘 第二章机器学习的准备识
机器学习中的函数
线性函数
只拥有一个变量的一阶多项式函数,函数图像是一条直线。线性函数是线性回归模型的基础,适合模拟简单的关系
二次函数和多次函数
激活函数
激活函数常用于人工神经网络和深度学习中,主要的作用是在机器学习算法中实现非线性的、阶跃性质的变换。其中sigmoid函数在逻辑回归中也有重要的应用 。
机器学习中的数据结构
张量
张量是机器学习程序中的数字容器,本质上就是各种不同维度的数组,我们把张量的维度称为轴(axis),轴的个数称为阶(rank,有些书上也称为“维“)
2D(阶)张量
3D(阶)张量
4D(阶)张量——图像数据
长、宽、颜色深度,再加上数据集大小这个维度,就形成了 4D 张量。
5D(阶)张量——视频数据
视频可以看作是由一帧一帧的彩色图像组成的数据集。
每一帧都保存在一个形状为(高度,宽度,颜色深度) 的3D张量中。 视频数据集需要 5D 张量才放得下,其形状为(样本,帧,高度,宽度,颜色深度)。
张量在Python中的表述
机器学习的实践工具
在线实践工具
https://jupyter.org/try-jupyter/lab/
本机实践工具
https://www.anaconda.com/
机器学习的项目架构
第 1 个环节 :问题定义
明确你拥有的数据和要解决的是什么问题, 那么也许已经成功了一半
第 2 个环节 :数据的收集和预处理
可视化
向量化
数据清洗
特征缩放
特征工程
数据预处理原则
全部数据应转换成数字格式(即向量、矩阵、3D、4D、5D)的数组(张量)。
大范围数据值要压缩成较小值,分布不均的数据特征要进行标准化。
异质数据要同质化(homogenous),即同一个特征的数据类型要尽量相同。
第 3 个环节 :选择机器学习模型
没有最好的算法,也没有最差的算法。算法选择的经验要在实践中不断磨炼。
第 4 个环节 :训练机器,确定参数
参数种类
内部参数
超参数
第 5 个环节 :超参数调试和性能优化
为了进行模型的评估,一般会把数据划分成 3 个集合训练集(training set)、验证集(validation set)和测试集(test set)。在训练集上训练模型,在 验证集上评估模型,感觉已经找到最佳的模型(内部参数和超参数)之后,在测试集上进行最终测试, 以确定模型。
机器学习的Python工具包
NUMPY
Python进行科学计算的基础库,被称为Python的数学扩展包。在机器学习算法实践中,样本集一般都看做数组来进行处理,Numpy提供了数组的各种运算功能。
PANDAS
Pandas是面板数据(Panel Data)的缩写。是Python最重要的数据分析工具,支持数据的显示以及结合数据库的增、删、改、查等功能。Pandas与Numpy完美结合,可以完成大部分的数据基础统计分析工作。
SCIPY
提供矩阵计算功能,部分机器学习算法涉及矩阵运算
Matplotlib
主要用于绘图和绘表,是常用的数据可视化工具。
SKLEARN
机器学习中的函数,实现了从特征到结果的一个特定推断机器学习中的函数模型有时过于复杂,并不总是能通过集合、解析式或者函数图像来描述,但这并不等于函数不存在了,机器学习得到的函数是事物之间的关系的体现。