导图社区基本概念和求参数基本方法

基本概念和求参数基本方法

图解机器学习的思维导图，主要涵盖机器学习的基本概念、交叉验证法、统计学基本概念、线性回归以及梯度下降法等内容。适合用于学习和复习机器学习与统计学的基础内容。

编辑于2025-10-07 08:17:27

统计学
机器学习
线性回归

吴湘龙

他的近期作品查看更多>>

基本概念和求参数基本方法

社区模板帮助中心，点此进入>>

吴湘龙

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 39.9k
- 977
- 2.5k
- 401
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 18.7k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 4.4k
- 171
- 11
- 4
- 0
jackrao
python思维导图
- 9.7k
- 557
- 242
- 7
- 0
(*^▽^*)
css
- 3.9k
- 1
- 43
- 3
- 0
A张舫
CSS
- 6.4k
- 272
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 8.1k
- 354
- 209
- 16
- 0
journey
计算机组成原理
- 4.1k
- 98
- 71
- 8
- 0
journey
IMX6UL(A7)
- 2.7k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 3.7k
- 51
- 10
- 1
- 0
蒋龙

基本概念和求参数基本方法

机器学习的基本概念

1.机器学习是工具和技术的合集，它通过分类的方法或者定量的预测将数据转化为决策。

分类问题：对事物分类

回归问题：进行定量预测

2.机器学习方法的比较

训练数据：用来观察趋势和拟合直线的原始数据

测试数据：用来检验模型的预测能力的数据

过拟合：当一种机器学习方法能很好地拟合训练数据，但预测却很差时，我们称为对训练数据的过拟合。

数据泄露：在训练和测试中重复使用相同的数据。

3.自变量（特征）和因变量

4.离散数据和连续数据

交叉验证法

1.哪些数据适用于测试？

交叉验证法使用全部数据，将数据随机分配到不同的组，每一组数据轮流充当训练数据和测试数据，通过迭代的方式来解决哪些数据适用于测试的问题。

2.当数据量较大时，通常采用10折交叉验证法（折是迭代的次数）：随机分成10组，9组训练，1组测试，然后轮流做10次

3.数据量较小时（N个），采用留一法：1个测试，其余训练，轮流做N次

统计学基本概念

直方图

概率分布

离散概率分布

二项分布

泊松分布

连续概率分布

正态分布：均值、标准差

指数分布

均匀分布

通过分布生成随机数：在机器学习中，通常需要在使用训练数据来训练算法之前，生成随机数用于初始化算法。

模型

模型是对现实的近似表示，用于发现变量间的关联并做出预测。在机器学习中，通过训练数据来训练机器学习算法并建模。

统计量用于检测模型是否有用或是否可信。

残差平方和SSR：受数据规模和单位影响

均方误差MSE：可以比较不同数据规模的模型，但受单位影响

R2=（SSR(均值)-SSR（拟合线））/SSR(均值)，R2独立于数据集的大小和单位

少量的随机数据可能会有较高的R2值

R2的其他应用：（SSR(方形)-SSR（正弦））/SSR(方形) （SSR(直线)-SSR（抛物线））/SSR(直线)

R2=皮尔逊相关系数的平方

P值：P值量化了假设检验的可信程度，P值用于确定是否应该拒绝原假设，P值越小，可信程度越高，常用的阈值是5%。

P值可以帮助确认两种药物是否存在差异，但是并不能告知差异的大小。

线性回归

若线性回归的R2等于0.66，R2的P值（随机数据的R2≥0.66的概率）的计算：观测值的x和y随机配对，计算10000多个随机数据集的R2的直方图，然后计算R2≥0.66的概率，就是P值。

线性模型是非常灵活且强大的模型：允许使用离散数据来预测连续数据；可以很容易将离散数据与连续数据结合起来，以预测另外一组连续数据。

梯度下降法

梯度下降法是一种向最优解逐步迈进的迭代法，适用于不存在解析解的广泛场景中

损失函数或成本函数指的是模型与数据拟合时需要优化的对象

单一参数的梯度下降法

第一步、计算随机初始值的导数，N个观察点对应N项导数

第二步、步长=导数×学习率

通常学习率是自动确定的，开始时相对较大，随着迭代变小，可以使用交叉验证法来确定学习率。这里假设等于0.1。

第三步、参数的更新数值=随机初始值-步长

第四步、重复一至三步，直到步长接近0或者达到迭代上限，通常迭代上限是1000次。

多参数的梯度下降法

每一步都需要对每个参数计算导数，每个导数包含N项

每个参数都需要单独计算步长

随机梯度下降法

每次迭代中随机选取1个数据点，所以无论数据集多大，每次迭代的每个导数只计算一项

小批量随机梯度下降法：随机选取观测数据中的一小部分子集

梯度下降法只能找到极值，不能找到最值

优化方法

使用不同的初始化数值

调大步长

使用随机梯度下降法