导图社区 机器学习整理
详细整理机器学习的基础概念(算法,相关领域技术)。语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,一般会结合自然语言处理的相关技术。目前的相关应用有苹果的语音助手siri等。
编辑于2023-01-02 16:31:23机器学习
训练的数据有无标签
监督学习
无监督学习
半监督学习
强化学习
算法
回归算法
线性回归
连续性问题
数值问题
拟合直线
逻辑回归
离散性问题
分类问题
分界线
重要子类
局部加权线性回归
多项式回归
岭回归
Lasso回归
弹性网络回归
逐步回归
神经网络
深度学习
人工神经网络(Artificial Neural Network,ANN)
Hopfield网络(Hopfield Neural Network,HNN)
卷积神经网络(Convolutional Neural Network,CNN)
循环神经网络(Recurrent Neural Network,RNN)
BP神经网络——前馈神经网络,反向传播算法( Feedforward Neural Network,FNN)
生成对抗网络(Generative Adversarial Networks,GAN)
SVM(Support Vector Machines支持向量机)
三个重要构件
最大间隔
高维映射
核函数
有标签
聚类算法
Kmeans
各簇成员到其簇首的距离的平方和最小
典型代表
DBSCAN-基于密度的空间聚类算法
聚类距离簇边界最近的点
谱聚类
通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。
GMM-高斯混合模型
GMM算法可以计算出每个样本属于各个簇的概率值并将其聚类到概率值最大的簇
MeanShift-均值迁移
在目标追踪中应用广泛。本身其实是一种基于密度的聚类算法。
层次聚类
无标签
降维算法
概念
(1)降维就是一种对高维度特征数据预处理方法,是应用非常广泛的数据预处理方法。
(2)降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。
(3)在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。
分类
奇异值分解(SVD)
主成分分析(PCA)
是一种使用最广泛的数据降维算法。
因子分析(FA)
独立成分分析(ICA)
推荐算法
主要是推荐商品
物品内容
用户相似度
其他
牵扯的一些相关范围的学科与研究领域
计算机视觉
计算机视觉=图像处理+机器学习。
图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式。计算机视觉相关的应用非常的多,例如百度识图、手写字符识别、车牌识别等等应用。这个领域是应用前景非常火热的,同时也是研究的热门方向。随着机器学习的新领域深度学习的发展,大大促进了计算机图像识别的效果,因此未来计算机视觉界的发展前景不可估量。
技术
物体识别与检测技术
图像语义分割
单位重建技术
自然语言处理
自然语言处理=文本处理+机器学习。
自然语言处理技术主要是让机器理解人类的语言的一门领域。在自然语言处理技术中,大量使用了编译原理相关的技术,例如词法分析,语法分析等等,除此之外,在理解这个层面,则使用了语义理解,机器学习等技术。作为唯一由人类自身创造的符号,自然语言处理一直是机器学习界不断研究的方向。按照百度机器学习专家余凯的说法“听与看,说白了就是阿猫和阿狗都会的,而只有语言才是人类独有的”。如何利用机器学习技术进行自然语言的的深度理解,一直是工业和学术界关注的焦点。
技术
文本嵌入技术
文本翻译技术
情绪分析技术
语音识别
语音识别=语音处理+机器学习。
语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,一般会结合自然语言处理的相关技术。目前的相关应用有苹果的语音助手siri等。
模式识别
模式识别=机器学习。
两者的主要区别在于前者是从工业界发展起来的概念,后者则主要源自计算机学科。在著名的《Pattern Recognition And Machine Learning》这本书中,Christopher M. Bishop在开头是这样说的“模式识别源自工业界,而机器学习来自于计算机学科。不过,它们中的活动可以被视为同一个领域的两个方面,同时在过去的10年间,它们都有了长足的发展”。
统计学习
统计学习近似等于机器学习。
统计学习是个与机器学习高度重叠的学科。因为机器学习中的大多数方法来自统计学,甚至可以认为,统计学的发展促进机器学习的繁荣昌盛。例如著名的支持向量机算法,就是源自统计学科。但是在某种程度上两者是有分别的,这个分别在于:统计学习者重点关注的是统计模型的发展与优化,偏数学,而机器学习者更关注的是能够解决问题,偏实践,因此机器学习研究者会重点研究学习算法在计算机上执行的效率与准确性的提升。
数据挖掘
数据挖掘=机器学习+数据库。
这几年数据挖掘的概念实在是太耳熟能详。几乎等同于炒作。但凡说数据挖掘都会吹嘘数据挖掘如何如何,例如从数据中挖出金子,以及将废弃的数据转化为价值等等。但是,我尽管可能会挖出金子,但我也可能挖的是“石头”啊。这个说法的意思是,数据挖掘仅仅是一种思考方式,告诉我们应该尝试从数据中挖掘出知识,但不是每个数据都能挖掘出金子的,所以不要神话它。一个系统绝对不会因为上了一个数据挖掘模块就变得无所不能(这是IBM最喜欢吹嘘的),恰恰相反,一个拥有数据挖掘思维的人员才是关键,而且他还必须对数据有深刻的认识,这样才可能从数据中导出模式指引业务的改善。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。