导图社区 第1章 赋予计算机从数据中学习的能力
这是一篇关于第1章 赋予计算机从数据中学习的能力的思维导图。
社区模板帮助中心,点此进入>>
一、赋予计算机从数据中学习的能力
1、构建把数据转换为知识的智能机器
2、三种不同类型的机器学习
2.1 用有监督学习预测未来
监督:指的是已经知道样本所需要的输出信号或标签
有标签数据、直接反馈、预测结果/未来
分类
预测标签的分类(离散)
二元分类任务,例如:垃圾邮件过滤
多元分类任务,例如:识别手写字符
预测连续结果的回归(连续)
目标:从有标签的训练数据中学习模型,以便对未知或未来的数据做出预测。
2.2 用强化学习解决交互问题(不是重点)
决策过程、奖励机制、学习一系列的行动
目标:开发系统或代理,通过它们与环境的交互来提高其预测性能。
常见例子:国际象棋,奖励为比赛结果的输赢。
2.3 用无监督学习发现隐藏结构
无标签/目标、无反馈、寻找数据中隐藏的结构
寻找聚类的子集
探索性的数据分析技术,可以在事先不了解组员的情况下,将信息分成有意义的组群。
通过降维压缩数据
目的
1、有利于数据可视化
2、减少冗余
3、减少数据存储开销
4、提高算法运行速度
5、提高模型预测的性能
3、基本术语与符号
样本:数据表的每一行为一个样本
特征:数据表的每一列为一个特征
分类标签
4、构建机器学习系统的路线图
机器学习的典型工作流程
1、预处理-整理数据
数据集
训练集
验证集
测试集
特征抽取和比例缩放
特征选择
降低维度
取样
2、学习
模型选择
交叉验证
度量性能
常用的度量性能的标准:分类准确度(正确分类样本占所有分类样本的百分比)
超参数调优
模型的参数和超参数
模型的参数:模型本身参数
超参数:非模型本身参数,影响模型、算法所需要的参数
3、评估
4、预测
5、用Python进行机器学习
目前最为常用和可访问的开源机器学习库:scikit-learn
教材推荐使用Anaconda包作为Python的科学计算软件包
教材使用Numpy的多维矩阵来存储和操作数据;偶尔使用pandas库,该工具建立在Numpy之上,可以提供额外的更高级的数据操作;为了加强学习经验和定量数据的可视化,我们将使用定制化程度非常高的Matplotlib软件库