导图社区 CNCC 2016 周志华揭开机器学习本质
人工智能必然要了解机器学习,从信息化软件,到电子商务,然后到高速发展互联网时代,到至今的云计算、大数据等,渗透到我们的生活、工作之中,在互联网的驱动下,人们更清晰的认识和使用数据,不仅仅是数据统计、分析,我们还强调数据挖掘、预测。
编辑于2022-08-15 16:59:34 上海游戏主机御三家怎么选 | PS5、Switch、Xbox购买攻略 能让你玩起来的游戏机🎮是最推荐的游戏机。Switch 和 XSS 只要2000块就可以玩起来,价格便宜。Switch是掌机,哪里都能玩。有钱当然推荐 PS5,画质好体验好。 游戏机的生命周期一般在7年左右,所以本身还是非常保值的。 希望大家都能找到自己心仪的游戏机,祝大家玩的开心!
我们在实际的工作和学习接触中,会发现一个比较统一的问题,那就是:随着数据在企业生产经营中的广泛应用,我们究竟该如何借助数据分析的能力,去提升公司业务的运营效率,为企业降本增效呢?也就是我们常说的实现真正的数字化,最终达到企业经营模式的转型。那么这个问题,其实根源在于:我们个人如何培养自己的数据思维?
如果说十大必去的城市的话,我就觉得那些把省级行政区(直辖市除外)放进来评论的,不知是不是跑题了!所以按照包括直辖市在内的叫法,我认为排在前两名的肯定是北京和西安。具体的谁靠前就不好说了,反正都差不多。
社区模板帮助中心,点此进入>>
游戏主机御三家怎么选 | PS5、Switch、Xbox购买攻略 能让你玩起来的游戏机🎮是最推荐的游戏机。Switch 和 XSS 只要2000块就可以玩起来,价格便宜。Switch是掌机,哪里都能玩。有钱当然推荐 PS5,画质好体验好。 游戏机的生命周期一般在7年左右,所以本身还是非常保值的。 希望大家都能找到自己心仪的游戏机,祝大家玩的开心!
我们在实际的工作和学习接触中,会发现一个比较统一的问题,那就是:随着数据在企业生产经营中的广泛应用,我们究竟该如何借助数据分析的能力,去提升公司业务的运营效率,为企业降本增效呢?也就是我们常说的实现真正的数字化,最终达到企业经营模式的转型。那么这个问题,其实根源在于:我们个人如何培养自己的数据思维?
如果说十大必去的城市的话,我就觉得那些把省级行政区(直辖市除外)放进来评论的,不知是不是跑题了!所以按照包括直辖市在内的叫法,我认为排在前两名的肯定是北京和西安。具体的谁靠前就不好说了,反正都差不多。
CNCC 2016 | 周志华揭开机器学习本质
分类
集成学习
Boosting算法(提升法)
Adaboost
Catboost
Xgboost
LightGBM
Stacking
Bagging
强化学习
基因算法
A3C
SARSA
Q学习
深度Q网络(DQN)
传统学习
有监督学习
回归分析
线性回归
多元回归
岭回归/Lasso回归
分类
逻辑回归
决策树
支持向量机SVM
朴素贝叶斯
K-NN(K近邻)
无监督学习
聚类
凝聚层次聚类
K均值聚类
均值偏移聚类
模糊C均值聚类
模式匹配(关联分析)
Euclat
频繁模式增长
Apriori
降维(正则化)
LDA
SVD
LSA
PCA
t-SNE
神经网络和深度学习
卷积神经网络CNN
DCNN
循环神经网络
LSM
LSTM
GRU
生成式对抗网络
自解码器
seq2seq
感知器MLP
主题
开题阐释
“现在是大数据时代,但是大数据不等于大价值。”
在过去的二十年中,人类手机、存储、传输、处理数据的能力取得了飞速发展,亟需能有效地对数据进行分析利用的计算机算法。机器学习作为智能数据分析算法的源泉,顺应了大时代的这个迫切需求,因此自然地取得了巨大发展、受到了广泛关注。
我们要从大数据里面得到价值的话,就必须要有一些有效的数据分析。正因为这个原因,这几年机器学习特别热。这是从人工智能里面产生的一个学科,利用经验改善系统学习。在计算机系统里面,不管是什么经验,一定是以数据的形式呈现的。所以机器学习必须对数据分析,这个领域发展到今天主要是研究智能数据分析的理论和方法。我们可以看到图灵奖连续两年授予在这方面取得突出成就的学者,这其实一定程度上也表现出了大会对此的重视。
机器学习的实例: "文献筛选"的故事
为什么?->"循证医学" 中针对病人, 先去看资料, 将资料和这个病相关的技术汇集, 很可能就得到很好的解决方案
如何
实现?->①文章汇集 ②专家过滤. 这个重复的过程非常的麻烦
引入"机器学习"
挑出大量文章,邀请熟练专家判断是否有关,建立一个分类模型,然后对剩下的文章做预测.其中相关的文章再请专家来审读.
一张PPT说清机器学习的过程
假设把数据组织称一个表格形式,每一行标识一个对象或事件每一列表示对象的属性.
经过一个训练过程,得到模型,之后我们拿到一个没有见过的新数据时, 只要知道他的输入(属性),这个模型就可以给一个结果.
如果在计算机上通过数据驱动的方式来解决问题, 其实就是在做一个机器学习的过程.
把数据编程模型要用到
学习算法. 机器学习其实就是关于学习算法的设计分析和每隔学科领域的应用
人工智能三个阶段
起源于1956达特茅斯会议
推理期(1956-1960s): 大家认为要把逻辑推理能力赋予计算机系统.
因为我们都认为数学家特别的聪明,而数学家最重要的能力就是逻辑推理,所以在那个时期的很多重要工作中,最有代表性的就是西蒙和纽厄尔做的 自动定理证明系统 ,后来这两位也因为这个贡献获得了七五年的图灵奖。
知识期(1970s-1980s): 后来发现就算是数学家也需要很多知识,所以只有逻辑推理是不够的.
大家开始思考怎么样把我们人类的知识总结出来,交给计算机系统,这里面的代表就是知识工程专家系统。像知识工程之父爱德华·费根鲍姆就因为这个贡献获得了 1994 年的图灵奖。
学习期(1990s-now): 但是接下来大家就发现要把知识总结出来交给计算机,这个实在太难了。一方面总结知识很难,另外一方面在有些领域里面,专家实际上是不太愿意分享他的经验的。
所以到底怎么解决这个问题呢?我们想到人的知识就是通过学习来的,所以很自然的人工智能的研究就进入了第三个阶段,学习期。 这时候机器学习作为这个阶段的主流研究内容,可以看到机器学习本身其实就是作为突破知识工程的一个武器而出现的。但是,事实上并没有达到目的,今天大多数的机器学习的结果都是以黑箱的形式存在的。另外一方面,为什么机器学习这么热门呢?其实恰恰是因为在二十世纪九十年代中后期,我们人类搜集、存储、管理、处理数据的能力大幅度提升,这时候迫切需要数据分析的技术,而机器学习恰恰是迎合了这个大时代的需求,所以才变得特别的重要。
机器学习是一个有坚实理论基础的学科,其中最重要的就是
计算学习理论
而计算学习理论中最重要的一个理论模型就是概率近似正确模型 —— PAC。它的提出者 Valiant 教授也因此获得了图灵奖。
关于未来--技术
深度学习兴起
2006 年 Hinton 在 Nature 发表了关于深度学习的文章。2012 年他又组队参加 ImageNet,获得冠军。冠军没什么特别的,因为每年都有冠军。但超过第二名 10 个百分点的成绩引起了大家的注意,深度学习就此兴起,现在深度学习的应用越来越广泛了。 从技术层面来看,深度学习其实就是很多层的神经网络。这里画了一个三层的神经网络,就是所谓的一个神经元,通过很多连接连接在一起。那么每个神经元就是一个所谓的 M-P 模型。 所谓的一个神经元其实就是这么一个函数,我们所谓的神经网络其实就是很多这样的多层函数嵌套形式的数学模型,它在一定程度上受到了这个生物神经技术的启发,但是更重要的是数学和工程上的东西在支撑。
最著名的深度学习模型: 卷积神经网络(CNN)
提升模型的复杂度可以提升学习能力,增加模型深度比宽度更有效
增加隐层神经元数目
增加阴层数据
但提升模型的复杂度并不一定有利,因为存在过拟合和计算开销大的问题。
跳出这些技术细节来看,深度学习最重要的作用是
表示学习 。所以也就知道了深度学习究竟适用何处 最适用的及时数据的"初始表示"(如图像的"像素")与解决任务所需的"合适表示"相距甚远.
深度学习是否一统江湖?
不会,因为很多学习任务,"初始表示"与"合适表示"没那么远
神经网络及深度学习之所以热是因为是相对最容易利用新增计算能力的机器学习方法
所以,对于未来的一个判断是:
应该能有效利用GPU等计算设备的方法会火
关于未来--任务
针对alphaGo,人类犯错从九段到八段,机器犯错,从九段降到业余
所以,
"鲁棒性" 很重要
传统机器学习任务主要针对封闭环境, 很多因素大多是定的
数据分布, 样本类别, 样本属性, 评价目标 都恒定
开放环境下, "鲁棒性"是关键
好的时候要好,坏的时候不能太坏 未来人工智能将面临"高风险的应用",因此必须有鲁棒的AI
关于未来--形态
目前机器学习的形态:算法+数据
这样形态下的局限
大量训练样本
难以适应环境变化
黑箱模型
如果机器学习不给出治疗理由,则难以说服患者接受方案
我们可以看到机器学习的技术局限性仍然很多,当然,我们可以针对每个问题一一解决,但这难免进入一种“头疼医头,脚疼医脚”的境地。所以我们是否可以跳出这个框架,从整体上来解决这些问题呢?
那么我们都知道有硬件(Hardware),有软件(Software),这里提出一个类似于这两者的新概念“学件”(Learnware):
学件(Learnware)= 模型(model)+规约(specification)
从模型的角度需要满足三个要求:(这三个要求可以解决之前的局限)
可重用: 预训练模型仅需利用少量数据对其进行更新或增强即可用于新任务
很多人可能在自己的应用中已经建立了这样的模型,他们也很愿意找到一个地方把这些模型分享出去。那以后一个新用户想要应用,也许不用自己去建立一个,而是先到“学件”的市场上找一找有没有合适的,可以拿来使用修改。 比如说,要找一把切肉的刀,可以先看看市场上有没有这样的刀,不会说自己从采矿开始重新打一把刀。如果没有合适的刀,也许会选择一把西瓜刀,然后用自己的数据重新“打磨”一下,让它满足自己应用的需要。 所以,这个想法就是希望能够部分地重用他人的结果,不必“从头开始”
从规约的角度需要给出模型的合适刻画
规约需要能清楚的说明在做什么: 基于逻辑, 基于统计量, 技术与精简数据
可重用可以获取大量不同的样本
可演进: 预训练模型应具备感知环境变化,并针对变化进行主动自适应调整的能力
可适应环境变化
可了解
能有效的了解模型的能力
除了解决了原有的问题,“学件”很有可能会催生出一个新产业,类似于软件产业。因为大家可以把自己的模型放到市场上,提供给别人使用,如果被使用得很多,又很好用,用户很广泛,那么可以对这个“学件”定价使用,创造出经济价值。
总结
深度学习可能有“冬天”,它只是机器学习的一种技术,总会出现更“潮”的新技术;
机器学习不会有“冬天”,只要有分析数据的需求,就会用到机器学习;
关于未来的思考:
1、技术上:一定是能有效利用 GPU 等计算设备的方法(未必是深度学习);5年
2、任务上:开放环境的机器学习任务特别重要(鲁棒性是关键);10年
3、形态上:希望是从现在的“算法 + 数据”过渡到“学件”的形态。15年