导图社区 吴军《智能时代》最全 读书笔记
大数据和机器智能的出现,对我们的技术发展、商业和社会都会产生重大的影响。作者吴军在《智能时代:大数据与智能革命重新定义未来》中指出,首先,我们在过去认为非常难以解决的问题,会因为大数据和机器智能的使用而迎刃而解,比如解决癌症个性化治疗的难题。同时,大数据和机器智能还会彻底改变未来的商业模式,很多传统的行业都将采用智能技术实现升级换代,同时改变原有的商业模式。大数据和机器智能对于未来社会的影响是全方位的。
编辑于2022-09-05 14:25:11 上海游戏主机御三家怎么选 | PS5、Switch、Xbox购买攻略 能让你玩起来的游戏机🎮是最推荐的游戏机。Switch 和 XSS 只要2000块就可以玩起来,价格便宜。Switch是掌机,哪里都能玩。有钱当然推荐 PS5,画质好体验好。 游戏机的生命周期一般在7年左右,所以本身还是非常保值的。 希望大家都能找到自己心仪的游戏机,祝大家玩的开心!
我们在实际的工作和学习接触中,会发现一个比较统一的问题,那就是:随着数据在企业生产经营中的广泛应用,我们究竟该如何借助数据分析的能力,去提升公司业务的运营效率,为企业降本增效呢?也就是我们常说的实现真正的数字化,最终达到企业经营模式的转型。那么这个问题,其实根源在于:我们个人如何培养自己的数据思维?
如果说十大必去的城市的话,我就觉得那些把省级行政区(直辖市除外)放进来评论的,不知是不是跑题了!所以按照包括直辖市在内的叫法,我认为排在前两名的肯定是北京和西安。具体的谁靠前就不好说了,反正都差不多。
社区模板帮助中心,点此进入>>
游戏主机御三家怎么选 | PS5、Switch、Xbox购买攻略 能让你玩起来的游戏机🎮是最推荐的游戏机。Switch 和 XSS 只要2000块就可以玩起来,价格便宜。Switch是掌机,哪里都能玩。有钱当然推荐 PS5,画质好体验好。 游戏机的生命周期一般在7年左右,所以本身还是非常保值的。 希望大家都能找到自己心仪的游戏机,祝大家玩的开心!
我们在实际的工作和学习接触中,会发现一个比较统一的问题,那就是:随着数据在企业生产经营中的广泛应用,我们究竟该如何借助数据分析的能力,去提升公司业务的运营效率,为企业降本增效呢?也就是我们常说的实现真正的数字化,最终达到企业经营模式的转型。那么这个问题,其实根源在于:我们个人如何培养自己的数据思维?
如果说十大必去的城市的话,我就觉得那些把省级行政区(直辖市除外)放进来评论的,不知是不是跑题了!所以按照包括直辖市在内的叫法,我认为排在前两名的肯定是北京和西安。具体的谁靠前就不好说了,反正都差不多。
智能时代
主题
主题
主题
第一章 数据-人类建立文明的基石
现象、数据、信息和知识
人类观察现象得到数据,从数据中得到信息,对信息和数据进行处理后,个得到知识。
数据的作用:文明的基石
人类观察现象得到数据,从数据中得到信息,对信息和数据进行处理后,得到知识。
获取数据-分析数据-建立模型-预测未来
相关性:使用数据的钥匙
很多时候,我们无法直接获得信息(疫情传播情况),但可以通过将关联的信息(各地的搜索情况)量化,然后通过数学模型,间接地得到所要的信息。而各种数学模型的基础都离不开概率论和统计学。
统计学:点石成金的魔棒
是建立在概率论基础之上,收集、处理、和分析数据,找到数据内在的关联性和规律性和学科。
两个重要维度:量和质。数据量充足,且具有代表性。(美国总统大选)
数据模型:数据驱动方法的基础
寻找模型和参数,机器学习。只要数据量足够,可用多个简单模型代替一个复杂模型,这种方法成为数据驱动方法。
经典句子
科学发展的四个范式
描述自然现象的实验科学
以牛顿定律和麦克斯韦方程等为代表的理论科学
模拟复杂现象的计算科学
数据密集型科学
虽然还不能用解析式来说明困果关系,但如果从足够多的数据中发现相关性也能把握事物发展的轨迹,这就是数据密集型科学产生的背景
吴军:世界不确定性来自两个方面
一:影响世界的变量太多以至于无法用数学模型来描述
二:来自客观世界本身,不确定性是我们所在宇宙的特性
用不确定性眼光看待世界,再用信息来消除这种不确定性,是大数据解决智能问题的本质。解决智能问题,就是将问题转化为消除不确定性的问题,大数据则是解决不确定性问题的良药。
现在产业+新技术=新产业
第一次工业革命:蒸汽机
第二次工业革命:电
信息革命:计算机和半导体
智能革命:大数据和机器智能
机器智能革命的发性来自大数据量的积累达到质变的奇点
从这个角度来看,机器的学习同人类的学习并没有什么本质的不同
几千年来,我们人类的知识都建立在“归纳法"
归纳法隐含的假设是“未来将继续和过去一样”,换句话说应该是连续性假设
但智能时代,人类将遭遇“不连续性”
人类的胜利
1956年,麦卡锡/明斯基/罗切斯特和香农等人在达特茅斯学院提出了人工智能的概念,2016年初,其最后一位科学家明斯基逝世。而2016年3月,alphago与国际围棋选手李世石的对局中,以4:1取得了胜利
2015年低,alphago仅仅赢了樊麾二段而已
1997年IBM国际商业机器公司的深蓝计算机战胜卡斯帕罗夫(国际象棋选手) 围棋比国际象棋难6-9个数量级
中国围棋界的泰斗聂卫平、李开复也不相信alphago能赢
机器获得智能的方式和人类不同,它不是靠逻辑推理、而是靠大数据和智能算法
AlphaGo的两个关键技术
一、是把棋牌的当前状态变成一个获胜概率的数学模型,这个模型里没有任何人工规则,而是完全靠数据训练出来的。
二、启发式搜索算法-蒙特卡罗树搜索算法(monte carlo tree serach),它能将搜索空间限制在非常有限的范围内,保证计算机能够快速找到好的下法
google开发AlphaGo的目的
并非要证明计算机下棋比人强,而是要开发一种机器学习的工具,让计算机能够解决智能型问题
所采用的算法:机器学习和博弈树搜索算法
这些算法并非专门针对下棋而设计,其中很多已经在其他智能应用智能的领域(比如语音识别、机器翻译、图像识别和大数据医疗)
意义:计算机可以解决更多的智能问题,比如:医疗诊断、阅读和处理文档、自动回答问题、撰写新闻稿、驾驶汽车
未来社会,属于具有创意和计算机科学家,而不是属于掌握某种技能而做重复性工作的人。
数据-人类建造文明的基石
数据的范畴
设计图纸
例:公司和工厂里的各种设计图纸
图示
例:出土文物上的图示、宇宙大爆炸中形成的基本粒子数量
例:人类活动本身,也是一种特殊的数据 ,例:玩游戏的行为、我们的社会关系、每天的活动等
研究人员为了更好地研究以语音和文字为载体的数据,而专门建立了针对语音和文字的数据库,即所谓的语料库(corpus)
数字
文字
图片
视频
档案
例:医学影像
信息:是关于世界、人和事的描述,它比数据来得抽象。
既可以是我们人类创造的:例两个人的语音通话纪录
也可以是天然存在的客观事实:比如地球的面积和质量
信息有时藏在事物的背后,需要挖掘和测量才能得到:例:宇宙大爆炸时留下的证据-3K背景辐射
数据和信息
数据可以承载信息,但并非所有的数据都承载了有意义的信息
数据本身是人造物,因此他们可以被随意制造、甚至可以被伪造
没有信息的数据,通常没有太大的意义、
伪造出来的数据通常有副作用:例:为了搜寻排名而人为制作出来的各种作弊数据
现实情况下,有用的数据、毫无意义的数据和伪造的数据常常混在一起,因此如何处理数据,过滤掉没有用的噪声和删除有害的数据,从而获取数据背后的信息,就成为技术甚至是一种艺术。
从数据得到信息的例子
距今4500年前的公元前26世纪 古埃及人 胡夫金字塔 法老墓室
数据中隐藏的信息和知识是客观存在的,只有相关领域专业的知识的人才能将他们挖掘出来
原始部落 数学认识只有1、2、少量和很多一共四种衡量方式
对数据和信息进行处理之后,就可以获得知识,其是比信息更高一个层次的,也加抽象
使用数据的标准流程
获取数据
分析数据
建立模型
预测未知
古希腊文明 地中海沿岸 公元前551年 古希腊科学和哲学家的集大成者 毕达哥拉斯 拜访了数学家、天文学家 泰勒斯和阿那克西曼得和菲尔库德斯 将美索不达米亚平原的数学和天文学成就带回了古希腊地区
后来 柏拉图的学生 欧克多索 建立了地心说的早期模型
阿基米德建立了日心说的原型
最终利用数据建立起描述天体运动模型的是著名天文学家托勒密,其建立了《实用天文表》 和当时的儒略历相吻合
要感谢喜帕恰斯为托勒密留下的很多观测数据
1582年,教皇格里高利十三世 创建了今天所说的日历
波兰天文学家哥白尼提出了日心说模型,但数据不足,没有托勒密的模型准确,完成这一使命的是约翰内斯开普勒
原因:1、老师第谷留下的数据 2、运气
但其不能解释轨迹为什么是椭圆的
牛顿则提出了 万有引力定律
中国的历史使用数据的例子
伏羲演八卦
一代代口口相传的生活经验
什么时候开始播种
什么时候可以收获
数据之间常常有我们想像不到的关联性,利用这种关联性,不仅可以获得想要的信息,而且还可能得到意想不到的信息
王进喜的照片 日本情报人员
阿密特帕特尔 数学博士 google趋势 这款产品的奠基者 线性回归模型 建立了数据之间人相关性
统计学 点石成金的魔棒
最初研究概率论的不是数学家,而是赌徒和投机者
数据采集上的数据要有量和质
切比雪夫不等式也称切比雪夫大数定律
要建立一个数学模型,要解决两个问题
一、采用什么样的模型
在工程上,采用多而简单的模型常常比一个精确的模型成本更低,也被使用的更加普遍
模型的选择不是一件容易的事情
二、模型的参数是什么
这就是机器学习的作用:通过数据找到模型的参数
这也被为数据驱动的方法,就是利用数据,用很多简单的模型去契合数据(fit data)
数据驱动是大数据的基础,也是智能革命的核心。更重要的是,带来了一种新的思维方式
第二章 大数据和机器智能
什么事机器智能
第一台计算机ENIAC,计算弹道轨迹,蒙巴顿将军命名电脑;阿兰图灵定义机器智能
鸟飞派:人工智能1.0
1956年达特茅斯头脑风暴。传统:机器模仿人类即为机器智能。
另辟蹊径:统计+数据
70年代后,采用数据驱动和超级计算的方法。90年代后,互联网兴起,数据获取变得容易。
数据创造奇迹:量变到质变
数据向外扩展,开始交叉,数据关联性越来越强,出现了大数据。
大数据的特征
大量(Vast)、多样性(Variety)、及时性(Velocity)
变智能问题为数据问题
机器利用大数据,从中学习获得信息和知识。和摩尔定律、数学模型一起导致了机器智能的出现。
大数据和机器智能
能够辅助计算的机械很早就有了,它的历史可以追溯到美索不达米亚时代和希腊人时代以及中国人发明的算盘的时代,后来经过帕斯卡、莱布尼茨、巴贝奇和楚泽等人的努力,诞生了可以编程计算的机器
1946年,第一台计算机ENIAC诞生,从功能上讲,其与德国工程师楚泽研制的继电器计算机Z3没有太大人差别
电脑一词是英美联军的英军统帅蒙巴顿提出
阿兰图灵是真正科学的定义了什么机器智能和电子计算机的人 ---其在《计算的机器和智能》 提出了 图灵测试
鸟飞派:1956年 达特茅斯学院 约翰麦卡锡、马文明斯基、纳撒尼尔罗切斯特、克劳德香农、赫伯特西蒙、艾伦纽维尔 提出了人工智能、自然语言处理、神经网络等
怀特兄弟发明了飞机,靠的是空气动力学而不是仿生学
1972年,康奈尔大学教授弗雷德贾里尼克 通信专家 用了马尔可夫模型 数据驱动方法
李开复和洪小兵 在传统的人工智能实验室里,采用基于统计的方法开展他的博士论文工作,构建了世界上第一个大词汇量、非特定人、连续语音识别系统
2005是大数据元年 google 在机器翻译领域 成为领头羊 弗朗茨奥科博士 六元模型
内德斯维尔 2012 利用大数据 成功预测了全部50+1个州的选举结果
大数据特征
体量大、完备性
多纬度
及时性
大数据是一种思维方式的改变
1996年 IBM 深蓝与国际象棋冠军卡斯帕罗夫 6盘棋盘 1.5:3.5
1997 再次VS 2:1
卡斯帕罗夫的纪录直到今天 才被卡尔松打破
象棋的开局方式
王翼印度进攻开局
洛普兹开局
卡罗-康防御
计算机自动问答领域,问题被归结为7类
WH单词(WH words)
是什么 what
什么时候 when
什么地点 where
哪一个 which
谁 who
为什么 why
怎么做 how
解决why和how问题比较难以解决
2012 吴军 离开腾讯 回到谷歌 其上级领导 幸格博士和尤斯塔斯
第三章 思维的革命
思维决定科学成就
从欧几里得到托勒密再到牛顿,在思想方法上是一脉相承又不断发展的。 牛顿把欧几里得方法论推广从数学推广到自然科学。把托勒密用机械运动描述天体扩展到描述世界上任何规律。将牛顿的方法论概括为机械思维。
工业革命,机械思维的结果
牛顿找到了开启工业大门的钥匙,瓦特开启了大门。火车、打字机、轧棉机、蒸汽船等;爱因斯坦光速恒定基础上发现狭义相对论。
机械思维重要特征-所有问题有一个通用解决方法。
牛顿时代,人类进步得益于机械思维,进入信息时代后,越发局限。世界存在很大不确定性,如何在不确定的情况下取得科学成就需要新的方法论。
世界的不确定性
世界上很多事情是难以用确定的公式或规则来表示,没有规律可寻,通常可以用概率模型来描述。
在概率论基础上,香农建立起完整理论,将不确定性和信息联系起来,就是信息论。
熵——一种新的世界观
香农用热力学中熵的概念来描述信息的不确定性。
大数据的本质
大数据的科学基础是信息论,它的本质是利用信息消除不确定性。
从因果关系到强相关关系
采用相关大数据分析,转变思维。数据之间的相关性在某种程度上可以取代因果关系,帮助我们得到答案,这便是大数据思维的核心。
数据公司Google
作为数据公司,主要是花大量时间来寻找确定和因果关系,通过从大量数据汇总挖掘相关性。
思维的革命
古希腊建立起来的思辩的思想和逻辑推理的能力
欧几里得 公里化体系的几何学(5个相互独立的公设 )《几何原本》
意义,为几何学、数学和自然科学、法学界奠定了基础
欧几里得、毕达哥拉斯之后 古希腊罗马时代 最伟大的天文学家 托勒密
成就
地心说
球坐标
赤道和零度经线
黄道
弧度制
方法论和思维方式
通过观察获得数学模型的雏形,然后利用数据来细化雏形
之后的哥白尼和伽利略都受到 托勒密 思维方式的影响
也影响了现在的经济学
东方在技术上领先西方,但在科学上落后了西方,这一点就在方法论上
托勒密模型的缺陷
整体模型复杂
确定性假设
笛卡尔 提出了 大胆假设,小心求证的 科学方法论
牛顿 葬在威斯敏斯特教堂 英国皇家学会会员 人类历史上第二影响力的人 超过了耶稣、孔子 《自然哲学之数学原理》(力学三定律和万有引力定律)《光学》(光分解为单个原色)和微积分
牛顿天文望远镜 其利用光学
伏尔泰 杜撰的 牛顿被苹果砸了一下
开创了科学的时代、理性的时代、西方人近代社会
大道至简:指出任何正确的理论 从形式上都是简单的,同事又有非常好的通用性
牛顿之前 人类对自然恐惧和迷信 之后 自信、主动
哈雷 利用牛顿定理 哈雷彗星
影响
焦耳 能量守恒定理
麦克斯韦 电磁
瓦特 改进了 和工厂主博尔顿一起 万用蒸汽机(此之前是纽科门蒸汽机)
20岁出头 格拉斯大学工作
通用性很好 这也是 机械思维的重要特征
月光社 瓷器大王韦奇伍德 第一个采用蒸汽动力的行业-瓷器
现有产业+蒸汽机=新产业
19世纪初 英国技师 史蒂芬森 利用机械发明了火车
1821 实现了 英国斯托克顿和达灵顿之间的铁路连接
英国发明家 查尔斯瑟伯 转轮打字机
美国耶鲁大学 伊莱惠特尼 轨棉机
简介导致了 美国的 南北战争
美国发明家 罗伯特富尔顿 蒸汽船
为全球自由贸易时代的到来做好了准备
瑞士 能工巧匠 机械表
19世纪中叶 发明家巴贝奇 机械差分计算
20世纪30年代 德国计算机科学家和机械师 楚泽制造了 人类第一台可编程的计算机Z1
爱因斯坦 侠义和广义相对论 物理学集大成者
爱因斯坦所 上帝不掷zhi色子
量子力学 波尔 赢了
青霉素
19世纪中期 奥匈帝国 赛麦尔维斯和法国巴黎巴斯德 发现微生物细菌会导致很多疾病
英国医生 亚历山大弗莱明 发现吧消毒剂涂抹在伤员伤口上并不管用 最终在1928发现青霉素可以杀死细菌
牛津大学科学家钱恩和亚伯拉罕 发现青梅烷-能够破坏细菌的细胞壁
1939 霍华德弗洛里和厄恩斯特钱恩 最早 采用科学 发现青霉素杀菌的原理(青梅烷杀死细胞壁)和提炼青霉素
1945年 女科学家 多罗西霍奇金 青梅烷分子结构
MIT 科学家 约翰希恩 成功合成了 青霉素
爱德华彭利亚伯拉罕 头孢类抗生素 解决了抗药性问题
安格斯麦迪森:世界人均财富从公元元年左右到18世纪工业革命前是没有提高的
马克思:资产阶段在其不到100年的阶级统治中所创造的生产力,必过去一切时代创造的全部生产力还要多、还要大。
机械思维
确定性(可预测性) 但否认不确定性和不可知性
因果关系
物理学 张首晟 三个公式概括人类最高的文明
爱因斯坦的质能转换公式
量子力学的测不准原因
熵的定义
世界不确定来自两个因素
变量很多
客观世界本身 (宇宙的一个特性)
我们测量活动本身影响了被测量的结果(这个道理同样也可以应用于股市)
可以用概率模型来描述
克劳迪香农 将世界的不确定性和信息联系了起来(信息论)--大数据的本质 理论基础
香农第一定律(香农信源编码定律):对于信源发生的所有信息设计一种编码,其编码的平均长度一定大于该信源的信息熵,但一定存在一种编码方式,无限接近于信息熵
霍夫曼编码
经济学上的 吉尔德定律:尽量多的采用便宜的资源,尽可能节省贵的资源
香农第二定律:信道的传播速率不可能超过信道的容量
生意要靠人脉
最大熵原理
当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假。在金融领域,采用最大熵原理要比任何人为假定的理论更有效,因此他被广泛的用于机器学习
1948 《通信的数学原理》 信息熵,解决了对信息的度量问题,且量化了信息的作用,还把信息和世界的不确定性(无序状态)联系到一起
互信息:在信息伦里,利用互信息实现了相关性的量化度量
交叉验证(例子:空气湿度高 24小时要下雨 结合气压信息)
交叉熵 库尔贝尔提出 更多的称为:库尔贝尔-莱伯勒距离
反应两个信息源之间的一致性或两种概率模型之间的一致性。当两个数据源完全一致时,他们的交叉熵等于零 。
对代表性和一致性的一种精确的量化度量。
黑天鹅事件(小概率事件)
奥地利物理学家 路德维希玻尔兹曼 首先意识到无序状态 将熵(宏观特性)和微观特性联系起来
意义:信息论完全建立在不确定性基础上,而要想消除这种不确定,就要引入信息。至于要引入多少信息,则要看系统中的不确定有多大。这种思路成为信息时代做事情的根本方法
从因果关系到强相关关系,先有结果,然后再反推原因的做法,和过去通过因果关系导出结果人做法截然不同
斯坦福医学院 院长米纳 估计新药的研制过程为 20年的时间和20亿美金的投入
20世纪90年代中期 美国历史上 世纪大诉讼
美国法律 采用 无罪推定原则(假定为无罪,除非有足够的证据证明其有罪)
1994 密西西比州总检察长 麦克摩尔 VS 菲利普莫里斯烟草公司
赔偿3655亿美金 方法采用了统计上强相关的证据
数据公司GOOGLE
著名机器智能庄家 前google研究院院长 诺威格博士
点击模型:度量用户点击数据和搜索结果相关性的模型,它在搜索排序中至少占70%-80%的权重
google的广告系统每次播放什么广告、不是由任何规则决定的,而是完全是利用数据、挖掘相关性的结果
大数据思维的核心
如果能够找到确定性(或者可预测性)和因果关系,这依然是最好的结果
在无法确定因果关系时,数据为我们提供了解决问题的新方法。数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
大数据思维和原有机械思维并非完全对立,它更多的是对后者的补充。
第四章 大数据与商业
从大数据中寻找规律
警察利用用电量查出大麻;购物网站精准定位需求;
巨大的商业利好:相关性、时效性和个性化的重要性
根据天气等调整商品销售策略;根据客户喜好推荐商品;时效性强迅速反应;
交易记录完整,全面,时效;
大数据上商业的共同点-尽在数据流中
收集数据是局部到整体,指导商业行为时,流向是整体到局部。完成两个方向的流动。
把控每一个细节
使用RFID标签记录每个商品信息,服装,机器部件。有助于更加针对性市场推广;
重新认识穷举法-完备性带来的结果
google无人汽车,利用大数据,全面的街景数据让汽车迅速识别周边环境,超越其他对手。
从历史经验看大数据的作用
新技术+原有产业=新产业;现有产业+蒸汽机=新产业;现有产业+电=新产业;现有产业+大数据=新产业;现有产业+人工智能=新产业;
技术改变商业模式
加大数据缔造新产业
GE冰箱、小米手机收集用户行为分析等数据。不是所有公司都需要大数据部门,可以租用专门的数据公司服务。
大数据与商业
从数据中找规律
美国毒品问题
美国宪法第四修正案:人人具有保障人身、住所、文件及财物的安全,不受无理之搜查和扣押的权利。
供电公司 爱迪斯托
大数据思维的三个亮点
一、用户统计规律和个案对比,做到精准定位
二、社会其实默认了在取证时利用相关性代替直接证据,既所说的强相关性代替因果关系
执法成本,或者更广泛的讲,运营的成本,在大数据时代大幅下降。
在有大数据之前,寻找一个规律常常也很困难的,经常要经历“假设-求证-再假设-再求证”这样一个漫长过程
美国第二大连锁百货店塔吉特利用大数据 分析母婴群体的购物行为
聘请统计学硕士 安德鲁波尔
记者杜西格:塔吉特比一个十几岁女孩的父亲先知道他的孩子怀孕了。
如同,跑去相亲的男女,虽然事先已经把对方了解得一清二楚,还装作什么都不知道
巨大的商业利好,相关性、时效性和个性化的重要性
沃尔玛和梅西百货店 固定货架和进门货架
之前对于细节数据的收集和处理不重视,更看重经验和宏观数据
积累经验,也用到数据的相关性,但过程非常缓慢
沃尔玛的对手由塔吉特和costco(好市多)仓储店 变成亚马逊 个性化推荐系统
亚马逊三个优势
交易数据是即时而完整的纪录下来的,而且是随时可用、可分析的
拥有顾客的全面的信息
市场策略马上实现
个性化推荐系统
由同类顾客归类 演变成 由商品直接推荐商品(item to item)
网飞netflix
之前对手 电影租赁公司百事通(blockbuster) 和好莱坞录像hollywood video
后来将邮寄改为宽带在线观看 根据需求收看 on demand
2016年初 网飞市值超越传统电视、默多克的Direct TV
相关搜索
无关键词的搜索
GOOGLE Now
大数据商业的共同点-尽在数据流(data flow)中
收集、处理和建模的流程
无目的的原始数据的数据收集到聚合的数据
选择和处理之后的筛选、处理后的数据
机器学习之后数据模型,分别应用到不同的领域
大数据商业应用中,数据的流程
一、从每一个细节到整体
二、从整体到每一个细节
把控每一个细节
大数据在商业活动中从细节到整体再从整体到细节双向流动,使得我们不仅能够利用大数据对商业进行整体提升,更能够精确到每一个细节。
例子:戴维 硅谷创业者 酒吧酒架改造方案
装上测量重量的传感器
无源的射频识别芯片RFID的读写器
例子:普拉达prdda 意大利著名的奢侈品品牌 100多年历史
经验和营销水平在过去常常靠不住或者说不可能靠得住
大数据对商业的帮助是全方位的,即使是对于TO B的用户
中国的金风公司 生产风能发电设备的公司
重新认识穷举法-完务性带来的结果
google只花了4年多的时间 无人驾驶汽车
采用最好的信息采集技术(激光雷达ladar+高速摄像机+红外传感器)
20世纪90年代 清华大学就在研究无人驾驶汽车
2004,美国国防部高级研究计划局DARPA 组织了世界上第一届自动驾驶汽车拉力赛 第一名来自卡内基梅隆大学
经济学家弗兰克李文和理查德默南 《劳工新种类》指出货车司机还不可替代
他们认为处理不确定问题的能力只有人类所特有,机器暂时不会具有这个能力
从历史经验看大数据的作用
新技术+原有产业=新产业
新有产业+蒸汽机=新产业(动力革命)
瓦特、博尔顿、韦奇伍德 瓷器
英国巴拉斯顿的韦奇伍德博物馆 保留使用蒸汽机以及使用蒸汽机制造瓷器的各种设计文档
纺织业
家庭纺织业在短短的100年里 消失了
运输业
从苏美尔文明 使用帆船
18世纪 西班牙和荷兰 把大帆船技术推向了顶峰
陆路交通
火车取代了马车
工程方面
港口的建设 帮助英国把工业品卖到全世界
中国洋务运动之后 开始使用蒸汽机 但在思维方式上,坚持“中学为体,西学为用”
新有产业+电=新产业(电气革命)
不仅仅是取代蒸汽机的动力源,更是一种新的生产和生活方式
人口密度高的大都市出现,因为电梯、地铁、有轨和无轨电车
已电话和电报的通信产业
留声机、电影、收音机的大众娱乐产业
冶金业、化学工业
整个19世纪,美国主要供电公司只有通用电气和西屋电气,第二工业强国德国,发电的只有西门子和德国电气
新有产业+摩尔定律=新产业(信息革命)
其实有两方面革命
1、创造了一批与信息的产生、传输和处理有关的产业,比如电视、传媒、通信、卫星与信号处理的产业,比如雷达,地质上的遥感
2、原来的产业在使用计算机后产生了本质的变化,形成了全新的产业
银行业
欧洲文艺复兴时期银行业的先驱美第奇家族,后来犹太银行家代表罗斯柴尔德家庭,再到后来的美国银行业的代表,洛克菲勒支持人花旗银行
金融业
1971年,美国的全国证券交易商协会推出了自动报价系统,系统为NASDAQ,纳斯达克诞生.在此之前,要去交易所纸质交易
高盛和摩根士丹利等券商的收入来自交易费,每一笔交易的手续费都在100美金以上
之后 折扣代理商(富达、先锋证券商) 手续费 5-10美金,从而高盛和摩根士丹利从股票交易转向理财业务
1987年,中国招商银行成立
农业
孟山都公司 种子公司
新有产业+大数据=新产业
新有产业+机器智能=新产业
技术改变商业模式
工业革命之后
韦奇伍德在伦敦开办了瓷器展示店 后来高端产品专卖店的前身
1851年 英国伦敦 第一届世界博览会
第二次工业革命之后
产品营销从过去口碑相传、实体店展示被动的形式变成了广告主动宣传 开启了全球性品牌 广告业业起
产业链开始形成
消费拉动经济增长 整个社会的价值观也开始发生变化了
信息时代
产业链从一种产品拓展到整个IT行业
安迪-比尔定律
服务业重要性突显出来
IBM 郭士纳 IT服务
结论
技术革命导致商业模式的变化,尤其是新的商业模式的诞生
生产越来越过剩,需求拉动经济增长的模式变得不可逆转
商业模式的变化有继承性也有创新性
+大数据缔造新产业
GE美国电器行业的龙头老大 智能冰箱
2013年12月12日 雷军与董明珠之争
2015年7月小米再融资时 估值已达到450亿美金
最早利用智能手机特点开发移动社区的公司不是腾讯 而是小米
吉列公司送刀架卖刀片
经销商刻意要切断厂商和用户的联系,以便他们有可能做后续的增值服务
例:美国销售办公用户的连锁店Staple史泰博或office depot 迪欧办公和销售电器的百思买和fry's
结论
1、大部现现在产业加上新技术等于新产业。或者说原有产业需要以新的形态出现
2、并非每一家公司都要从事新技术产品本身的制造,更多时候它们是利用新技术改造原有产业
第五章 大数据和智能革命和技术挑战
技术的拐点
为什么呢大数据拐点为今天:从数据的产生、存储、传输、处理四个角度分析。
数据的产生
电脑变多,传感器多,传统存储的信息化;互联网发展和视频、监控等。
数据的存储
固态半导体的出现,使存储成本下降。
数据传输
4G、wifi技术
数据处理
云计算兴起、通过互联网、廉价的服务器、实现大规模并行计算。
数据收集:看似简单的难题
google收购智能空凋控制器和研发手机目的在于收集数据。
数据的存储压力和数据表示的难题
需要重新设计通用有效便捷的表示和存储方式,需要对数据建立索引,标准化数据格式。比如从视频中查找某个物体。
并行计算和实时处理:并非增加机器那么简单
无法保证每个小任务的计算量都是相同的,实时性要求高,需要从根本上改变系统设计和算法。
机器挖掘:机器智能的关键
机器学习的方法不可能每家公司都去研究,最终由专业的公司为大众提供机器学习的服务。
数据安全的技术
首先保证数据不损坏不丢失;保证数据不被盗走。
保护隐私:依靠大数据长期挣钱的必要条件
双向监控,输入自己的信息才能查看别人的信息,制约权力做好的办法就是使用权利。
大数据和智能革命的技术挑战
每一次技术革命除了有生产力发展需要,还要有很多的技术准备。只有当所以这些必要的技术都成熟时,技术革命才变为可能。
穿越时空的人
达芬奇
尼古拉特斯拉
技术的拐点
科学技术的发展并非是匀速的
科技在短时间内活的单点突破,然后新科技全面迸发,这便是拐点
1666年 牛顿发明了微积分、力学三定律、万有引力定律 世界进入科技近代社会
1905年 爱因斯坦完成了分子说,发明了光电效应 狭义相对论 开启科学的现代社会
1965后 摩尔定律
数据的产生
电脑本身
包括程控交换机
传感器
例:RFID无源的射频识别芯片
应用于零售业无人结算、商品的防伪和跟踪货物的移动
摄像头
穿戴式设备
例:感知加速度芯片,根据加速度提积分算出速度
之前已经存在的,以非数字化形式存储的信息数字化
非数字化数据包括语音、图片、设计图纸、视频、档案、古稀图书和医学影像等
UGC内容
信息存储
顺序的磁带到机械的硬磁盘到SSD(半导体的固态存储器)
传输的技术
GSM(全球移动通信系统) 100kb/s
第四代LTE(通用移动通信技术的长期演进) 2mb/s-100mb/s
信息的处理
计算量的增加取决于算法的复杂度。对于排序的计算,数据量增加N倍,计划时间会增加NlogN倍。对于矩陈运算,则可能增加N在2次幂倍
通过互联网、廉价服务器和比较成熟的并行计算工具,实现了大规模的并行计算。
大数据实际上是对计算机科学、电机工程、通信、应用数学和认识科学发展的一个综合考量。
数据收集-看似简单的难题
传统的数据收集方法,常常是先且个目的,然后开始收集数据
天王星运动轨迹与牛顿定理预测的不一样,于是发现在海王星
大数据时代,收集数据时常常没有这样预先设定的目标,要”全集“(完备性)、带来预想不到的惊喜
数据是否具有代表性,我们常常认为具有代表性的数据,可能并不那么具有代表性
在收集数据中,非常忌讳那种”大胆假设,小心求证“的思维方式。因为事先有了定论,再找数据来证实它,总能找到有利的证据。而这些看似被数据证实的结论,很可能与真实情况相差十万八千里。
亚里士多德 格物致知的先行者 荒谬的结论 男人的牙齿比女人的多
如果统计永远有3-5%的误差,我们就无法在多纬度上得到可信的统计结果
变了形的数据,既没有统计意义,也失去了大数据的完备性
收集全集的困扰
2010年 google TV
2014年 32亿美金收购nest公司 产品为自主学习功能和wifi的智能空调的控制器
5.55亿美金 收购家庭录像监控公司dropcam
google-411 类似玩具的电话语音识别系统
微软的xbox、apple tv
数据存储的压力和数据表示的难题
数据量增长的速度超过摩尔定律增长的速度
目前节约存储设备的技术体现在两方面
1、存储同样的信息占用的空间小,不是简单的数据压缩,从信息论的角度讲,要去除数据的冗余(同时,数据的读写处理方式要做改变)
图像的存储由点阵变成向量
邮件的附件只存一份
2、数据安全,不丢失,不损坏、而不是防止数据被盗
Google的文件系统gfs (一个可扩展的分布式文件系统,用于大型的、分布式的,对大量数据进行访问的应用)
3、如何标准化数据格式,以便共享
Google的protocol buffer的数据格式
并行计算和实时处理:并非增加机器那么简单
1、任何一个问题总有一部分计算时无法并行的 ,用并行比例(parallel portion)来度量
Google的编程模型mapreduce和雅虎的Hadoop海杜普
mapreduce和Hadoop是批处理的形式
2、无法保证每一个小任务的计算量是相同的
3、对于实时性的要求
事实上对于任何大数据问题都做到实时性是不可能的,但对于特定问题,比如对于日志等结构化货半结构化的数据,还是有可能的
google 的Dremel工具(采用数据列优先的方式来存储)
数据挖掘-机器智能的关键
大数据产生的效益在很大程度上取决于使用和挖掘数据的水平
使用大数据的步骤
1、对数据的过滤和整理,去除与要解决的问题无关的维度
使用信号与噪声之比(snr信噪比)来度量描述信号的质量
信噪比越高,数据就可靠。相反,信噪比太低,数据就不可靠。
我们在使用数据时,需要降噪处理
2、机器学习
机器学习算法,包括人工神经网络算法、最大熵模型、逻辑自回归等,早在40年前就已经成熟了
机器学习是一个不断迭代、不断进步的过程,就是期望值最大化。机器学习训练算法迭代的次数越多,得到的数学模型效果越好
数据安全的技术
数据安全有两层含义
1、数据不损坏、不丢失
2、保证数据不会被偷走
2013年 美国百货连锁商店塔吉特数据丢失 1.6亿美金
2014年 索尼丢失数据 1亿美金
人的安全防范意识要比想象的差得多
保障信息安全的措施
文件系统和操作系统设计上加以改进(不过并非一朝一夕)
利用大数据的特点,来保护大数据的信息安全
例子:常规的数据流程或日本发明的汽车防盗的监控系统
保护隐私:靠大数据长期挣钱的必要条件
赤裸裸生活在众人的目光下不舒服
我们每一个人都不是完人,都或多或少有些并非十分光彩的一面
技术等发展和保护隐私开始产生矛盾
大家对隐私不在意的原因
1、不清楚大数据按照目前这个方式发展,最终回严重侵犯个人隐私
2、抱着侥幸人心里
3、很多人觉得,既不做坏事,也不担心行踪被暴漏,也不是什么名人拍大家知道什么秘密。
保护隐私的手段
1、预处理数据 读不懂数据的内容
2、双向监视
正如制约权力最好的办法是使用权力,解决一种技术带来的漏洞最好的办法是采用另一种技术
第六章 未来智能化产业
未来的农业
以色列严重缺水却农业强国,滴灌技术等高科技。
未来的体育
库里投三分球,中国女排,离不开大数据和机器智能。
根据统计,最有效的进攻是眼花缭乱的传球和准确的投篮,不是彰显个人能力的突破和扣篮。
今天的高尔夫和网球运动员身上安装各种传感器,测定动作,然后和优秀的选手动作对比,纠正自己的动作。
未来的制造业
机器取代人,提升效率。机器人制造。
未来的医疗
降低医疗成本,通过机器人做手术,通过智能识别软件进行医学影像分析。
解决医疗资源短缺问题,非洲等贫困地区可采用机器阅读病例,倾听病人描述和分析化验结果进行疾病诊疗。
制药业的革命;癌症,是身体内细胞在复制过程中基因出了错。癌细胞病变的基因不相同,不同人不能采用同一种药,需要进行基因对比。另外,癌细胞本身复制也会出错,导致原有药物失效。
人类是否可以长生不老,基因编辑技术。
未来的律师业
利用自然语言处理技术和信息检索技术,发明计算机阅读和分析法律的软件。
未来的记者和编辑
通过语言模型和概率模型,将文字构成优美的句子,再用另外一个语言模型将句子组成段落。
未来的智能化产业
未来的农业
斯坦福大学教授兰莫里斯 人均产能
以色列滴灌技术 欧洲的厨房
2013年7月 droplet 家庭院落自动喷水机器人
未来的体育
2015年-2016年赛季 硅谷地区的金州勇士队 斯蒂芬库里 、汤普森、 老板乔拉格布(凯鹏华盈合伙人)
国际象棋、围棋
未来的制造业
2011年 德国提出了工业4.0概念,即通过数字化和智能化来提升制造业的水平。相应地,中国也提出了中国制造2025,其核心就通过智能机器、大数据分析来帮助工人甚至取代工人,现实制造业的全面智能化
全球最大的oem制造商富士康 雇佣了130万廉价的工人
特斯拉汽车装配厂(硅谷东部的弗利芒特市 最大的汽车装配厂) 全部由机器人操作
特斯拉取消了存在了一个世纪的汽车代理商制度
之前需要本地的员工来做
机器取代人的好处
1、降低成本
2、很容易按照个性化定制
制造业未来的竞争要靠从设计到销售全过程的智能化水平
未来的医疗
人类的医疗保健上遇到了以下几个瓶颈
1、医疗的成本越来越高
美国gdp 17%-18%
中国 看不起病
2、医疗资源不平衡
马里兰州:约翰霍普金斯医院、海军总医院(类似中国301医院)、协和医院和国家医学院
3、癌症、帕金森综合症、阿尔茨海默症(老年痴呆症)无法攻克
大数据和机器智能将如何改进全世界医疗保健以及制药行业的现状
1、降低医疗成本
成本高的原因:1、药品的研制很长、费用太高 2、医务人员培养的成本太高
达芬奇手术系统
2、解决医疗资源短缺问题
IBM的沃特森 Watson 可以理解自然语言,分析各种数据和医学影像
3、制药业的革命
2013年 Google成立独资的it医疗公司 calico 阿瑟李文森 担任ceo
20世纪50年代 著名工程师、晶体管之父皮尔斯把治愈癌症和登月、识别语音、水变油、海水里提炼黄金 并列为人类难以解决人5个难题
癌细胞是动物和人自身细胞在复制的过程中基因出了错,而非来自体外,癌细胞本身的复制也会出错
4、人类是否可以长生不老
2013年 Google成立独资的it医疗公司 calico 阿瑟李文森 担任ceo
加州大学圣迭戈分校教授约翰克雷格温特 人类长寿公司
未来的律师业
美国法律是判例型法律体系(又称海洋法系),打一场大官司,需要将历史上相关的官司法律文件都拿出来分析
硅谷帕罗奥图市的黑石公司 发明了一种处理法律文件的自然语言处理软件
未来的记者和编辑
写作从简单到复杂分为下面5个层次
书写完整的句子
组织几个句子构成符合逻辑的段落
给予特定格式,或者写作模版,能够清晰传递信息,表达意思
能够不限定格式地写作内容,达到一般人平均水平
能够达到专业记者、作家肯学者水平
目前计算机基本已经达到第三个层次了
第七章 智能革命和未来社会
智能化社会
利用大数据防止踩踏等
大数据分析交通态势
精细化社会
追踪每一次交易
从标准化到个性化的服务
智能就医指导系统可以根据患者情况和医生情况帮助他们选择合适的医生。
大数据和人工智能让整个社会环境和文明程度有了质的提升。
无隐私社会
大数据发展,越来越没有隐私,隐私像自由,只有失去的时候才觉得珍贵。
机器人抢掉的饭碗
每一次技术革命都需要较长时间消化,目前信息革命冲击还未消化完,智能时代已来敲门。
争当2%的人
接受新的思维方式,利用好大数据和机器智能。回收过去三次技术革命,最先受益的是和产业相关的人,善于利用技术的人。无论做那个行业,学会利用大数据和人工智能技术。
智能革命和未来社会
这是最好的时代,也是最坏的时代,英国文豪狄更斯 《双城记》
智能革命带给社会美好的一方面
1、智能化(表现在整个社会从宏观到微观的各个层面)
2014跨年夜 上海陈毅广场 踩踏事件 ---百度开发预测热门城市和景点的拥挤情况等相关信息的服务
智能交通
反恐
2、精细化社会
比特币中区块链(block chain)
区块:即模块、单元的意思
链:链条的意思,即表示一边串的交易
个性化制药
无隐私的社会
在大陆法的国家,立法永远是远远滞后于案件的发生
超级权力big brother:英国小说家乔治奥威尔在政治幻想小说《1984》
隐私就像自由,只有当人们失去它的时候,才知道他的可贵
机器抢掉人的饭碗
人类总体来说是过分自信的,趋利而忽视危害。这一点研究幸福学和心里学的学者早就有了定论
当社会面对重大技术革命所产生的冲击不知所错,需要两代人才能消除它的负面影响
从工业革命(人类历史上空前的伟大事件)到黄金时代
带来三个结果
人类过得好了
历史学家 安格斯麦迪森 对全球各个文明在不同历史时代所做的经济学研究
马克思:资产阶段在其不到100年的阶级统治中所创造的生产力,必过去一切时代创造的全部生产力还要多、还要大。
人类活得长了
人类有自信和尊严了
1851 维多利亚女王 第一次世博会 “荣光啊,荣光,无尽的荣光” (黄金时代)
受益者
博尔顿、万特、韦奇伍德这些少数人
解决方法
资本输入,开拓全球殖民地,推行自由贸易
从第二次工业革命到镀金时代
人类历史产生实业巨子的高峰年代
马尔科姆格莱德威尔 《异类 》:人类历史上最富有的75人中,有1/5出生在1830-1840年的美国,包括钢铁大王卡内基、石油大王洛克菲勒标准石油公司 、运输业范德比尔特(建立托拉斯(信托),控制美国上市公司10%的财富)、JP摩根 北方钢铁公司
欧洲:克虏伯、西门子
贫富差距大
马克吐温和西奥多德雷塞 作品 真是的描述
美国不多见的工人运动发生了
20世纪20年代 美国镀金时代或“柯立芝繁荣”
信息革命
20世纪50年代末到70年代初 苹果 史蒂夫乔布斯、微软 比尔盖茨和保罗艾伦 、太阳公司 安迪贝托谢姆和比尔乔伊 、戴尔迈克尔戴尔、Google拉里佩奇、谢尔盖布林
争当2%的人
心理上和观念上的距离比技术上和商业上的要远的多
新的思维方式:接受大数据和机器智能
未来依然是人的时代,我们不会被机器控制,机器在完成任务时甚至不知道自己在做什么