导图社区 通识系列:数学(终稿)
通识是每个人都应该了解一点的,它背后是世界运行的逻辑规律,关乎万物,比如:思维、管理、商业、财务、爱情、哲学……
编辑于2021-02-17 11:22:21读书笔记:《光荣与梦想》,有美国历史,水门事件,麦克阿瑟,杜鲁门,柯立芝繁荣,原子弹,胡佛,罗斯福,一起来看看吧。
颠覆式成长读书笔记,内容有:做勇敢的拓荒者、正确匹配自身优势与潜在机遇、让制约创造价值、自恃扼杀创新、多维度生长、坦然面对失败、探索精神,驱动未来、开启你的颠覆式成长之旅,欢迎品鉴。
本书以“灰犀牛”比喻大概率且影响巨大的潜在危机。相对于“黑天鹅事件”的难以预见性和偶发性,“灰犀牛事件”不是随机突发事件,而是在一系列警示信号和迹象之后出现的大概率事件。针对这类迫在眉睫的、概率大、影响广泛的危机,米歇尔·渥克在书中为我们提供了预测、防备、应对及善后的具体方法,为人们在组织管理、公司管理和国家管理过程中提供有效决策参考。
社区模板帮助中心,点此进入>>
读书笔记:《光荣与梦想》,有美国历史,水门事件,麦克阿瑟,杜鲁门,柯立芝繁荣,原子弹,胡佛,罗斯福,一起来看看吧。
颠覆式成长读书笔记,内容有:做勇敢的拓荒者、正确匹配自身优势与潜在机遇、让制约创造价值、自恃扼杀创新、多维度生长、坦然面对失败、探索精神,驱动未来、开启你的颠覆式成长之旅,欢迎品鉴。
本书以“灰犀牛”比喻大概率且影响巨大的潜在危机。相对于“黑天鹅事件”的难以预见性和偶发性,“灰犀牛事件”不是随机突发事件,而是在一系列警示信号和迹象之后出现的大概率事件。针对这类迫在眉睫的、概率大、影响广泛的危机,米歇尔·渥克在书中为我们提供了预测、防备、应对及善后的具体方法,为人们在组织管理、公司管理和国家管理过程中提供有效决策参考。
数学通识
1. 简介
数学是一切学科的基础,它具有化繁为简,直击本质的特点。
打好数学基础,以数学思维应对工作和生活,往往可以一通百通。
数学是一种抽象的知识体系,人类要靠经验感知来认识世界,学习的过程就是在两者之间假设一座桥梁。
桥梁要怎样假设呢?
1. 简历知识体系,将数学的知识点各安其位。
2. 了解关键知识点在数学上的位置,和其他知识体系的相关性。
3. 通过学习数学,实现思维方式的跃进。
学好数学最重要的方法是不断训练自己的思维方式,做一个“深入思考者”。
很多时候数学不能直接解决我们的实际问题,但是它能够给我们提供一个思路。
注重通识教育
数学的特点
数学的各个分支从体系到研究方法,再到应用方法是共通的。
数学发展和体系构建常常是从特例到引理再到定理、推论,最后到应用的全过程。
人类对数字的认识历程是“从具体到抽象”的。
对数学的认识是“从静态到动态”的。
学习数学的目的不是为了提高计算能力,而是为了提高对数学,对数学的学习方法,对价值判读,乃至人生抉择的的理解。
很多大学毕业生对数学的理解仍停留在小学阶段。
数学的发展历程
数学的发展是从“个案到整体”的规律变化。
数学的发展是“从个别定理到完备知识体系”的整体完善。
数学的发展是“从具体到抽象“是从”完全确定到把握不确定性”的过程。
2. 数学的线索 从猜想,到定理,到应用
勾股定理:为何要叫毕达哥拉斯定理?
定义:直角三角形两条直角边的平方之和等于斜边的平方。
毕达哥拉斯(Pythagoras,约公元前580年—约公元前500年)是古希腊著名的数学家和知识的集大成者。
汉朝的《周髀算经》记载,早在公元前1000年的时候,周公和商高这两个人就谈到了“勾三股四弦五”。他们的年代比毕达哥拉斯早,因此教科书中讲是中国人商高最早提出这个定理的,于是称之为勾股定理或者商高定理。
但是《周髀算经》里所记载的是一组勾股数,并不能说明发现了其中的规律。
比周公和商高早1500年,古埃及人在建造大金字塔时已经按照勾股数在设计墓室的尺寸。
美索不达米亚人在公元前18世纪左右就知道很多组的勾股数(包括勾三股四弦五),耶鲁大学的博物馆里就保存了一块美索不达米亚人记满勾股数的泥板。
一个命题在没有证明之前,只能算是猜想,比如“哥德巴赫猜想”。总结出一个猜想和证明一个定理完全是两回事。
补充知识点:哥德巴赫猜想(1742年提出)
任何一个大于2的偶数都可以写成两个素数之和。
比如:4=2+2,6=3+3,8=3+5,10=3+7……
猜想内容非常容易理解,但至今未能被证明,所以它一直是个猜想,还不能被称为定理。
地位:如果说数学是科学的女王,数论是女王头上的皇冠,哥德巴赫猜想是皇冠上的明珠。
证明方向:现设N是偶数,虽然不能证明N是两个素数之和,但足以证明它能够写成两个殆素数的和,即N=A+B,其中A和B的素因子个数都不太多,譬如说素因子个数不超过10。用“a+b”来表示如下命题:每个大偶数N都可以表示为A+B,其中A和B的素因子个数分别不超过a和b。显然,哥德巴赫猜想就可以写成"1+1"。在这一方向上的进展都是用所谓的筛法得到的。
1920年,挪威的布朗证明了“9 + 9”;
1924年,德国的拉特马赫证明了“7 + 7”;
1932年,英国的埃斯特曼证明了“6 + 6”;
1937年,意大利的蕾西先后证明了“5 + 7”, “4 + 9”, “3 + 15”和“2 + 366”;
1938年,苏联的布赫夕太勃证明了“5 + 5”;
1940年,苏联的布赫夕太勃证明了“4 + 4”;
1956年,中国的王元证明了“3 + 4”。稍后证明了 “3 + 3”和“2 + 3”;
1958年,匈牙利的瑞尼证明了“1+ c”,其中c是一很大的自然数;
1962年,中国的潘承洞和苏联的巴尔巴恩证明了“1 + 5”, 中国的王元证明了“1 + 4”;
1965年,苏联的布赫 夕太勃和小维诺格拉多夫,及意大利的朋比利证明了“1 + 3 ”;
1966年,中国的陈景润证明了 “1 + 2”。
这是目前最接近哥德巴赫猜想的证明,被称为“陈氏定理”。
陈氏定理:任何一个充分大的偶数,都可以表示为两个数之和,其中一个是素数,另一个或为素数,或为两个素数的乘积,被称为“陈氏定理”。
因此该定理只能被称之为“毕达哥拉斯定理”,而我们由于民族自豪感在教科书上称之为“勾股定理”,实际上已经误导了孩子对整个数学架构的认知。
为什么定理是必须被推理出来的?
观察测量和逻辑推理的区别:误差
事实证实和用逻辑证明的区别
在数学上,用实验来验证一个假说(数学上也称猜想)是不被允许的;
数学的结论只能从逻辑出发,通过归纳或者演绎得出来。它必须完全正确,没有例外;
事实证实不能穷尽所有可能性,所以即使穷尽所有可能性得出的结论也不能等同于定理;
数学结论绝对性和科学结论相对性的不同
数学上的每一个定理都是一块基石,后人需要在此基础上往前走,试图建立一块新的基石,然后数学的大厦就一点点建成了。在这个过程中不能有丝毫的缺陷,一旦有,整个数学大厦就轰然倒塌了。
如:在勾股定理的确立上,三角学才得以建立,笛卡尔的解析几何才得以确立,再往上才能建立起微积分等数学工具,会有无理数的出现,黄金分割等等都和它有关。
有了一个个的定理,数学就得以建立起来,而且这个建立在逻辑推理基础上的大厦是很坚固的;
自然科学中和数学的逻辑不同,一个假说通过实验证实,就变成了定律。
如:波义耳同马略特一同发现,一个封闭容器中气体的压强和体积成反比。
后来发现当压强特别大时,这个定律就不管用了。
但是也没有关系,在大多数条件下定理成立,现代社会做产品时依然可以用这个定律,并不影响人们的正常生产生活。
类似情况的存在,和知识体系的分化,就形成了物理学及其他学科。
数学和自然科学的区别:前者从诞生开始就是绝对为真的,后者是通过实践一步一步的逼近真。
数学定理确立的大致过程:几个特例——发现很多例证——提出猜想——猜想经过证明成为定理——定理会有推论——产生新的定理和应用。
思考题
在物理学中,从不同的角度理解光,会得到粒子说和波动说两种解释,数学从两个角度证明同一个定理,会不会得到不同的结论?
数学的预见性:用推理走出盲区
无理数的产生
定理是永真的,但是,有了毕达哥拉斯定理后,如果两个边长为1的直角三角形,其斜边是多少呢?这超过了当时人们对数学的认知。
毕达哥拉斯认为数学是简洁的,所有的数字都应该是整数,或者至少可以表示为两个互素的整数相除的形式。即,我们现在所认知的有理数的范畴。
有理数定义:有理数是整数(正整数、0、负整数)和分数的统称,是整数和分数的集合。
整数也可看成分母为1的分数。
用反证法证明无理数的存在
“反证法”是间接论证的方法之一。亦称“逆证”。是通过断定与论题相矛盾的判断(即反论题)的虚假来确立论题的真实性的论证方法。
根据毕达哥拉斯对数字的认知,我们假设数字R等于A/B,其中A和B是互素的整数(不能再约分)假设R的平方等于2,就产生了三个条件: 1)A、B为互素整数; 2)A、B互素; 3)A/B的平方等于2。 这三个条件能否同时满足呢?
答案是不能。证明思路: 因为R^2=2,所以(A/B)^2=2,所以A^2/B^2=2,所以A^2=2×B^2。 问题来了,A是奇数还是偶数? 我们知道奇数的平方是奇数,而A^2=2×B^2,那么A^2一定是偶数,所以A也是偶数。 既然A是偶数,它就可以写成A=2×C的形式,A^2=2×B^2,就可以写成(2C)^2=2×B^2,也就是4×C^2=2×B^2,等式两边同时除2,得到2×C^2=B^2。 问题又来了,B是奇数还是偶数呢? B^2=2×C^2,奇数的平方是奇数,所以B^2是偶数,那么B也一定是偶数。 问题又来了,A和B如果同为偶数,那么与条件A、B互素就矛盾了。
数学的特点是:如果我们的推到过程没有问题,那结果一定没有问题。
所以上面的推导结论显示:要么是数学本身错了,要么是我们的认知错了。
如果数学本身没有错,那么一定存在一种数字,我们过去没有认识到,它们无法写成有理数的形式,即A/B,它们是无限的不循环小数,在这样的数中有一个自己乘以自己时等于2的。今天我们把这个数字写成√2。这一类的数字其实很多,我们给他们统一命名叫做“无理数”。
趣闻
据说毕达哥拉斯的学生希帕索斯做了上述证明,出现无限的不循环小数,这在毕达哥拉斯看来是数学的漏洞,他又无法把这件事解释圆满,这就是数学史上的第一次危机。
毕达哥拉斯为了拯救数学,挽救这次危机,他选择的方法是把他的学生扔进了海里,把这件事隐瞒下来。
当然,像√2这样的“无理数”存在的事实,却不可能一扔了之,无理数是客观存在的,毕达哥拉斯是隐瞒不住的,这件事成为了这位确立了数学在人类知识体系中地位的大学问家的一个污点。
无理数的危机也带来了数学思想一次大的飞跃,这也告诉人们,人类在对数字的认识上还具有局限性,需要有新的思想和理论来解释,认识本身不能有禁区,那些事先为科学设定的条条框框,最终都不得不被抛弃掉。
认知升级
数学和现实出现矛盾时,需要检查推理过程是否有疏漏。
如果推理没有问题,要么是认知错了,要么是最初的假设错了。
很多时候都是我们有幸,在最初认知错误被校正后,有机会重新认识这个世界。
比如无理数的出现,无穷小概念的提出,对无穷大的重新认识等,都经历了类似的过程。
约翰·霍普金斯大学的天体物理学家亚当·里斯(Adam Riess)等人通过计算,发现宇宙的质量是负数,经认真核对确认推导没有问题,于是,他们认定宇宙中一定存在一些我们即看不见,又不了解的东西,那些就是所谓的暗能量。亚当·里斯也因此获得了2011年的诺贝尔物理学奖。
自然科学中很多理论的确立并非来自观察和测量,而是通过数学推导,比如
黑洞
引力波
血液循环论
原子论
……
走出盲区
你不需要会踢球,一样可以看球,评论球。因为你掌握足球的规则。
现实世界中,我们不需要推导出每一件事情,只需要把握住一些准则就可以了解本质,而数学就是这样的准则。
思考题
我们都知道,整体要大于部分,因此10厘米长的线段上的点应该比5厘米长的多,但是能否用严格的逻辑证明它们上面的点一样多呢?(试一下吧,答案在无穷大章节)
数学思维:从逻辑出发想问题
从逻辑出发发现日常中被忽略的问题。
2008年金融危机的罪魁祸首CDS
克林顿政府为了让本来付不起首付的穷人也能买房子,允许银行提供购房首付的贷款。
比如100万的房子,需要贷款80万,首付20万,允许购房者把房子先抵押,从A银行获得80万贷款,再以较高的利息从B银行获得20万的贷款作为首付。
B银行提供的就是次级贷款,由于它的风险显然比A银行大,因此利率也高,如果有个别贷款无法收回,也能从其他贷款者偿还的利息中填补漏洞。
B银行还有一个更稳妥的做法,就是从高利息(比如每年10%)中拿出一部分(比如1%),向C保险公司购买贷款者违约的保险。
保险公司C根据历史数据发现房贷收不回来的情况很少,每个贷款周期按15年计算,坏账只占房贷的2%左右。于是C保险公司为B公司的10亿元房贷做了15年的贷款担保,每年收取1%的保费,15年总计1.5亿元;成本2000万,利润率高达650%。
投资银行D和C商量将这10亿美元的保险生意卖给自己,给C公司20%的利润,即3000万美元。C公司想,1.5亿虽然多,但是要承担15年的保险义务,不如一次性得到3000万,就达成了合作。
投资银行D将C公司为B银行作担保的业务,包装成证券,叫做CDS(信用违约交换),加价3000万美元卖给了另一家投资银行E。
E公司将各种类似的CDS又打了一个包,加价以新的证券形式在市场上市了。
人们总觉得自己可以从下家身上赚到钱。于是一同把CDS炒到了50万亿美元这么大的规模,这甚至超过当时美国房市本身的总值。
如果可以从逻辑出发,我们是不是在最初就能认识到这不过是一个变相的庞氏骗局。
使用逻辑发现问题,预见到不得不做的事情。
一带一路的建设
中国输出的资本收的回来吗?
不知道
但是用数学思维可以证明资本输出和帮助其他国家富裕这两件事是必须做的。
改革开放的40年,中国经济高速增长的秘密有哪些?
中国人勤劳;
GDP原始基础过低;
国内市场空白一片,供不应求;
其它国家人均收入比中国高很多,相比较中国的生产能力,外国的购买力近乎无限。
今天的我们是怎么样?
中国GDP达到世界平均水平;
总经济体量世界第二,占世界总经济体量的18%。
今后的40年,我们该怎么样?
假设中国仍可以保持高速增长,GDP增长率6%,世界平均3%;
复利40年后,中国经济体量增长10倍,扣除中国增长,世界的其他国家平均增长1.5倍;
这时中国的GDP将占到世界总GDP的50%;
问题来了,那个时候,谁来买中国生产的过生的产品,用哪里来的钱?矛盾出现了,该怎么解决呢?
所以我们现阶段需要做的是帮助其他国家共同了富裕
目前主要的帮助方式就是输出资本。
以史为鉴
19世纪的英国;
二战后的美国;
80年代的日本。
都是资本输出国。
如果你不输出,别人就买不起你生产的东西,滞销会导致未来的你无法高速发展。
用数学的工具考量事物,发现问题。
逻辑依据:矛盾律
“矛盾律”是传统逻辑基本规律之一。它通常被表述为A必不非A(A一定不是非A),或A不能既是B又不是B。要求在同一思维过程中,对同一对象不能同时作出两个矛盾的判断,即不能既肯定它,又否定它。
一个事物不能既有A属性,又没有A属性。
中国既不可能拥有全世界所有的财富,又让世界其它地区买走中国生产的过剩商品。
数学的边界:数学的局限性
从毕达哥拉斯定理到费马大定理。
在几何上有很多整数组满足毕达哥拉斯定理,比如(3,4,5),(5,12,13)等。这些被称为勾股数,从代数上解释这些勾股数,它们就是方程a^2+b^2=c^2的整数解。
人们想如果上面方程中的平方变成立方,甚至任意N次方,它还有整数解吗?比如是否有三个整数a,b,c,使得,a^3+b^3=c^3?
有一个叫费马的数学爱好者提出一个假说,他认为除了平方的情况,其他更高次方的方程都找不到整数解,这被称为费马大定理。
费马说他已经完成了证明,但是纸张太小,写不下了。在没有证明之前,严格意义上这只能算是费马猜想。
后来的300多年,费马大定理成了数学史上的超级难题,直到1994年,才由著名的英国旅美数学家安德鲁·怀尔斯证明出来。证明过程也是一波三折。
1986年,怀尔斯在做了10多年的准备后,觉得证明费马大定理的时间成熟了,决定将全部精力投入到该定理的证明上了。
为了确保别人不受他的启发率先证明了这个著名的定理,他决定在证明出这个定理以前不发表任何关键性的论文。
为了避免一个人推导的逻辑错了自己也看不出来,怀尔斯利用在普林斯顿大学教课的机会,不断地将自己部分的想法作为课程的内容讲出来,让博士生们来挑错。
1993年6月底,怀尔斯自认为准备好了,回到故乡英国剑桥,在剑桥大学的牛顿研究所举行了三场报告会。为了产生爆炸性的新闻效果,怀尔斯甚至没有预告报告会的真实目的。因此,前两场报告其实人不多,但是这两场报告之后,大家都明白接下来他要证明费马大定理了。
于是在举行最后一场报告时,牛顿研究所里挤满了人,据估计可能只有1/4的人能听懂讲座,其余的人来这里是为了见证一个历史性的时刻。很多听众带来了照相机,研究所所长也事先准备好了一瓶香槟酒。
当怀尔斯写完费马大定理的证明时,很平静地说道:“我想我就在这里结束”,会场上爆发出一阵持久的鼓掌声。这场报告会被誉为了20世纪该研究所最重要的报告会。
故事远还没结束,事后数学家们在检查怀尔斯长达170页证明的逻辑之后,发现了一个小漏洞。怀尔斯开始认为这个小漏洞很快能补上,但是后来才发现这个小漏洞会颠覆整个证明的过程。
怀尔斯又独立地工作了半年,但毫无进展,后来他请了剑桥大学年轻的数学家泰勒来一同工作,最后在泰勒的帮助下怀尔斯补上了那个小漏洞。
由于怀尔斯在证明这个定理时已经超过了40岁,无法获得菲尔兹奖,因此国际数学大会破例给他颁发了一个特别贡献奖,这也是迄今为止唯一一个特别贡献奖。
科普“菲尔兹奖”
菲尔兹奖,是据加拿大数学家约翰·查尔斯·菲尔兹要求设立的国际性数学奖项,于1936年首次颁发。因诺贝尔奖未设置数学奖,菲尔兹奖常被视为数学界的诺贝尔奖。
菲尔兹奖每四年颁奖一次,在由国际数学联合会主办的四年一度的国际数学家大会上举行颁奖仪式,每次颁给二至四名有卓越贡献的年轻数学家。获奖者必须在该年元旦前未满四十岁,每人将获得1.5万加拿大元奖金和金质奖章一枚。
截止2018年,世界上共有60位数学家获得过菲尔兹奖,其中2位为华裔数学家,分别是1982年获奖的数学家丘成桐和2006年获奖的数学家陶哲轩。据相关资料统计,截止2018年,哈佛大学相关的菲尔兹奖得主数量(校友、教授和正式研究人员等)位列世界第一(18位),巴黎大学(16位)位列世界第二,普林斯顿大学(15位)位列世界第三,而巴黎高等师范学院(14位)与加州大学伯克利分校(14位)并列世界第四名。
备注:巴黎高等师范学院每年仅招生200人,已产生了14位获奖者,可以说是数学圣殿了。
这个定理证明过程本身导致了很多数学研究成果的出现,特别是对于椭圆方程的研究。今天区块链技术用到的椭圆加密方法,就是以它为基础的。
希尔伯特第十问题
数学是世界上最严密的知识体系,任何的推导不能有丝毫的纰漏。
数学是在一个个定理的基础上一点点搭建起来的,今天的成就,就是明天的基础。
毕达哥拉斯定理a^2+b^2=c^2是一个起点,费马大定理a的n次方+b的n次方=c的n次方是普遍延伸,如果在延伸就成了任意一个多项式是否有整数解,比如x^2+3×y^3-w^5=z^4是否有整数解?这个额问题就是希尔伯特第十问题。
1900年在巴黎举行的国际数学大会上,希尔伯特在提出23个著名的数学问题时,上述问题被列为了第十个。
第十问题隐含了一个更深刻的认识论问题,对于大部分数学问题,我们能否找到答案?
第十问题也是在问我们数学的边界在哪里?通过数学的方法,我们可能根本无法判断一些问题的答案存在与否。就更不用说通过数学的方法解决它们了。
1970年,俄罗斯数学家尤里·马季亚谢维奇解决了这个问题,证明了这类问题是无解的,从此在世界上一举成名。
人类过去常常希望找到一个工程问题的解析解,即答案是以一个公式的形式存在,这样套入任何数字,就得到了具体的答案。
第十问题的解决证明了,很多问题根本没有解析解,在一些工程问题的应用上,人类改用近似解。
在这个问题上美苏两国走上了不同的道路。
前苏联数学水平较高,计算机水平相对落后,在很多领域他们喜欢下硬功夫找到问题的解析解。
美国数学水平不如苏联,计算机水平较高,经常用计算机协助,找到一些问题的近似解就加以应用。
从现在的结果看,美国的选择似乎更好一些。
通过希尔伯特第十问题我们知道数学有一个硬的边界,但是数学的边界有些时候不是我们解决问题的边界,因为世界上除了数学的方法,还有其他方法。
黄金分割:连接数学与美学的桥梁
黄金分割的比例大约是1:0.618,也就是1.618。精确值是(√5+1)÷2是一个无理数,通常用希腊字母φ来表示。
画一个符合黄金分割的长方形,它的长度是X,宽度是Y。如果剪掉一个边长为Y的正方形(也就是灰色的部分),剩下的长方形,长宽之比依然符合黄金分割。如继续剪掉一个正方形(绿色的部分),剩下的长方形的长宽依然符合黄金分割的比例。
黄金分割的由来
古埃及人早在4500年前就知道了这个比例的存在,因为大金字塔从任何一个面看上去,其正切面的斜边长和金字塔高度之比正好是黄金分割的比例。但是那时候还没有无理数,古埃及人只能是依靠经验掌握的一个近似比例。
精确地黄金分割比例是毕达哥拉斯学派的人在做正五边形和五角星的图形时,发现每一个等腰三角形的斜边和底边的比例都是黄金分割。
黄金分割与艺术的关系
黄金分割与建筑雕塑的关系
雅典卫城的帕特农神庙,无论是在艺术史上,还是建筑史上地位都很高,其长宽符合黄金分割。
《断臂的维纳斯》,身高和腿长的比例,腿和上身的比例也都符合黄金分割。符合黄金比例的雕塑或建筑就看上去很顺眼,很美观。
埃菲尔铁两段的高度塔是黄金比例。
东方明珠分段也是黄金比例。
如果把符合黄金分割比例的长方形不断做切割,把每个被切掉的正方形的边用圆弧替代,就得到了这样一个螺旋线。由于这个螺旋线每转动同样的角度,得到的圆弧是等比例的,因此它也被称为黄金螺旋线(或等角螺旋线。使用斐波那契数列在坐标系上绘制的螺旋线与这条螺旋线几乎是重叠的,因此也称为斐波那契螺旋线)。
斐波那契螺旋线在艺术创作中的体现,如达芬奇名画《蒙娜丽莎》。
斐波那契螺旋线在自然届的体现,如向日葵、海螺等。
斐波那契螺旋线在文学创作中的体现,如飞蛾扑火。
人们习惯赞美一个人对爱的忠贞与向往,如那扑向烛光的飞蛾,一往无前。但你可知道,千百年来飞蛾在追逐着心中的方向(是不是因为爱情,谁知道呢?)
月亮反射的每一束光线洒落地球,形成了一道道接近平行线的光束,飞蛾可以看到光束,并沿着一个和光束固定的夹角直线飞行。有一天,一束烛光映入飞蛾的世界,烛火的光束成发散环状,如图,飞蛾依然沿着那环状的光线沿着固定夹角飞翔,终于飞出了凄美的斐波那契螺旋线,撞入烛火,葬身了。 所以在爱情故事中,先要找到自己心中的月亮。一束光突然出现,要怎么判断是月光还是烛光呢?会不会有点像张爱玲《红玫瑰与白玫瑰》的感觉呢?
黄金分割与音乐
很多音乐大师都是数学高手,他们的音节变化转折都集中在黄金分割点上。
今天对耳蜗的解刨学研究发现,耳蜗的形状其实也是螺旋线的,和黄金分割的螺旋线非常吻合。这可能是按照黄金分割设定音律后,声音悦耳的原因。
数学对绘画的影响
我们看从文艺复兴时期开始,到19世纪浪漫主义时期的西方油画,都会惊叹于它们的逼真。这个逼真的效果源于单点透视法的发明,其应用就可以将三维形象绘制到一个二维平面上。
早在古希腊时期,人们就发现了远处景物显得小,近处的显得大这样的特点,并且将这种特点反映到绘画中,他们把这种方法叫做短缩法。但是,古希腊人并不知道物体在离开我们远去时,该遵循什么数学法则进行缩小。
真正解决了透视法中的数学问题(距离和高度成反比)是文艺复兴时期大名鼎鼎的建筑师和工程师布鲁内莱斯基,今天佛罗伦萨的圣母百花大教堂就是他的杰作。
数学的应用:华罗庚的优选法
高水平的数学家不仅能够研究复杂的理论问题,还能为复杂的实际问题找到简单的可重复使用的解决方法。
比如华罗庚先生提出优选法。
华罗庚是20世纪唯一能够称得上世界级的中国数学家,他在数论等方面有血多贡献。
华罗庚推广的优选法就是优化问题的神来之笔,让狠多工业生产收益。
什么是最优化问题?
小到发面蒸馒头,1千克面发酵多长时间,放几克碱;
中到投资中兼顾风险和收益,股票占总资产多少比例更合适;
大到一个火箭,燃料和氧气的配比如何最优。
最优化问题的难点?
很多时候决定好坏的因素不止一个,衡量标准也不止一个,所以很多看起来简单的优化问题,设计解决方案会非常复杂。
华罗庚的贡献
1958年,华罗庚先生率领一大批数学家走出大学和科学院,致力于解决工农业生产单位面临的实际问题。
华罗庚最初的思路是线性规划,用很多线性方程,在多维空间里划定一个区域,区域内找最佳值。
“线性规划”是运筹学中研究较早、发展较快、应用广泛、方法较成熟的一个重要分支,它是辅助人们进行科学管理的一种数学方法。研究线性约束条件下线性目标函数的极值问题的数学理论和方法。英文缩写LP。
举例:华罗庚先生的思路是在生产过程中,把每个生产步骤拆解为一个线性方程,如图各线性方程共同圈出的阴影区域,就是可以实现生产的区域,然后我们在这个区域找最佳值,就是解决这个问题的最优方案。
备注:现实中经常在高维空间而非图中二维空间求解,难度更大一些,但道理是一样的。
这个思路的核心是把现实中复杂的非线性求解问题转化为多个线性方程问题,当时没有计算机,数学家用计算尺死算是能够得到答案的,但是对于实际工农业生产者来说,难度太大,根本办不到。
基于当时的中国现状,很多数学家想到的是如何提高国民教育,提高数学能力。有的甚至直接责怪工人太笨。华罗庚先生却觉得怪自己没有把数学变的更简单,于是他总结经验,制定了一套易于接受,应用面广的方法,他把这个方法叫做“优选法”。
优选法的两个特点
找到实际问题的最佳解。
寻找最佳解的方法要最优化,最简单。
优选法的原理基于黄金分割,又被称为0.618法。
举例:比如蒸馒头放碱,我们假定只有一个因子(变量),1kg面粉放碱范围是0-10g,寻求口味变化,找到最佳碱的克数,同时试验次数最小。
根据优选法第一次试验取在黄金分割点6.18克,如果口感碱放多了,如图位置,第二次试验就取0-6.18克的黄金分割点,3.82克。
黄金分割点的一个性质是(1-0.618)÷0.618=0.618。
0到6.18克的黄金分割点正好是10-6.18=3.82克,两次的黄金分割6.18和3.18中间点正好是5.0,也就是两次黄金分割的对称点。
优选法可以从理论上严格证明,5次试验可以把范围缩小到9%,6次试验可以把范围缩小到6%以下。
这个思路解决了许多工农业的实际问题。这一理论华罗庚先生写了一个小册子《优选法平话》,后又加入了一些内容形成《优选法平话及其补充》于1971年出版。
优选法的步骤
1. 先确定第一个维度的黄金分割点,将二维空间分割成两部分;
2. 再相对优选出的空间确定第二个维度的黄金分割点,这样就把二维空间划分为三个空间,同时可以定义出优选出的空间;
3. 在优选出的空间重复重复第1、2个步骤,直到找到最佳点。
反思:对于黄金分割点的一些思考,可以用在做决策上,提高效率,同时避免拖延。比如处理一件有时效性的事情,尽量训练自己把决策时间放在黄金分割点或反向黄金分割点附近。比如去旅行定酒店机票,确认好时间后,如果拖的时间太久就可能没位置了,如果太早定可能会优惠不足,或者没时间去比对价格,那么在给定时间的黄金分割点上做决定,至少会好于平均水平很多。
关于比价这个事情,自己也认真思考过,有的时候真的是为了一点蝇头小利,比来比去,耽误不少时间。其实可以以人生位长度,给自己的时间定个价,比价优惠的幅度如果超过了同时间的人生价值,那就得不偿失了,所以强制确定个决策时点,多少也会对自己有点帮助。
数列和级数
给你这样一串数字:1,1,2,3,5,8,13,……,请问下一个数是什么?
规律1+1=2,1+2=3,2+3=5,5+8=13,所以下一个数是8+13=21;
这串数列就是大名鼎鼎的斐波那契数列;
根据数列中开头几个元素的具体数值,知道整个数列每一个位置元素的数值,研究数列是为了提升自己从孤立事件里发现规律的能力。
两个常见的数列与趋势
等差数列:
1,2,3,4,5,6,7,……
等比数列:
1,2,4,8,16,32,64……
数列是一种工具。它看似是一串数字,但这里重要的是彼此的关联,以及数字的规律,而不是数字本身。
比如斐波那契数列,它反映出的是一个物种的自然繁衍,或者一个组织自然发展过程中成员的变化规律。
有一对兔子,它们生下了一对小兔子,前面的我们叫做第一代,后面的我们叫做第二代。然后这两代兔子各生出一对兔子,这样就有了第三代。这时第一代兔子老了,就生不了小兔子了,但是第二、第三代还能生,于是它们生出了第四代。然后它们不断繁衍下去。那么请问第N代的兔子有多少对?
这个数列,就是1,1,2,3,5,8,13,21,……
斐波那契数列的增长趋势虽然比不上1,2,4,8,16的等比数列,但是也是一个增长很快,呈现出的是指数增长的趋势;
现实中,澳大利亚就遇到了这个问题。
1859年,一个名叫托马斯·奥斯汀的英国人移民来到澳大利亚,他喜欢打猎,但发现澳大利亚没有兔子可打,便让侄子从英国带来了24只兔子。
这24只兔子到了澳大利亚后被放到野外,由于没有天敌,它们便快速繁殖起来。
几十年后,兔子数量飙升至40亿只,这在澳大利亚造成了巨大的生态灾难。
1951年,澳大利亚引进了一种能杀死兔子的病毒,终于消灭了99%以上的兔子。
活下来的兔子具有了抗病毒性,人兔大战一直到了现在。
定量分析斐波那契数列,我们用Fn代表数列中第n个数,用Rn,代表Fn+1和Fn的比值,这样我们就可以看出数列增长的相对速率。
毕达哥拉斯定理——黄金分割——斐波那契数列,学习数学的关键,绝大多数时候不在于题目做的多难,而在于掌握一些关键的线索,并把相关知识点串联。
可以看出Rn很快趋近于1.618,这恰好是黄金分割的比例(这也是前面提到黄金螺旋线与斐波那契曲线近乎重叠的原因)。
这个数列最终的走向是收敛于黄金分割的比例,但是在一开始的几个数,并不符合这个规律。这在数学上不是偶然现象,很多时候,仅仅通过少数几个数字得到的所谓的“规律”,其实和采用大量数据后得到的规律完全是两回事。
现实应用:斐波那契数列的变化速率几乎是企业扩张时能够接受的最高的员工数量增长速率,如果超过这个速率,企业的文化就很难维持了。企业在招入新员工时,通常要由一个老员工带一个新员工,缺了这个环节,企业的人一多就各自为战了。
换言之,如果企业文化足够强大,道路正确,企业公理(这部分在后面的数学+企业管理分支有介绍)设置极佳。也许企业规模还真能跟澳大利亚的兔子一样发展迅速呢。
谈到等比数列,通常会想到指数爆炸,变得越来越大。但还有另一类等比数列,它们的数字每一个都比前一个小最终就会趋近于零。
今天用于测定年代的碳-14测定法,利用的就是这个原理。
碳-14是宇宙射线照射大气的产物,因此它会不断产生,具有放射性,会衰变,于是它在自然界保持着一个动态平衡。
生物体在活着的时候,会吸入大气中的碳-14元素(通过二氧化碳),因此它体内的比例就和自然界的比例相同。但是生物体一死,就不会再吸入碳-14了,因此体内碳-14的比例就会逐渐降低。
根据生物遗骸体内碳-14的比例,结合碳-14衰变的速率(也称为半衰期),就能算出古代生物体距今的时间。所以,对于等比数列,我们一般理解的是快速上涨,但是它也可能代表不断地衰减。
数列,就是趋势
我们不仅关心当前这个数有多大,当下我们有多少钱,多少资源,还应该关心明天它能变得多大,变得多快,这是数列的意义,也是人生的意义。
等差数列,每一个都比前面的大,到后来的增长会变得很不明显。而等比数列会完全不同,这就是两个不同的趋势。
级数
“级数”是指将数列的项依次用加号连接起来的函数。典型的级数有正项级数、交错级数、幂级数、傅里叶级数等。
用级数思维破解传销的骗局
我们假定某个传销公司的提成方式只覆盖两层: 1)每一个人入会需要缴纳1万元(或者买1万元的东西); 2)发展一个直接下线,可以从后者的身上提成20%; 3)直接下线每发展一个下线,可以从下线的下线身上再提成20%的20%。
情形1:张三找到5个朋友也加入这个传销公司,而他的每一个下线也发展了5个下线。这样,他付出1万元,而从每个直接的下线身上得到10000×20%=2000元,5个下线一共给他带来1万元。类似的,下线的下线也可以给他带来一共1万元,两者相加是2万元,张三赚1万元。
从熟人里开发出5个下线是非常有难度的,这5个人要和张三一样有个发财梦,根据邓巴指数,每个人熟悉的人不超过150人,这是人脑的结构决定的,多了你就记不住了。而张三发展的朋友的朋友可能和张三的朋友会有很大的重叠,张三从150人里发展5个,假如张三和他的朋友重叠的朋友有50个,那张三的下线可发展的空间只有100人,从100个人中找到5个人加入,其难度又比张三大了很多。
情形2:张三找到3个朋友加入这个传销公司,而他的每一个下线也发展了3个下线,这样他的收入一共只有9600元,反而亏了400元。
我们再假定这个传销公司特别大方,让每一个会员可以拿下面所有层会员的提成,当然每往下一层,提成的比例要逐级指数递减。这样的话,如果层数不断加深,直到无穷,是否处在比较高层的人就有无限的钱可以拿了呢?
情形1:如上一个假设的情形1,张三的每个下线发展了5个下线,如此循环下去,这样张三确实是可以拿到无限多的钱,但是,每一层需要入会的人员是这样的1(张三)、5(第一层)、25、125、625、3125、15625、78125、390625、1953125、9765625、48828125,再有层级增长,地球上的人就不够用了;
情形2:如上一个假设的情形2,虽然张三挣的钱可以超过他付出的10000元,但却是有限的。他从下一层下线获得6000元,下面第二层获得3600元,第三层获得2160元,这样逐渐减少,最后无限加下去,总和并不是无穷大,而是一个有限的数,趋近1.5万元;
情形3:如果每一层会员只发展了2个会员,那么张三要赔本了,他能挣到的钱的总数是: 4000 + 1600 + 640 + …… = 6666.67元。
通过发展下线从无限多的人身上挣钱就能挣到无限多的钱,这是一个假命题,是一个对级数概念的误解。
把上面的问题简化一下就成了一个级数问题,假设每一个人发展了K个下线,从每个直接下线分钱的百分比为p,从第二级下线分钱的比例为p^2,那么第三级的比例为p^3,以此类推,逐级下降。如果每一个人交的会费为A,那么一个人能拿到的钱就是:A×K×p + A×(K×p)^2 + A×(K×p)^3 + A×(K×p)^4 + …… 这是一个等比级数(也叫几何级数),当K×p≥1时,其和是无穷大,当K×p<1其和是个有限数值,无线趋近于A×K×p÷(1-K×p)。
当r≥1时,这个级数就发散,加起来无穷大。
当r<1时,这个级数就收敛,加起来是一个有限的数。
级数的发散性和收敛性
在一个等比数列中,当r=1.618时(黄金分割),我们得到的是一个斐波那契数列,当r=2时,我们得到的是一个指数数列。
分析:社交网络的传播过程。
我是总是认为一篇文章,在网络上可以一传十,十传百,很快产生爆炸效果,真的是这样吗?
假定阅读了某篇文章的第一批读者数量是A0。大家读了之后觉得有价值,然后转发了的百分比为p,每一次转发,平均能有K个受众,而这些受众中打开阅读的比例为q,那么第二批读者就有A0×p×K×q个,我们把p×K×q用r代替,这就是前面的等比级数了,第三批有A0×r^2个读者,以此类推。如果r>1,那么这篇文章就霸屏了。
如果r<1,无论怎么传播,无论一开始花多少钱让A0变得很大,读的人数都有限。
比如,第一批读者是5000人;
如果r=0.5,最终所有的读者加起来,不到1万。
如果r=0.9,那么读者数量就可以达到5万。
任何一个产品,要想成为爆款,都需要提高转发率p这个比例,也就是提高大家使用后满意随之主动宣传的比例。
分析:核裂变的链式反应。
裂变就是一个快速运动的中子撞击原子之上后,又会裂变为一些原子和中子,随即释放很多能量。
如果每一个中子又撞上一个铀原子,那么就会释放更多的能量。
这样一级级撞下去就形成了所谓的链式反应,所有的铀原子都被撞开,并释放出大量的能量,这就是原子弹的原理。
运动的中子随机撞上铀原子的原子核概率大约只有百万分之一,所以天然铀矿不会变成原子弹。
假定第一批参加核裂变的原子数量是A0,那么第二批只有A0×r个。只有r>1,链式反应才能继续,而且越来越剧烈。
提高r的方法,1)提高铀的纯度,这样中子就有更多的机会撞到铀原子上。2)铀块的体积要足够大。
能够让链式反应维持的最小铀块体积被称为临界体积,它是保证r>1的体积。原子弹的临界体如果通过试验得知,搞不好要爆炸很多次。罗伯特·奥本海默通过数学计算,准确算出了这个临界体积,让曼哈顿计划得以成功。这就是数学的预见性。
数列、级数与利息、债券的关系
假设买一套房子贷款120万,年利率6%,10年还清,按月还款(120期),不同方式的贷款会有多大利息差呢?
如果你找了一个P2P公司,他大概会说:10年还清,利息就是120万×6%×10年=72万。每个月既要还本金,也要还利息,本息平摊到120个月,每个月1万本金,6千利息,一共1.6万。
10年下来利息72万元(搞不好还有额外的手续费哦)。
如果你去银行借款,选择等额本息,每月还款额度13322.46元。
利息合计398695.23元。
如果你在银行借款,选择等额本金,1月需要还款16000元、2月15950元、3月15900元……120月10050元,还款额度是一个递减的等差数列。
利息合计363000元。
了解数列、级数、趋势的关系,可以避免让我们猛一看对远期的数据(利息)产生错觉。
关于国债(单利、复利的关系)
各国国债付利息的方式有两种,一种是到期后连本带息归还,还有一种是定期(半年或一年)付一次利息。
后一种收到的利息还可以再买新的国债,实际就行形成了复利;
现实中很多产品都会把复利折算成单利,显得利息高一些,其实总体是差不多的。
假如购买1万元十年期的国库券,年息5%(复利的),10年后到期,可以拿到6290元左右的利息,通常发行债券的机构会把它包装成年利率6.29%的单利金融产品,这样显得投资回报更高一些,也好计算一些。中国的国库券说的利息,都是折算后的单利利息,每年实际的回报要比标称的利息少。
如果利息发生波动呢?
情况一:刚买了复利5%的国债,央行就加息0.5%,新的10年期国债的利息(复利)变成了5.5%,你手上的国库券就瞬间贬值了。
比如另一个人是在加息后买了1万元的新国库券,他10年后大约能获得17080元,比你在加气息前买的面值1万元的国库券多出了大约800元的利息。因此,加息意味着同样面值的债券实际价值的贬值 。
情况二,同上,降息了,比如央行的利率降低了0.5%,相应10年期国库券的利率也下调到4.5%,你手上的国库券就瞬间升值了。
同上述道理,降息后购买的同样价值的债券,利息少了,降息意味着同样面值债券的升值 。
未来在中国,随着金融市场的完善,债券交易也会像股票交易一样普遍,债券的市场价格就会随着利率的变化而有较大波动。这里面核心的知识,就是复利增长的数学原理。
3. 数的概念 从具体到抽象
数从具体到抽象:鸡兔同笼
鸡兔同笼是小学生要学习的问题,但是对于智力发展中的小学生还蛮难理解的,要怎么学习才能体会到数学的整体框架呢?
举例:在一个笼子里,有鸡和兔子,从上面数,数出来35个头,从下面数,数出来94只脚,请问鸡和兔子各有几只?
该类问题最早出现在南北朝时期的《孙子算经》中,《孙子算经》给了一个不算太好理解的解法:
1. 将所有动物的脚数除以2,即94÷2=47。每只鸡有一对脚,兔子有两对脚。
2. 假设所有的动物都是鸡的话,就应该有35对脚,但事实上有47对脚。
3. 如果将一只鸡换成一只兔子的话,用47减去35,得到12,说明需要有12只鸡被换成兔子,这就是兔子的数目。
4. 知道了兔子的数目,鸡的数目也就知道了。
《孙子算经》用了一个很巧妙的方法,但并不适合小学生学习,因为它不能统统解决同类问题:
比如题目换成:假如有若干辆三轮车和汽车(四轮),一共有20辆,有65个轮子,请问有多少辆汽车,多少辆三轮车?
今天小学里教的解决鸡兔同笼问题的方法在通用性方面要比古代的方法好了不少一般是这样: 1)假定笼子里全是鸡,应该有35×2=70只脚; 2)现在有了94只脚,多出24只,就应该是由4只脚的兔子造成的; 3)如果我们用一只兔子替换一只鸡,就会多出2只脚,那么替换24只脚需要多少只兔子呢? 4)24÷2=12,就有12只兔子,剩下的就是鸡。
如果老师讲的足够清晰,孩子领悟性又很好,汽车和三轮车的问题就可以解决。
步骤: 1)假定都是三轮车,那么应该有20×3=60个轮子; 2)现在有了65个轮子,多出了5个,它们应该是汽车造成的; 3)如果用一辆汽车换一辆三轮车,就会多出1个轮子; 4)现在多出了5个轮子,因此应该有5辆汽车。
如果难度在升级呢,题目如下:
红皮鸡蛋5元3个,白皮鸡蛋3元2个,小明花了19元,买了12个鸡蛋,问红皮的和白皮的各几个?
在没有方程做基础的情况下,这类问题对一个小学生难度已经很大了。
那么,我们应该怎么教孩子学习鸡兔同笼问题?
数学的学习是对数的把握,对量的对应,把数从具体学习到抽象的过程。所以小学阶段最好的学习方法是对数的感知,不需要学习花哨的技巧(而且很多技巧可能学了一辈子也用不到)。
还是上面的鸡兔同笼问题,兔子的数量不能超过94÷4=24只,然后就列一张表,从24只开始往下试验,看看脚的数量有多少?
红皮鸡蛋与白皮鸡蛋的问题也就可以解决了。
心得
我们的教育由于过分的关心技巧,就不能做到举一反三,所以必须通过大量刷题弥补,以达到遇到所有面对问题的可能性的目的,可能缘木求鱼了。
不妨笨笨的列表,列的次数多了,自己就会感知,以后列表不一定从23只兔子开始列,15只可能更接近一些,就会很快的列到正确答案。用同样的时间培养对数字变化的感知要好过学习一些花哨的技巧。
再后来我们就可以应用方程,上述三个问题解法如下:
鸡兔同笼问题:假设鸡有X只,兔子有Y只,然后列方程求解: X+Y=35 2X+4Y=94
三轮车和汽车问题,方程如下: X+Y=20 3X+4Y=6
红皮鸡蛋和白皮鸡蛋问题,方程如下: 3X+2Y=12 5X+3Y=19
数学的学习过程就是把用自然语言描述的现实世界的问题变成用数学语言描述的问题,比如列出方程。
学习的关键不在于刷多少道题,而是在于理解它们中工具的作用,并学会把生活中的问题用学术的语言去表达。
关于教学: 1)我们的学习过程中,学了很多针对具体问题的解题技巧,其实用处远没有想象的大。 2)学会把具体问题抽象成模型,才能解决更多更难的新问题。
虚数:一个数学中的哲学问题
求解三次方程
方程是一个能把具体问题,等量转化成类型问题的好工具。
我们中学学过一元二次方程的解法,但当学到一元三次方程时就被卡住了,老师会说没有通用解法,真的是这样吗?我们来看个精彩的故事。
博洛尼亚大学(全世界最早的大学)有个数学家叫费罗,菲奥尔是费罗的学生,但能力不佳。费罗临死前传给了他一套数学解法,让他拿着找最有名的数学家挑战,如果赢了,菲奥尔便能在数学界扬名立万。不久费罗老师就去世了。
后来菲奥尔去找数学教尼科洛·丰塔纳挑战,这个数学家口吃,有个外号叫做“塔尔塔利亚”意大利语“口吃”的意思,至今大家仍喜欢称他为塔尔塔利亚。
关于数学“挑战”:当时欧洲数学家之间盛行挑战,就是各自给对方出一些自己会做的难题,如果自己做出了对方的题,同时把对方难倒了,就算赢了。
1535年,菲奥尔找塔尔塔利亚挑战,抛出来老师留给他的题目,类似如下的问题:x^3+8x+2=0,2x^3+7x+5=0 就求解三次方程,这些方程中都没有二次项。暂且称为第一类的三次方程。费罗老师给的也是这类方程解法的证明(事实上,证明方案费罗老师生前不止交给了学生菲奥尔,还交给了自己的女婿)。
塔尔塔利亚回过来的题目是:x^3+x^2-18=0 也是三次方程,但是这类方程没有一次项,有二次平方项,暂且称为第二类的三次方程。双方约定30天赌期,并压上一些金钱赌资开始比赛。
这两个问题实际是三次方程的两种特殊形式。
菲奥尔资质欠佳,从没想过要解出题目他只是每天去看塔尔塔利亚的进度,他想:如果对方做不出这个题目,双方就达成了平手,我就一战成名比肩塔尔塔利亚了。
塔尔塔利亚在最后的期限解决了该问题,菲奥尔的计划泡汤后就退出了数学历史的舞台。
这次对决后,塔尔塔利亚又花了6年时间(1541年),完全解决了一元三次方程的问题。这是后来的事情了。
挑战之后,从1535年开始,很多人想从塔尔塔利亚那里学习三次方程的解法。
数学家卡尔达诺不断恳求塔尔塔利亚,塔尔塔利亚让卡尔达诺发下毒誓保守秘密后,将第一类三次方程的解法告诉了他。
费拉里是卡尔达诺的学生,更是个大数学家。师徒俩在塔尔塔利亚工作的基础上,很快发现了所有一元三次方程的解法,这是一个一元三次方程的通用解法,但是由于研究是建立在塔尔塔利亚的基础上的,并且发了誓要保守秘密,因此他们没有对外公布研究成果。
1541年,塔尔塔利亚也发现了所有的一元三次方程的解法,但他也并未对外公布此事。
1543年,卡尔达诺和费拉里访问了博洛尼亚时遇到了费罗的女婿,得知费罗早就发现了第一类和第二类一元三次方程的解法。
师徒想既然秘密不是塔尔塔利亚的,就无需保守,于是于1545年将所有一元三次方程的解法发表了,这本书的中译名叫做《大术》。
塔尔塔利亚认为卡尔达诺、费拉里师徒失信,像师徒发起挑战,后来费拉里赢了塔尔塔利亚,从此塔尔塔利亚就退出了学术圈。不过今天三次方程的标准解法公式依然被称为费拉里-塔尔塔利亚公式,并没有完全否认塔尔塔利亚的功绩。
费拉里-塔尔塔利亚公式
标准一元三次方程:
要算出它的第一个解,需要先算下面三个中间变量:
然后再根据这三个中间变量,按照下面的公式算出第一个解:
有了一个解,三次方程就可以简化为二次的,接下来就好解决了。
补充:有一个叫做Mathematica的软件,几乎可以推导出所有一直的数学公式,一些过于艰深的数学问题,我们只要掌握数学逻辑就好,其他问题可以交给计算机去解决。
如果根号里的数字是负数,那么它在过去是没有意义的。在解二次方程时,我们可以对这个问题视而不见,直接宣布它没有实数解即可。这时候问题就出现了,三次方程有实数解,且解题过程中根号下会出现负数。
如果数学定理证明没有问题,假设也没有问题,那么就是我们认知出现了问题(类似发现无理数)。这时就产生了一个新的数学概念“虚数”。
数学定理发明的过程通常先有引理(一个简单、辅助性的定理),它们存在的目的是为了后面证明定理。在一元三次方程的解法里,费罗对第一类三次方程,塔尔塔利亚对第二类三次方程的解法,只能算是引理,它们能解决部分问题,但不具有普遍意义,不能算定理。
虚数
“虚数”就是形如a+b×i的数,其中a,b是实数,且b≠0,i^2=-1。虚数这个名词是17世纪著名数学家笛卡尔创立,因为当时的观念认为这是真实不存在的数字。后来发现虚数a+b×i的实部a可对应平面上的横轴,虚部b与对应平面上的纵轴,这样虚数a+b×i可与平面内的点(a,b)对应。
虚数的特点,它们自身的平方是负数。
虚数在现实中不存在,数学家为了解决现实问题,虚构一个现实中不存在的概念。
虚数产生是因为用塔尔塔利亚公式求解三次方程时会产生根号下是负数的情况,比如:求解X^3-15X-4=0,答案是X=4。
用公式求解时候会产生如下的数:
数学家们只好虚构出一个数,让它的平方等于-1,用字母i表示,就是拉丁语中imagini“影像”一词的首字母。
在解答过程中i会被抵消。
虚数的实际意义类似于化学中的催化剂,在不改变任何化学性质的情况下,帮助把反应完成。但是如果没有它可能反应很慢,甚至完全不反应。
虚数的哲学意义
明明是现实世界的问题,而且在现实世界里也有答案,但是却无法直接得到,于是发明一个不存在的东西作为桥梁。
虚数的价值
1. 对于数学本身的影响:引入虚数的概念后,数学的一些逻辑上可能出现的漏洞就被补上了。
比如,在实数的范围内X^2+1=0是无解的,有的多项式方程有解,有的无解,看起来不够完美。引入一个虚拟的概念后,所有的一元N次方程都会有N个解,不再有例外。
2. 做为工具的作用。有了虚数之后,很多复杂的数学问题,可以用简单的方法解决。
比如,多次方程的求解。
还可以借助虚数,将直角坐标变成极坐标(在飞行、航海等场景里,极坐标更方便使用)在极坐标的计算中,如果只用实数,非常复杂,引入虚数后,就极为简单了。
3. 在应用层面的影响,量子力学、相对论、信号处理、流体力学和控制系统的发展都离不开虚数。
虚构一个概念,解决实际问题在社会各个领域的应用。
我们日常中有很多的概念是虚构出来的,这些虚构出来的东西被人们广泛的接受就成了一个定义,定理,事物,概念等等。在数学应用中可能感觉比较难理解,但生活中比比皆是,比如:
宗教;
法律;
有限责任公司;
法人;
……
虚数的出现,标志着人类对数这个概念认识的进步,特别是从形象思维到抽象思维的进步。
数字的扩展历史是人类认知升级的过程
自然数:正整数和零;
人类早期为了计量,开始使用1,2,3,4……;
比较抽象的概念零,大概用了1000年才搞明白。
整数:自然数和负数;
有了减法后,由于2-3没有答案,就有了负数的概念。
有理数:整数和分数;
有了除法后,为了解决2÷3在整数范围内无解的情况,定义了分数。
实数:有理数和复数;
毕达哥拉斯定理被证明后,开方中出现了无限不循环小数,定义了复数。
复数:实数和虚数;
费拉里-塔尔塔利亚公式的求解过程中,根号下出现了负数,定义了虚数。
数的极限:无穷
无穷大
庄子说:“夏虫不可以语于冰者,笃于时也。”意思是夏天的虫子无法理解冰雪,因为它受限于生命的时长。
对于未知,人类和夏虫能有多大区别呢?这大概是我们无法理解很多宇宙问题的根本原因吧。
很多时候我们的解决方案是想象力,把看不到的事物,想象出一些规律,通过逻辑保留合理的。这一点就是认知升级,在数的领域,就出现了无穷的概念。
思考:无穷大是一个数吗?它可以被看成是数轴的终点吗?它在数学上和某个具体的大数一样大吗?
希尔伯特提出的旅馆悖论,让人重新思考无穷大的哲学含义。
在一家拥有无限多个房间的旅馆,客满。是否可以挤进去一个客人?
可以的,将原先1号房间的客人安排到2号房间,将2号房间的客人安排到3号房间,以此类推,空出来的1号房间就可以挤进去一个客人。
悖论启示:无穷大+1=无穷大,同理也可以挤进去2、3、4……个客人
这个悖论让我们数的认知升级,此前认为任何数加1都比原来的数大,但无穷大加1、2、3、4……仍然等于原来的无穷大。
在这家拥有无限多个房间的旅馆,客满。是否可以挤进去无限多的客人呢?
可以的,让原来住在第1间的客人搬到第2间,第2间的客人搬到第4间,第3间的搬到第6间,以此类推,把第N间的客人搬到第2N间,可以空出无限多的房间。
悖论启示,无穷大+无穷大=原来的无穷大。无穷大内的偶数(2N)个数等于无穷大的总数(奇数也是同理)。
“旅馆悖论”其实并不是真正意义上的数学悖论,它仅仅是与我们直觉相悖而已。
同理:前面的思考题证明一条长5厘米的线段上的点,和一条长10厘米线段上的点是“一样多”。
如图:10厘米长线上的任意一个点X,与S相连,就和5厘米短线有一个交点Y,每一个点X都能找到对应的Y点,所以长线上的任意点,在短线上都可以找到对应点。两条线段上的点的数量是一样多的。
无穷大是不是一个特别特别大的数?
它不是一个具体的数,它是动态变化的,反映一种趋势,一种无限增加的趋势。是动态变化到了最终尽头的描述。
在增大的过程中,有的无穷大会比其它的更大,因为它变化的趋势比其他的无穷大更快。
活在有限世界的人类要怎样思考无穷大的世界?
无穷大的世界里,部分可以完全和整体等价。
我们不能以有限的认知,去理解无限的事物,工作中也是同样的道理,不能把那些从很少的经验中得到的结论,放大后用于更大的场景。
量级的差异,要比同量级之间几倍的差异重要得多。在工作中,要优先考虑量级的提高,捡西瓜比芝麻有用的。
无穷小与微积分
无穷小,无限接近零。它不是一个具体的数,而是一个概念、一个趋势,和无穷大一样。
无穷小可以成为帮助我们把握“动态”和“变化”的工具,是一种新的认知世界的方式。
从芝诺(公元前五世纪,古希腊)的悖论初窥无穷小的世界。
悖论一(二分法悖论):从A点到B点是不可能的。
芝诺讲:A到B,先要经过它们的中点C点,而从A到C,则要经过A和C的中点D……这样的中点有无穷多个,找不到最后一个。因此从A点出发的第一步都没办法迈出去。
悖论二(阿喀琉斯悖论):阿喀琉斯追不上乌龟。如果阿喀琉斯(古希腊神话中的飞毛腿)和乌龟赛跑,只要乌龟跑出去一段路程,阿喀琉斯就永远追不上了。
芝诺说:假设阿喀琉斯奔跑的速度是乌龟的10倍。如果乌龟先跑出10米。等阿喀琉斯追上这10米,乌龟又跑出1米,等阿喀琉斯追上这1米,乌龟又跑出0.1米……总之阿喀琉斯和乌龟的距离不断接近,却追不上。
这两个悖论其实本质上是一个。从常识角度很容易辩驳,但如果按照芝诺的逻辑来思考,他似乎也有道理。
悖论三(飞箭不动悖论):射出去的箭是静止的。
芝诺说:射出去的箭是不动的,因为在任何一个时刻,它有固定的位置,既然有固定的位置,就是静止的。而时间则是由每一刻组成,如果每一刻飞箭都是静止的,那么总的说来,飞箭就是不动的。
悖论四(基本空间和相对运动悖论):两匹马跑的总距离等于一匹马跑的距离。
芝诺说:如果有两匹马分别以相同的速度往两个方向远离我们而去,我们站在原地不动。在我们看来,单位时间里它们各自移动了一个单位Δ,显然一匹马跑出去的总距离就是很多Δ相加(单位时间,一匹马跑动的距离)。但是如果两匹马上有人,那么在彼此看来,对方在单位时间却移动了两个Δ长度,彼此的距离应该是很多两倍的Δ相加(同一个单位时间,两匹马跑动的距离)。 当Δ非常非常小,小到无限接近于零,小到Δ=0,0乘以任何数还是0,那么1Δ=2Δ。
当逻辑和我们的经验发生矛盾时,要么是我们的经验错了。要么就是我们看似正确的逻辑错了。逻辑错误的主要原因可能是概念的缺失(比如从毕达哥拉斯定理找到缺失的无理数概念)。
芝诺提出悖论后,欧洲上千年来无数数学家在寻求答案,不乏名人阿基米德和亚里士多德等,但都没有给出好的回答。
不过亚里士多德还是提出,距离是有限的,但把时间分割分成无穷多份,就导致了有限和无限对应不上。
虽然亚里士多德明没有给出很好的解决方案,其主要原因是当时对于无穷小的概念并没有认识。
直到牛顿、莱布尼茨等人发明了微积分、无穷小量和极限的概念,才作出了比较圆满的解释。
在阿喀琉斯悖论中,芝诺把阿喀琉斯追赶的时间分成了无限份,每一份逐渐变小却又不等于零。比如我们假设阿喀琉斯一秒钟跑10米,那么芝诺所分的每一份时间就是1秒、0.1秒、0.01秒等等。如果我们把它们加起来,就是之前讲的等比级数。S=1+0.1+0.01+0.001+…… 接下来的问题是,这样无限份的时间加起来是多少?
这时我们需要定义一个无穷小的概念 1)它不是零; 2)它的绝对值小于任何一个你能够给定的数。
无数多个无穷小量相加等于什么?无非可能有三种答案: 1)无穷大;2)一个常数;3)无穷小。
本题的答案是个常数,无限接近10/9。
因为芝诺悖论才引出无穷小的问题,在无穷小的概念下,Δ,其实就是无穷小,虽然它趋近于零,但是不等于零,因此Δ≠2Δ,第四个悖论也就解决了。
“导数”与飞箭不动悖论
如果时光倒退回20年前,刚刚接触高等数学的你会拿着一本《微积分》问我什么是“导数”吗?
我大概会打开百度输入“导数”,看着“导数(Derivative),也叫导函数值。又名微商,是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x0)或df(x0)/dx。”,然后迷茫的说:抱歉,我也不懂!
高等数学最终要不要划分到哲学犯愁呢?芝诺的飞箭不动悖论要等到2000年后才能正确求解,给出求解工具的人叫牛顿。
在牛顿之前,很多概念是模糊不清的,比如:
质量and重量;
速度and加速度;
动量and动能。
举例:平均速度vs瞬间速度。
如果2小时走了10公里,速度V是多少?V=10公里÷2小时=5公里/小时。
如果说的精准一些,大概是这样: 1)位移的距离ΔS=10公里; 2)完成这段位移的时间Δt=2小时; 3)平均速度V=ΔS/Δt。
2个小时,你的移动速度不会平均,某一时点的速度是多少呢?
这个时点的速度叫瞬间速度,生活中我们更关心的是瞬时速度,比如:
子弹出膛的速度;
交通事故车辆碰撞的速度;
……
怎么计算瞬时速度?
牛顿说,当间隔的时间Δt趋近于零的时候,算出来的速度就是那一瞬间的速度。
横轴代表时间变化,纵轴代表距离变化。
从t0这个点出发,经过Δt的时间,走了ΔS的距离,因此在那个点的速度大约是ΔS/Δt。这个比值,就是图中那个红色三角形斜边的斜率。
对比左右图,如果Δt减少,ΔS也会缩短,ΔS/Δt的比值(三角形的斜率)更接近t0那一瞬间的速度。
极限的情况则是Δt趋近于零,那么时间-距离曲线在t0点切线的斜率就是t0的瞬间速度。
因此牛顿给出了一个结论,时间-距离曲线在各个点切线的斜率,就是各个点的瞬间速度。
如图:
破解飞箭不动悖论:在某一时点Δt,飞箭行走的距离是ΔS趋近于零,此时飞箭的瞬时速度V≠0,所以飞箭再高速移动,没有静止。
牛顿把曲线在某一个点的变化率,定义成一个新的数学概念,当时他称之为“流数”也就是后来我们学习的“导数”,导数是微积分的基础。
没有导数的分析方法,人类只能体会变化,但体会不出加速变化。
第二次数学危机
第一次是因为毕达哥拉斯定理产生了无理数的时候。
微积分的瑕疵,牛顿在解决瞬间速度问题时,用了Δt趋近于零,但是牛顿并没有对无穷小作出一个合理的定义,或者说当时人们还不能理解无穷小,于是贝克莱提出了质疑,引发了第二次数学危机。
贝克莱提出:无穷小的时间Δt到底是不是零啊?如果是零,它不能做分母,如果不是零,牛顿的公式给出的还是一个平均速度,而不是瞬间速度。
当时牛顿很难解释这个问题,因为对无穷小的准确定义是100多年后由柯西和魏尔斯特拉斯给出的。
因为牛顿无法解释这个小瑕疵,第二次数学危机便产生了,危机来源两个方面。
数学本身的逻辑关系
伽利略否定亚里士多德提出的“重物要比轻的物体先落地”。
否定的理由是:取两个铁球,1个1磅,1个10磅,如果扔下去,1磅下落更慢。如果把两个小球黏在一起呢?1磅会拉着10磅,整体下落更慢。但连在一起就是11磅,整体会比10磅块,所以“重物要比轻的物体先落地”逻辑不通,必定是错误的说法。
无穷小的概念
微积分是以导数为基础的,而无穷小又是导数的逻辑前提和基础。
无穷小基础出问题,在上面建立起来的所有大厦都可能被推翻。
数学不是实证科学,不能简单通过实验来证实,要在逻辑上非常完美,否则后果不堪设想。所以定义无穷小就变成了一个非常关键的问题。
法国伟大的科学家柯西和德国的魏尔斯特拉斯完成了对无穷小概念的定义,他们把这个“概念”从过去人们理解的小得不能再小的数,定义为一个动态变化,往零这个点靠近的趋势。这是人类认知的一大飞跃。
解决这次数学危机的是100多年后的发过科学家柯西和魏尔斯特拉斯
他们把无穷小这个“概念”从过去人们理解的小得不能再小的数,看成了一个动态变化,往零这个点靠近的趋势。这其实是人类认知的一大飞跃。
关于极限
微积分为什么难学?因为人类很难理解极限。从牛顿、莱布尼茨到柯西、魏尔斯特拉斯,认知发生了怎样的升级呢?
牛顿认为极限是逐渐变小的量之间的最终比值。
牛顿对于速度的定义,其实就是时间和距离这两个逐渐变小的量之间的比值。平均速度在时间间隔不断缩小后,极限就是瞬间速度。
莱布尼茨从纯逻辑的角度看待极限,他认为,如果任何一个连续变化都以一个极限为终结,那么在这个变化过程中的普遍规律,也适用于最终的极限。
柯西的认知把极限提高了一个高度,他这样理解:
柯西是19世纪法国数学界的集大成者,他在法国数学史上的地位,犹如牛顿在英国,高斯在德国的地位。我们今天所学习的微积分,其实并不是牛顿和莱布尼茨所描述的微积分,而是经过柯西等人改造后,比原始定义严格得多的微积分。
1/2+1/4+1/8+1/16……,这个算式的极限是什么呢?
答案是1,计算方法也很简单,我们想象一个1cm的线段,从1/2cm开始+1/4cm+1/8cm……循环下去就很直观的看到,加到无限小,结果无限趋近于1,但又不等于1cm,所以我们可以说他的极限是1cm。
斐波那契数列,两项相邻数的比值,无线接近于黄金分割数,在坐标上如图,这条线无线趋近于黄建分割点,所以这个点的极限就是黄金分割点。
从这两个图可以看出,极限是客观存在,其最大的特征是“无限逼近”,最后趋同。
魏尔斯特拉斯对极限的定义。
有一个数列: 1,4/3,6/4,8/5,10/6……2N/(N+1)…… 如果当N足够大时,数列最后的值是多少?
牛顿、莱布尼茨说,这个数列“到头”是2。
柯西说:你们说的不对,这个数列是动态的,无限逼近于2。
魏尔斯特拉斯说:柯西你定义的不够精确。
柯西说:You Can You Up!
魏尔斯特拉斯说:我需要定义2的前一个数是什么?
围绕着2的前一个数是谁的逆向思维,魏尔斯特拉斯给了一个精准的定义。
在2N/(N+1)的序列中,任意给一个小的数字ε,如果总能找到一个数字M,当N比M大之后,上面那个序列和2的差距小于ε。于是,我们就说上面那个序列的极限的是2。
白话一点就是,ε=2-2N/(N+1),N越大ε越小,但你找不到最小的ε,因为如果ε是一个定值,就能求出N,把求出来的N再变大一点,ε就会更小,ε不是一个固定的数值,它永远没有最小,只有更小。
有了魏尔斯特拉斯的定义,再来看一个函数sin(x)/x,它的分子是一个正弦函数,分母就是变量自己。
当x趋近于零的时候,这个函数值就趋近于1。 x是分母,不能为0,它只是越来越趋近于零。 对于该函数在零附近的极限,用魏尔斯特拉斯的定义:只要给定一个很小的数字ε,总能在0附近,设法找到一个范围,只要x落在这个范围内,算出来的函数的值和1的误差就比你给的ε要小。
极限进行准确的定义要分两步。 柯西完成完成了第一步,把概念搞清楚,没有二义性。 魏尔斯特拉斯完成了第二步,用严格的数学语言去描述。
微积分中所说的极限和生活中所说的极限相同吗?
两个相同点:
都有不断逼近,或者趋近的含义。
都有一定的预见性,比如知道事情发展下去,一定是某个结果。
两个不同点
生活中我们有时说的“某某极限”其实并非数学上极限的概念,它们更像是数学中所说的上界,或者下界,那才是无法突破的意思。
比如说我的深蹲的极限是80公斤,如果想越过它,可能腿或者腰就要受伤了。
这其实是数学里上界的意思,也就是说,一个无法超越的边界。
数学上的极限强调的是,在很长的时间,或者很远处,它最终的趋势并非不能突破。
在数学上,那些无法突破的边界被称为上界。有些时候,极限是一种上界,是更多的时候,它们是两回事。
数学上的极限是绝对的、明确的,生活中却未必。
比如你以为你跑百米的极限是13秒,但是你可能后来发现其实是12.5秒。随着能力和见识的提高,原本的天花板可能就被突破了。
在数学上无法突破就是绝对的无法突破。
极限意识与人的发展
做一个工作或一件事情,如图,下面一条线是基础,是到今天为止人类所掌握的知识,或者你所掌握的知识。对于不同人,这条线的高度不同。专家的基线很高,刚入门的新人基线很低。
我们所有的工作,都应该建立在这条线的基础上,而不是从它的下面开始做起,这一点很重要。
我们接受教育的目的,就是提高自己的基线。
上面那条线是理论给出的极限,是无法突破的。
比如轮船上使用的涡轮蒸汽机的效率到60%多以后就无法再提高。因为不论工艺上如何改进,蒸汽的温度是有限的,热力学上的卡诺定理限死了特定蒸汽温度下发动机的效率的上限。不要试图突破,也无法突破。
这套脑图是为了自我提高,还是为了偶尔拿出来吹吹牛?脑图的意义是不是已经在我对脑图定义的极限以外了呢?一直没想通!如果牛顿能想通,还会研究永动机吗?
第三条斜线是一条通道,是能够扶着向上攀登的阶梯,在这条通道上你需要把目标拆解成具体的行动、步骤,并专注其中一步一步前行,起初很多被拆解的问题别人可以给你答案,提供助力,越前行,越艰难,越要提高自己。
人生在世,找不到前两条线,是一辈子蛮干、傻干,找不到第三条线则永远只能纸上谈兵。
极限的定义对自我认知启示
在有限的世界里,数字都是具体的,用静态的眼光去看待无穷大和无穷小就会产生悖论。
有悖论就产生了“漏洞”。
要完善数学上的那些“漏洞”,就要引入新的概念,把原来数学的体系扩大为新的体系。
为什么要引述新的概念呢,因为在一个封闭体系内所遇到的漏洞,在这个体系内是无法弥补的。大概因为“不识庐山真面目,只缘身在此山中”吧!
有了新的体系,漏洞也就不再是漏洞了,数学就变得更加完备了。
其他领域亦是如此,这是我们认知升级的过程:
1. 在认知范围内提出一些傻问题,符合逻辑的傻问题常常是认知升级的开始;
2. 这些傻问题产生的悖论如果不能解开,可能需要跳出圈子来解决;
3. 扩大我们的知识体系后,之前的傻问题可能有了答案;
4. 不要指望一次就能完美地解决所有傻问题。
5. 解决方案可能也会有漏洞(牛顿和莱布尼茨最初对极限的定义也不完备);
6. 进一步弥补漏洞,认知就再次升级了。
无穷的比较
无穷大或无穷小是只有一个还是有很多个?
有很多个,比如N,2N,N^2,当N趋近无穷大时,这三个数列都无穷大。无穷小也是同理。
问题来了,既然有多个无穷大或无穷小,他们可以比较大小吗?
无穷是对一个数列或者函数变化的趋势,是动态的,因为必然有某些数列或者函数会比其他的增加或减少的更快,有些则相对慢一点。快慢的变化就是无穷的大小。
举例,无穷小的变化速率,从上到下越来越小:
平方根;
x本身、正弦函数;
平方函数 x^2;
立方函数 x^3;
指数函数的倒数。
举例,无穷大的变化速率,从上到下越来越大:
指数函数 10^x;
幂函数 x^N,通常N=2,3,4……
自身 x;
平方根 √x;
立方根;
对数函数lg(x)。
虽然无穷大和无穷小不是具体的数,但它们也能比较大小,比的不是具体的数值,而是变化的趋势。变化趋势快的,叫做高阶,变化趋势慢的,叫做低阶。通过它们的比较,我们把“比大小”这个概念的认知拓展了。
为什么要比较无穷大和无穷小呢?
比如简单的应用领域,大数据云计算,计算机面对需要处理的问题非常庞杂,有限数据项目下,任何大数都难不倒计算机,但无穷大的数据中处理,变化速率更慢的无穷大计算量就要小很多。
无穷大和无穷小不仅可以比较,还可以做加减乘除运算。特别是在做乘除法时,我们可以用两个趋势的博弈来形容这个过程,比如一个无穷大和一个无穷小相乘,结果是什么,就看谁的阶高了。
怎么理解同阶无穷大与无穷小的博弈呢?
男女朋友,彼此的激情随着苯基乙胺浓度降低在不断减退,另一方面,亲情的却随着内啡肽的浓度上升会逐渐稳定,最后是成功,还是分手,就是无穷大和无穷小趋势的博弈。
总结
从孤立、静止地看待一个个数学定理,做一道道数学题,不如用动态发展的眼光,从趋势来理解世界。这个过程,就是人的认知从初等到高等的过程。
数学的世界可以被看成是对真实世界高度抽象的结果,它的概念是对生活中各种对象的浓缩,它的规律是生活中很多规律的抽象表述。
对数学的哲学思考:
有穷和无穷
在无穷大的世界里,有限生活的经验很多都不适用,就像处于很底层的人,是无法理解高层人的想法的,欲穷千里目,更上一层楼。
像苏格拉底那样先有认知才能提高自我。知道自己的知识有穷尽,而未知世界无穷尽,反而会更接近真理,更容易提高自己的认知。
静态和动态
从初等数学到高等数学,就是要把看数学的眼光,从一个个静态的数字、孤立的公式,上升到动态变化的趋势。
莫嫌少年贫,看待一个年轻人,要看他成长的趋势,而不是现在有多少钱。
真正的大趋势,总是持续十几年甚至几十年,是不容易错过的,几十年复合增长下来,比任何投机获利都大,这就是对动态看世界的人的褒奖。
精明与聪明
过分精明的结果就是眼睛都盯在了眼前的利益上,看不到长期的利益,这样反而不聪明了。
比如炒股的高抛低吸往往失手。任何一个向上持续增长的趋势,假以时日,都能涨得很多很快。
现实与虚构
人是特别善于创造虚拟概念的物种,生活离不开各种虚拟物作为实体的媒介。
世界上的财富是真实的,但是度量它们的货币其实是人虚拟出来的。
攒钱和赚钱
没有人靠攒钱发财的,发财要靠赚钱。
往无穷小变化的趋势和往无穷大变化的趋势如果相乘,最后是清零,是常数,还是不断放大,就看谁的阶高了。通胀、房价上涨VS收入提高。
直觉和逻辑
世界的很多规律和我们的直觉不一致,比如芝诺悖论。
逻辑可以帮助我们分析清楚我们看不到的事情,甚至不存在的事情。比如伽利略抛铁球的例子。
概念和表述
交流在生活中非常重要。对概念的确认和表述需要通过彼此能够理解的形象的比喻来说明,比如极限用“越来越接近”描述,描述越清晰就越容易理解和感受事物。《我的1919》中顾维钧(陈道明饰):(大意)山东是孔子的故乡,孔子犹如西方的耶稣。中国不能失去山东,就像西方不能失去耶路撒冷。
另外,很多场合,需要用极为严格的语言表述,数学的语言是一种,法律的语言也是一种。做事专业,就需要掌握专业的术语。
朋友和对手
取得小成就要靠朋友帮忙,但是要取得惊人的成就,就需要一个理性的对手。芝诺、贝克莱等人。
在工作中,对于那些理性的对手,即使不喜欢,我们也应该尊重他们的意见,因为那些看似不同的意见,恰恰是我们进步所需要的。
荣誉和财富
对科学家最大的褒赏是荣誉,因此今天科学家们争的是谁第一个发现某个规律,而不是保守秘密。
而搞技术恰恰相反,需要保密与专利,并创造价值和财富。
对于一个人,需要首先搞清楚的是自己想要什么。
4. 几何学 一切源自公理和逻辑
数学最古老的分支
几何是数学中继算数之后古老的分支,比代数学要早1000多年。
发展脉络
第一阶段:感性认识——量化感性认识。
6000年前,埃及人为了农业生产,已经发明了天文学和几何学。
之后传到希腊,用于提高农业生产。
英语几何(geometry)源于希腊语,它是由“土地”的词根(geo)和“丈量”(metry)一词合并而成。
几何最初的用途也是对土地的丈量。
无论农耕还是建筑,都离不开土地丈量、以及对基本图形尺寸的测量和计算,这些事实的积累就是几何学的常识,那时还算不上“理论”。
6000年前的几何学用来做什么呢?
古埃及农业发达的基本条件:
条件一:完全依靠尼罗河洪水每年泛滥后带来的肥沃土地。
尼罗河洪水退去淹没过的土地更肥沃。但种植又不能离河床太近,避免河水上涨的再次淹没。这就需要测量和计算。
条件二:有明确的播种和收获时间。
当时尚无时间概念,更谈不上农时。
古埃及人通过几何解决了时间问题,他们把太阳和天狼星同时升起的那个时间算成一个大年(天狼星年)的开始。
原理:地球围绕太阳转,每天同一时刻从地球看天狼星的角度会有不同。但是当地球转回到去年的位置,看天狼星的角度就相同了。
古埃及人算出来一个周期是1460天,地球就又回到了原来的位置,也就是今天的四年时间。
因为有闰年的存在,古埃及人选择了没1460年后润一年的方式调整,编制了一个八万多年的大历法表。
观察天狼星的位置让人类第一次有了对圆的认识。
事实上,古埃及已经掌握了大量的几何问题,在公元前4600年前建造金字塔时,他们已经用到圆周率(且当时已经可以精准到3.16),勾股数等。
第二阶段:美索不达米亚人对角度进行量化。
美索不达米亚人几乎和埃及人同一时期也在了解星空,他们也根据公转理论观测一年四季,对应的农耕生产。
他们发现每次月圆月缺的时间点会对星空产生1/12的差异,于是将天空划分为12块便于观察,这就形成了后来的12星座。
由于每次月圆月缺之间间隔有30天的变化,划分天空的精度就达到了12×30=360份/天的精度,这是后来圆的度数是360°的由来(当然当时精度不够,采用60°计量)。
60是个特别漂亮的数字,因为它可以同时被1,2,3,4,5,6,10,12,15,20,30和60整除。能解决很多问题,这是数字与自然的巧合,或许也是自然界的底层规律。
第三阶段:传播。
今天存世最早的几何书是古埃及的《莱茵德纸草书》,它成书于公元前1650年前后。
《莱茵德纸草书》记载,他是抄袭了一本其他著作,那本著作成书时间是公元前1860—公元前1814年。
3800年前,古埃及关于几何学的专著,甚至早于我们的甲骨文。所以我常想,现在我们尝尝对自己是四大文明古国的心理认同,是否应该早早的落地,变为过好今天,展望明天呢?
相比之下,代数的历史则短很多,比几何学至少晚一千年。
最早解决不了的代数问题还是用几何学来帮忙才得以解决。
在美索不达米亚出土的泥板上,也记录了当时人们总结了非常多的相关几何学知识。
公元前1894—公元前1595年,古巴比伦王国留下来的泥板上有关于勾股数、等腰、等边三角形求面积、正多边形边长与面积的关系等等很多几何问题,最夸张的,他们的记录中有一组很大的勾股数,是18541,12709,13500。
美索不达米亚中的一个民族——闪米特人,他们是今天犹太人和阿拉伯人的祖先。闪米特人喜欢外出经商,他们的一个旁支腓尼基人在地中海沿海和很多岛屿建立了殖民地,并且把美索不达米亚的科学传播到各地。
美索不达米亚人和腓尼基人建立的殖民城市,科学和艺术水平远高于希腊诸岛和本土。毕达哥拉斯就是到那里的留学生中的一员。
受益于腓尼基人对知识的传播,数学,特别是几何学传到了希腊文明圈,并且在那里形成体系。
到了公元前4世纪—公元前3世纪,古希腊数学家欧几里得等人对几何学公理化体系构建,并且写成了《几何原本》一书,形成了今天的几何学体系。
欧几里得的公理体系
欧几里得通过《几何原本》把零散的几何学知识通过公理化系统统一起来,这一事件的意义何在呢?
传播
清末的数学家们计算圆周率还比不上1000多年前的祖冲之用割圆法算出的结果(祖冲之推算到小数点后7位)。
同时期阿拉伯学者的水平,也未能超过他们1000年前的祖先花拉子密。
李善兰等人翻译了《几何原本》一书。在李善兰的指导下,依据书中的相关理论,曾纪鸿(曾国藩的小儿子)成了数学大家,一口气将圆周率推算到小数点后200位。
再难的数学题,都可以通过一个个定理,不断地被拆解成一些比较简单的问题,并最终被拆解为几个基本的公理。
几何学也是建立在功力之上的,它有五条一般性的公理(也称一般性概念),和五条几何学公理(也被称为公设)之上的。
五条一般性公理
1. 如果a=b, b=c, 那么a=c;
2. 如果a=b,c=d,那么a+c=b+d;
3. 如果a=b,c=d,那么a-c=b-d;
4. 彼此能重合的物体(图形)是全等的;
5. 整体大于部分。
如果一个结论没有根据又符合事实,便称之为公理。如果能从其它公理推导出来的结论就不是公理,而是定理了。
搭建几何学的基础中,还有一些和几何有关的公理(它们也被称为公设,或是几何公理),由欧几里得提出。
1. 由任意一点到另外任意一点可以画直线(也称为直线公理);
2. 一条有限直线可以继续延长;
3. 以任意点为心,以任意的距离(半径)可以画圆(圆公理);
4. 凡直角都彼此相等(垂直公理);
5. 过直线外的一个点,可以做一条,而且仅可以做一条该直线的平行线(平行公理)。
几何公理以外,欧几里得还对点、线、夹角等等概念做了定义,以这些为基础,人们构建了整个几何大厦。
首先,遇到一个具体问题,要作相应的定义,比如什么是夹角;
其次,从定义和公理出发,得到相关的定理;
然后,再定义更多的概念,用公理和定理推导出更多的定理;
这样,不断循环,几何学大厦就构成了。建筑的唯一连接点就是逻辑。
定理的推导过程。
整个几何学都建立在五条一般性公理和五条几何公理之上。
除此之外,所有显而易见的事情均需要通过推导得以确认。
举例:定理对顶角相等要如何证明呢?
L1(即AB)和L2(即CD)是两条直线,它们相交于O点,∠1和∠2被称为对顶角。结论:∠1等于∠2。
步骤一:证明所有直线对应的角(180°)都相等。
直线的角度是180°既不是定义,也不是十条公理,不能直接使用,即使它的内容再简单,我们都认为为真。数学的特点是未被证明的真只能算是猜想,被证明的真才永远为真。
垂直的定义:当一条直线L和另一条直线M相交后,左右两边的夹角相等,则称M和L垂直。
直角的定义:如果直线L和M垂直,那么夹角就是直角。
结论:一条直线自身的角度,等于左右两个直角相加。
根据垂直公理:凡是直角都相等,任何一条线对应的角是两个直角相加,于是所有直线对应的角都相等。
步骤二:图中直线L1,这条直线对应的角是∠1和∠3两个角相加;直线L2,它是∠2+∠3。 由于任何直线对应的角都相等(步骤一已经证明),因此,∠1+∠3=∠2+∠3。
步骤三:利用一般性公理的第3条,等式的两边都减去一个相等的量,它们依然相等。 将上面的等式两边减去∠3,就得出∠1和∠2相等的结论。
为什么不用量角器测量来证明呢?
因为观测的结论不是数学结论,最多算是实验科学的结论。
辅助线
步骤一证明所有直线对应的角都相等时,用了一调垂线,这条垂线就是辅助线。
体会一下这条辅助线的作用是不是和虚数的作用相似呢?
古希腊人这种建立在公理和逻辑基础之上的学科体系,能够逐步通过定理建立起完整的理论大厦,后人可以不断在前人基础上进步,并且能够解决越来越多的具体问题。
公理系统的结构和构建过程,不止应用于数学领域,在工作中使用往往也会事半功倍,有益于迭代。
非欧几何:相对论的数学基础
整个几何学就是建立在五条一般性公理和五条几何学公理之上的,那些公理都是不证自明的,也无法证明的。
如果有一条错了呢?
情况一:如果某一条设定的新公理和现有的公理相矛盾,那么相应的知识体系就建立不起来。
情况二:新设的一条公理和现在的某条公理不相符,但和其它的公理不矛盾,根据上文论证定理的逻辑,一定能够推出一个和之前不同的知识体系,现有的欧几里何公理体系自洽,但是可能和新定理形成的知识体系相矛盾。
对几何公理第5条“过直线外的一个点,可以做一条,而且仅可以做一条该直线的平行线”。平行线,就是平面上永不相交的两条线。就有人产生了质疑,会不会经过直线外的一点,能够做出很多条平行线,或者一条也做不出来呢?
在现实世界中我们很难找到这种情况,所以大多数人都相信欧几里得的公理体系是对的。
真的有两个奇葩,更改了几何公理第5条,并把几何学重新建立了体系。
罗巴切夫斯基,他假定过直线外一个点,能够做该直线的任意多个平行线。
如果我们承认他所作出的这个假设,并且应用由此而来的全部结论,那么空间就由方方正正的形状,变成了马鞍形,也称为双曲面。
在这样的空间里,三角形的三个角加起来就小于180度了。当然很多欧几里得(简称“欧式几何”)公理推到的几何定理都会发生变化。
但罗巴切夫斯基的理论在他创建的几何大厦里非常自洽,没有任何问题。为了区分我们把这套系统称为罗氏几何。
黎曼,他假定经过直线外任意一个点,一条平行线也做不出来,这样构建的几何学被称为黎曼几何。
在黎曼几何中,空间被扭曲成椭圆球的形状。这个空间每一个切面是椭圆,因此它也被称为椭球空间。
如果你在上面画一个三角形,它的三个角加起来大于180度。
这个事情相对好理解:比如从北极出发往正南走100米,再往正西走100米,最后往正北走100米,你又回到了出发的原点,也就是北极点。你走过的这个三角形,三个角之和为270度。
黎曼几何和罗氏几何由于得出的很多结论都不符合欧氏几何,因此它们被统称为非欧几何。
欧几里得所确定的公理经过了两千多年的实践检验,而罗巴切夫斯基和黎曼在构建各自的几何学体系时,并不知道它们有多少实际用途。
黎曼希望一些涉及到曲面的数学问题在解决的时候简单一些。但在他的理论诞生半个世纪里并没有找到合适的应用范围。
后来,一位史诗级物理学家给他背书,这就是爱因斯坦。在爱因斯坦著名的广义相对论中,所采用的数学工具就是黎曼几何。
爱因斯坦之所以采用黎曼几何来描述广义相对论,是因为时空和物质的分布是互相影响的,并不像牛顿力学里面所认为的时空是固定的。特别是在大质量星球的附近,空间被它的引力场弯曲了。
在这样扭曲的空间里,光线走的其实是曲线,而不是直线。
1918年,爱丁顿爵士利用日食观察星光曲线的轨迹,证实了爱因斯坦的理论。
这件事也让黎曼几何成为了理论物理学家们很常用的工具。
黎曼几何被证明是正确的,欧几里得的几何也被证明是正确的,但里面有很多矛盾的地方,比如三角形内角和有时候是180°,有时候大于180°。怎么解决这些矛盾呢?
19世纪的数学家们通过认真研究欧几里得提出公理,发现了问题所在,欧几里得并没有定义什么是平面。
想象我们中学的平面几何学,有多少老师忽略了平面两个字呢?又有多少学生刻意的关注过这个定义呢?
反思:我们应该有一种理性眼光,去看待习以为常的事情,因为在没有明确说明之前,大家的认同其实会有误解。
比如我们做饭时常说盐少许,你和我之间对少许的概念根本不同。
19世纪后,数学家们对平面作出定义:满足平行公理的面被称为平面,那么欧氏几何的基础就更扎实了。虽然非欧几何和欧氏几何在形式上很不相同,但却是殊途同归。同一个命题,可以在这三种系统的框架内相互转换,因此如果欧几里得几何没有矛盾,非欧几何也就自然没有矛盾。
非欧几何的两点启示。
启示一:这三种几何系统,90%的公理都是相同的,最后差出了一条看似最无关紧要的公理,但是,由此之后发展出来的知识体系就完全不同了。
学习别人的经验时,觉得似乎自己学到了,应用时往往有偏差。大部分时候,这种差异来自于细节,可能就是10%。我们常常满足于90%的一致性,忽略了那一点差异,这就导致了结果完全不同。
启示二:数学是工具,而这种工具可能有很多种,它们彼此甚至是等价的。
在不同的应用场景中,有的工具好用,有的费劲,学数学关键是要学会在什么情况下,知道使用什么工具,为人亦是如此。
解析几何
我们学习和发现知识,大都是由简单到复杂的,但几何学是个特例,它是数学中很难的部分,在它之后出现的代数学要简单很多。于是法国大数学家笛卡尔想,是否有一些图形问题可以转化为方程,解方程的同时求解了几何问题呢?
解析几何又称坐标几何。在西方,很多时候它被称为笛卡尔几何,这是为了纪念笛卡尔,如果不知道这个典故,看英文的解析几何著作就会一头雾水哦。出国学习数学之前,记得把所有的数学家的名字和成就梳理一遍哦。
为什么笛卡尔要设计平面坐标?
在笛卡尔之前就有数学家对个别几何问题是使用代数及坐标求解的,只是不太成体系。
笛卡尔设计的大背景是那个年代开普勒已经提出了行星运动的三定律,这三个定律都是基于椭圆轨道的,而不是当初哥白尼和伽利略基于圆形轨道的。
当时很多应用会用到曲面,比如制造望眼镜需要研究光在曲面上的折射和反射问题。
为了简化计算,笛卡尔设置了笛卡尔坐标系,创立了解析几何的数学分支。
注:在笛卡尔之前,虽然有托勒密使用的球面坐标,也有了把平面按照水平和垂直线划分出区域的方法,但是没有人在平面上用两个彼此垂直的无限长的直线设定坐标的方法。因此后世就把这种坐标用他的名字命名了。
解析几何体系是将平面几何中的图形用代数的公式来描绘。
比如代数中的二元一次方程,AX+BY+C=0。在平面坐标上,代表一根直线,这样的一次方程被统称为线性方程。在一些特殊的情况下,比如A=0,它就变成了水平线,如果B=0,就变成了垂直线。如果A=B,直线就和水平、垂直方向都有45度的夹角。
解析几何会让一些很难证明的图形问题,转化后很容易求解。
解析几何也可以让很多原本看似抽象的代数问题变得很直观。
比如二元一次方程组求解,二元一次方程组有时候有一个解,有时候有多个解,有时候有无数解,在解析几何出现前,很难求证,但方程组里的每个方程都可以在坐标系中表示一条直线,如果方程组形成的两条直线相交,交点就是一个解,如果平行就没有解,如果重合会产生很多解,这个问题就被轻松解决掉了。具体如图:
一个解
无解
多个解
数学不能靠测量,解方程不能靠在图上画线,但是利用解析几何这个工具,我们可以很好地理解方程的本质,更好地学会解方程。
比如一元二次方程对应的抛物线,这根抛物线和x轴,也就是横轴有两个交点,也就是说,有两个可能的x值,让方程等于零,这两个值就是相应方程的两个解。
如果抛物线与横轴只有一个交点,相应的方程只有一个解
陶武先与横轴没有交点,对应的方程无解。
和二次方程不同的是,三次方程对应的曲线总是一头往负无穷大走,另一头趋向正无穷大,所以每个三元方程都有一个实数解,这个问题在之前是很难证明的。
数学是一切科学的基础和工具
解析几何这种工具起初是不存在的,完全是笛卡尔等人根据之前的数学理论,按照逻辑凭空构建出来的。一个很虚的工具却解决了很多实际问题,这就是数学的本质。
学好数学,不是做很多超出自己理解能力的难题,而是把自己有能力理解的知识融会贯通起来。
解析几何不但承前,而且启后,在它的基础上出现了微积分。
几何与其他学科的基础逻辑
通过公理化系统建立起一个知识体系,是人类创造思想的最高水平。几何学从知识点逐步推导出整个公理化系统,这个原则适用于人类文明的各个方面。
法学
罗马的法律体系,简称为罗马法。又称“十二铜表法”(因为写在十二个牌子上得名),是今天世界上大部分国家的法律体系的底层基础。
早期,罗马法与古巴比伦《汉谟拉比法典》、汉朝萧何的《九章律》等没有本质的区别,如同几个早期文明在几何学上的研究水平不相上下一样。
几百年后,经过从西塞罗到查士丁尼时期很多法学家的努力,他们为罗马法找到了最基本的根据。于是罗马法就脱胎换骨了,从此和古代文明中那些单纯反映统治者意愿的法律非常不同,成为了一种维持公平公正的系统性工具。
在罗马法中,那些最基本的,不证自明的依据,就是自然法。如同几何学中的公理,后来的法律都是从自然法中生长出来的,也类似于几何学的成长和变化。
奠定罗马法学中自然法精神的西塞罗说:“法律是自然的力量,是明理之人的智慧和理性,也是衡量合法与非法的尺度。”他还说:““法律乃是自然中固有的最高理性,它允许做应该做的事情,禁止相反的事情。当这种理性确立在人的心智之上并且得到实现,就是法律”。
之后的查士丁尼时期,法学家们在重要法学论著《法学阶梯》中,将自然法嵌入罗马法中的条文,并且从自然法的原则整理和构建了整个罗马法系统。
根据《法学阶梯》的描述,罗马法被明确地分为了:自然法、公民法和万民法(相当于国际法)三个部分。自然法是自然界“赋予”一切动物的法律,不论是天空、地上或海里的动物都适用,而不是人类所特有。万物平等就是罗马法体系的一条公理。
法律的衍生就如同几何学大厦的建立一样。
比如,自然法认为,传宗接代是自然赋予的权利,因此产生了男女的结合,这就是婚姻,为此引申出了婚姻法,从而也就有了抚养和教育子女的义务,这就如同母狮子要教小狮子捕食一样。今天大家所共有的动物保护意识和各国制定的动物保护法,也是源于罗马法中的自然法原则。
比如公民法中,最基本的原则首先涉及到法律的主体是谁,他们的地位如何。根据自然的原则,万物皆平等,因此在罗马法中,凡是称得上是法律主体的“人”,都是平等的。当然在早期,罗马法律的主体只有自然人,而且不包括奴隶。后来法律主体演化到所有人(类比数学中找到负数),再演化增加了法人、团体等概念(类比数学中引入的虚数概念)等等。
罗马法与欧几里得平面几何的共性。
都是建立在不证自明,而且符合自然原则的公理之上。
通过自然的逻辑演绎创造出新的定理或者法律条文,并且在此基础之上不断扩展。
这样的法律,就不会随着统治者的更换而改变,因此具有很强的生命力。
几何是建立在公理之上的,而公理设定的细微差别会导致后来系统巨大的差异,比如欧式几何之后的罗氏几何和黎曼几何,在法律上这种现象也存在,尽管欧洲大部分国家沿用了罗马法的底层逻辑,还是有不一样的英美法系产生。
趣事:1862年,美国南北战争时期,林肯总统要说服国会通过《解放黑人奴隶宣言》,议会会员认为,宪法并没有谈到废奴这一条。后来林肯到国会讲演时,仅带了本欧几里得的《几何原本》。林肯举起这本书讲,整个几何学的定理和推理都离不开其中一条公理,那就是所有的直角都相等。既然所有的直角都相等,那么是不是人人也应该平等。
当你否认了我们所说的直角公理,即使能构建出一个几何学体系,也是不完整,没有效用的。类似的,如果我们把人的不平等设定为法律的公理,那么构建出的社会也不会是平等的。
管理学当中的公理化体系
如果把办公司看成是构建一个公理化的系统,创始人一开始确定的做事原则和价值观,就成为了企业立足的公理部分。
公理的确定标准不同,就会产生企业的多种价值观,没有好坏之分。就如同欧几里得几何、罗氏几何以及黎曼几何没有对错之分一样。
阿里巴巴这样的公司就强调客户优先,你经常会看到它处分员工和高管的新闻,但是没有看到它怼客户的新闻。
星巴克则正好相反,宁可怼顾客,也要对自己的伙伴(星巴克永远把员工称为“伙伴”)负责。
至于苹果、微软等公司,则是优先对投资人负责,所以巴菲特很喜欢,而且这两家公司股价的表现确实好。
我们很难判断价值观的对错,但是要做到始终如一,如同几何公理之间必须具有一致性,不能产生矛盾。
比如企业不能同时喊出“顾客第一,员工第一,投资人第一”因为绝大多数决策不会同时满足这三点。
通过几何学习,对数学学习的反思,
学数学不能从悟性、理解力、刷题等方向出发,要靠系统性的方法,融会贯通地理解知识。
要练习从基本的假设,从已知条件出发,采用逻辑客观地推导出结论。
要把数学从单纯的脑力练习,变成掌握工具的练习。
5. 代数学 用数量描绘世界
函数
函数的概念是由著名数学家莱布尼茨提出的。
中文里的“函数”一词是清末数学家和翻译家李善兰创造出来的。李善兰在翻译西方数学著作时,根据函数的这种对应变化关系,发明了这个名词,他讲:“凡此变数中函(包含的意思)彼变数者,则此为彼之函数。”
意思是凡是这个变量中包含另一个变量,这个变量就称为另一个变量的函数。也就是说,如果y随x变化,y就是x的函数。李善兰的解释并不准确,但很形象。
从静态到动态,从个别到趋势
数学课本对函数定义:在一个变化过程中,有两个变量x与y,如果对于x的每一个值,y都有唯一的值与它对应,那么就说x是自变量,y是x的函数(因变量)。
费曼曾说,那些看似严谨的定义,不过是用一些词解释另一些词,学生们就算把它们背得滚瓜烂熟,照样体会不了其中的含义。大概也在说我们的数学课本吧。
如何简化的理解函数呢?可以从四个特性出发。
函数里面都有变量;
3+5,或者2×4不叫函数,因为他们是固定值,没有变量,像y=x^2这样的抛物线才交函数,x就是变量。单位里每个人的工资也是个函数,人是变量。
函数里面都有一种对应关系;
比如等比数列1,2,4,8,16,……,2^n,……,序号n和元素2^n,就是一种对应关系,2^n就是n的指数。
函数里的对应关系,都必须是确定的;
在一个函数中,一个变量只能对应一个值,而不是多个值。比如在上面的等比级数数列中,一个位置上只有一个数,第三个元素不能既是4,又是8。
函数所对应的关系可以通过数学的方法,或者其它方法算出来。
在二元一次方程里,给定一个X的值,就能算出一个Y值。
简化的函数概念:函数是一种特殊的对应关系,任何一个变量只能对应一个函数值,当一个变量对应了很多数值,这样的对应关系就不是函数。
有了函数,人类在认识上有了三方面的进步。
很容易看出两个变量之间是怎样相互影响的。
这两个西瓜的体积,质量差了一倍,人类很容易被眼睛欺骗,尤其是处理指数问题。
让人们从对具体事物、具体数的关注,变成了对趋势的关注,而且可以非常准确地度量变化趋势所带来的差异。
GDP的增长是时间的函数,从图中的这些年中国、美国、印度GDP的对比,很直观的看到我们的领先和进步,当然也能看到文革、改革开放前的落后。改革开放是中国近代最正确的抉择。
帮助我们通过学习几个例题,掌握解决一系列问题的方法。
比如我们知道了投掷和抛射一个物体,当初速度一定时,最后它飞行的距离是抛射角度的函数,那么我们就能算出不同角度下,抛射的距离。
总结
函数反映出两种变量之间的关系,其中一种变量随着另一种变化,因此在科学史上它提升了人类的认知,将我们从对单个数字、变量的关注,引向了趋势。没有函数,我们其实很难从个别数据样本,体会整体的变化。因此我们的思维方式要从常数思维到变量思维,再到函数思维。
函数还为同一类问题提供了具有普遍性的答案。当我们对函数中不同的变量代入不同的数值时,就会得到相应的结果,这就让人们有了一通百通的可能性。
通过公式理解因果关系
概念:定义域
圆的半径R增加一倍,面积S增加到原来的4倍,后者随着前者变化。
写成函数形式就是:S=πR^2
在坐标上它就是半根抛物线。如图:
函数中的自变量(本函数中的R),虽然名称叫自变量,但并不是怎么变都行的。它有一些特定的限制条件或者范围,比如圆的半径必须大于等于零。
自变量的取值范围或者限制范围,我们称之为函数的定义域。
当一个函数的定义域确定之后,因变量,也就是函数值也就受到了相应的限制。
对于函数,很多人常犯的错误在于没有考虑定义域,滥用函数关系。
比如子女教育问题,如果你的期望超出了孩子的定义域,恐怕要重新计算一下函数关系了。
数学中的函数关系一般都是可逆的,比如刚才坐标的R和S的关系。
把面积和半径在坐标上位置对调一下,形成了这样的函数图:
两张图是对称的;
为了更完整地描述和研究这种把因和果置换后的函数关系,数学家们提出了反函数的概念;
在笛卡尔坐标系中,反函数的图和原来函数的图就总是相对45度角的对角线对称。
举例:
当一个函数的变化由两个,或者更多的变量决定时,单个变量和函数之间的因果关系,并不是函数值变化的必然原因。
比如计算圆柱体的体积V,它和圆柱半径R的平方成正比,和圆柱的高度h成正比,即V=πR^2×h。
如果高度增加一倍,体积一定增加一倍吗?只能说,有可能,但是前提是半径要保持不变。反过来从结果看,如果体积增加了一倍,我们也并不知道是否是高度变化所引起的
在三维坐标系中,变化是图中这样的。
在多变量的情况下,我们只能得到这样的结论,就是体积的变化和高度的变化是正相关的,而且相关性是100%,也就是说,在其它条件不变的前提下,一个变大,另一个也必然变大。类似的,体积变化和半径变化也是100%正相关的。
当我们知道了决定圆柱体质量的三个因素,即它的半径、高度,以及材料的密度之后,虽然每一个因素都不构成质量增加的因果关系,但是在不同场合,我们就知道该如何调整尺寸和选取材料来达到目的。
学术研究的主要目的,已经从过去那种寻找确定性,变成了挖掘尚未认知的,能影响结果的变量,并且寻找它们和结果之间的相关性。在研究某一个变量的影响时,我们通常要屏蔽其它变量的作用。
比如:金融学、经济学中探讨的各种变量均有这个特点。
在生活中,很多人经常把正相关性、因果关系和必然性相混淆。
了解了相关性和必然性的差别,能让我们少犯错误。
比如投资,不止要看平均回报率,还要看投资风险,一些高回报的项目也是高风险的。平均回报率高,和拿回来的钱多并不形成因果关系。
每年的平均投资回报率和最后拿回来的钱总数是正相关的,这点毫无疑问。但是在投资时,总是找那些回报率高的项目或者投资产品一定赚的钱多吗?不一定,可能有暴雷风险。相关性不是必然性。
72定律,假如投资回报率是每年R%,基本上72/R年资产翻翻。当然是在不暴雷的情况下。
人文和社会学科与自然科学领域的特点完全不同,前者更像是江湖,学者们彼此很难互相说服,这其实非常准确地描述了学术界的特点。
所以看学术专著时,就不要把它当作对某个结论全面的论述,而把它们当成是揭示某种相关性的著作就好。
向量代数:方向比努力更重要
代数学除了给我们带来了方程和函数这两个工具,还揭示了世界上关于数字的另一个规律——数字的方向性。
你用40公斤的力来拉一个箱子,我用30公斤的力来推,那么箱子受力是多少?
刚开始学习加法的小朋友的答案:70斤;
学习了减法之后回答:10斤;
再后来就会思考,如果不是垂直用力,有个夹角呢?这就是数字的方向性。
某个建筑工地要实施爆破,爆破的半径是120米,你要赶快逃离。逃离路线有几种选择。
A.先向北跑了100米,再向东跑了50米,合计150米;
这时你能逃离到安全区吗?你跑了150米,超过了120米,但现在你其实离爆破中心只有118米,还在危险区内。
B.先往北跑了100米后,再往东北跑了50米,合计150米;
这时你就离爆破中心139米,你已经安全了。
C.你先往北跑100米,再往东南跑了150米,这时一共跑了250米;
很不幸你离开爆破中心只有106米,吃力不讨好。
如图
一个组织,必须形成合力,才能把事情做好。
一个人如果跑错了方向,再努力也没有用。
在这个世界上,对于大部分物理量和在生活中遇到的数量,我们不仅需要关心数值的大小,还需要关心方向。
物理中的力如此;
生活中行驶的路径是如此;
一个人、一个企业做事的目标和所投入的努力如此;
如果看到一个数字没有考虑方向,那我们的水平可能仍停留在小学数学阶段,数学永远不是算数。
在数学上也要有一种工具,来描述带有方向的数字,这种工具被称为向量。
那些只需要关心数值,不关心方向的数量被称为标量。
向量的两种表示方法
极坐标,比如“前面100米,11点钟的方向”,100米代表向量的数值,又称长度。11点钟的方向就是向量的方向。
主要应用:空中、海上等。
笛卡尔坐标,比如“往东300米见到红绿灯往南拐,再走200米就到了。”
如果以所在地为原点,按照上北下南左西右东的概念来确定方位的话,往东300米,往南200米,目的地的坐标就是(300,-200),直接用终点的坐标表示向量。
如果用极坐标方式表示:目标点离我们的距离可以根据勾股定理算出来,是大约360米,和X轴的方位角是斜下方34度。
在坐标系中用一个有长度、带箭头的线段表示一个向量。
在笛卡尔坐标中我们习惯将向量的起点放在原点,终点就是坐标系中的某个点,然后从原点往那个点画一根带有箭头的线段。
不过向量的起始点不重要,重要的是起始点的相对坐标。
比如从原点出发指向(a,b)点的向量,和从(10,10)这个点出发,指向(a+10,b+10)的向量,其实是一回事。向量的长度和方向通过勾股定理、余弦三角函数求出(右侧公式)。
向量可能存在多维空间,向量也可以做加减乘除。
举例:二维空间中向量的加法。
假定有两个向量V1和V2,它们相加后的向量是V3,即V3=V1+V2。
V3的长度遵循一个平行四边形法则,如图:
在V1、V2长度相等的情况,一些特殊角度下,V3的长度
V1和V2方向相同,V3的长度正好是两个向量长度的总和,也就是2, 这是最长的情况。
V1和V2呈30度夹角,那么V3大约是1.93。
V1和V2呈60度夹角,V3是1.73。
V1和V2垂直,3的长度正好符合毕达哥拉斯定理,大约是1.4。
V1和V2呈120度夹角,V3的长度只有1。
V1和V2呈150度夹角,V3的长度只有大约0.5。
V1和V2方向相反,也就是呈180度夹角,V3等于零。
要形成合力就必须方向一致,即便方向不能完全一样,彼此之间方向的夹角也需要尽可能地小
做事要聚焦,往三个方向使劲,每一次努力其实都是有成本的,但是很多时候努力相互抵消掉了。
通过向量夹角理解不同维度
向量之间的夹角是依托余弦定理计算的。
余弦定理是为了在三角形已知两条边的情况下,计算第三条边的长度。
数学体系的重要性:从毕达哥拉斯定理推演余弦定理。
毕达哥拉斯定理。假如三角形的两条直角边是a和b,那么斜边c^2=a^2+b^2。
把a和b的夹角分别调整成锐角和钝角,比较c^2和a^2+b^2的大小。
毕达哥拉斯定理a^2+b^2=c^2,稍作调整写成a^2+b^2-c^2=0会更方便对比,我们将等式左边看成一个因子Δ,那么Δ=a^2+b^2-c^2。把Δ和0比较的大小,就可以判断夹角,如右图所示:
Δ是a,b,c三个变量的函数。因为abc是三角形的三条边,Δ的动态范围很大,为了简化缩小范围,将Δ除两个变成的积(a×b),得到的结果可以将Δ的范围缩减至-2到+2之间。当Δ=-2时,对应的夹角最大,是180°。当Δ=0时,对应的夹角是90°。当Δ=2时,对应的夹角是0°。如果在缩小一点范围除以2,Δ的范围就规范到-1和1之间了,事实上这就是夹角的余弦。
余弦定理的思想最初出现在欧几里得的《几何原本》中,当时并没有成体系的三角学,欧几里得并没有把这个判定因子和角度的函数用余弦表示出来。到了15世纪,波斯数学家贾姆希德·阿尔卡西正式提出了余弦定理。
余弦定理,欧氏平面几何学基本定理。余弦定理是描述三角形中三边长度与一个角的余弦值关系的数学定理,是勾股定理在一般三角形情形下的推广,勾股定理是余弦定理的特例。余弦定理是揭示三角形边角关系的重要定理,直接运用它可解决一类已知三角形两边及夹角求第三边或者是已知三个边求三角的问题。
余弦定理表达式:cos A=(b^2+c^2-a^2)/2bc
ps:这一节弄得我头都大了,先是考虑多维空间中的向量夹角计算,之后思考多维空间是什么样子,多维空间的向量是否可以对应到直角坐标系中。搞了个通宵也没有结果,后来求助万能的朋友圈,有大神指导可以跳过这个步骤,直接用矩阵解决。最终还是一头雾水。 ps:上午陪女儿上课,我在门外带着笔记本把这一章节整体打乱,沿着朋友圈的交流重写,回家后直接崩溃,写了半天居然没保存。 ps:回家路上收音机里播放《小小》,方文山的词,忽然有了点小想法,或许多维空间的向量类似虚数,它的存在只为解决某类问题,如果矩阵也能解决,那么了解多维向量空间夹角的逻辑就好,不必过分执着那些多维空间,沿着这个思路,删改调整了一下这个区域的脑图。还不太确定自身理解是否正确,但愿别误人子弟。
向量夹角计算:当两个向量确定之后,可以把它们的起点都挪到原点,它们各自的终点和原点之间,就构成一个三角形,然后根据余弦定理计算两个向量的夹角。
计算向量的夹角有什么用呢?事实上计算机搜索引擎的底层逻辑就是通过向量夹角计算来比对搜索内容的相关性。
假如世界上的词语只有8个“股票、债券、利息、现值、软件、迭代、升级、程序”。现在两篇文章,都是由这8个词语组成,统计每个词语在文章中出现的次数,可以得到这样两组数据(23,32,14,10,1,0,3,2)和(3,2,4,0,41,30,31,12)。
这两组数就是两个八维空间的向量,假设是V1和V2。
把所需要搜索的内容也用这几个词写成一组向量,假设是V。分别计算向量V和V1,向量V和V2的夹角,夹角小的那偏文章就更接近搜索的内容。
计算机处理事务的逻辑其实不难理解,只是我无法想想多维空间的样子,也无法计算多维空间两个向量的夹角,大概这个概念已经超越了我的认知范围。多维空间的概念应该和前面提到的虚数类似,只是虚构出来的概念不必过分纠结。刚好从收音机听到《小小》,借着这首歌用一些不太恰当的比喻来形容一下多维空间向量夹角的概念,自己可能想的不太明白,会有偏差。
《小小》 词:方文山 曲:周杰伦 回忆像个说书的人,用充满乡音的口吻,跳过水坑、绕过小村,等相遇的缘分。 你用泥巴捏一座城,说将来要娶我进门,转多少身、过几次门,虚掷青春。 小小的誓言还不稳,小小的泪水还在撑,稚嫩的唇、在说离分。 我的心里从此住了一个人,曾经模样小小的我们,那年你搬小小的板凳,为戏入迷我也一路跟。 我在找那个故事里的人,你是不能缺少的部份,你在树下小小的打盹,小小的我傻傻等。 回忆像个说书的人,用充满乡音的口吻,跳过水坑、绕过小村,等相遇的缘分。 你用泥巴捏一座城,说将来要娶我进门,转多少身、过几次门,虚掷青春。 小小的感动雨纷纷,小小的别扭惹人疼,小小的人还不会吻。 我的心里从此住了一个人,曾经模样小小的我们,那年你搬小小的板凳,为戏入迷我也一路跟。 我在找那个故事里的人,你是不能缺少的部份,你在树下小小的打盹,小小的我傻傻等。 我的心里从此住了一个人,曾经模样小小的我们,当初学人说爱念剧本,缺牙的你发音却不准。 我在找那个故事里的人,你是不能缺少的部份,小小的手牵小小的人,守着小小的永恒。
小小的那年,我们一起发生了很多故事,有关于泥城的、誓言的、泪水的、有一个雨纷纷的天、有一次小别扭的吵闹、有你说着分离的唇、有我抱起的板凳、还有树下打盹的你和傻傻等待的我,如果这是我们的全部,小小的我想给每个故事打个分,于是得到了一组数(a1、a2、a3……a8)
那年,小小的你也给每个故事打了个分,可能和我略有不同是(x1、x2、x3……x8)
一年后呢?回忆这些事情,或许我会适当的修正分数吧,大概修正成(b1、b2、b3……b8)
一年后的你呢?大概也在修正(y1、y2、y3……y8)
两年后,……
两年后,……
……
……
今天,我听着《小小》,再次把分数修正为(c1、c2、c3……c9)
今天,你看着文稿,也把分数修正为(z1、z2、z3……c9)
我们得到的每一组数都能成为一个八维空间的坐标,对应的两两向量之间的夹角大概就是那个时点的爱意。我想象不到那个多维空间的样子,就如我始终捏不出那座泥城,也许因为那个多维空间中有我虚掷的青春。但每个向量夹角的度数是可以感知的,如果可以选择在一起,大概在那个时点我们都清楚的知道彼此的向量夹角的度数接近于零吧。
脑洞继续大开,就在往下推导一下试试吧。如果想用数学记录爱情,它大概该是这个样子吧? 1)我们第一次认识,在心里默默的给彼此打个分,并把分数标记在了一条横轴上; 2)第一彼此的分数还不错,于是我们有了第二次见面,不管经历了什么,彼此还能量化一下感受,于是我们画了个纵轴,每个人记录的两次分数成为了这个平面图上的一个点; 3)之后我们第三次见面,像之前一样,坐标轴又加了一条,成了三维空间; …… 4)随着时间的推移,我们的生活变成了一个非常复杂的空间,我心中的“我们”就是我量化后的那个点,你心中的“我们”也是如此,两个“我们”之间的向量夹角就是爱的度量,为0°会终成眷属,为90°呢?是“陌生人”还是“老死不相往来”? 忽然之间,把数学搞得哲学兮兮的。哈哈!
当两个向量在同样的维度上的分量都比较大时,它们的夹角就很小。反之,当两个向量在不同维度上分量较大时,就近乎正交。
正交是线性代数的概念,是垂直这一直观概念的推广。作为一个形容词,只有在一个确定的内积空间中才有意义。若内积空间中两向量的内积为0,则称它们是正交的。如果能够定义向量间的夹角,则正交可以直观的理解为垂直。物理中:运动的独立性,也可以用正交来解释。
矩阵
“矩阵”是1850年由英国数学家西尔维斯特发明的,在数学史上算是比较晚出现的。构成它的向量其实出现的时间也很晚,是1835年才被提出来的。矩阵的样式是一组横竖排列组成的数字组,比如这是一个3x4的矩阵。
早在公元三世纪,中国就有类似矩阵的记载,日本、意大利也很早就出现过,但那些并不是今天数学意义上的矩阵,因为发明出一系列相应的计算,让这个工具能够解决很多问题。是1850年由西尔维斯特完成的。
矩阵产生的原因是向量的扩展。
向量是横着的一排数字,每一个数字代表一个维度的分量。把多个维度纵向排列就成了矩阵。
矩阵运算及应用,加法。举例:
假设一个跨国公司,有3个岗位,每个岗位有4种技能要求。公司会对人员有一个总体上的要求,但是对于不同国家的员工在要求上也会有不同的调整,比如对英语水平的要求。我们把总体要求用上面的矩阵A来表示,某个国家相应的调整用矩阵B来表示。那么矩阵A+B,就是在某个国家具体的要求。
当进行A+B时,只要把两个矩阵中相应位置的元素逐一相加即可,即A+B结果,如图:
今天在生活和工作中,经常需要有相对固定的大的原则,以及针对各种情况的小的变动,这时候就需要有一个相对固定的核心,再加上一个增量,而不是复制一大堆数据,拷贝以后逐一修改。
提高批处理问题的能力:矩阵乘法及应用:
矩阵与向量相乘
假设有两家投资银行,第一家投资银行的股票基金、债券基金和高风险基金的历史回报分别是:7%、3%和10%,第二家投资银行三类金融产品的历史回报分别是8%、2%、9%。
你准备拿1万元投资,找第一家投行,还是第二家投行呢?
我们可以根据两家银行的历史回报情况列一个矩阵
根据自己的情况,拆分一下这一万块钱,分别投入到三个产品中,假如我是按7000,2000,1000进行拆分,为了计算直观把这三个向量竖着列出来。
通过矩阵的成绩,就可以计算出两家投行产品的预估回报如下:
计算方法
以第一家投行为例,7000元7%的回报是490元,2000元3%的回报是60元,1000元10%的回报是100元,加起来是650元。算式:7%x7000+3%x2000+10%x1000=650元(如图对应标红数字部分)。
这个三维矩阵与三维向量相乘,看起来很简答,如果是很多维进行计算,矩阵就非常直观,使用它既方便又不容易出错。
矩阵与矩阵相乘
仍然是上面的例子,假如你对风险的承受力比较强,愿意将更多的钱放在高风险、高回报的基金中。比如按照3000、2000、5000来分配投资,我们把这个向量写成P2,这时哪家的回报更高呢?
计算方法同上,结果如下:
你还可以尝试更多的投资方式,对应的向量就是P3,P4,P5……如果你带着一大笔钱找到高盛或者摩根士丹利问它们会打算怎么帮你投资,它们为你做的第一件事情就是根据历史数据,帮你推算出在不同的投资配比情况下,回报是多少,也就是上面做的事情。投行中用到最多的数学工具应该就是线性代数中的矩阵运算。
把P1,P2, P3……这些向量一字排开,得到一个矩阵P。
对矩阵乘法的定义就是:矩阵R和P的第一列P1相乘的结果,是结果矩阵的第一列,把矩阵R和P中第二列向量P2相乘的结果,是结果矩阵第二列的结果,以此类推。 得到的两个矩阵相乘的结果,它也是一个矩阵:
利用矩阵这个虚构出来的工具,能够让计算从单个的,变成批处理的。特别强调的是,将单个计算变成大批量处理,这是我们今天在信息时代要有的思维方式。
为什么讨论矩阵运算这样问题的数学分支被称为线性代数?
运算矩阵乘法时,左边矩阵里的数字可以被看成是一组常数系数,右边竖着的向量中的数字则是未知数变量,这样矩阵和向量的乘法就变成了一组线性方程。如果把它们画在空间中都是线性的,不会有任何曲线。因此这一类代数运算被称为线性代数。
自然界中很多数学问题并非线性的,但是在解决的时候经常将问题近似为线性的问题,这样可以利用很多线性代数的工具。
6. 微积分 动态的世界观
线性代数和微积分是高等数学中最重要的两门课,前者有很强的实用价值,后者能提高思维水平。
是否学懂微积分,学懂后思维方式和对世界的看法都会有所不同。本章我们只谈微积分的思想,不谈细节。
微积分有两位主要的发明人,牛顿和莱布尼茨。
牛顿发明微积主要是他需要一个数学工具来解决力学问题,比如如何计算瞬时速度。
如果没有学过微积分,我们理解的速度通常是距离除以时间,但这只是一段时间Δt的平均速度。
那么某一时刻的瞬间速度是多少呢?
牛顿是怎么解决这个问题的呢?他采用了无限逼近的方法。思路是这样的。
首先,根据速度的定义,一段时间里的位移量ΔS除以相应的时间Δt,即速度v=ΔS/Δt。标记在坐标轴上如下:
左图,横轴是时间轴,纵轴是位移。曲线是位移随着时间变化的函数S(t)。从t0开始的一段时间Δt,以及相应的位移量ΔS,它们构成一个直角三角形的两条直角边。位移量除以时间,就是斜边的斜率,也就是此段时间的平均速度。当时间间隔Δt逐渐变小时,这个比值会变化,会越来越反映出在t0点附近的速度。
之前讨论过极限的概念,当Δt趋近于0时,反映速度的斜线V,就是曲线在t0点的切线,牛顿就把那个切线的斜率,定义为在t0点的瞬间速度。即,当Δt→0(趋近于0)时,v(t0)=ΔS/Δt。
牛顿对速度的定义:某个时刻的瞬间速度,是这个时刻附近一个无穷小的时间内的平均速度。
瞬间速度就是距离函数曲线在某个点切线的斜率。每一个时间点,切线的斜率是变化的,把各个点的切线斜率画出来,它也是一条函数曲线。
牛顿把由每个点切线斜率构成的函数,称为原来函数的流数(现在我们称之为导数),用y=f(x)表示原函数,用y=f’(x)表示它的导数。
在上面的例子中,位移的变化函数S(t)是原函数,速度变化的函数v(t)则是原函数的导数,可以写成v(t)=S’(t)。
一个函数的导数所反映的也是原函数变化的速率,如图,所显示的就是加速度在不断下降。
函数反映的是一个变量随着另一个变量的变化,导数反映函数变化的快慢。
抛物线函数y=x^2,它在x=1时,导数是2,也就是说x增加一小份,y要增加两小份。
直线y=x,它的导数是1,也就是说x增加一小份,y也增加一小份,因此抛物线在x=1这个点的变化比直线更快。
抛物线y=x^2在x=2这个点的导数是4,它在x=2时,比x=1时,变化更快。
可以看出,导数的本质是对变化快慢的准确量化度量。
有了导数,就可以进入微分的世界了。
导数,也叫导函数值。又名微商,是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x0)或df(x0)/dx。
微分就是前面探讨速度问题中的Δt趋近于零时,ΔS的值。为了对比区分用dx表示自变量趋于零的情况,用dy表示函数的微分。
导数的定义是f’(x) =Δy/Δx,其中Δx趋近于零; 微分的定义dy =f’(x)dx; 他们讲的其实是一回事,在Δx和Δy趋近于零之后,就是dx和dy。所以导数也可以写成f’(x) =dy/dx的形式。
微分dy永远都是无穷小,它有什么实际用途吗?来看个案例。
一个工程师,要建造一个巨大的储油罐,无论增大半径,还是增加高度,都有相当的工程难度。且经费有限,只能在一个维度,为了增大储油罐的体积,应该怎么做呢?
圆柱体的体积:V=πR^2h,直觉上应该是增加半径(平方关系)的效果更好,而增加高度变化只是线性关系。
有时候我们的直觉往往很不靠谱,把体积函数分别对半径和高度各做一次微分,结果如下: 1)体积对半径R微分:dV/dR=2πRh; 2)体积对高度h微分:dV/dh=πR^2。
结论: 1)由于半径增加所带来的体积增量,和圆柱体当前的半径成正比,也和它的高度成正比。 2)由于高度增加所带来的体积增量,和圆柱体当前半径的平方成正比,但和它的高度无关。
结果和的直觉有一些出入,假如R等于10,h也等于10,体积就随半径变化快。如果R=10,h只有1,那就是随着高度变化快。
题目答案:在这个储油罐比较“扁平”时,应该增加高度。总的来讲,当高度没有达到半径的1/2时,都应该增加高度。
在工作和生活中,经常遇到这样的问题,一个函数取决于很多变量,不知道该在哪个方向改变,怎样才能以最快的速度进步。微分给解决这一类的问题提供了方法。
上面讨论的问题,在微积分中有个单独的概念,叫做“梯度”。
“梯度”定义:梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
圆柱体问题中对圆柱体函数,针对半径求微分dV/dR,针对高度求微分dV/dh。把两个微分的结果放到一起就是梯度,即,圆柱体积函数的梯度是(2πRh,πR^2)。
梯度的意义可以简单理解为,沿着那个方向出发,函数的变化速度更快。
梯度问题的启发
我们经常面临在限制要素中作选择的问题。很多时候,总想全方位改进自己,但是人的精力和资源有限,因此在某一时刻,可能只能向一个方向努力。
根据木桶理论,该补短板;根据长板理论,该把长板变得更长。类似于哲学问题,我们很难找到最终的答案。
有了梯度的思想,就很容易解决了,人生是一个动态的过程,我们需要把握的不过是在任何时刻算出梯度,往收益最大的方向走。
微积分给我们的思维提升1:从宏观趋势中把握微观变化的趋势,认清每一步的方向。
搞懂“奇点”理解连续性。
导数是反映函数在某个点的变化速率,但是在不光滑甚至不连续的阶梯函数中,在跳跃点是无法计算导数的,因为当Δx趋近于零时,Δy不是无穷小,而是一个常数。
函数在跳跃点不可导,不连续的点被称为奇点。如图:
早期的数学家觉得一个函数只要连续,绝大部分区域都应该是可导的,除了个别处出现了尖点。
魏尔斯特拉斯(定义极限的人)提出了一个反例,给出了一种函数处处连续,但是处处不可导,这时人们才意识到连续和可导是两回事。
一个连续的、光滑的曲线就可导,因为函数曲线中的尖尖点是不可导之处,曲线光滑就不会有尖尖点。反过来,可导性可以来衡量一根曲线是否光滑,有多么光滑。
导数在数学上更本质的意义在于它是对于连续性的一种测度,光滑、连续的导数曲线,可以成为判断未来走势的依据。
在现实中,每一个生产型企业都希望自己销售额的导数曲线是光滑的,因为这意味着变化不会太突然。
反例:2008年汶川地震后,王老吉捐助了上亿元(包括产品),并配合进行大强度市场推广,市场反应非常好,但是销售额的突然增长,使得销售额导数在这个奇点不可导。 当时的情况是,一些二线城市整个城市的批发站都没货。一家企业的产能是有限的,即使增产,也有滞后性,因此遇到销售不可导的点,其实对企业发展伤害是很大,而且那个时点,企业无法解决这个问题。
奇点问题的延展:在股市上,如果一家公司的业绩表现总是不平滑变化的,它的股价常常好不了,因为投资人无法预期它的表现。
导数的性质,可以很好地反映了总量变化的趋势。有远见的的人更喜欢看一个函数导数的性质,而不是盯着总量。导数曲线的光滑性和连续性之间的关系是这样的:
如果一个函数的导数存在,这个函数一定是连续的,但是反过来却未必正确;
如果导数大于零,则原函数是增加的,导数越大,增幅越快;如果小于零,则原函数变化的趋势是递减的。如果原函数等于零,则说明在那一个点,原函数不增不减;
如果导数在某个点不连续,则说明原函数在那个点不可导,要么是出现不连续情况,要么是出现尖尖点。
如果两家上市公司的收入都是10亿元,利润也差不多,第一家公司的收入来自很多顾客,第二家来自两个大客户,在这种情况下,第一家公司的估值会比第二家高很多。因为第一家企业销售导数曲线比第二家光滑很多。
国家也是如此,如果经济结构非常单一,产业过少,它抵抗风险的能力就非常弱。比如世界上很多资源型的国家,当全球经济好的时候,大家都需要购买资源和原材料,它们的经济就欣欣向荣,但是一旦全球的需求稍微有一点变化,或者国际关系出现紧张,它们就陷入危机。如果看看这些国家的GDP走势,就会发现那根曲线是不可导的。不可导的趋势靠不住。
积分
案例一:闯红灯问题
这两天去寿光、济南、宿迁三个地方出差,时间匆忙,一路驱车前往。导航提示有个超速,关于测速,加速,超速的问题,可以通过微积分算一下。
目前高速路测速分为两种,一是区间测速,这个毫无疑问是测量平均速度。v=s/t,如果导航显示超速了,摄像头没有故障,肯定会被拍摄到。
第二类就是固定的某个测速摄像头,测量的是瞬时速度,也是就牛顿所说的Δt趋近于0时候的速度。也就是汽车仪表盘上显示的随时在变化的速度。为了使计算更有意思,我们增加一个红绿灯,演算一个红绿灯有倒计时,同时有测速摄像头的问题。
举例:如果按照36公里/时的速度开车,遇到一个红绿灯,红绿灯处道路的限速是72公里/时,车离红绿灯还有70米,红绿灯变为黄灯了,黄灯会持续4秒钟变成红灯,这四秒钟是加速冲过去还是减速等一下呢,如果冲过去被摄像头拍摄超速的概率有多大呢?
选择36公里/时的行驶速度和72公里/时的限速是为了方便计算,转化成每秒速度分别是10米/秒、20米/秒;这道题目的本质就变成了,4秒内,速度从10米/秒提升到20米/秒,行驶的总距离是否超过了70米。
假定是匀加速,加速度为a米/秒,这一秒按10米/秒的速度在行驶,下一秒就提升到(10+a)米/秒。提升到20米/秒之后匀速。因此加速的总时间是10/a秒。用图表示是:
这4秒走过的距离(大于70米才能保证通过),就是图中阴影部分的面积80-50/a,所以加速度a应该大于5米/秒;
给定一个曲线,求它下方直到x轴之间的面积,这就是积分。
对于速度曲线,它下面到x轴的面积就是按照这个速度走过的距离。所以距离是速度的积分。速度是距离变化的微分,由此可见微分和积分是互为逆运算的。
PS:温馨提示:以前看过一个报道,根据交通部门对各类交通事故的分析统计,抢黄灯造成的交通事故量占道路交通事故总量很大的比重,具体比例记不清了。抢黄灯时,你需要考虑的包括车辆性能是否可以达到需要的加速度,操作水平能否控制不超速,更重要的是你左右两侧的驾驶员可能想以同样的加速度第一个冲过路口。在十字路口,需要处理的貌似并非只有微积分问题,至少博弈论也是有的。
上面的通过积分计算路程问题时有一定误差的,因为我们分割的时间颗粒1秒过大,如果小到无限小,数值就精确了。如图
积分的本质是从动态变化看累积效应。
微积分给我们的思维提升2:是从微观上每一时刻动态的变化理解宏观上积累的效果。
案例二:利润增长
假定有两家公司在2020年第四季度盈利都是100万元,之后第一家公司的季度盈利情况这样的,120万、140万、160万、180万……每个季度的盈利是20万,用公式表示就是100万×(1+20N),其中N是代表第N个季度; 第二家公司的盈利情况是110万、121万、133.1万……也就是每次增长前一个季度的0.1倍,用公式表示就是100万×1.1^N。 接下来我们就来算算哪家公司在4.75年(2025年最后一个季度之前)的综合盈利更高。
直觉可能是指数增长的更快,而且简单算一下,到第19个季度末(4.75年)第一家公司的季度盈利是480万,第二家公司的盈利是611.59万,感觉第二家要快很多。但是算累加积分,到第4.75年总利润,第一家公司是5700万,第二家公司是5627.5万元。
这一结论和之前说过的指数增长快过线性增长是否矛盾呢?其实也没有,只是因为指数增长的优势需要比较后面才看得出来。
从这里思考,我们可以引深出一个话题——滞后效应。
1)凡是需要通过积分获得的数量,它的结果会滞后于瞬间变化,有时还要经过相当长的时间滞后才能看到; 2)这种由积分获得的数量,一旦大到被大家都观察到之后,要逆转这个趋势是非常难的。
滞后效应也是对趋势理论的一个延展,我们常说,对很多的事物的数量不重要,趋势才重要。ps:最近减肥,给自己又定了个时间节点,赶这份脑图,有小半个月天天熬夜,有时确实很疲惫吃个夜宵(主要是自控力太差),所以之前两三个月的减重趋势基本卡在这里了,体重由一个向下斜线开始平滑成横轴的平行线了,必须控制,不然要上升了。
滞后效应又称为飞轮效应,在商业上有个人掌握的特别好,他就是亚马逊的贝索斯。
你对亚马逊的印象如何?它是一家“网上百货商店”,就像淘宝或者京东那样;或者最多知道它还有一块儿亚马逊的云服务业务。恐怕,没有这么简单。
目前亚马逊最主要的业务板块。主要有三个:
1)会员服务,用户每年交给亚马逊不多的会费,就可以享受免费送货等等一系列服务。算算账就知道,只要在亚马逊上多买几次东西,光送货费就可以挣回来。换句话说,亚马逊的这项服务是赔钱的(京东再学习)。
2)第三方卖家平台。简单说就是,只要你做生意,就可以用亚马逊的基础设施。亚马逊自己也是卖东西的,开放平台给其他商家,就意味着引入了大量的竞争对手,那亚马逊自己挣的钱不就少了吗?(京东也再学)
3)云服务。看起来跟前两个业务也没啥关系(京东都懒得学)。
贝索斯想得到的是什么呢?
1. 有了会员业务,会大幅地提高客户忠诚度。既然已经付了会员费,所以买的越多、消费越多也就越值;
2. 允许第三方商家来卖产品,就使得客户可选择的商品大大增加了,那会员就更加超值,所以买会员服务的用户也会增加;
3. 当亚马逊的客户越来越多,也就有更多的第三方商家愿意来亚马逊开店;
4. 当亚马逊的客户足够多,销量越来越大的时候,亚马逊对上游供货商的议价能力也会大大提高。所以亚马逊就可以拿到更低的商品进货价格,并且把利润让给消费者(也是沃尔玛的策略)。接着更多的消费者也会被便宜的东西吸引到亚马逊,成为用户,并且购买会员;
5. 当亚马逊自营的商品价格越来越便宜,第三方卖家的同类产品是不可能卖得比亚马逊更贵的,这就要求第三方卖家也要控制成本,或者卖一些亚马逊自己不卖的东西,扩大亚马逊的品类(这恐怕也是京东追赶天猫规模的唯一方法);
6. 亚马逊提供的云服务,物流服务,因此规模也就变得越来越大。这些服务越好用,其他商家就越会倾向于把生意放在上面,亚马逊的会员就更加超值了;
7. 其他商家越把自己的生意放在亚马逊的基础设施上,就越离不开亚马逊。
这两年贝索斯的飞轮转起来了,就如同积分的特点,当别人意识到的时候,要逆转这个趋势是非常难的。
贝索斯每年都会给股东写一封信,20多年从未间断。每一封信的后面都会附上了1997年亚马逊第一封股东信的文稿。他不断地在告诉世人:你看,这些年来我们一直在反复强调的、一直在做的事情,和1997年的时候没有任何不同。
一个最好的例子是发生在1997年5月15日,那一天正是创立两年多的亚马逊上市的日子。结果在纽交所敲钟之前,大批的媒体才发现,亚马逊的CEO贝索斯根本没有来。因为在他的心目中,股价和华尔街的判断,对一家公司的成功与否没有太大的关系。他还在做他的积分,他没空参加上市敲钟这种不要紧的事。
微积分的学习,不是为了掌握哪一个知识点,而是通过积分效应,提升我们的认识水平,同时能用一些工具分析和理解我们生活中的现象。从大二的9月1日就开始习惯泡图书馆,算一算已经有16个年头了,也是最近三两年才觉得自己形成了一点点的思想架构,很多看过的内容不再是点了,逐渐形成了个面。感觉超级棒。如果早理解了积分效应,或许这些年强迫自己认知的过程会快乐很多。
如何用变化的眼光找到最优答案
掌握了微积分我们就能明白很多问题,比如大数据的机器学习,不过是对一个目标函数找到最优解。
那么什么是最优化?其实它最简单的形态就是求一个函数的最大值或最小值。
问题又来了,怎么求最大值或最小值呢?
举例:一个抛物线函数是:y =-x^2+4x,它的最大值是多少?
数量不大,可以代数试一下,很快能得出答案,x=2时有有最大值4。
但之前说过,数学是推导出来的,不是测量出来的。怎么解决这个问题呢?
证明步骤:
1. 把y=-x^2+4x变化成y=-(x-2)^2+4,过程不用写了,你也会的哦。
2. 在这个式子里,-(x-2)^2只可能小于等于零,有极大值,后面的4是个常数,不影响y的取值。
3. 于是y的最大值就是当-(x-2)^2=0的时候,这时y=4,对应的抛物线如图
这个解法是高中老师给的,其实和《孙子算经》中的鸡兔同笼问题解法差不多,只能解决部分问题,不够好。
如果把题目换成函数y=x^3-12x^2+4x+8在0到15之间有没有最大值或者最小值?老师的方法就不灵了,它对应的坐标图如下(解法就不讨论了,只是再次提醒,在数学乃至人生的道路上,寻找通解看似麻烦,但从长远看,这些笨方法一定好过寻找某个题目或某个时点的特殊解)。
事实上,在伽利略之前,人类没有太多的最优化问题要解决。但是到了伽利略和开普勒那个年代,人们就在物理学和天文学中遇到很多最优化问题了,比如计算行星运动的近日点和远日点距离、弹道的距离、望远镜透镜曲率和放大倍数的关系等等。这时就需要系统地解决最优化问题,而不能单靠一些技巧。
这个难题就留给了牛顿。
牛顿的伟大之处在于,他将最优化问题脱离若干数量比较大小的逻辑框架,而看成是研究函数动态变化趋势的问题。
曲线瞬间变化的速率就是那一点切线的斜率,也就是它的导数。
图中划了一个函数的各个点的切线,也就是导数。
曲线达到最高点的位置,就是切线变成水平的位置,或者说导数变为0的位置。
对比最大值的定义和对应导数的定义,就很容易理解这两件事情的一致性了。
最大值的含义是说某个点a的函数值f(a)比周围点的数值都大,如果某个点在二维图上,左边的数比它小,说明左边的点变化的趋势是向上,导数大于零,右边的也比它小,说明右边的点变化趋势向下,导数小于零。从大于零的数变成小于零的,中间经过导数为零的点,就是最大值所在。
寻找一个函数f(x)的最大值,就变成了一个寻找该函数的导数f’(x)等于零的问题。而后一个过程其实就是解方程,比前一个问题要容易。
但这也不是解决这类问题的通解,因为后续人们也发现了一些奇怪的函数,比如图中的两个
针对这些情况,数学家们要更准确地定义什么是最大值。他们把最大值分成了两种,第一种被称为极大值,或者局部最大值,就是说只要一个点的函数值比周围都高就可以了。另一种才是我们原来理解的整个函数的最大值。
一个函数可以有多个极大值,但是只能有一个最大值。这样,谁是最大值的定义就没有矛盾了。
最大值问题到目前还没有完全被解决,这也是困扰大数据机器学习的问题,计算机会很容易把某个极大值当成最大值处理,造成偏差。
牛顿等人通过考察函数变化趋势,发明了一种通过跟踪函数从低到高,再到平稳,最后再下降的变化,而求最大值的方法。这就让人类对事物的理解从静态到动态了。虽然目前还有些不完善,但随着数学和科学体系的发展,一定可以补上漏洞。
微积分的发明权之争:牛顿VS莱布尼茨
在牛顿和莱布尼茨的时代,他们有很多来往,莱布尼茨还专门到英国去访问了很长时间,了解了牛顿有关微积分的思想。因此他们的工作并不独立,这也是后来牛顿讲,对方剽窃了自己的微积分成果的主要依据。
牛顿的工作
17世纪60年代牛顿20岁出头,就写出了《论用无限项方程所作的分析》的长篇手稿,系统地总结了他关于流数(导数)的研究,这是微积分发展早期的重要文献。
1669年6月,牛顿把手稿交给了他的老师巴罗,巴罗又把它转给当时皇家学会图书馆负责人约翰·考林斯,并盛赞这是一个伟大的发现。随后,考林斯将牛顿的手稿又转给了欧洲的许多朋友。
数学史上最大的谜题就是德国数学家莱布尼茨是否看过牛顿的这份手稿。
牛顿一直在完善他的理论,并且也写了一些关于微积分的论文,比如《流数法与无穷级数》等等,可能因为认为还不够完整,一直没有发表他在微积分方面的核心成就。
这让莱布尼茨后来抢在了前面。否则,也就没有后来的微积分发明权之争了。
莱布尼茨的工作
1673年莱布尼茨访问伦敦,之后和英国数学同行一直有通信来往。
莱布尼茨的通信明确表示过受到过牛顿的启发,他在信中说:“贵国了不起的牛顿提出了一个求解各种形状面积、各种曲线(所包围)的面积 及其旋成体的体积和重心的方法。这是用逼近的过程求出的,而这也正是我要推导的。这一方法如果能被简化并且推广的话,是非常了不起的贡献,毫无疑问这将证明他是天才的发明者。”
莱布尼茨和牛顿有一段时间互通书信,牛顿在信中也交代了自己的研究成果。
1676 年,莱布尼茨再次访问伦敦,抄录了牛顿的手稿《论用无限项方程所作的分析》以及牛顿的其他工作内容,全面了解了牛顿工作动态。
莱布尼茨的微分原理论文和积分原理论文分别发表在1684年和1686 年,这时已经比牛顿的《流数法与无穷级数》成稿晚了15年,而论文里面并没有提及牛顿的作用。
后来牛顿由于身份原因控制了英国皇家学会的话语权,英国皇家学会开始公开声讨莱布尼茨的抄袭行为。
在和牛顿交流以前,莱布尼茨也有了对微积分的初步想法,特别是他看待微积分的角度和牛顿不同,这一点不可能抄袭牛顿。
因此今天数学界认为莱布尼茨和牛顿共同发明了微积分,他们也确实各有贡献,而且研究的出发点和方向不同,最后殊途同归。类似金庸的小说中,天下至钢的降龙十八掌在洪七公手上也能打出柔力。
牛顿从物理力学出发。
牛顿是数学家、物理学家,他研究微积分,是为了解决力学问题,比如:
加速度、速度和距离的关系(加速度是速度的导数,速度又是距离的导数)。
动量和动能,以及撞击力的关系(动量是动能的导数,撞击力是动量的导数)。
天体运行的向心加速度问题(速度的导数)。
整体上牛顿定义微积分,导数,只是为了让物理学研究的更简单,从符号系统,逻辑完备性,细节方面对数学而言不够完美。
莱布尼茨从哲学出发。
莱布尼茨是数学家、哲学家、逻辑学家。他的哲学思想和逻辑思想概括起来有两点:
所有的概念都是由非常小的、简单的概念复合而成,它们如同字母或者数字,形成了人类思维的基本单位。这在微积分上反映出他提出了微分dx、dy这样无穷小的概念。
简单的概念复合成复杂概念的过程是计算。比如做积分时,莱布尼茨的思想是把这个不规则形状拆分成很小的单元,然后通过加法计算把它们组合起来。
莱布尼茨把微积分看成是一种纯数学的工具——这个工具把宏观的数量,拆解为微观的单元,再把微观的单元,合并成宏观的积累。今天我们使用的微积分的符号,大部分是莱布尼茨留下的。
在数学上,莱布尼茨在微积分以外还发明了二进制,对当今社会的贡献也是巨大的。
总结
一项发明,简单追溯最早的发明人是没有意义的,而要看谁做出了具体的贡献。从这个角度讲,即使莱布尼茨抄袭了牛顿的部分观点,依然是微积分的发明人之一。
莱布尼茨为什么要争?
莱布尼茨和牛顿不对付很重要的一个原因是两人的宗教信仰不同。
在发明微积分的论文中,莱布尼茨未提及牛顿的贡献主要是因为宗教观点上的分歧。莱布尼茨私下对牛顿评价很高,他说:“在从世界开始到牛顿生活的时代的全部数学中,牛顿的工作超过了一半”(1701年,当时已经发生了微积分发明权之争大战)。
因为宗教问题,莱布尼茨反对牛顿主要提出了有以下内容:
唯物主义的原理和方法的谬误是对上帝不虔诚。《原理》的作者与唯物主义者一样,是错误的。
牛顿等人承认原子和虚空,等于在说上帝创造的世界不完美。
牛顿等人认为时间和空间是绝对的,这就将时空和上帝等同了。在上帝之外是不可能有其它绝对和永恒的东西。
不可能有万有引力,因为没有媒介的作用力是超自然的,只有上帝才能做到,不可能存在于自然界。莱布尼茨针对牛顿的万有引力学说还发表了《关于上帝善行的自然神学论著》一书,反对牛顿的引力理论。
启发:很多人都醉心于从零到一的发现,但是真正伟大的发明需要走完从0到N的全过程,这中间有很长的路,任何时候进入相关的领域都不晚。
7. 概率、统计、博弈论 从确定到不确定
概率简史:来自赌徒的学问
前面的所有章节都在告诉我们,数学是一个把不确定的事情变的越来越确定的过程,知道微积分,可以把事情精确到极限小,在归整为无限大。但事实可能并非如此。
量子物理学的开山鼻祖普朗克一度考虑学习物理以外的学科,因为在这之前物理几乎确定了所有的理论,极其精确,已经无果实可摘。
也恰恰是这个坚定认为物理学已经精确到无以复加的普朗克,恰恰带有不确定性物理学——量子物理。
同期,数学界也在做着同普朗克相仿的事情,产生了揭示不确定性世界规律的数学分支——概率论。
在没有概率论之前,赌博时大家都是凭直觉,庄家依靠的也只是经验。直到数学家帕斯卡和费马研究概率分布,才形成了概率论。
所有的专业牌手都是靠背概率分布来占据优势的,因为很多概率分布与直觉相反。所以别指望在牌桌上现场计算和凭运气的事情会发生,刚好明年还准备系统学习德州扑克呢,没有捷径,先背概率分布吧,不知道会不会比被四级单词还难。天呀!!!
概率论的发展
18世纪启蒙时代,法国政府债台高筑,经常发一些彩票补贴财政。
当时研究彩票的人还搞不清楚概率论,让著名的启蒙学者伏尔泰钻了空子。他算出了法国政府彩票的漏洞,找到了一些只赚不赔的买彩票的方法,赚了一辈子也花不完的钱。伏尔泰一生能够专心写作,研究学问,其经济基础就来源于此。
这之后引起了很多数学家对该类问题的研究,逐渐形成了今天的概率学。
拉普拉斯(拿破仑的老师)定义了什么是概率,以及它该如何计算。
买彩票中彩的概率是多少?有人会说50%,因为只有中彩和不中彩两种情况。
拉普拉斯是如何定义概率的呢?
他先定义了一种可能性相同的基本随机事件,也称为单位事件。比如我们同时掷两个骰子,两个骰子的点加起来可以是从2到12之间的任何正数。这些数出现的概率相等吗?
很多人会认为相等,因为从2到12一共有11种情况,每一种情况的概率就是1/11。但是,这11种情况并非基本的随机事件,而是可以拆分为更小的单位事件。
比如两个骰子加起来是5点,里面包含了四种单位事件,即第一个骰子的点数是1,2,3,4,第二个的点数是4,3,2,1。
基于单位事件的概念,拉普拉斯定义了古典的概率公式,即
两个骰子点数的组合有36种;
单位事件的概率称为原子概率,在这个例子中,原子概率就是1/36;
5点的情况,里面有4个单位事件,用4除以总数36,两个骰子加起来为5点的概率是1/9。
根据拉普拉斯对概率的定义,所有可能发生的情况放在一起,构成了一个随机事件总的集合(也称为概率空间)。任何一个随机事件,都是随机事件总集合里的一个子集。
拉普拉斯定义:
如果一个随机事件,包含了随机事件空间中所有的单位事件,那么这个事件必然会发生,它被称为必然事件,概率就是1。
如果一个随机事件不包括随机事件空间中任何一个单位事件,它就不可能发生,被称为不可能事件,概率为零。
剩下来的随机事件,概率都在0和1之间,里面包含的单位事件越多,概率就越大,用通俗的话讲,就是发生的可能性越大。
总结:随机性是一种自然的属性,我们无法否认它的存在,它导致很多结果变得不确定。但是对于特定的随机试验,它得到什么结果,还是有规律可循的,于是数学家们用了一个概率的概念来描述这种不确定性。
概率论的发展最初的动机和金钱相关,人类的科技发展脱离不开“食色性也”。记得之前听过一个投资者的采访说所有投资科技领域的vc,要先看这个新技术在色情领域是否可以应用,如果应用不善,投资风险极大。说法我没考证过,他说邮箱的发明是为了传色情图片,网络的密码系统及公用协议起初使用是为了下载图片计费,之后有脸书也是起源于同学间的约,之后是类似陌陌等产品,后来之所以不看好VR,是因为香港电影3D肉蒲团尝试失败。如果在色情领域都不能打开局面的新技术,很难在其它领域打开,因为人性,不过“食色性也”。
伯努利试验:到底如何理解随机性?
概率和你的想象会有偏差吗?
扔10次硬币,5个正面朝上的几率有多大。
对不起,不是50%;
正确答案,大约25%。
一个赌局,赢面是10%,玩10次是否能保证赢1次呢?
如果回答可以,对比起,答错。
正确答案,大概要玩26次才能保证赢一次。当然还是在你运气没有非常差的情况下。
随机试验得到的结果和我们用古典概率算出来的结论可能是两回事。
偏差:现实概率VS理想概率
法国数学家伯努利选择的试验条件:
随机试验;
两种结果,非A即B;
重复试验。
用数学语言总结一下就是:在一般情况下,出现A的概率是p,B的概率是1-p。
伯努利分布:抛硬币试验
抛10次硬币,从0次正面到10次正面的可能性都算出来,画成折线图,这是一个中间鼓的曲线。5次正面朝上的几率只有1/4左右,远比想象的要低。
造成这个结果的原因是试验次数太少,统计的规律性被试验的随机性掩盖了。
如果做100次试验,80%的情况下正面出现40~60次;
如果做1000次试验,99.9%的情况下正面出现400~600次。
图中曲线的概率分布,被称为伯努利分布,也称为二项式分布,每1次试验的结果有2种可能性。
“曲线比较鼓”中间集中浓度就会比较高,“比较平”的概率就低,在数学上,我们用一个专用名词来阐述这个偏差,也就是方差。
方差
“方差”是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。
我们一起看两组数,12345,33333求他们的平均数,(1+2+3+4+5)÷5=3,(3+3+3+3+3)÷5=3。
如果我们把这两组数及平均值分别标在坐标系上,会是如下两个图:
虽然两组数的平均值都是3,左图的各个点的波动性很大,右图就比较集中,为了在数学中描述这个波动性,数学家们发明了一种方法,叫做方差。
方差的计算是各个数与平均数值的差的平方再加权平均,简单说【(1-3)^2+(2-3)^2+(3-3)^2+(4-3)^2+(5-3)^2】÷5=2,另一组的方差是0。
方差越大,数据的波动性越大。
方差越小,数据的波动性越小。
把方差开根号被称为标准差。
方差其实是对误差的一种度量。
既然是误差,就要有一个对比的基点,我们把这个基点称为数学期望值。
“数学期望值”就是N×p,因为概率是p的事件进行N次试验后平均发生的次数,也是最可能发生的次数。
成功需要更多准备
有关不确定性的规律,只有在大量随机试验时才显现出来,当试验的次数不足,它则显现出偶然性和随意性。
生活中,我们会觉得有1/N发生的概率的事件,只要他做N次,就会有1次发生。事实上,越是小概率事件,理想和现实的差距越大。
一件事发生的概率为1%,虽然进行100次试验后它的数学期望值达到了1,但是这时它的标准差大约也是1,也就是说误差大约是100%,因此试了100次下来,可能一次也没有成功。
如果你想确保获得一次成功怎么办呢?你大约要做260次左右的试验。
结论:越是小概率事件,想确保它发生需要试验的次数比理想的次数越要多得多。
了解了标准差,就该懂得人为什么不要去赌。
提高单次成功率要远比多做试验更重要。
很多人喜欢赌小概率事件,觉得它成本低,大不了多来几次,其实由于误差的作用,要确保小概率事件发生,成本要比确保大概率事件的发生高得多。
有50%的成功率,基本上尝试4次就能确保成功一次,理想状态是尝试2次,为了保险起见要多做100%的工作。
如果只有5%的成功可能性,大约需要50次才能确保成功一次,而不是理想状态中的20次。为了保险起见要多做150%的工作。
通过概率可以证明,凡事做好充足的准备,争取一次性成功,这要远比不断尝试小概率事件靠谱得多。
泊松分布:保险公司的客户群。
随机事件A发生的概率通常很小,但是试验的次数n很大,这种分布被称为泊松分布(比如车祸)。
举例:公司门口有10个停车位,公司有100个员工开车上班,每个员工早上8点钟之前上班的概率是10%。但每天什么时候来是随机的,彼此无关的,如果你是这家公司的新员工,早上8点整开车到了公司,停车场还有车位的概率是多大?
泊松分布是这样定义的:如果随机事件A发生的概率是p,进行n次独立的试验,恰巧发生了k次,则相应的概率可以用这样一个公式来计算。其中λ是试验次数n乘以每次试验出现情况的可能性p的乘积,即λ=n×p。
e是自然对数的底数。定义:当x趋于无限时,lim(1+1/x)^x=e. e是一个无限不循环小数,其值约等于2.718281828…
在上述停车场的例子中,λ等于10,如果当时停车场里汽车的数量小于或者等于9辆,就有车位可以使用。
把k=0,1,2……9全部代如泊松分布公式,得出结论如下(可以不用亲自计算,我们只是谈规律)。
概率是随着k的增加而逐渐增加的,在k=9和10这两个点,概率达到峰值,如果k再增加,超过λ时,概率其实要往下走。这种现象对任何λ都是成立的。
把表格中k=从0到9的各个概率加起来,就得到k小于等于9的总概率,大概是46%和我们预想的可能会有很大偏差。
很多人投资总是失败,判定一件事发生的可能性总是有很大的误差,一个重要的原因就是靠直觉得到的可能性和靠严密的数学逻辑和推导的情况会有很大偏差。
员工减少了,你成功停车的概率会提高吗?
如果人数降到了40人,每个人8点钟之前开车到公司的可能性依然是10%,但是公司的车位也减少到四个车位,请问你找到停车位的可能性是一样大吗?
通过计算你拿到车位的可能性只有1/3左右。
员工增加了,你成功停车的概率会提高吗?
如果人数增加到200人,有20个车位,其它情况不变呢?
这时你得到车位的可能性会增加到50%左右。
如果我们的“池子”变大,随机事件出现的概率不变,那么得到车位的可能性会增加,但是50%是一个上限。
在最初的有100个人的情况,如果准备13个车位,就能保证8点到公司时,大约有85%的可能性可以获得车位。这30%是冗余,它增加的数量并不是很多,但是却能解决大问题。
由于随机性的作用,我们在准备资源时,达到平均值还是不够的,需要准备一些冗余量。
保险公司理赔分析
比如保险公司有一项保险,每一次理赔的金额是1万元,每年出事的概率是10%,有200人投保。从理论上讲,平均每个人收理赔金额的10%,也就是1000元即可,这样一年可以赔偿20人(次)。
由于出事是随机的,总是存在超过20个人出事的可能性。如果超过了,今年收取的保费就不够赔偿了;
怎么办呢?每个人多交点保费,比如每个人交1500元,这样保险公司有98%的几率可以覆盖掉当年的赔付可能。
但是由于太贵,很多人会放弃购买保险;
还有一种方法,就是把池子搞得更大。如果投保的人数增加到2000人,这样只要多交15%的钱1150元,也能保证98%的情况获得赔偿。
当池子特别大时,每个人只要比1000元多交一点点就可以了。这样,大家就有投保的意愿。
所以保险公司的最优策略就是把同一款保险卖个更多的人;
投保者的最优策略,就是选择大的保险公司,投保者和保险公司都需要确保池子足够大。
池子不可能做到无限大,所以即使大保险公司也有很小的可能性无法支付赔偿金,所以有了再保险业务,相当于把几家保险公司的池子合并,为的也是尽量让池子无限大。
泊松分布给生活的启示: 1)为了预防不测,需要留有一些冗余。 2)防范小概率事件的最优策略是大家联合,把应付不测的资源放到一起。
高斯分布(正态分布):大概率事件
随机事件A发生的概率非常大(与泊松分部相对),试验的次数n很大,其实验结果的分布图如右图:
18世纪,数学家棣莫弗和拉普拉斯把这种中间大,两头小的分布称为正态分布。之后高斯对正态分布的误差(标准差σ)作出了更严格的分析,于是正态分布就被命名为高斯分布。
均值、标准差,和发生概率的关系
有两个班,一班的成绩在60~100分之间变化,均值(平均分)80分。二班在70~100分之间变化,均值85分。二班一定比一班优秀吗?
学生成绩一般是以平均分为峰值的正态分布图形,两个班的成绩大致如右图:
从这两条曲线可以看出,一班的成绩有一个很小的可能性超过90分,因为随机性才是其平均分变成80的。如果一班真实的平均分应该是90分,而如果二班依然是85分,我们得说一班反而比二班强。只不过这种情况的可能性并不大。
有多大把握说明平均分85分的二班一定比80分的一班强呢?这就要看两个班成绩的平均浮动范围,也就是我们所说的标准差。
如果两个班的标准差都是5分,一班的真实成绩在75到85分浮动,二班的成绩在80到90分浮动。图中重叠的部分,无法判断哪个班成绩更好。
重叠区域,即图中红色的区域,表示我们无法作出判断的情况,这个区域的面积,就是我们无法作出判断的概率(大概65%)。
怎样提高我们的判断率呢?
减小标准差,如果把二班和一般标准差改为±1,分布图如右图,重叠部分大概只有5%
如何减小标准差?
如果同学们的成绩分布情况不变,提高25倍的统计人数,标准差就会从5降低到1左右。
2019年10月份,美国百健公司(Biogen)宣布他们研制的治疗阿尔茨海默病的药品Aducanumab在大规模临床试验中被证明有效轰动整个医学界。但半年前,他们进行的小规模试验后的结果却是药效不明显。事实上就是上一次样本数量比较少,巨大的标准差掩盖了药物相比安慰剂在疗效上的差异。
标准差与误差的关系
如果一个随机变量的取值符合高斯分布,它有大约68%的可能性,动态范围不超过平均值加减标准差σ。也就是说,在一个标准差之内,我们对平均值的置信度为68%。 一班的平均成绩为80分,标准差为5分,于是我们有68%的置信度说,考虑到随机性的影响,这个班的平均成绩应该落在75~85分之间,而不是之外。
在两个标准差之内,置信度可以提高到95%。
三个标准差之内,置信度可以提高到99.7%。
正视自己,控制风险,你不是股神。
在过去50年里,标普500的增长率是7%~8%/年,标准差是16%左右。
为什么标准差会大于回报率,因为在不少年头回报率是负的。
金融领域的人会将这种标准差直接称为风险。
如果有一只股票连续三年的回报是10%,另一只只有5%,你能说第一只比第二只好吗?不能,因为5%的差异,要远比16%的标准差小很多,这5%的差异更可能是市场浮动的随机性造成的。
所以,不要以为自己的投资回报在几年里超过了大盘,就觉得自己是股神。大的标准差下随机性是很大的。
条件概率
“条件概率”和“本身概率”有什么区别?
拼音tian qi,可以是“天气”或“田七”。在汉语中“天气”出现的概率比“田七”大上千倍。但是如果强调出现在它前面一个词汇是“中药”,那么后面这个词汇是“田七”的可能性就比“天气”大得多。
数学记法: 本身概率“天气”在汉语中出现的概率,用P(天气)来表示: 条件概率“中药”这个词就是后面出现什么词的条件。我们把条件概率写成P(天气|中药)的形式。
有了条件的参与,原来不可能发生的事情,就极可能会发生,原来以为是大概率的事情,可能根本就不会发生。
推导贝叶斯公式
假定统计的文本量非常大,各种词共出现了10亿次。其中“天气”出现了100万次,P(天气)=1‰,“田七”出现了1000次,因此P(田七)=1/1000000。
假定“中药”这个词出现了10万次,“中药田七”四个字出现了1000次,P(田七|中药)=1000/100000=1%。 同理,如果,“中药天气”这四个字只出现了1次,那就是P(天气|中药)=1/100000。
一个随机事件发生的条件概率,取决于两个因素,一个是这个条件本身出现的次数,“中药”出现的10万次;另一个是,这个条件和这个随机事件一同出现的次数,“中药田七”这四个字出现的1000次。条件概率就是后者加了条件后的“中药田七”对前者“中药”这个词本身的概率比值1%。
公式写法是:P(Y|X)=P(X,Y)/P(X) 即:一件事Y在条件X下发生的条件概率P(Y|X),等于条件X,和这件事Y一同发生的联合概率P(X,Y),除以条件X的概率P(X)。
公式也可以变形书写:
P(X,Y)=P(Y|X)×P(X) X和Y一同发生的概率,是X发生的概率,乘以在X条件下Y发生的概率。
如果知道了后面的词是“田七”,前面有可能是什么词?这时上面计算条件概率的算法依然适用,只是把X和Y对调就可以,即,P(X|Y)×P(Y)=P(X,Y)
稍作交换我们就可以推导出著名的贝叶斯公式: P(X|Y)=P(Y|X)×P(X)/ P(Y)
贝叶斯公式有什么用?
现实问题中,P(X|Y)=P(Y|X)×P(X)/ P(Y)公式的三个值可能相对容易求解,另一个项目我们就可以通过计算得出。
通过互换,可以把一个复杂的问题变成三个简单的问题。这就是贝叶斯公式的本质。
虚数的作用其实也是一个逻辑,把一条走不通的路,绕个弯架座桥,绕了点远,但七拐八拐的就过去了。
数学的这些概念和哲学的远近观点,是不是又殊途同归了呢?
概率公理化
之前我们说过,数学是建立在公理化体系上面的。前苏联伟大的数学家柯尔莫哥洛夫,完成了概率论的公理化过程,因此很多数学家觉得他是20世纪最伟大的数学家。
修补漏洞
拉普拉斯的古典概率论的漏洞是对概率的定义发生了循环定义,随机事件A的概率是等可能性的单位事件,等可能性与概率本身就是一个循环定义。
英国的逻辑学家约翰·维恩和奥地利数学家理查德·冯·米泽斯为了解决这一问题,提出建立在统计基础上的统计概率,用统计概率代替等可能性,避免出现循环定义的局面。他们的想法是将相对频率极限等同于概率,来解决这一问题。
维恩和米泽斯的问题在于统计量是多少才能说统计概率等同于概率呢?
伯努利使用了大数定理证明这一点:假如一件事的概率P真的存在,进行N次试验,每次试验的条件完全相同,那么当N趋近于无穷大时,A发生的次数M除以试验总次数N,即M/N,和它真实的概率P之间的误差是无穷小。
犹豫伯努利用了一次假设,如果假设不存在,他的推论也就失效了,俄罗斯数学家切比雪夫修正了大数定理。
切比雪夫版本大数定理:求一个随机变量X,进行大量的随机试验后,结果的平均值和方差是恒定的,那个平均值,就可以作为它的概率。
理论计算出的概率,同大量统计得到的结果是一致的。也正是因为有这种一致性,今天的大数据方法也才有了理论基础。
柯尔莫哥洛夫在之前数学家的基础上,完成了概率论的公理化过程。
1. 定义一个样本空间,它包含随机事件所有可能的结果。比如抛硬币的样本空间就是正面朝上和背面朝上两种情况,掷骰子就有六种情况。
2. 定义一个集合,包含所要讨论的所有随机事件,比如掷骰子不超过4点是一个随机事件,结果为偶数点是一个,得到5是一个,所有这些随机事件构成一个集合。
3. 定义一个函数(也被称为测度),使集合中任何一个随机事件对应一个数值。只要这个函数满足下面三个公理,它就被称为概率函数。
三个公理
公理一:任何事件的概率是在0和1之间(包含0与1)的一个实数。
公理二:样本空间的概率为1。
比如掷骰子,那么从1点朝上,到6点朝上加在一起构成样本空间,这六种情况放到一起的概率为1。
公理三:如果两个随机事件A和B是互斥的,也就是说A发生B一定不会发生,那么这件事发生的概率,就是A单独发生的概率加上B单独发生的概率。这也被称为互斥事件的加法法则。
比如掷骰子一点朝上和两点朝上显然是互斥事件,一点或两点任意一种情况发生的概率,就等于只有一点朝上的概率,加上只有两点朝上的概率。
公理推导出的定理
定理一,互补事件的概率之和等于1。
所谓互补事件,就是A发生和A不发生。比如整个样本空间是S,A发生之外的全部就是A不发生。由公理二和公理三,可以直接得到这个结论。
定理二,不可能事件的概率为零。
两个互补事件合在一起就是必然事件,因此必然事件的概率为1。而必然事件和不可能事件形成互补,于是不可能事件的概率必须为零。
自此,概率论才从一个根据经验总结出来的应用工具,变成了一个在逻辑上非常严密的数学分支。它的三个公理非常直观,而且和我们现实的世界完全吻合。
大数据
用好大数据,得先明白统计学
统计学严格来讲是一门独立的科学,它是关于收集、分析、解释、陈述数据的科学。
统计学的数学基础是概率论,在分析和解释数据时,要大量地使用概率论和其它数学工具,同时它也是概率论最大的用武之地,因此很多时候将它放在数学课中来讲,但统计学中还包括大量的其他知识,它与数学是两门独立的学科。
大数据用不好的原因
今天使用大数据,主要是为了寻找一些变量之间的关联性,从而达到准确预测的目的。
因此虽然今天数据量不再是问题,但如何选定可能有关联的变量,则体现了人类的智慧。
尤其是应用到研究人类行为领域,因为行为是个非常复杂的事件,那些可能影响我们行为的客观变量或者说条件不容易找到,即使找到,我们的行为又可能反过来改变条件。比如“霍桑实验”。
“霍桑实验”是管理心理学中的一个著名实验,是关于人群关系运动的实验研究。1924—1932年美国哈佛大学教授梅奥(Mayo,George Elton,1880—1949)主持的在美国芝加哥郊外的西方电器公司霍桑工厂所进行的一系列实验。它发现工人不是只受金钱刺激的 “经济人”, 而个人的态度在决定其行为方面起重要作用。
霍桑效应:当被观察者知道自己成为被观察对象而改变行为倾向的反应。
低估了数据的稀疏性所带来的副作用。
假如我们使用两个词Y和Z来预测第三个词X,汉语的词汇量按照10万来计算,大概有1000万亿个条件概率值需要估算,整个互联网上的内容都翻译成中文,文字的总长度也超不过100万亿个词,因此数据量显然是不够的。
原因和结果错配。
比如我搜索酒店,可能给我推送一张机票。但事实上是我有机票兑换旅程要到期了,这种推荐的因果是完全搞反的。如果依托这种模型,利用大数据计算的结果难免南辕北辙。
用好数据的步骤
1. 设立研究目标。
要准备一个待证实的假说,还要准备一个可对比的备用假说。
比如你在证实药品有效性时,备用的假说就是安慰剂同样有效。
统计的目的就是确认你的假说,同时否定掉备用假说。
2. 设计实验,选取数据。
数据需要能够方便量化处理。
3. 根据实验方案进行统计和实验,分析方差。
要想了解一种投资回报是否更高,光看回报率是不够的,还要衡量风险,就是方差。
4. 通过分析进一步了解数据,提出新假说。
很多时候,统计的结果不是证明你的假说有效,而是证明它无效,这时就要提出新假说,重新验证。
5. 使用研究结果。
这包括将你的统计结果用于产品,也包括报告给别人,怎么报告其实很有讲究。
防范黑天鹅事件
“中药”这个词后面跟着“田七”这个词的可能性比较大,如果我们统计足够多的文本,就可以准确估计它的条件概率。但是“中药”后面跟着“天气”的可能性很小,可能我们统计了10亿词的文本,一次也没有见过,那么我们是否能说在“中药”条件下,“天气”的条件概率就是零呢?
将小概率事件的概率强制设定为零,结果就是早晚会遇到黑天鹅事件。
怎么解决呢?
古德-图灵折扣估计法
80/20定律,就是说80%的总量常常是由20%高频率的元素构成的。反过来,80%低频率的元素,或者说长尾的元素,只构成20%的总量。这个规律,其实是齐普夫定律的一个特例。
“齐普夫定律”是美国学者G.K.齐普夫于20世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……,频次最小的词等级为D。若用f表示频次,r表示等级序号,则有fr=C(C为常数)。人们称该式为齐普夫定律。
比如在汉语中,“的”是最常见的字,排位第一,它的字频大约是6%,于是1x6%=6%。第二高频字是“是”这个字,排位第二,而它的字频大约是3%,恰好2x3%=6%。字频排位第三的字是“一”,它的字频是2%多一点,3x2%也是6%。
齐普夫定律被认为是自然界的普遍规律。不要相信所有人都能够通过创业成为富翁这样的鸡汤观点,因为它违背齐普夫定律。
如果假定只出现一次的词有N1个,出现两次的词有N2个,出现三次的词有N3个,那么1xN1,和2xN2,3xN3,都差不太多,因为大多数词其实只出现一次。
古德的想法是这样的。假如出现r次的单词有Nr个,那么一个语料库文本中所有单词的总次数就是:C=1xN1+2xN2+3xN3+…..+KxNK,其中K是最高的词频。
如果统计中出现0次的词,假定这些单词有N0个。这并非代表这些词的频率就该是零,而是统计量不够多,统计量和统计量之外的总量还是有区别的。
解决方法
古德根据经验,假设N0>N1(符合齐普夫定律)。
古德调整不同词的词频。他出现0次的词的词频调整为N1/N0次。这是一个0到1之间的数,不再是0了。一个单词如果原来出现了1次,他就把出现的次数调整为 2xN2/N1次,通常这是一个1到2之间的数。 对于一般情况,如果原来出现了r次,就调整为(r+1)xNr+1/Nr次。
古德的做法实际上是把高频词的词频打了一个折,多出来的词频分配给了低频词。对冲掉黑天鹅事件。
贾里尼克的“插值法”
古德虽然解决了零概率的问题,但是没有解决数据稀疏时对于小概率事件,概率估计不准确的问题。
要计算条件概率P(X|Y),就要按照X和Y所有可能的组合进行统计,由于组合的数量巨大,因此每一种情况看到的次数就少很多。对于频率较低的(X,Y)组合,计算出的概率P(X|Y)肯定不准确。
贾里尼克才用的方法是把条件概率和非条件概率加上一个权重,比如条件概率的权重是0.7,非条件概率的权重是0.3得到一个新的概率。
如果条件P(X|Y)本身比较大,它在新的概率估计中会占主导地位。
如果P(X|Y)本身比较小,说明它反正也不太可靠,而这时非条件概率,即P(X)本身则占了主导地位,因为X本身出现的次数会比较多,统计结果可信度会高一些。
插值法的精髓在于,相信那些见到次数比较多的统计结果,如果遇到统计数量不足时,就设法找一个可靠的统计结果来近似。
零和博弈
零和博弈,就是博弈过程中,一方获利就意味着另一方损失。
比如两个人吃一张披萨,你多吃一口,对方就少吃一口。
双人博弈
举例:X、Y两人下围棋,该X先下,有3种下法x1、x2、x3,Y一方也有三种下发y1、y2和y3。在围棋中,一方的所得必然是另一方所失,因此这是一个零和游戏。
如果X走了x1这步棋后,在盘面上的胜率所得是7点,那么Y的胜率损失也是7点。在这样的情形下,我们只要考虑X的胜率变化即可,因为X赢了多少就是Y输的。
当X采用了x1、x2、x3之中的一种策略后,Y也有相应的三种策略y1、y2和y3,因此它们的组合就有9种结果,就构成了一个3x3的矩阵。在每一个组合中,X有一个胜率的变化,这些变化就构成了矩阵的值(对应X的得分):
当X采用x1策略时,最好的情况是Y采用y1,X的胜率增加7点,但如果Y采用了y3策略,X的胜率就降低了10点。所以在零和博弈中X1不是一个好的策略…… 同理X的最佳策略应该是X2。
反过来,如果Y先下棋,道理一样。
策略使用
使用条件: 1)双方下棋的策略都是透明公开的,X和Y都知道对方所有可能的选择,策略是阳谋。 2)双方都足够精明,能够判断出该采用什么策略。
必须考虑使用条件,否则就会出现乱拳打死老师傅的局面,我们可以想象成概率和条件概率的关系。改变条件会影响概率的分布。
静态博弈
比如谈判,双方同时在做选择。事实上,上面讨论的下棋问题更像是一个谈判问题,大家都是同步在做决策,如果考虑到先手,后手及双方水平问题,就会成为动态博弈。
在对方给我们造成最糟糕的局面里,选择相对最好的。
在上面的围棋问题上,如果把矩阵画在一个三维的图中是一个马鞍形,而位置(2,2)点正好是马鞍点。这个点从X的角度看是所有最低点中的最高点。从Y的角度看是所有最高点中的最低点。最优策略是:X追求数值最大,Y追求数值最小,于是这个马鞍点就是一个平衡点。
在两方博弈中,就是在寻找马鞍点,因为大家都知道,如果自己走出了这个平衡点试图扩大自己的利益,对方就会有反制手段,让自己的利益受损。
动态博弈
比如下棋,大家交互采取动作。
如果把下棋问题还原到现实情况,由于XY水平差异,水平高的一方很快就能感知到对方的水平,随之调整策略,使自己优势扩大。类似于概率问题中加入了条件,影响了概率分布。
假定X知道自己行棋后,Y采用y1、y2和y3策略的概率分别是70%、20%和10%,加入这个概率条件后,X采用x1的下法反而是最好的。当然,如果是Y先行棋,他可能也会根据X采用不同策略的概率,制定自己的策略。最终的胜负取决于自己策略选择,及预判对方选择每种策略的概率,整个过程是一个动态的过程。
在静态博弈中有一种非常有趣的情况,那就是双方都知道对方采用各种策略的可能性,这时双方要重新计算平衡点,而这个平衡点和矩阵中的马鞍点未必相同。
多人博弈
多人博弈,比如抽签问题10个人抽1个奖,先抽占便宜还是后抽占便宜呢?
其实是均等的,我们总是考虑先抽签的人吃亏,抽中的概率很小,后抽的不是10抽1,可能是5抽1,甚至是3抽1了。但是我们往往只考虑了别人没抽中的情况,忽视了可能奖品已经被抽走的可能性。综合中签率其实是均等的。
但是在工作中,这种策略的使用需要适当调整。比如在职场中,什么时候站出来接受任务。站出来太早可能会失败,站出来太晚可能别人已经把事情做好了。最好的情况是,前面有几个人做失败了,而我们临危受命成功了。
这本质上也是利用了其他人对胜率预判的错觉,提高了我们的知名度而已。数学应用中有很多这种误导人的假象。
非零和博弈(纳什均衡)
如果两个人分1万元的利润,各自拿了5000元是双赢吗?
这是一个零和博弈,博弈结果只是均衡。
在零和博弈里没有双赢,最好结果只是均衡。
双赢到底存在吗?
存在,在非零和博弈中,就是双方的得失加起来不是零,比如囚徒困境。
两个罪犯X和Y一起做案被抓住,警方分开审讯。如果都认罪,由于认罪态度好刑期5年。如果一个认罪一个抵赖,认罪的检举有功无罪释放,不认罪的态度恶劣判10年。还有一种情况就是两个人都不认罪都判一年。
刑期情况如下表:
最优策略(零和博弈中讨论过)是每一个人选择最糟糕情况里的最好的情况,也就是最小值中的最大值。
均衡点是各判5年。
双赢是大家主观上想达成的目标,但现实中客观的结局常常是纳什均衡点,也就是双输的结果。
实现双赢的前提是彼此有信任,这种情况下的博弈,也被称为合作型博弈,而之前纳什解决的是非合作博弈。
纳什均衡
非零和博弈的平衡点问题最早是被纳什解决的,因此它也被称为“纳什均衡点”,这相当于在零和博弈中的马鞍点。在这种非零和博弈难题中,找到纳什均衡点就是最安全的解决办法。
找均衡点的几点建议
1. 现实中的博弈通常不是一次性的,而是反复进行的,长期坚持信任几乎做不到,而一旦一方开始采用不合作的策略,给对方造成损失,对方也会马上调整策略。
2. 博弈论讲的都是阳谋的策略,但是很多时候双方博弈使用的是阴谋。使用阴谋就无法让双方产生信任,而没有信任,均衡点就是双输。
3. 人类道德水准不容高估,很多人并非在主观上想做违反规则的事情,也懂得双赢的道理,但是就是看不惯别人和自己一样好,更不能容忍别人比自己好,当他们看到在自己损失1,让对方损失10的情况下就会兴奋。很多小人都是只要你过得比我好,我就受不了的心态。
4. 乌合之众效应。如果是两个人博弈,很容易达成双赢的结果。如果是两帮人博弈,非常容易双输。
5. 很多时候看似是双赢,其实是在更大范围内通过零和博弈获利。可能不太准确,在香港回归问题谈判出现僵局时,邓小平提出的一国两制,这个情况是否达到双赢不太清楚,但是如果把零和博弈的范围扩大,往往会走出僵局。现在的双赢和扩大范围的零和博弈,最终的感觉可能并没太多不同。
活用博弈论
双赢是建立在信任和长久的基础上,所以不要指望长期有你赢别人输的局面,适当给别人让利是双赢的大前提。
双赢就要找好你博弈的对象,这里面所说的博弈更多的是合作不是竞争,不防假设第一次合作时大家都是值得信任的,但一但发现不值得,终身不要再合作,因为你没有时间去验证别人。我们所需要做的是尽量让合作范围内的合作者尽可能多的是可以达到双赢的人。
即使某次合作有巨大利益(不是可以合作的人),也不要轻易破坏自己的原则,破坏了就容如同破坏了数学公理一样,后果严重,日后会有各种问题缠身。
永远不要想总在零和博弈中占便宜,出来混总是要还的。
现实世界的博弈比那几张表格复杂得多,永远不要生搬硬套。
8. 数学的基础作用 与其他学科的关系
数学与哲学
数学与其他学科不同在于它有一个确定的“底部”。
其他学科大都向下精深,比如物理学:通过布朗运动了解了分子之后,又了解了原子、夸克,希格斯玻色子等等,这些是不断往下的过程。
数学的底层是公理,这是确定的底部,整个数学大厦的构筑从这里开始。
公理是如何产生的?
是一位或一批数学家经验和试验的结果汇总,比如几何学,为什么选择那五条公理而不是别的,因为欧几里得等人发现选了这五条,之前发现的所有几何学规律都能够用逻辑推导出来,如果选了别的就不能。
换一个角度就是把我们换成上帝视角,怎样去构造一个数学体系?我们一定要选定一些互相不重复,也不会矛盾的公理作为基础。既然是公理,就不能由其它的结论推导出来。满足了这些条件,上帝就选了一些公理,也就构造出了某个数学体系。数学家们找公理就是逆向在还原上帝的想法。
一个数学的分支,其基础一旦建立起来,就几乎不会改变了。
数学止于公理。
数学止于公理,公理以下的部分是上帝的禁区,这个思想和哲学是一致的。
完善、自洽的哲学体系诞生的启蒙思想初期都与数学思想相关。伟大的数学家笛卡尔、莱布尼茨都同时是伟大的哲学家,有自己的哲学认知体系。
笛卡尔《谈谈方法》的哲学探讨。
人是如何获得知识的。
人能否通过自身努力获得知识。
靠经验
经验积累的缺点
太慢
直接经验常常是不可靠的
比如观测太阳东升西落得到地心说的结论。
笛卡尔的贡献是告诉人类要通过理性过滤直接经验,然后才能获得知识。这句话的另一种表述就是通过理性的推理实现去伪存真。
笛卡尔所说的理性包含两个方面
实证,这是今天科学研究的基础方法。
检验实证,要用符合逻辑的数学的方法,代替依靠测量的物理的方法,获得真知。
笛卡尔在哲学上的另一大贡献在于他肯定了人生而具有理性,并且有能力利用逻辑进行推理。
笛卡尔认为人只要把自己的工作方法由简单的依靠经验上升到理性思考,就能创造出新知。
亚当·斯密把笛卡尔的假设推广到了经济学领域,它最基础的假设就是,人能够通过计算和推理清楚自己的利益所在。
牛顿等人物理学上的成就,更多的也来自于人类的理性思考,而不是物理观察。
莱布尼茨的哲学思想大都是唯心的,与数学相关的思想包括两方面。
一是相对的因果时空观。
伽利略、牛顿都认为时间和空间是绝对的。但是莱布尼茨却认为只有上帝是绝对的,时间不可能有绝对的先后,但是有前后的因果关系。
莱布尼茨的观点表述是:你不可能穿越回清朝,否则会出现先有你还是先有你爸的矛盾。在不违反因果关系前提下,时间是可以拉长或者缩短。
这其实是把数学上的因果关系拓展到了哲学层面,后来爱因斯坦提出相对论,证明相对的因果时空观,这些要比伽利略和牛顿的绝对时空观更合理一些。
二是对离散世界的理解。
作为微积分的发明人之一,莱布尼茨承认世界的连续性。但是他一直离散的理解世界,从二进制,到他的符号学,都能看出他对世界是不连续的看法。他的这些思想启发人们发明了离散数学和量子力学。
自笛卡尔和莱布尼茨始,人类进入理性时代。
很多大学问家都是用到了数学中建立公理化体系的方法,建立自己的哲学体系,而那些数学方法,一旦上升到哲学层面,就成为了在认知上通用的方法,并且对世界形成了更大的影响力。
在历史上,缺乏哲学修养的人学习数学最好的结果,也只能成为一般的数学工作者,成不了数学大家。
数学和科学各个分支之间在方法上具有相通性和普适性,这些通用的方法常常让很多学科同时受益。
如果我们仅仅像古希腊奴隶那样为了谋生而学习,掌握一点技能也就够了。但是如果我们是像苏格拉底那样把自己看成主人,以这个态度来学习,来做事情,我们就需要在认知层面有所提高,了解数学和哲学都可以帮助我们做到这一点。
无用之用方为大用。一个人只有在深刻理解了人类知识的普遍性原理之后,才能站在一个制高点往下俯视。这也是数学和哲学的共同之处。
数学与自然科学
马克思:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步”。
自然科学研究的是自然现象和自然现象产生的规律。因此数学显然不属于自然科学。制造数学的目的在很大程度上是为了发展自然科学,而非数学本身,比如牛顿为了研究运动学发明了微积分。
数学在古代的意义就如同今天的互联网,今天的互联网+改造各个行业,当时的数学+也是如此。
天文学+数学
从占星术到建立起天体运动的模型,最著名的是托勒密利用几何学建立起来的地心说模型。
博物学+数学
亚里士多德使用的分门别类的对世界万物进行分类的方法,与数学的集合论以及函数的概念一致。
物理学+数学
阿基米德最大的成就浮力定律和杠杆原理。杠杆原理古埃及人比阿基米德早2000年就知晓,但是是阿基米德用数学公式把它描述出来的。
伽利略把数学方法和实验方法结合起来研究自然界的现象,使物理学摆脱了经院哲学的束缚。
牛顿的工作都依托数学工具,并还发明了微积分。
麦克斯韦对电磁学的贡献堪比牛顿在经典力学上的贡献。在麦克斯韦之前,库仑、安培、伏特、焦耳、法拉第等人都通过实验发现了电学的一些规律。麦克斯韦从数学出发把前人的理论归纳成几个简单的方程式,使得电学和磁学统一为电磁学。
后来发现从数学上得到的麦克斯韦方程,和牛顿的经典力学方程在高速的情况下出现矛盾。这种事情发生,如果推理没有问题一定是假设错了,后来证明假设距离、时间的绝对性是错误的。这是爱因斯坦相对论的诞生基础。
今天我们所熟知的很多粒子,都是在推导数学公式时为了让等式平衡而假设出来后来又被实验证实的。在宇宙层面黑洞、引力波也是类似,只是还有很多我们未能完成证实。
化学+数学
实验和逻辑使得化学完成了从炼金术到科学的华丽转身。
“化学之父”拉瓦锡为后人确立了化学研究的方法简单讲,就是逻辑和量化。
拉瓦锡的一大贡献是提出了氧化学说,推翻了过去的燃素说,这个成就来自于逻辑的判断。
拉瓦锡说如果燃烧是因为燃料里的燃素被烧掉,那么燃烧剩余物的质量应该减少。但是经过测定,燃烧后剩余物的质量却是增加了。说明燃素说在逻辑上有问题,而能够让剩余物质量增加唯一的可能性,就是空气中的一些元素和燃料结合了,这就是氧化说。
医药学+数学
医药学用到大量的逻辑,到了近代,还要用到大量的统计。没有统计,就没有今天的医药学。
数学对自然学科的帮助
工具
微积分是多自然科学研究的基础。
离散数学是计算机科学的基础。
物理学中应用数学工具的地方就更多。
方法
很多自然科学的升华过程中都运用了数学方法,其特点是:
从观察到理性分析。
从给出原则性结论到量化的结论。
用数学的语言来描述自然科学。比如牛顿第二定律F=ma,爱因斯坦质量方程E=mc^2,化学的符号表示H2O。
古代很多科学手稿采用的是自然语言而非数学语言来描述,不够严谨,不易传播,有错误和矛盾不易发现。
工作中也可以额通过数学+的启示,养成理性和量化地处理日常工作的习惯。
数学与逻辑学
逻辑是一切的基础。
数学中的规律也遵循于逻辑学,只是人们经常不自知的错用。
同一律
同一律是形式逻辑的基本规律之一,就是在同一思维过程中,必须在同一意义上使用概念和判断,不能在不同意义上使用概念和判断。
同一律:苹果就是苹果,不是橘子。
这在数学上可以用A=A来表示,当一个个体从一个地方移到另一个地方去之后,它就不会在原来的地方,而会出现在新的地方。比如X+5=7,当把5从等式的左边移到右边去之后,就变成了X=7-5,等式成立,但5已经不再原来的位置了。
同一律在集合论中特别重要,集合中的所有元素必须都是独一无二的。比如整数的集合里面只能有一个3不能有两个,否则就出错了。
现实生活中,人们经常改变某个概念的内涵和外延,从而使事情违反同一律,达到瞒天过海的目的,比如某些限量版产品的产量可能超过同级别品牌类似款商品生产的总量。对限量的延展就使其达到蒙蔽消费者的作用。
在数学上,要严格遵守同一律。为了防止出现违反同一律的情况,就需要把概念定义得极为精确,在法律上也是如此。
在生活中,和别人沟通时尽量用自己的语言复述一下对方的话,明确双方是在讨论同一件事情,这一点很重要。很多时候沟通中的误解,就来源于忽视了同一律。前段时间讨论事情就因为类似情况闹了笑话,两个人讨论半天,最终连讨论的人是对方的母亲还是继母都没搞清楚。回过头来想一想,一直是你说你的事情,我有我的想法。从来没有对上位。
矛盾律
矛盾律(定义前文有):不可能既是A又不是A。
数学中的反证法就是基于矛盾律得以证明的。
光的波粒二象性是不违反矛盾律的,因为它讲的是一个事物的不同方面。
类比,如果有人会讲:我人在某处,心却在你身边,这不违反矛盾律。
但是,如果他说某时某刻,我人在你身边,人又不在你身边,这就违反了矛盾律。
办案中的不在场证据,之所以能成立,是因为有矛盾律作保证。
麦克斯韦方程组和经典力学方程的矛盾就导致了后来相对论的提出。
反思:工作中,制定目标或布置任务时我们应该避免类似的情况发生,比如对一项工作的要求,既要达到A,又要达到B,有时任务本身就是矛盾的。
排中律
排中律(law of excluded middle)是形式逻辑的基本规律之一,排中律指同一个思维过程中,两个思想不能同假,必有一真,即“要么A要么非A”。排中律要求在同一思维过程中,不能对不能同假的命题(矛盾关系、反对关系)同时加以否定。
排中律:“是非”明确,不存在中间地带。
数学的应用:排除法、列举法。
1976年,美国数学家阿佩尔和哈肯借助电子计算机,证明了四色(地图)定理。这是图论中一个非常著名的难题,它说的是在任何地图上,只要用四种颜色就能够给所有的国家(或者地域)染色,保证相邻的地域颜色不同。
这个问题的难度在于情况太多、太复杂,数学家们努力了100多年也没有结果。阿佩尔和哈肯用计算机穷举了所有的情况,然后借助计算机一一证明。而这种证明方法的正确性,是靠排中律保障的。
四色问题在东野圭吾的推理小说《嫌疑人X的献身》中出现过,看的时候还没感觉这个世界难题有多难,自己想了半天无头绪,就随之过去了。(如果小说中没有这个情节就是中日韩有一版电影中出现过,或许导演添加的,都看了,具体是哪里的桥段记不清了,小说还是值得推荐的哦)。
充分条件律:有果必有因
数学的基础就是建立在因果关系上的。
数学正是因为有内在的逻辑性,才避免了可能的自相矛盾之处。
启发:人们通常会身陷矛盾而不自知,因为缺乏逻辑性。人们有时也会对某个重要的事物想不清楚,不知道该如何作判断。其实运用逻辑,把事实分析一遍,真相就清楚了。
数学与运筹学
运筹学底层原理的数学,在很多领域会有应用,比如管理学中对于工序调整方面,做一下工作有各个步骤和时间节点,如果提高效率,需要优化哪个到工序呢?如图:
类似工作在很多工作中都有应用,最该优化的道路不会是时间最长的耗时15的路径,想想就能明白,但我们在工作中往往因为思路不清晰而搞错,很多工作,随便动笔画画,可能没想象中复杂。
运筹学其实就是利用图论、线性代数等数学工具,从整体上改进现有系统的效率。
事实上,二战中英美作战计划制定时有大批数学家参与和优化,比如:
1943年,在北大西洋战场上,是英美联军与德国纳粹关键角逐点。
德国舰队时常的去袭击英美舰队的运输船,造成被击沉率高达25%,数以百万吨计的物资无法及时有效的运送到前线的将士手中,而这是一场决定人类生死存亡的战局。
万分危急之下,英美统帅急调数学家来到前线,经过一番调研,他们发现其实德国军队压根就不知道英美舰队的准确出航时间,他只是以很高频次在海上游荡,以期有更高的概率去遭遇英美的舰队,从而进行打击。
那此刻最好的策略一定不是分散出行,而应该是集中出行。
如果今天有五个小孩犯了错误,如果这五个小孩分别回到自己家中,那老师去抓,到哪家都会有所收获,一定一抓一个准。
但是若五个人都躲在一人家里,逮到概率就只有20%了。
两军统帅紧急修正方略,改分散出行为集中出行,所有的舰队共同驶出港口,共同通过危险区域,用集中的火力掩护运输队伍,然后在各自驶离。
这一举措,成功的将被击沉率从25%骤降至1%。
运筹学,取得是“运筹帷幄之中,决胜千里之外”之意。而在这里数学便是国之兴亡的后盾。
管理学与数学
文科类学科与数学的关联性远没有上述学科大,但是学数学依然能给我们很多启发,比如数学的公理系统也可以应用到企业的基因中去。
公理一:公司使命是……
公理二:公司的价值观是……
公司三:公司的规章制度和市场定位是……
坚持公理系统,公司运营中的所有决策,逻辑,战略制定必须由公理推导。
如果公理制定不同,公司的走向就会不同,这也是企业长足发展的一个重要条件。很可惜,研究数学通知之前我还不太懂这个逻辑,没有认真思考过。
历史学与数学
自己记忆力不好,上学时历史、地理、政治都很差,大学期间还回高中参加了政治的补考。近几年看历史更多的是从一些点组成面的角度来看,施展老师的《枢纽》就很好地阐述了新的历史观。尤瓦尔·赫拉利的《人类简史》更是垫付我对历史的认知。
之前就说历史事件不重要,对事件的解读才重要。
历史和数学的共通之处大概在于思路,都需要用归纳法、演绎法构建对这个领域的认知。
在历史学研究中,不强调所谓的正确性或者正统观点,而强调逻辑的自洽。任何从客观出发逻辑上能自洽的结论都是有意义的,这一点在读施展老师的《枢纽》时对中国历史有了很多新的认知,不过积淀不够,那本书还真挺难读的。。
在历史学研究中,不会像数学那样有对有错,但是却会有好有坏,有合理和荒诞的分别。而评判的标准就是其假设前提,也就是公理的客观性,以及论证的逻辑性。
9. 数学难题与趣事
数学难题
1900年德国数学家大卫·希尔伯特提出了23个历史性的数学难题(关于数学边界的第十问题前文有提到),这些问题反映出当时数学家们对数学的思考。经过一百年大约有17个难题得到了解决,或者已被部分解决,它们对科学的发展帮助极大。
2000年,美国克雷数学研究所公布了当今的七道数学难题,作为对100年前希尔伯特的回应。宣布这些问题前,播放了1930年希尔伯特退休时演讲的录音,包括他的名言:“我们必须知道,我们必将知道。”
七道难题
1. 庞加莱猜想
庞加莱猜想讲的是任何一个单连通的、封闭的三维形体,等价于一个三维的球。所谓连通、封闭就是形体表面任何两个点可以沿着表面的一条线连起来,所谓单连通,就是指不像甜甜圈那样中间被掏空,如图:
该问题是7大难题中唯一被解决的问题
60年代,美国数学家斯梅尔解决了这个问题的高维(5维)变种,斯梅尔因此获得了1966年的菲尔兹奖和随后的沃尔夫奖。
1983年,美国数学家弗里德曼证明了庞加莱猜想的4维变种,并且也获得了菲尔兹奖。
2003年,俄罗斯数学家格里戈里·佩雷尔曼完成了对庞加莱猜想的证明。
解决的意义?
可以更好地理解三维世界。比如在不到达外太空的情况下证明地球是圆形的?麦哲伦的船队航海一周又回到了原点是不能证明的,因为如果地球是甜甜圈的形状,航海一周也会回到原点。
2. NP问题
NP的英文全称是Non-deterministic Polynomial的问题,即多项式复杂程度的非确定性问题。简单的写法是 NP=P?,问题就在这个问号上,到底是NP等于P,还是NP不等于P。
题干已经看不懂了,后续说个大概就好吧。
这个问题的核心是证明:“解决一个问题的难度和验证一个答案的难度之间的差别”,基于这个理论可以更好的完善密码学。
3. 霍奇猜想
霍奇猜想是代数几何的一个重大的悬而未决的问题。由威廉·瓦伦斯·道格拉斯·霍奇提出,它是关于非奇异复代数簇的代数拓扑和它由定义子簇的多项式方程所表述的几何的关联的猜想。属于世界七大数学难题之一。霍奇猜想与费马大定理和黎曼猜想成为广义相对论和量子力学融合的m理论结构几何拓扑载体和工具。
4. 黎曼猜想
黎曼猜想的主题是研究素数分布的问题,这对我们今天的加密有很大的意义。
5. 杨-米尔斯存在性与质量间隙
杨振宁和他的学生提出的,大概就是证明杨米尔斯方程有唯一解。据说如果有人能证明,会解决物理学上的很多问题,如果杨振宁有生之年该问题被证明,杨振宁一定可以再拿一次诺贝尔奖。
6. 纳维-斯托克斯存在性与光滑性
是一个流体力学的问题
7. 贝赫和斯维讷通-戴尔猜想
是一个椭圆曲线问题。
费马大定理也是利用椭圆问题解出来的。
比特币加密也是利用的类似理论。
数学趣事
聊完难题再聊聊趣事缓解情绪。
波莱尔的遗言
波莱尔,法国数学家。 波莱尔对数学的贡献,他引进近代实变函数理论、测度论、发散级数论、非解析开拓、可数概率、丢番图近似以及解析函数值的度量分布理论等。他取得的成果,如波莱尔覆盖定理、波莱尔测度和波莱尔求和法等,对现代数学的许多分支都产生了深刻的影响。
波莱尔说:“我生命最重要的就是数学。”临终时他亲人都在身边,等他的遗言。他什么都不说,最后他的妻子说:“波莱尔,难道你没有要对我说的话吗?”波莱尔依然什么都不说。眼看波莱尔已经不行了,他的好朋友也是法国数学家哦叫季克尔说:“波莱尔,11的平方是多少?”波莱尔突然坐起来,大喊一声:“一百二十一。”然后与世长辞。
司马相如的数字诗
传说古琴曲《凤求凰》是汉代司马相如为追求卓文君而作,流传至今。
《凤求凰》 有一美人兮,见之不忘。 一日不见兮,思之如狂。 凤飞翱翔兮,四海求凰。 无奈佳人兮,不在东墙。 将琴代语兮,聊写衷肠。 何日见许兮,慰我彷徨。 愿言配德兮,携手相将。 不得於飞兮,使我沦亡。 凤兮凤兮归故乡,遨游四海求其凰。 时未遇兮无所将,何悟今兮升斯堂! 有艳淑女在闺房,室迩人遐毒我肠。 何缘交颈为鸳鸯,胡颉颃兮共翱翔! 凰兮凰兮从我栖,得托孳尾永为妃。 交情通意心和谐,中夜相从知者谁? 双翼俱起翻高飞,无感我思使余悲。
相传司马相如在事业上取得少许成就之后就产生了纳妾之意,寄了一封十三个字的信《两地书》送给妻子,内容是:“一二三四五六七八九十百千万”。卓文君看后便知司马相如十三数字唯独无亿(无意),倍感伤怀,便回以一封著名的《怨郎诗》。司马相如看后无地自容,又回到了卓文君身边。
《怨郎诗》 一朝别后,二地相悬。 只说是三四月,又谁知五六年? 七弦琴无心弹,八行书无可传。 九连环从中折断,十里长亭望眼欲穿。 百思想,千系念,万般无奈把郎怨。 万语千言说不完,百无聊赖,十依栏杆。 九重九登高看孤雁,八月仲秋月圆人不圆。 七月半,秉烛烧香问苍天, 六月三伏天,人人摇扇我心寒。 五月石榴红似火,偏遇阵阵冷雨浇花端。 四月枇杷未黄,我欲对镜心意乱。 忽匆匆,三月桃花随水转。 飘零零,二月风筝线儿断。 噫,郎呀郎, 巴不得下一世,你为女来我做男。
比较好玩所以放在了这里,数字诗的风格偏元曲,所以故事很可能是后世杜撰。
《笑傲江湖》曲
公元前六世纪,毕达哥拉斯在街边漫步,从打铁铺叮叮当当的声响中听出了美丽的旋律,他以数学家的敏感,马上开始思考:音乐是怎么产生的?音符的高低到底由什么而决定?
经过一番实验和理论推测,他终于发现每一个音的升高的高低只取决于音弦的长短,而这背后有着精巧的数学原理。并由此定义了音阶:do re mi fa so la xi。
《管子》有记载,宫商角徵羽视为五音,而由一而三之,四开而得之九九,而得宫音,再以三分损益法,得商角徵羽。
意思是,中国的五音也由数学的精巧比例而来,而每个音符的长短的高低也只相差加减三分之一。
当年黄霑先生在为《笑傲江湖》谱曲的时候曾经六易其稿,他怎么改徐克导演都不满意。于是他遍查音乐典籍,他就发现在《乐志》中有这样一句话——大乐必易,最完美的音乐一定由最简单的音符构成。
于是他豁然开朗用最简单的宫商角徵羽谱写了《沧海一声笑》。整个曲目旋律不过是“宫商角徽羽,羽徽角商宫”。
数学界的扫地僧“张益唐”
这算不得趣事,充满悲壮!
有一个数学天才,在北大数学系展示出了卓越的天赋成为了第一批被保送到美国的留学生。两年时间完成了别人五年才能完成的博士论文,论文内容关于两百年来无人能解答的“雅可比猜想”的证明,取得重大突破。
一颗新星即将诞生的时刻,不幸的是,大家在检查论文时发现他的论文引用的他老师的一篇研究,研究有纰漏。于是论文成了废纸,他的老师也因为论文发表及影响失去了诸多荣誉,于是拒绝给他写推荐信。
于是,全世界的科研机构并未接受这个人,从此数学与他无缘,他只能端盘子,送快递,打零工,而后就消声灭迹了。
2015年,这位大神张益唐获得了科尔数论奖,在数学界该奖项相当于诺贝尔物理学奖的地位。获奖原因是他证明了“孪生素数猜想”。大师丘成桐对他的评语是:此成就远高于陈景润在“哥德巴赫猜想”上的成就。这一年张益唐58岁,“庾信平生最萧瑟,暮年诗赋动江关。”
无论工作还是生活,“道阻且长,行则将至”,你我共勉!
10. End
有一天突发奇想要做一版数学脑图,于是找了个数学通识的讲座,听了50个小时,消化了估计有300小时吧,加入了很多自己的胡言乱语,写了这份凌乱的东西。
记不得提笔时因为怎样的冲动,收尾时还真是挺兴奋的。即将36岁还能有如此大的热情,上一次这么大强度工作还是2009年每个周末都泡在金融街的雕刻时光咖啡馆赶稿子的日子。突然想,那个咖啡厅还在吗?哪天去喝杯卡布奇诺如何?
提到那个咖啡厅,那杯卡布奇诺,满是幸福,那曾是我开始恋爱的地方。
所以,用个浪漫的方式收尾吧。 数学的确定性是一个问题有人能算得出,有人则算不出。 数学的不确定性是一个问题有人能算得出,但可以装作算不出。 借用大学数学家笛卡尔给瑞典公主克里斯汀出的一道题目做个结尾,让人们知道,枯燥的数学,偶尔也会浪漫,求解:r=a(1-sinθ)。
牛顿说我的成就是站在了巨人的肩膀上创造的,牛顿所说的巨人,特指笛卡尔。
The End. 2020.12.3