导图社区 《数学之美》全文
这是一篇关于数学之美(15-21章)的思维导图,数学这门宇宙基础学科,魅力无穷!《数学之美》的作者是吴军,欢迎大家一起来领略数学之美。
编辑于2023-02-07 15:26:05 重庆数学之美
第19章 谈谈数学模型的重要性
第20章 不要把鸡蛋放到一个篮子离——谈谈最大熵模型
1. 最大熵原理和最大熵模型
2. 延伸阅读:最大熵模型的训练
小结:最大熵模型:将各种信息整合到一个统一的模型中。拥有良好的特性:①形式上简单优美②效果上既满足各个信息源的限制条件,又能保证平滑性。
第21章 拼音输入法的数学原理
1. 输入法与编码
2. 输入一个汉字需要敲多少个键——谈谈香农第一定理
3. 拼音转汉字的算法
4. 延伸阅读:个性化的语言模型
小结:汉字的输入过程是人和计算机的通信,好的输入法会自觉或者不自觉地遵循通信的数学模型。
第22章 ⾃然语⾔处理之⽗⻢库斯和他优秀的 弟⼦们
语言
教⽗⻢库斯
基于统计的⾃然语⾔处理⽅法
宾⼣法尼亚⼤学⾛出的精英们
追求完美的柯林斯
简单才美的布莱尔
第23章 布隆过滤器
原理
二进制向量和随机映射函数
误识别问题
第24章 贝尔斯网络
通过网络估算可能性
Google的Rephil
第25章 条件随机场,文法分析及其他
文法分析—计算机算法的演变
条件随机场—无向图
第26章 维特比和维特比算法
维特比:创办高通公司
“维特比算法:解决有向图的最短路径问题
第27章 上帝的算法——期望值最大化算法
文本的自收敛分类:不需要人工干预和先验的经验
期望值最大化和收敛的必然性:过于巧妙,是上帝算法称谓的来源
第28章 逻辑回归和搜索广告
搜索广告的关键技术:点击率预估
逻辑回归模型:将事件发生概率适应到一条逻辑曲线上
第29章 各个击破算法和Google云计算基础
分治算法原理
将一个问题划分为若干问题进行解决,再合并各个问题的结果得出原问题的解
从分治算法到MapReduce
归并排序
将大矩阵自动拆分,保证服务器负载均衡,合并返回值
总结
复杂问题简单化,再将小解合并成原问题解,各个击破
第30章 Google大脑和人工神经网络
人工神经网络
有向图
分层节点(神经元)
输入层
中间层(隐含层)
输出节点
多维空间模式分类
最大熵模型
原理
特征值从输入层开始按照规则和公式一层层向后传递,输出层哪个节点的数值最大,输入的模式被分为哪一类。
训练人工神经网络
有监督的训练
样本——找参数——输出值尽可能一致
梯度下降法
无监督的训练
定义成本函数
梯度下降法
人工神经网络与贝叶斯网络的关系
共同点
有向图
训练方法相似
效果准确性相似
计算量大
区别
前者完全标准化,后者更灵活
前者对一个变量非线性变换,后者任意函数
前者相对孤立,后者前后相关
第31章 区块链的数学基础,椭圆曲线加密原理
区块链——不对称、不透明之美
不需要拥有信息却能验证信息
防伪,保证安全
记录交易过程
按照约定自动执行的智能合约
作用
按照超出原来信息加解密范围的应用场景
保护隐私
椭圆曲线加密原理
最小密钥长度:160位
总结
不对称不仅能解决信息安全问题,而且从根本上保护隐私
第32章 大数据的威力
数据的重要性
推动人类文明进步
科学文明进步
渗透到社会生活的方方面面
是日常做决策的依据
数据的统计和信息技术
样本数量多、误差小
统计目标要一致
样本具有代表性
为什么需要大数据
多维度、完整度
成本低、准确性高
多维度,全方位
对信息产业和其他产业有重大影响
得到有意义的统计规律
消除主观性偏差
问卷法难度大原因
成本高,很难考虑周全
未必反映被调查人真实的想法
第33章 随机性带来的好处,量子密钥分发的数学原理
用(激光)量子的偏振方向传递信息
利用光子的偏振特性对信息编码,直接传递信息
利用随机性保证信息安全
BB84协议
用时间换取通信安全性
无法发送信息
黑客攻击通信卫星
通信光纤被破坏
总结
光量子的偏振特性,数学和信息论确保信息保密性
第34章 数学的极限
图灵划定计算机可计算问题的边界
机器拥有智能方法(大数据、摩尔定律、数字模型)
先划定边界,边界内可计算,边界外与计算无关不必浪费时间
哥德尔不完全性定理:数学方法不是万能的
希尔伯特划定有解数学问题的边界
问题是否有解
明确算法的问题
利用好人工智能工具,有效解决属于人的问题
图灵机
任何复杂进制的计算机都与二进制的计算机等价
总结
集中精力在边界内解决问题,不把精力耗费在寻找边界外可能并不存在的答案
第18章 闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的权威性问题
1. 搜索引擎的反作弊
2. 搜索结果的权威性
小结:噪声存在于任何通信系统,好的通信系统需要能过滤噪声,还原真实的信号。搜索引擎是一个特殊的通信系统,也存在噪声,反作弊和确定权威性就是去噪声的过程。
第17章 由电视剧《暗算》所想到的——谈谈密码学的数学原理
1. 密码学的自发时代
2. 信息论时代的密码学
小结:解密:利用已经获得的信息情报来消除一个情报系统的不确定性。
第16章 信息指纹及其应用
1. 信息指纹
2. 信息指纹的用途
1. 集合相同的判定
2. 判定集合基本相同
3. YouTube的反盗版
3. 延伸阅读:信息指纹的重复性和相似哈希
1. 信息指纹重复的可能性
2. 相似哈希
小结:信息指纹:将一段信息随机映射到一个多维二进制空间中的一个点。这些二进制数字就成立原来的信息所具有的独特指纹。
第15章 矩阵运算和文本处理中的两个分类问题
1.文本和词汇的矩阵
2. 延伸阅读:奇异值分解的方法和应用场景
小结:通过奇异值分解得到粗分类结果,再利用计算向量余弦的方法可既节省实践又获得较好的准确性
第14章:余弦定理和新闻分类
新闻的特征向量
与IF-IDF结合,将新闻中的文字转化为可计算的数字
向量的距离
向量的夹角的余弦值越小,夹角越大,两条新闻越不相干
第13章:Google AK-47的设计者 阿米特-辛格博士(略)
思想
寻找简单有效的解决方法
解释每一个步骤和方法背后的道路
不怕失败,大胆尝试
丰富的研究经验
第12章 有限状态和动态规划
地址分析和有限状态机
全球导航和动态规划
有限状态传感器
第8-11章 搜索引擎
1.建立快速有效的索引——方法——第8章:布尔代数和搜索引擎
布尔代数
运算元素
基本运算
真值表
应用及意义
索引
2. 自动下载尽可能多的网页——方法——第9章:网络和网络爬虫
图论及其补充说明——图的遍历算法
广度优先搜索BFS
深度优先搜索DFS
3. 根据相关性对网页进行公平准确排序——对其搜索结果排名决定因素
网页质量信息
第10章:PageRank-Google的民主表决式网页排名技术
搜索关键词和网页相关性
第11章:如何确定网页和查询相关性
第7章 贾里克尼和现代语言处理
早年生活 从捷克到美国
从水门事件到莫妮卡.莱温斯基
一位老人的奇迹
晚年创建世界上最大的语音和语言处理中心
贾里尼克奖
第6章 信息的度量和作用
相对熵
对不确定性的衡量
信息熵
冗余度
信息量
信息论的基础——对信息的量化度量
信息的作用
寻找相关信息
消除不确定性
互信息
二义性方法
第5章 隐马尔可夫模型
通信模型
信息、上下文
传递的信息
接受的信息
隐马尔可夫模型
马尔可夫链
针对不同的应用
纠错模型
翻译模型
声学模型
隐马尔可夫模型的训练
第4章 谈谈分词
中文分词方法的演变
查词典
颗粒度
如何衡量分词的结果
分词的一致性
词的颗粒度和层次
维特比算法
词典
分词器
语言模型
第3章 统计语言模型
用数学的方法描绘语言规律
Google机器翻译项目罗塞塔
李开复大词汇量非特定人连续语音识别
统计语言模型最新应用
统计语言模型的工程诀窍
高阶语言模型
模型的训练、零概率问题和平滑问题
语料的选取问题
第2章 自然语言处理(从规则到统计)
机器智能
图灵测试、程序语言
早期对自然语言处理的理解
应用层(语音识别、机器翻译、自动问答、自动摘要)
认识层(自然语言理解)
基础层(句法分析、语义分析)
从规则到统计
IBM华生实验成就
贾里克尼贡献
现代自然语言研究
机器翻译
语音识别
文本到数据库自动生成
数据挖掘与知识获取
第1章 文字和语言vs数字和信息
信息(信息源、信道、接收者)
文字和数字
信息的冗余是信息安全的保障
语言的数据
语料
文字和语言背后的科学(拼音、象形、楔形文字)
通信的原理和信息传播的模型
聚类
校验位
解码的规则、语法