导图社区 第二章基础理论
数据科学与大数据导论第二章思维导图,统计学与数据科学、数据科学中常用的统计学知识、统计学在数据科学中的应用案例、数据科学视角下的统计学。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
第二章 理论基础
数据科学的学科地位
学科定位
数学与统计知识
主要理论基础之一
区别
数据:不仅仅是数值,也不等同于数值
计算:不仅仅是加减乘除等数学计算,还包括数据的查询挖掘洞见分析可视化等更多类型
关注的不是单一学科的问题,超出了数学,统计学,计算机科学等单一学科的研究范畴,进而涉及多个学科的研究范畴,它强调的是跨学科视角
不仅仅是理论研究,也不是纯”领域务实研究“,它关注和强调的是二者的结合
黑客精神与技能
数据科学家 的主要精神追求和技能要求——大胆创新、喜欢挑战、追求完美和不断改进
黑客与骇客
黑客是一个给予细化发现和解决技术挑战、攻击计算机网络系统的精通计算机技能的人的称号
骇客是一个闯入计算机系统和网络试图破坏和偷到个人信息的个体,与没有兴趣做破坏知识对技术上的挑战感兴趣的黑客相对应
领域务实知识
对数据科学家的特殊要求——不仅需要掌握数学与统计知识以及具备黑客精神与技能,而且还需要精通某一个特定领域的务实知识与经验
不仅需要掌握数据科学本身的理论、方法、技术和工具,也应掌握特定领域的知识与经验(或领域专家需要掌握数据科学的知识)
在组建数据科学项目团队时,必须重视领域专家的擦怒,来自不同学科领域的专家在数据科学项目团队中往往发挥重要作用
机器学习
机器学习与数据科学
机器学习为数据科学充分发挥计算机的自动数据处理能力,拓展人的数据处理鞥能力以及实现人机协同数据处理提供了重要手段
主要议题
如何实现机器的自我学习
语义层次
计算机能模拟人的学习行为,通过学习获取知识和技能,不断改善性能,实现自我完善
基本思路
学习系统
任务
eg:下西洋双陆棋
性能指标
eg:比赛中击败对手的百分比
经验来源
eg:与自己进行对弈
数据科学中常用的机器学习知识
机器学习在数据科学中的应用
机器学习的应用
机器学习与其他技术的集成应用
数据科学视角下的机器学习
面临的挑战
过拟合
维度灾难
特征工程
算法的可拓展性
数据可视化
重要地位
视觉是人类获得信息的最主要途径
主要优势
数据可视化处理可以洞察统计分析无法发现的结构和细节
数据可视化处理结果的解读对用户知识水平的要求较低
可视化能够帮助人们提高理解与处理数据的效率
统计学
统计学与数据科学
统计学是数据科学的主要基础理论之一
数据科学中常用的统计学知识
统计方法
行为目的与思路方式视角
描述统计
集中趋势分析
离中趋势分析
相关分析
推断统计
采样分布
参数估计
假设检验
方法论视角
基本分析法
回归分析
分类分析
聚类分析
关联规则分析
时间序列分析
元分析法
加权平均法
优化方法
统计学在数据科学中的应用案例
谷歌流感趋势分析
数据科学视角下的统计学
不是随机样本,而是全体数据
不是精确性,而是混杂性
不是因果关系,而是相关关系
分析学习
归纳学习
决策树学习
概念学习
增强学习
基于实例学习
遗传算法
贝叶斯学习
人工神经网络
学习
输出
输入
目标函数
训练集
目标函数(用函数逼近算法估计)
测试集(未来的或全部数据)
训练集(现有的或部分数据)
现实需求(解决现实问题)
输出(学习结果)
输入(学习素材)