导图社区 数据挖掘
数据挖掘的产生背景,发展历程,基础概念,步骤,分析方法以及应用
建筑物理学之建筑传热,超级细致哦!绝对没错
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
数据挖掘
产生背景
需要是发明之母
数据爆炸问题
我们正被数据淹没,但却缺乏知识
解决办法: 数据仓库与数据挖掘
数据仓库与联机分析处理(OLAP)
从大型数据库的数据中提取有趣的知识(规则, 规律性, 模式, 限制等)
发展历程
1960
数据收集, 数据库创建, IMS 和网状 DBMS
1970
关系数据库模型, 关系 DBMS 实现
1980
RDBMS, 先进的数据模型 (扩充关系的, OO, 演绎的, 等.) 和面向应用 的 DBMS (空间的, 科学的, 工程的, 等.)
1990—2000
数据挖掘和数据仓库, 多媒体数据库, 和 Web 数据库
基础概念
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程
步骤
定义问题
1. 在开始知识发现之前最先的也是最重要的要求就是了解数据和业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么
建立数据挖掘库
建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库
分析数据
分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段
准备数据
这是建立模型之前的最后一步数据准备工作。可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量
建立模型
建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型
评价模型
模型建立好之后,必须评价得到的结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义
实施
模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析人员做参考;另一种是把此模型应用到不同的数据集上
分析方法
分类
它首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘技术,建立一个分类模型,再将该模型用于对没有分类的数据进行分类
估值
估值与分类类似,但估值最终的输出结果是连续型的数值,估值的量并非预先确定。估值可以作为分类的准备工作
预测
它是通过分类或估值来进行,通过分类或估值的训练得出一个模型,如果对于检验样本组而言该模型具有较高的准确率,可将该模型用于对新样本的未知变量进行预测
相关性分组或关联规则
其目的是发现哪些事情总是一起发生
聚类
它是自动寻找并建立分组规则的方法,它通过判断样本之间的相似性,把相似样本划分在一个簇中
应用
市场分析与管理
用于分析的数据源在哪?
信用卡交易, 会员卡, 打折优惠卷, 顾客投诉电话, (公共) 生活时尚研究
针对销售(Target marketing)
找出顾客群, 他们具有相同特征 : 兴趣, 收入水平, 消费习惯, 等
确定顾客随时间变化的购买模式
个人帐号到联合帐号的转变: 结婚, 等
交叉销售分析(Cross-market analysis)
产品销售之间的关联/相关
基于关联信息的预测
顾客分类(Customer profiling)
数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)
识别顾客需求
对不同的顾客识别最好的产品
使用预测发现什么因素影响新顾客
提供汇总信息
各种多维汇总报告
统计的汇总信息 (数据的中心趋势和方差)
法人分析和风险管理
财经规划和资产评估
现金流分析和预测
临时提出的资产评估
交叉组合(cross-sectional) 和时间序列分析 (金融比率(financial-ratio), 趋势分析, 等.)
资源规划
资源与开销的汇总与比较
竞争
管理竞争者和市场指导
对顾客分类和基于类的定价
在高度竞争的市场调整价格策略
欺骗检测和管理
子主题
方法
使用历史数据建立欺骗行为模型, 使用数据挖掘帮助识别类似的实例
例子
汽车保险: 检测这样的人, 他/她假造事故骗取保险赔偿
洗钱: 检测可疑的金钱交易 (US Treasury's Financial Crimes Enforcement Network)
医疗保险 : 检测职业病患者, 医生和介绍人圈
检测不适当的医疗处置
澳大利亚健康保险会(Australian Health Insurance Commission) 发现许多全面的检查是请求做的, 而不是实际需要的 (每年节省100万澳元).
检测电话欺骗
电话呼叫模式: 通话距离, 通话时间, 每天或每周通话次数. 分析偏离期望的模式
英国电讯(British Telecom)识别频繁内部通话的呼叫者的离散群, 特别是移动电话, 超过数百万美元的欺骗
零售
分析家估计, 38%的零售业萎缩是由于不忠诚的雇员造成的
其他应用
运动
IBM Advanced Scout分析NBA的统计数据 ( 阻挡投篮, 助攻, 和犯规 ) 获得了对纽约小牛队(New York Knicks)和迈艾米热队( Miami Heat )的竞争优势
天文
借助于数据挖掘的帮助,JPL 和 Palomar Observatory 发现了22 颗类星体(quasars)
Internet Web Surf-Aid
IBM Surf-Aid 将数据挖掘算法用于有关交易的页面的Web访问日志, 以发现顾客喜爱的页面, 分析Web 销售的效果, 改进Web 站点的组织, 等