导图社区 第二章 电子商务数据采集与预处理
这是一篇关于第二章 电子商务数据采集与预处理的思维导图,包括:自扩、电子商务数据采集、电子商务数据预处理、电子商务数据采集实例。
这是一篇关于第三章 电子商务市场数据分析的思维导图,主要内容有分析市场规模、分析市场趋势、分析市场竞争和竞争趋势、分析行业最佳价格波段等。
数据化运营第1章绪论知识梳理,包括数据化运营概述、数据化运营的流程、电子商务数据化运营的指标与体系三部分。
社区模板帮助中心,点此进入>>
互联网9大思维
电商部人员工作结构
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
供应链类型
供应链管理平台
css
CSS
计算机操作系统思维导图
电子商务数据采集与预处理
自扩
数据采集
数据采集的原则
及时性
有效性
准确性
合法性
数据采集的渠道
内部渠道
外部渠道
政府部门、行业、机构协会、媒体
权威网站、数据机构
电商平台
指数工具
百度指数、360趋势、搜狗指数、阿里指数
数据采集常用工具
生意参谋、店侦探、蝉妈妈、八爪鱼、火车采集器、思睿等
电子商务数据
市场数据
行业数据
竞争数据
运营数据
客户数据
包括浏览量、收藏量、性别、年龄等
推广数据
包括点击量、展现量、转化率等
子主题
服务数据
包括销售额、订单量、响应时长、询单转化等
供应数据
包括采购数、单价、采购数据、物流、库存量等
产品数据
行业产品数据
企业产品数据
电子商务数据采集
概念
是指由预先设计的采集平台与系统程序自动采集带脑子商务平台上数据
流程
方法
系统日记采集方法
Scribe
可以从各种日志源上收集日志,存储到一个中央存储系统,以便于进行集中的统计分析处理。
Chukwa
提供了一种对大数据量日志类数据的采集、存储、分析和展示的全套解决方案和框架。
Flume
是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展
网络爬虫
原理
是一种按照一定的规则,自动地抓取web信息的程序或者脚本
工作流程
爬行策略
深化优先策略
广度优先策略
基于内容评价的爬行策略
基于链接结构评价的爬行策略
基于增强学习的爬行策略
基于语境图的爬行策略
API
开放认证协议
该协议不需要提供用户名和密码来获取用户数据,它给第三方应用提供了一个“令牌”,每一个“令牌”授权对应特定的网站,并且应用只能在“令牌”规定的时间范围内特定的资源。
开源API调用
是网站自身提供的接口,可以自由地通过改接口调用该网站指定数据
Power BI 采集
是微软旗下的一款商业智能ru软件(BI),它包含桌面版,网页版和移动版。
编程语言
以Python为例,这是一种跨平台的计算机程序设计语言,是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。
工具
数据分析常用工具
数据思路类工具
XMind、FreeMind、Visio
数据存储与提取工具
Access、MySQL、SQLServer、Oracle、DB2、Sybase
数据分析与挖掘工具
Excel、SPSS、Clementine、SAS、R、Python
数据可视化工具
Excel、PPT、Tableau、Power BI、GoogleChart
商业智能类工具
微软、IBM、Oracle、SAP、Informatica、Microstrategy、SAS
网站分析常用工具
AdobeAnalytics、Webtrekk、GoogleAnalytics、IBMCoremetrics
电子商务数据预处理
数据类型
是数据一致性检查的基本项,在严谨的数据清洗过程中,每个字段都需要指定数据类型,否则在后续的分析过程中有可能因为数据类型不符合算法要求而导致出错。
常见的数据类型
整数
小数
时间
文本
逻辑
二进制
缺失值与异常值处理
删除法,删除缺失或异常数据的记录,使用此法的前提条件是删除记录不会对数据分析的结构产生影响。
插补法,当删除整条记录对分析结果由严重影响时,根据实际情况可用0插补,也可以用均值插补。
数据合并
纵向合并
在数据库中也常称为追加查询,常用于将多张相同结构字段的表格合并成一张表格的场景。
横向合并
在数据库中也称为合并查询,合并查询分为左外部、右外部、完全外部、内部、左反和右反6种联接方式。
数据分组
是根据某个维度将数据以某种算术方式(求和、计算等)进行统计汇总。
数据变形
是指将数据的结构进行变换,特别是将一维表转为二维表,或者将二维表转为一维表,变换数据结构,有利于后续的数据分析工作的开展。
数据透视
是指将某维度的行转变成列,可实现数据的快速汇总和分类。
数据逆透视
即将二维表转为一维表
电子商务数据采集实例
学习如何使用八爪鱼工具进行数据采集