导图社区 爬虫基础知识
爬虫基础知识,网络爬虫也被称为网络蜘蛛、网络机器人,是一个自动下载网页的计算机程序或自动化脚本。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
基础知识
爬虫的概念
网络爬虫也被称为网络蜘蛛、网络机器人,是一个自动下载网页的计算机程序或自动化脚本。
爬虫的原理
通用网络爬虫
通用网络爬虫又称为全网爬虫。该类爬虫比较适合为搜索引擎搜索广泛的主题。
深度优先策略
广度优先策略
聚焦网络爬虫
聚焦网络爬虫又被称作主题网络爬虫,最大的特点是只选择性地爬取与预设的注意相关的页面。
内容评价
链接结构
增强学习
语境图
增量式网络爬虫
增量式网络爬虫只对已下载网页采取增量式更新,或只爬取新生产的以及发生变化的网页。
统一更新法
个体更新法
基于分类的更新法
深层网络爬虫
Web页面按照存在方式可以分为表层页面和深层页面两大类。
基于领域知识的表单填写
基于网页结构分析的表单填写
爬虫的合法性
爬虫爬取的数据是指互联网上公开的并且可以访问到的网页信息,而不是网站的后台信息(没有权限访问),更不是用户注册的信息(非公开的)。
注意以下两种数据不能被爬取更不能用于商业用途
个人隐私数据
明确禁止他人访问的数据
数据
数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始材料。
大数据
大数据,或称巨量材料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取,管理,处理,并整理成为帮助企业经营决策更积极目的的咨讯。
认识反爬虫
网站所有者限制爬虫程序访问服务器资源和获取数据的行为,通过一些反制策略来阻碍或干扰爬虫的正常运行,从而间接地起到防御目的,称为反爬虫。
反爬虫
网站反爬虫的目的与手段
通过User-Agent校验反爬
通过访问频度反爬
通过校验码校验反爬
通过变换网页结构反爬
通过账号权限反爬
爬取策略制定
发送模拟User-Agent
调整访问频度
通过校验码校验
应对网站结构变化
通过账号权限限制
通过代理IP规避
python中爬虫相关库介绍与配置
通用
urllib
Requests
urllib 3
框架
Scrapy
HTML/XML解析器
lxml
Beautiful Soup 4