导图社区爬虫基础知识

爬虫基础知识

爬虫基础知识，网络爬虫也被称为网络蜘蛛、网络机器人，是一个自动下载网页的计算机程序或自动化脚本。

编辑于2023-09-11 21:49:36 宁夏回族自治区

池边裕也

他的近期作品查看更多>>

爬虫基础知识
爬虫基础知识，网络爬虫也被称为网络蜘蛛、网络机器人，是一个自动下载网页的计算机程序或自动化脚本。

爬虫基础知识

社区模板帮助中心，点此进入>>

池边裕也

他的近期作品查看更多>>

爬虫基础知识
爬虫基础知识，网络爬虫也被称为网络蜘蛛、网络机器人，是一个自动下载网页的计算机程序或自动化脚本。

相似推荐
大纲

互联网9大思维
- 38.0k
- 969
- 2.4k
- 401
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 17.2k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 3.4k
- 169
- 11
- 4
- 0
jackrao
python思维导图
- 8.1k
- 550
- 242
- 7
- 0
(*^▽^*)
css
- 3.0k
- 1
- 43
- 3
- 0
A张舫
CSS
- 5.3k
- 271
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 6.7k
- 351
- 208
- 16
- 0
journey
计算机组成原理
- 3.2k
- 98
- 70
- 8
- 0
journey
IMX6UL(A7)
- 1.9k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 2.6k
- 51
- 10
- 1
- 0
蒋龙

基础知识

爬虫的概念

网络爬虫也被称为网络蜘蛛、网络机器人，是一个自动下载网页的计算机程序或自动化脚本。

爬虫的原理

通用网络爬虫

通用网络爬虫又称为全网爬虫。该类爬虫比较适合为搜索引擎搜索广泛的主题。

深度优先策略

广度优先策略

聚焦网络爬虫

聚焦网络爬虫又被称作主题网络爬虫，最大的特点是只选择性地爬取与预设的注意相关的页面。

内容评价

链接结构

增强学习

语境图

增量式网络爬虫

增量式网络爬虫只对已下载网页采取增量式更新，或只爬取新生产的以及发生变化的网页。

统一更新法

个体更新法

基于分类的更新法

深层网络爬虫

Web页面按照存在方式可以分为表层页面和深层页面两大类。

基于领域知识的表单填写

基于网页结构分析的表单填写

爬虫的合法性

爬虫爬取的数据是指互联网上公开的并且可以访问到的网页信息，而不是网站的后台信息（没有权限访问），更不是用户注册的信息（非公开的）。

注意以下两种数据不能被爬取更不能用于商业用途

个人隐私数据

明确禁止他人访问的数据

数据

数据是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的原始材料。

大数据

大数据，或称巨量材料，指的是所涉及的资料量规模巨大到无法透过主流软件工具，在合理时间内达到撷取，管理，处理，并整理成为帮助企业经营决策更积极目的的咨讯。

认识反爬虫

网站所有者限制爬虫程序访问服务器资源和获取数据的行为，通过一些反制策略来阻碍或干扰爬虫的正常运行，从而间接地起到防御目的，称为反爬虫。

反爬虫

网站反爬虫的目的与手段

通过User-Agent校验反爬

通过访问频度反爬

通过校验码校验反爬

通过变换网页结构反爬

通过账号权限反爬

爬取策略制定

发送模拟User-Agent

调整访问频度

通过校验码校验

应对网站结构变化

通过账号权限限制

通过代理IP规避

python中爬虫相关库介绍与配置

通用

urllib

Requests

urllib 3

框架

Scrapy

HTML/XML解析器

lxml

Beautiful Soup 4