导图社区 scrapy
这是python爬虫构架scrapy相关知识点的导图,里面包含了其主要知识点
里面包含计算机考研所学知识的思维导图,帮助复习与记忆
计算机编程课程学习思维导图,例如java,python等
用于Web学习者和开发者使用,为Web前端开发的新手和有经验的开发者提供了一个清晰、全面的资源,帮助他们了解Web开发的核心技能和实践。感兴趣的小伙伴可以收藏一下~
随着TT的飞速发展,“大智物移云的时代已经来临。”大智物移云“分别指的是大数据、人工智能、物联网、移动互联、云计算技术。现在是一个计算无处不在、软件定义一切、网络包容万物、连接随处可及、宽带永无止境、智慧点亮未来时代。云技术是指实现云计算的一些技术,包括虚拟化、分布式计算、并行计算等;云计算除了技术之外更多的指一种新的IT服务模式,可以说目前提到较多的云计算30%是指技术,70%是指模式。大数据基础相关知识点,用于帮助同学们复习相关知识点。
Java面向对象编程思维导图,主要是用于期末复习自学作参考,导图精简且有助于知识点的理解与记忆。
社区模板帮助中心,点此进入>>
英语词性
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
【华政插班生】文学常识-两宋
scrapy
1. 提取信息方法
1. Beautiful Soup
2. lxml
3. re
4. xpath selector
5. css selecter
1. 例子:
<HTML>.CSS('a/标签名称/::attr(href)')标签属性
2. 介绍
1. 专业爬虫框架介绍爬虫框架的基本使用
2. 不是一个函数功能库而是一个爬虫框架
3. 结构(5+2)
1. engine
1. 不需要用户修改
2. 控制所有模块之间的数据流
3. 根据条件触发事件
2. scheuler
1. 对所有爬取请求进行调度管理
3. item pipelines
1. 以流水线方式处理spider产生的爬取项
2. 由一组操作顺序组成的类似流水线,每一个操作都是一个item
可能的操作包括清理,检验和查重,爬取项中html数据,存储到数据库中
4. downloder
1. 根据请求,下载网页
2. 不需要用户修改
5. spiders
1. 解析downloader返回的response
2. 产生爬取网页(scraped item)
3. 产生额外的爬取请求
4. 用户可以编写配置带代码
6. downloader middleware
1. 实施engine,scheduler和download之间进行用户配置控制
2. 功能包括修改丢弃,新增,请求或者响应
7. spiders middleware
目的
1. 对请求和爬取项的再处理
功能
修改、丢弃、新增请求或爬取项
用户可以配置代码
item类型
1. 例子
1. class.scrapy.item.Item()
1. Item对象表示一个从html页面中提取的信息内容,由spider生成,item pipline处理,类字典类型,按照字典的相关操作进行使用
response类
1. class.scrapy.http.response()
1. response对象,表示http响应,由downloader生成,由spider处理
3. 属性方法
1. .url
1. 对应的url地址
2. .status
1. http状态码,默认为200
3. .headers
1. response对应头部信息
4. .body
1. response对应内容信息,字符串类型
5. .flag
1. 一组标记
6. .request
1. 产生response类型对应的request对象
7. .copy()
1. 复制该响应
requests类
1. class.scrapy.http.request()
1. request对象表示一个http请求,由spider生成,由Downloader执行
1. request对应的请求url地址
2. .method
1. 对应请求方法(get,post)
3. .header
1. 字典类型,风格请求头
1. 请求内容主体,字符串类型
5. .meta
1. 用户添加扩展信息,在scrapy内部模块,传递信息使用
6. .copy()
1. 复制该请求
yied(生成器)
介绍
不断产生值的函数
包含yied函数是一个生成器
生成器每产生值(yied)语句函数被冻结,被唤醒后再产生一个值
优势
更节省空间
响应更迅速
使用更灵活
爬虫框架
是实现爬虫功能的软件结构和功能组件集合
半成品,能够帮助用户实现专业网络爬虫