导图社区 python爬虫
纯干货!你要的Python基础知识点整理好了!本文对变量、语法、条件循环、面向对象、函数、语法规则符、文件的读取及保存、错误异常这些方面进行了全量笔记整理,这些知识点你还记得吗?
社区模板帮助中心,点此进入>>
python爬虫
爬虫基础
实现流程
1 确定url
2 结构分析
3 实现构思
4 捉刀编码
urllib爬取
1 引入urlopen,request
2 构建Request,设定url及headers
3 resp = urlopen(req)
4 保存:resp.read().decode()
fake_useragent
导包:my_fake_agent UserAgent
headers中指定ua.random()
爬虫常用选取模块
bs4
获取标签:soup.title
获取属性:soup.div['class']
获取内容:soup.title.text
xpath
获取内容:names = info.xpath('//div[@class="book-mid-info"]/h4/a/text()')
pyquery
类jquery选择器
配套工具
tesseract: 验证码的识别(准确度一般)
云打码平台
人工识别:准确度高,收费
selenium: 自动操作浏览器(支持firefox,chrome等)
当分页时url不变的情况下使用比较方便
scrapy
基本流程
1 scrapy startproject myfirst
2 scrapy genspider baidu baidu.com
3 scrapy crawl baidu
输出爬取内容
spider 中yield字典
pipeline中保存到文件
图片下载管道
spider.py 拿到image_url,yield
settting中配置下载路径IMAGES_STORE
ImagePipeline中使用get_media_requests
中间件
setting中打开中间件开关
middleware.py中构建对应该的处理类
从源码找出对应功能方法,在自己的代码中重写