导图社区 scrapy框架
scrapy框架:scrapy 一:爬虫的原理伪装成客户端与服务端进行数据交互;爬虫框架 scrapy。
时间管理-读书笔记,通过学习和应用这些方法,读者可以更加高效地利用时间,重新掌控时间和工作量,实现更高效的工作和生活。
本书是法兰教授的最新作品之一,主要阐明了设计史的来源、设计史现在的状况以及设计史的未来发展可能等三个基本问题。通过对设计史学科理论与方法的讨论,本书旨在促进读者对什么是设计史以及如何写作一部好的设计史等问题的深入认识与反思。
《计算机组成原理》涵盖了计算机系统的基本组成、数据的表示与运算、存储系统、指令系统、中央处理器(CPU)、输入输出(I/O)系统以及外部设备等关键内容。通过这门课程的学习,学生可以深入了解计算机硬件系统的各个组成部分及其相互之间的连接方式,掌握计算机的基本工作原理。
社区模板帮助中心,点此进入>>
英语词性
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
【华政插班生】文学常识-两宋
scrapy框架
分布式抓取小说
cmd启动和结束 redis的键中会不会消失
在任务结束的时候 ,redis里面的内容会消失
在任务没有消耗完成的时候,redis中指纹与request 不会消失
如果想要程序结束依然保持有redis的指纹队列,使用 persitst 保持队列中的数据
SCHEDULER_PERSIST = True
可以实现断点续抓
lpush往数据里 start_urls 里面添加的时候,依然会被消费掉
scrapy 其他
日志 运维使用
普通单个文件 非scrapy框架内 使用 loguru 添加日志
setting一些设置讲解
教案 scrapy 框架五
日志文件配置 框架四
Request 和 Response 对象
crawlSpider类
github登录
https://github.com/session
POST
formdata
网页源代码中去查找
去其他的url的响应中查看是否有 内容
js生成的
scrapy 纵横小说
网址
http://book.zongheng.com/store/c0/c0/b0/u0/p1/v0/s9/t0/u0/i1/ALL.html
全部 免费
目标内容
小说名字 作者 字数 简介 章节目录 内容
第一级 pageurl ------ 小说链接(novelurl ) ok
第二级 novelurl ------ 小说信息 章节目录url(chapterurl )
第三级 chapterurl --- 每个章节的url 章节目录名字 和章节内容url
第四级 每个章节内容url ----- 小说内容
存储到数据库
问题
对方会检测到你的ip 如果你访问频繁 会封禁你的ip 购买ip 更换ip 如何更换
用户代理 如何跟换用户代理
目的是为了不让网站 引起怀疑
项目
要求 获取数据
拿到对应的数据
存储到相应的位置
爬取
反爬
js逆向 破解 高级阶段
ip 代理ip 1000次
购买 ip
更换请求头
速度上
分布式架构
scrapy
存储
mysql
mongo
excel
txt
scrapy 一
爬虫的原理 伪装成客户端与服务端进行数据交互
requests url re xpath 图片 电影信息
目的 获取100张图片
构造 page_url
问题点
慢
IO比较多
input output 读取写入比较多 网络响应 写入 cpu占用不多
多线程速度会快 1/2 1/3 线程安全
一个文件
爬取和存储 在一个地方 耦合高 不 利于维护
page_url
图片url
html url
json串
存储txt
存储为图片
存储到mysql
存储到 excel
爬虫框架 scrapy
异步 多线程 纯python开发
异步 是否影响顺序 多线程 要看同时的任务量
顺序 是按顺序执行 一个做完一个做
安装
anaconda
conda install scrapy 安装
使用
创建项目
scrapy startproject <project_name> [project_dir]
scrapy 二
目的
1.scrapy框架使用
2.熟悉 如何进行爬虫
详情页
1.获取详情页的url
1.页面上 解析 得到 详情url
2.构造
href="/detail/11" 用数字构造url
2.解析详情页 获取简介数据
调试麻烦
scrapy shell
scrapy shell <url>
对得到的数据进行解析
注意 要在 scrapy项目下使用 因为需要加载settings
注意点:保证电影名和数据要对应
存储到mysql数据库中
数据库连接
创库建表
创库
建表
具体实施
数据库的连接代码
demo测试
存储的sql语句
navicat测试
存储内容 构造
写一个管道类
开启管道
检查优先级较高管道类有没有返回item
存储新问题
数据分别在两个方法里解析 如何让数据一致关联
https://ssr1.scrape.center/
两种形式的url
page页url
scrapy 三 豆瓣电影
豆瓣电影
网址 https://movie.douban.com/top250
需要 电影名 评分
步骤
获取一页数据
解析一页数据
构造page页 得到多页数据
xpath的使用
scrapy的使用
存储数据库