导图社区 scrapy框架

scrapy框架

scrapy框架：scrapy 一：爬虫的原理伪装成客户端与服务端进行数据交互；爬虫框架 scrapy。

编辑于2022-11-10 22:10:24

Scrapy框架

张持枢

他的近期作品查看更多>>

时间管理-读书笔记
时间管理-读书笔记，通过学习和应用这些方法，读者可以更加高效地利用时间，重新掌控时间和工作量，实现更高效的工作和生活。
设计史理解理论与方法⭐️（谢尔提·法兰2016）
本书是法兰教授的最新作品之一，主要阐明了设计史的来源、设计史现在的状况以及设计史的未来发展可能等三个基本问题。通过对设计史学科理论与方法的讨论，本书旨在促进读者对什么是设计史以及如何写作一部好的设计史等问题的深入认识与反思。
计算机组成原理
《计算机组成原理》涵盖了计算机系统的基本组成、数据的表示与运算、存储系统、指令系统、中央处理器（CPU）、输入输出（I/O）系统以及外部设备等关键内容。通过这门课程的学习，学生可以深入了解计算机硬件系统的各个组成部分及其相互之间的连接方式，掌握计算机的基本工作原理。

scrapy框架

社区模板帮助中心，点此进入>>

张持枢

他的近期作品查看更多>>

相似推荐
大纲

英语词性
- 62.8k
- 6.5k
- 2.4k
- 577
- 0
Ethan
互联网9大思维
- 39.0k
- 974
- 2.4k
- 401
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 17.9k
- 3
- 186
- 9
- 1
Kacyun
法理
- 28.5k
- 67
- 376
- 49
- 1
Dasein
刑法总则
- 38.4k
- 148
- 966
- 156
- 0
Dasein
【华政插班生】文学常识-先秦
- 4.7k
- 4
- 70
- 2
- 0
Dasein
【华政插班生】文学常识-秦汉
- 2.8k
- 0
- 54
- 10
- 0
Dasein
文学常识：魏晋南北朝
- 3.9k
- 3
- 90
- 20
- 0
Dasein
【华政插班生】文学常识-隋唐五代
- 4.3k
- 8
- 98
- 6
- 0
Dasein
【华政插班生】文学常识-两宋
- 2.6k
- 5
- 70
- 8
- 0
Dasein

scrapy框架

分布式抓取小说

cmd启动和结束 redis的键中会不会消失

在任务结束的时候，redis里面的内容会消失

在任务没有消耗完成的时候，redis中指纹与request 不会消失

如果想要程序结束依然保持有redis的指纹队列，使用 persitst 保持队列中的数据

SCHEDULER_PERSIST = True

可以实现断点续抓

lpush往数据里 start_urls 里面添加的时候，依然会被消费掉

scrapy 其他

日志运维使用

普通单个文件非scrapy框架内使用 loguru 添加日志

setting一些设置讲解

教案 scrapy 框架五

日志文件配置框架四

Request 和 Response 对象

crawlSpider类

github登录

https://github.com/session

POST

formdata

网页源代码中去查找

去其他的url的响应中查看是否有内容

js生成的

scrapy 纵横小说

网址

http://book.zongheng.com/store/c0/c0/b0/u0/p1/v0/s9/t0/u0/i1/ALL.html

全部免费

目标内容

小说名字作者字数简介章节目录内容

第一级 pageurl ------ 小说链接（novelurl ） ok

第二级 novelurl ------ 小说信息章节目录url(chapterurl )

第三级 chapterurl --- 每个章节的url 章节目录名字和章节内容url

第四级每个章节内容url ----- 小说内容

存储到数据库

问题

对方会检测到你的ip 如果你访问频繁会封禁你的ip 购买ip 更换ip 如何更换

用户代理如何跟换用户代理

目的是为了不让网站引起怀疑

项目

要求获取数据

拿到对应的数据

存储到相应的位置

爬取

反爬

js逆向破解高级阶段

ip 代理ip 1000次

购买 ip

更换请求头

速度上

分布式架构

scrapy

存储

mysql

mongo

excel

txt

scrapy 一

爬虫的原理伪装成客户端与服务端进行数据交互

requests url re xpath 图片电影信息

目的获取100张图片

构造 page_url

问题点

慢

IO比较多

input output 读取写入比较多网络响应写入 cpu占用不多

多线程速度会快 1/2 1/3 线程安全

一个文件

爬取和存储在一个地方耦合高不利于维护

爬取

page_url

图片url

html url

json串

存储

存储txt

存储为图片

存储到mysql

存储到 excel

爬虫框架 scrapy

异步多线程纯python开发

异步是否影响顺序多线程要看同时的任务量

顺序是按顺序执行一个做完一个做

安装

anaconda

conda install scrapy 安装

使用

创建项目

scrapy startproject <project_name> [project_dir]

scrapy 二

目的

1.scrapy框架使用

2.熟悉如何进行爬虫

详情页

1.获取详情页的url

1.页面上解析得到详情url

2.构造

href="/detail/11" 用数字构造url

2.解析详情页获取简介数据

调试麻烦

scrapy shell

scrapy shell <url>

对得到的数据进行解析

注意要在 scrapy项目下使用因为需要加载settings

注意点：保证电影名和数据要对应

存储到mysql数据库中

数据库连接

创库建表

创库

建表

具体实施

数据库的连接代码

demo测试

存储的sql语句

navicat测试

存储内容构造

写一个管道类

开启管道

检查优先级较高管道类有没有返回item

存储新问题

数据分别在两个方法里解析如何让数据一致关联

https://ssr1.scrape.center/

两种形式的url

page页url

图片url

scrapy 三豆瓣电影

豆瓣电影

网址 https://movie.douban.com/top250

需要电影名评分

步骤

获取一页数据

解析一页数据

构造page页得到多页数据

xpath的使用

scrapy的使用

存储数据库