导图社区 Python 爬虫 Requests库

Python 爬虫 Requests库

Python的Requests库主要用来爬取网页的源码，本导图对该库的主要内容进行了总结，并举例说明其用法。

编辑于2020-08-18 19:42:34

爬虫
requests库

小冰

他的近期作品查看更多>>

Python 爬虫 Requests库

社区模板帮助中心，点此进入>>

小冰

他的近期作品查看更多>>

相似推荐
大纲

python思维导图
- 10.1k
- 559
- 242
- 7
- 0
(*^▽^*)
Java日常技术
- 4.8k
- 1
- 109
- 1
- 0
GOGO-三杯吐然诺
java中io流图解
- 3.6k
- 66
- 97
- 12
- 0
韵呀
Java继承与多态
- 2.9k
- 12
- 41
- 4
- 0
半夏琉璃＆空人心
职场必看！Java编程思想思维导图
- 8.3k
- 5
- 998
- 168
- 0
彭明德
python留言网站
- 3.7k
- 1
- 10
- 1
- 0
幸福的钟声敲响
Python入门
- 4.3k
- 0
- 72
- 5
- 0
Jerry????
python基础知识点简单总结
- 4.1k
- 99
- 65
- 9
- 0
排列&组合
J2EE复习大纲
- 3.2k
- 0
- 16
- 2
- 0
顺便
《C语言程序设计》思维导图
- 6.6k
- 167
- 358
- 45
- 0
liangzhen

Python爬虫 Requests库

Requests库

爬取网页的源码

Response对象

调用requests方法返回的对象，包含服务器返回的所有信息

例：r = requests.get("http://www.baidu.com")

r即为Response对象

常用属性

r.status_code

HTTP请求的返回状态

200表示连接成功

404表示失败

r.text

HTTP响应内容的字符串形式，即url对应的页面内容

r.encoding

从HTTP header中猜测的响应内容编码方式

r.apparent_encoding

从内容中分析出的响应内容编码方式，更加准确

r.content

HTTP响应内容的二进制形式

常用方法

r.raise_for_status()

如果状态码(status_code)不是200，引发HTTPError异常

Requests库的异常

requests.ConnectionError

网络连接错误异常，如DNS查询失败、拒绝连接等

requests.HTTPError

HTTP错误异常

requests.URLREquired

URL缺失异常

requests.TooManyRedirects

超过最大重定向次数，产生重定向异常

requests.ConnectTimeout

连接远程服务器超时异常

requests.Timeout

请求URL超时，产生超时异常

常用方法

requests.get()

获取HTML网页的方法，对应于HTTP的GET

requests.get(url,params=None,**kwargs)

参数说明

url

拟获取页面的url链接

params

（可选）url中的额外参数，字典或字节流格式

**kwargs

12个控制访问的参数

例：r = requests.get(url)

requests.head()

获取HTML网页头信息的方法，对应于HTTP的HEAD

requests.head(url,**kwargs)

参数说明

url

拟获取页面的url链接

**kwargs

13个控制访问的参数

例：r = request.head('http://httpbin.org/get')

requests.post()

向HTML网页提交POST请求的方法，对应于HTTP的POST

requests.post(url,data=None,json=None,**kwargs)

参数说明

url

拟获取页面的url链接

data

字典、字节序列或文件，Request的内容

json

JSON格式的数据，Request的内容

**kwargs

11个控制访问的参数

例：payload = {'key1': 'value1', 'key2': 'value2'} r = requests.post('http://httpbin.org/post', data = payload)

requests.put()

向HTML网页提交PUT请求的方法，对应于HTTP的PUT

requests.put(url,data=None,**kwargs)

参数说明

url

拟获取页面的url链接

data

字典、字节序列或文件，Request的内容

**kwargs

12个控制访问的参数

例：payload = {'key1': 'value1', 'key2': 'value2'} r = requests.put('http://httpbin.org/post', data = payload)

requests.patch()

向HTML网页提交局部修改请求，对应于HTTP的PATCH

requests.patch(url,data=None,**kwargs)

参数说明

url

拟获取页面的url链接

data

字典、字节序列或文件，Request的内容

**kwargs

12个控制访问的参数

requests.delete()

向HTML网页提交删除请求，对应于HTTP的DELETE

requests.delete(url,**kwargs)

参数说明

url

拟获取页面的url链接

**kwargs

13个控制访问的参数