导图社区 Python 爬虫 Requests库
你想学会爬虫吗?很适合初学者,欢迎大家一起学习
社区模板帮助中心,点此进入>>
python思维导图
Java日常技术
java中io流图解
Java继承与多态
职场必看!Java编程思想思维导图
python留言网站
Python入门
python基础知识点简单总结
J2EE复习大纲
《C语言程序设计》思维导图
Python爬虫 Requests库
Requests库
爬取网页的源码
Response对象
调用requests方法返回的对象,包含服务器返回的所有信息
例:r = requests.get("http://www.baidu.com")
r即为Response对象
常用属性
r.status_code
HTTP请求的返回状态
200表示连接成功
404表示失败
r.text
HTTP响应内容的字符串形式,即url对应的页面内容
r.encoding
从HTTP header中猜测的响应内容编码方式
r.apparent_encoding
从内容中分析出的响应内容编码方式,更加准确
r.content
HTTP响应内容的二进制形式
常用方法
r.raise_for_status()
如果状态码(status_code)不是200,引发HTTPError异常
Requests库的异常
requests.ConnectionError
网络连接错误异常,如DNS查询失败、拒绝连接等
requests.HTTPError
HTTP错误异常
requests.URLREquired
URL缺失异常
requests.TooManyRedirects
超过最大重定向次数,产生重定向异常
requests.ConnectTimeout
连接远程服务器超时异常
requests.Timeout
请求URL超时,产生超时异常
requests.get()
获取HTML网页的方法,对应于HTTP的GET
requests.get(url,params=None,**kwargs)
参数说明
url
拟获取页面的url链接
params
(可选)url中的额外参数,字典或字节流格式
**kwargs
12个控制访问的参数
例:r = requests.get(url)
requests.head()
获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.head(url,**kwargs)
13个控制访问的参数
例:r = request.head('http://httpbin.org/get')
requests.post()
向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.post(url,data=None,json=None,**kwargs)
data
字典、字节序列或文件,Request的内容
json
JSON格式的数据,Request的内容
11个控制访问的参数
例:payload = {'key1': 'value1', 'key2': 'value2'} r = requests.post('http://httpbin.org/post', data = payload)
requests.put()
向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.put(url,data=None,**kwargs)
例:payload = {'key1': 'value1', 'key2': 'value2'} r = requests.put('http://httpbin.org/post', data = payload)
requests.patch()
向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.patch(url,data=None,**kwargs)
requests.delete()
向HTML网页提交删除请求,对应于HTTP的DELETE
requests.delete(url,**kwargs)