1.Headers发爬虫;Cookie,Refer,User-Agent;解决方案:通过F12获取headers,传递给requests.get()方法
2.ip限制;网站根据ip地质访问频率进行反爬,短时间内禁止ip访问,或者输入验证码才能访问;解决方案:a.构造自己的ip代理池,每次访问随机选择代理,经常更新代理池;b.购买开放代理或者私密代理ip;c.降低爬取的速度
3.User-Agent限制:类似于ip的限制;解决方案:构造自己的User-Agent池,每次访问随机选择
4.Ajax动态加载:从url加载网页的源代码以后,会在浏览器执行JavaScript程序,渲染页面;解决方案:F12获抓包工具抓包处理
5.对查询参数加密,解决方案:找到js文件,分析加密算法,用python实现加密执行js文件中的代码,返回加密数据、
6.对响应内容做处理,比如嵌入js程序,指向一个假的url;解决方案:打印并查看响应内容,用xpath或者正则做处理