导图社区 网络爬虫与自动提取
嵩天老师的免费公开课,整理了网络爬虫之规则、网络爬虫之提取、网络爬虫之框架的知识,一起来看。
教资考试科一大纲,包含职业理念、 职业道德、 教育法律法规等。有需要的朋友赶紧收藏吧!
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
网络爬虫与自动提取
网络爬虫之规则
requests库入门
Python语音开发工具选择
Requests的安装
requests库的7个主要方法
requests库的get()方法
r=requests.get(url)
1.构造一个向服务器请求资源的Request对象 2.返回一个包含服务资源的Response对象
response对象的属性
requests.get(url,params=None,**kwargs)
url:拟获取页面的url链接 params:url中的额外参数,字典或字节流格式,可选 **kwargs:12个控制访问的参数
爬取网页的通用代码框架
连接异常
HTTP协议
URL格式 http://host[:port][path] host:合法的Internet主机域名或IP地址 port:端口号,缺省端口为80 path:请求资源的路径
HTTP URL的理解:URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源
对资源的操作
requests库主要方法解析
requests.request(method,url,**kwargs) **kwargs:控制访问的参数,均为可选项 ①params:字典或字节序列,作为参数增加到url中 ②data:字典、字节序列或文件对象,作为Request的内容 ③json:JSON格式的数据,作为Request的内容 ④headers:字典,HTTP定制头 ⑤cookies:字典或CookieJar,Request中的cookie ⑥auth:元组,支持HTTP认证功能 ⑦files:字典类型,传输文件 ⑧timeout:设定超时时间,秒为单位 ⑨proxies:字典类型,设定访问代理服务器,可以增加登录认证 ⑩allow_redirects:True/False,默认True,重定向开关 ①①stream:True/False,默认True,获取内容立即下载开关 ①②verify:True/False,默认True,认证SSL证书开关 ①③cert:本地SSL证书路径
网络爬虫的“盗亦有道”
爬虫尺寸
小规模,数据量小,爬取速度不敏感
中规模,数据规模较大,爬取速度敏感
大规模,搜索引擎,爬取速度关键
爬虫引发的问题
性能骚扰
法律风险
隐私泄露
网络爬虫限制
来源审查:判断User–Agent进行限制
发布公告:Robots协议
Robots协议
作用:网站告知网络爬虫哪些页面可抓取
形式:在网站根目录下的robots.txt文件
使用 网络爬虫:自动或人工识别robots.txt,再进行内容爬取 约束性:是建议但非约束性,网络爬虫可不遵守,但存在法律风险
网络爬虫之提取
Beautiful Soup库入门
安装
运行cmd,执行pip install beautifulsoup4
基本元素
理解
是解析、遍历、维护“标签树”的功能库
解析器
基于bs4库的HTML内容遍历方法
HTML基本格式
标签树的下行遍历
HTML的上行遍历
HTML的平行遍历
基于bs4库的HTML格式输出
bs4库的prettify()方法
bs4库的编码
信息组织与提取方法
信息标记的三种形式
XML
最早的通用标记语言,可扩展性好,但繁琐,Internet上的信息交互与传递
JSON
信息有类型,适合程序处理,较XML简洁,移动应用云端和节点的信息通信,无注释
YAML
信息无类型,文本信息比例最高,可读性好,各类系统的配置文件
信息提取的一般方法
完整解析信息的标记形式,再提取关键信息
无视标记形式,直接搜索关键信息
融合方法:结合形式解析与搜索方法,提取关键信息
基于bs4库的HTML内容查找方法
Re(正则表达式)库入门
正则表达式的概念
是用来简洁表达一组字符串的表达式,是一种通用的字符串表达框架
正则表达式的语法
由字符和操作符构成
操作符1
操作符2
Re库的基本使用
Re库介绍
是Python的标准库,主要用于字符串匹配
正则表达式的表示类型
r'text'
Re库主要功能函数
Re库的另一种等价方法
Re库的Match对象
是一次匹配的结果
属性
方法
Re库的贪婪匹配和最小匹配
最小匹配符
网络爬虫之框架
Scrapy爬虫框架
Scrapy爬虫框架介绍
Scrapy爬虫框架解析
requests库和Scrapy爬虫的比较
Scrapy爬虫的常用命令
Scrapy爬虫基本使用