导图社区 网络爬虫步骤
网络爬虫的思维导图,包括根据首页的请求头获取源码信息、用bs4和正则式方法爬取"时政新闻” 部分的请求头、对新的请求头提出请求, 用json方法去解析、根据staticInfourl去进入到新闻文本网页去爬取信息、将爬取的文本信息保存到.html文件中.等内容。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
“时政要闻”信息爬取
1.根据首页的请求头获取源码信息
a.在源码中发现该网站为动态网页
b.源码中使用的ajax方法动态加载
2.用bs4和正则式方法爬取 “时政新闻”部分的请求头
a.使用bs4解析出首页源码信息
b.利用正则表达式去提取出“时政新闻”的请求头
c.将首页的url与“时政新闻”的url 拼凑出一个完整的请求头
3.对新的请求头提出请求, 用json方法去解析
爬取出每篇新闻的staticInfourl
4.根据staticInfourl去进入到 新闻文本网页去爬取信息
利用循环遍历的方法提取出 新闻文本信息和图片链接
5.将爬取的文本信息保存 到.html文件中
a.打开或创建一个html文件
b.在每次循环遍历信息时写入html文件中