导图社区 Python爬虫
Python爬虫、后面的程序注意缩进,嵌套在while里面、数据抓取网页中指定样式的内容、取列表的第一个元素、括号里是网页源信息。
习惯就是人们长时间养成的生活方式和行为方式,它决定了我们做事的基本方法,有好的习惯的人做事都会有好的结果,而坏习惯的人往往难以成事,因而,人们常说习惯决定命运。这里总结了7个习惯帮助大家成为高效人士。
认知获取的概念 知道一些概念、过程、信息、现象、方法,知道它们大概可以用来解决什么问题,而这些东西过去你都不知道。 结论:认知获取是学习的开始,而非结束。 比如当朋友给我们介绍一位新朋友时,朋友说,这位朋友性格活泼开朗。
国标重点水污染源运维工作日常事项,整理了仪器设置、运维、维修检查的内容,一起来看吧!
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
Python爬虫
数据抓取整个网页
基本框架
导入模块
from urllib import request
url地址
url = "
"
地址需要更改
网页源代码里有
用户信息头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"}
浏览器和版本型号需要更改
模拟用户打开网页
封装对象
rq = request.Request(url, headers=headers)
用程序打开网页
resp = request.urlopen(rq)
读取信息
msg = resp.read().decode('gb2312')
在第四行附近
meat. ;charset=gb2312
转码
打印
print(msg)
数据抓取网页中指定样式的内容
from bs4 import BeautifulSoup
抓取网页源的信息必须要的模块
from openpyxl import Workbook
导入工作簿
通过网页源内容
bf = BeautifulSoup(msg, "html.parser")
网页抓取可以不用改,html
创建bs对象
抓取内容1
texts = bf.find_all(′h1′, id=′newstitle′)
括号里是网页源信息
子主题
# \xa0 是不间断空白符
texts = texts[0].text.replace('\xa0' * 8, '
').strip()
取列表的第一个元素
只要文本
空行
rep后面
去前后空格
strip()
print(texts)
抓取内容2
texts1 = bf.find
all(′div′, class =′tsnr′)
texts1 = texts1[0].text.replace(′\xa0′ * 8, ′
′).strip()
rep 后面
print(texts1)
抓取内容3
texts2 = bf.find
texts2 = texts2[0].text.replace(′\xa0′ * 8, ′
print(texts2)
批量采集数据到Excel
定义工作簿
wb=Workbook()
sheet=wb.create_sheet('Sheet1',index=0)
定义工作表 名称
row=['投诉标题','投诉内容']
定义工作表 行标题
sheet.append(row)
打开行
后面的程序注意缩进,嵌套在while里面
循环抓取
#####
循环结尾