导图社区 Python爬虫

Python爬虫

Python爬虫、后面的程序注意缩进，嵌套在while里面、数据抓取网页中指定样式的内容、取列表的第一个元素、括号里是网页源信息。

编辑于2023-01-10 21:12:14 广东

python爬虫

大海无量

他的近期作品查看更多>>

7个习惯
习惯就是人们长时间养成的生活方式和行为方式，它决定了我们做事的基本方法，有好的习惯的人做事都会有好的结果，而坏习惯的人往往难以成事，因而，人们常说习惯决定命运。这里总结了7个习惯帮助大家成为高效人士。
《60天引爆你的学习力》学习的基本过程
认知获取的概念知道一些概念、过程、信息、现象、方法,知道它们大概可以用来解决什么问题,而这些东西过去你都不知道。结论:认知获取是学习的开始,而非结束。比如当朋友给我们介绍一位新朋友时,朋友说,这位朋友性格活泼开朗。
国标重点水污染源运维
国标重点水污染源运维工作日常事项，整理了仪器设置、运维、维修检查的内容，一起来看吧！

Python爬虫

社区模板帮助中心，点此进入>>

大海无量

他的近期作品查看更多>>

相似推荐
大纲

论语孔子简单思维导图
- 87.6k
- 937
- 1.1k
- 483
- 1
MindMaster
《傅雷家书》思维导图
- 133.3k
- 1.7k
- 2.7k
- 1.3k
- 0
MindMaster
《童年》读书笔记
- 45.3k
- 488
- 985
- 336
- 0
MindMaster
《茶馆》思维导图
- 12.5k
- 175
- 181
- 40
- 0
MindMaster
《朝花夕拾》篇目思维导图
- 25.9k
- 529
- 1.2k
- 301
- 0
MindMaster
《昆虫记》思维导图
- 33.2k
- 270
- 778
- 276
- 0
MindMaster
《安徒生童话》思维导图
- 18.3k
- 274
- 264
- 66
- 0
MindMaster
《鲁滨逊漂流记》读书笔记
- 21.4k
- 309
- 549
- 166
- 0
MindMaster
《这样读书就够了》读书笔记
- 97.8k
- 12.8k
- 9.0k
- 2.2k
- 0
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 10.2k
- 1.7k
- 407
- 40
- 0
Ethan

Python爬虫

数据抓取整个网页

基本框架

导入模块

from urllib import request

url地址

url = "

地址需要更改

网页源代码里有

用户信息头

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"}

浏览器和版本型号需要更改

模拟用户打开网页

封装对象

rq = request.Request(url, headers=headers)

用程序打开网页

resp = request.urlopen(rq)

读取信息

msg = resp.read().decode('gb2312')

网页源代码里有

在第四行附近

meat. ;charset=gb2312

转码

打印

print(msg)

数据抓取网页中指定样式的内容

基本框架

导入模块

from urllib import request

from bs4 import BeautifulSoup

抓取网页源的信息必须要的模块

from openpyxl import Workbook

导入工作簿

url地址

url = "

地址需要更改

网页源代码里有

用户信息头

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"}

浏览器和版本型号需要更改

模拟用户打开网页

封装对象

rq = request.Request(url, headers=headers)

用程序打开网页

resp = request.urlopen(rq)

读取信息

msg = resp.read().decode('gb2312')

网页源代码里有

在第四行附近

meat. ;charset=gb2312

转码

通过网页源内容

bf = BeautifulSoup(msg, "html.parser")

网页抓取可以不用改，html

创建bs对象

抓取内容1

texts = bf.find_all(′h1′, id=′newstitle′)

括号里是网页源信息

子主题

# \xa0 是不间断空白符

texts = texts[0].text.replace('\xa0' * 8, '

').strip()

取列表的第一个元素

只要文本

空行

rep后面

去前后空格

strip()

print(texts)

抓取内容2

texts1 = bf.find

all(′div′, class =′tsnr′)

括号里是网页源信息

子主题

# \xa0 是不间断空白符

texts1 = texts1[0].text.replace(′\xa0′ * 8, ′

′).strip()

取列表的第一个元素

只要文本

空行

rep 后面

去前后空格

strip()

print(texts1)

抓取内容3

texts2 = bf.find

all(′div′, class =′tsnr′)

括号里是网页源信息

子主题

# \xa0 是不间断空白符

texts2 = texts2[0].text.replace(′\xa0′ * 8, ′

′).strip()

取列表的第一个元素

只要文本

空行

rep 后面

去前后空格

strip()

print(texts2)

批量采集数据到Excel

基本框架

导入模块

from urllib import request

from bs4 import BeautifulSoup

抓取网页源的信息必须要的模块

from openpyxl import Workbook

导入工作簿

定义工作簿

wb=Workbook()

sheet=wb.create_sheet('Sheet1',index=0)

定义工作表名称

row=['投诉标题','投诉内容']

定义工作表行标题

sheet.append(row)

打开行

后面的程序注意缩进，嵌套在while里面

循环抓取

#####

后面的程序注意缩进，嵌套在while里面

url地址

url = "

地址需要更改

网页源代码里有

用户信息头

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"}

浏览器和版本型号需要更改

模拟用户打开网页

封装对象

rq = request.Request(url, headers=headers)

用程序打开网页

resp = request.urlopen(rq)

读取信息

msg = resp.read().decode('gb2312')

网页源代码里有

在第四行附近

meat. ;charset=gb2312

转码

通过网页源内容

bf = BeautifulSoup(msg, "html.parser")

网页抓取可以不用改，html

创建bs对象

抓取内容1

texts = bf.find_all(′h1′, id=′newstitle′)

括号里是网页源信息

子主题

# \xa0 是不间断空白符

texts = texts[0].text.replace('\xa0' * 8, '

').strip()

取列表的第一个元素

只要文本

空行

rep 后面

去前后空格

strip()

print(texts)

抓取内容2

texts1 = bf.find

all(′div′, class =′tsnr′)

括号里是网页源信息

子主题

# \xa0 是不间断空白符

texts1 = texts1[0].text.replace(′\xa0′ * 8, ′

′).strip()

取列表的第一个元素

只要文本

空行

rep 后面

去前后空格

strip()

print(texts1)

抓取内容3

texts2 = bf.find

all(′div′, class =′tsnr′)

括号里是网页源信息

子主题

# \xa0 是不间断空白符

texts2 = texts2[0].text.replace(′\xa0′ * 8, ′

′).strip()

取列表的第一个元素

只要文本

空行

rep 后面

去前后空格

strip()

print(texts2)

循环结尾

#####