导图社区 python BeautifulSoup库
本思维导图是本人在学习python爬虫时学习BautifulSoup库时的总结形成的思维导图,里面包含了学习的主要内容,大家可以下载这个一遍参考
用于Web学习者和开发者使用,为Web前端开发的新手和有经验的开发者提供了一个清晰、全面的资源,帮助他们了解Web开发的核心技能和实践。感兴趣的小伙伴可以收藏一下~
随着TT的飞速发展,“大智物移云的时代已经来临。”大智物移云“分别指的是大数据、人工智能、物联网、移动互联、云计算技术。现在是一个计算无处不在、软件定义一切、网络包容万物、连接随处可及、宽带永无止境、智慧点亮未来时代。云技术是指实现云计算的一些技术,包括虚拟化、分布式计算、并行计算等;云计算除了技术之外更多的指一种新的IT服务模式,可以说目前提到较多的云计算30%是指技术,70%是指模式。大数据基础相关知识点,用于帮助同学们复习相关知识点。
Java面向对象编程思维导图,主要是用于期末复习自学作参考,导图精简且有助于知识点的理解与记忆。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
python BeautifulSoup库
用from bs4 import BeautifulSoup来引入模块 定义: BeautifulSoup用来解析,维护,‘标签树’的功能库
功能
1. 上行遍历
1. .parent
节点的父亲标签
2. .parents
节点先辈标签的迭代类型,用于循环先辈节点
2. 下行便利
1. .contents
子节点列表,将<tag>所有子节点存入列表
2. .children
子节点的迭代类型,与.content类似,用于循环遍历儿子节点
3. .descandants
子孙节点的迭代类型,包含所有子孙节点,用于循环遍历
3. 平行遍历
1. .next_sibling
返回按照html文本顺序的下一个平行节点标签
2. .previous_sibling
返回按照html文本顺序的上一个节点标签
3. .next_siblings
迭代类型,返回按照html文本顺序后续所有平行节点标签
4. .previous_siblings
迭代类型,返回按照html文本顺序前序所有平行节点标签
解析器
1. html.parser
bs4的html解释器部分
2. lxml
html中的lxml解释器部分
3. xml
lxml中的xml的解释器部分·
4. html5lib
html5下面的lib的解析器部分
基本元素
1. tag
标签,最基本的信息组成单元,分别用<></>标明开头和结尾
soup.tag(soup.p)
2. name
标签名字
soup.tag.name(soup.p.name)
3. attributes
标签的属性,字典形式组织
soup.tag.attrs(soup.p.attrs)
4. NavigableString
标签内非属性字符串
soup.p.string(soup.p.string)
5. Comment
标签内字符串的注释部分
标签里面有注释时就会显示comment类型
标签
标签1
子标签1
子标签
标签2
子标签2
子标签3
</p>
soup=BeautifulSoup(demo,'html.parser)
demo=r.text
r=requests.get(url)
url为自己抓取的网页路径
string
非属性字符串/注释string
<p
标签名称name
class='title'
标签属性attrs