Python库详解之BeautifulSoup库

BeautifulSoup模块是用来从HTML/XML等文件提取所需数据的Python库.模块定义了许多有效的方法,便于处理导航、搜索、修改分析树等功能.与re模块相比,实现相同的功能简便高效.下图是bs4模块定义的子模块以及BeautifulSoup模块定义的函数.

工具/原料

ubuntu 16.04LTS系统

交互开发环境IPython 2.4.1

Python 2.7.12

方法/步骤

下文通过一段测试文本,说明BeaufulSoup的使用方法.首先导入模块:from bs4 import BeautifulSoup

使用BeautifulSoup解析这段代码,能够获取该模块的对象,而且能够得到一个标准缩进结构的格式化输出.

有了BeautifulSoup格式化的输出,我们可以简单测试下BeautifulSoup对性的属性,从下图可知,读入的txt是被BeautifulSoup模块转换为unicode编码形式了.

再来看下BeautifulSoup模块常用的函数方法.

初次使用bs = BeautifulSoup(html_txt)会有如下告警,提示可以用不用的html解析器来处理.

以下是主要的解析器和优缺点.

下图是不同的解析器之间的区别.可以看到字符:,用python默认的解析器以及lxml解析器解析后会自动补齐,但xml解析器则不会,由此可看到,如果被解析的HTML文档是标准格式,那么解析器之间没有任何差别,只是解析速度不同,结果都会返回正确的文档树.如果不是标准格式,那么不同的解析器返回结果可能不同.

注意事项

1
注意BeautifulSoup读入的文件会自动转为unicode编码.

2
注意不同解析器的区别.

上一篇：Python库详解之os.path库

下一篇：Python库详解之fileinput库

欧尼酱

Python库详解之BeautifulSoup库

声宝AM-PY36D/AU-PY36D型冷气机说明书:[3]

Python库详解之random库

Python库详解之heapq库

Python库详解之os库

python如何安装第三方库

python的random库应用讲解

python怎么安装已经下载的库，安装python库

python怎么查看安装了哪些库？

如何在windows上查看python安装了哪些库

python的requests库的安装和使用

Python库之BeautifulSoup库的搜索文档树(续1)

Python库详解之re库(续1)

Python库详解之Sets库

Python中如何安装和删除第三方库

python turtle库怎么使用？

如何在Python中添加库

Python库详解之os.path库

Python库详解之BeautifulSoup库

Python库详解之fileinput库

Python tkinter库安装方法

桂花树的花有什么功效与作用

喝决明子茶有什么好处？

决明子泡开水喝有什么作用

食用决明子有什么好处

桂花的好处都有哪些？

决明子有哪些作用

苦丁茶的功效与作用

原来卷心菜尽有这么多的好处

夏季养生吃得“苦”中“苦” 方为人上人

苦瓜的功效和作用？吃苦瓜的好处？

苦瓜是肝病的苦口良药

初夏保健小知识，总有一个适合你

苦瓜有什么功效吃苦瓜的好处中医建议吃苦瓜

怎么自制丝瓜化妆水

钓鱼肥水瘦水怎么选择钓点？对钓鱼有什么影响？

菊花的简笔画怎样画？

简笔画之菊花

白菊的花语是什么

重阳节菊花的简笔画法

不同品种菊花的干燥工艺以及菊花烘干机烘干效果