Python 3 学习笔记

人生苦短,我用 Python。

👉文章列表
Python 3 学习笔记 ⏬ 数字 数字的进制转换 集合 set 路径处理 sys.path 模块 使用 SimpleHttpServer 快速构建静态文件服务 包管理器 pip 的使用 virtualenv 的使用 CRC32 BeautifulSoup 使用指南 使用 BeautifulSoup 去除 HTML 中的注释 PyMySQL 使用指南 json 处理 yaml 处理 使用 getopt 库解析命令行参数 使用 argparse 库解析命令行参数 Jinja2 模板引擎

Python 3: BeautifulSoup 使用指南


BeautifulSoup 是一个处理 HTML 和 XML 的 Python 第三方库。

官方文档

安装

$ pip3 install beautifulsoup4

注意,还有一个包叫做 BeautifulSoup ,这个是旧版本(对应 BeautifulSoup3),不建议使用。

示例1:去除 HTML 中的 script

from bs4 import BeautifulSoup

html_content = '''
<script>a</script>
你好啊<p>hi</p>
<script>b</script>
'''
soup = BeautifulSoup(html_content, 'html.parser')
for s in soup('script'):
    s.extract()

new_html_content = str(soup)
print(new_html_content)

运行结果:

你好啊<p>hi</p>

示例2:去除 HTML 中的注释

from bs4 import BeautifulSoup, Comment

html_content = """
<div>
你好啊
<!--
这是注释
-->
</div>"""

soup = BeautifulSoup(html_content, 'html.parser')

for element in soup(text=lambda text: isinstance(text, Comment)):
    element.extract()

print(str(soup))

运行结果:


<div>
你好啊

</div>

( 本文完 )

文章目录