Beautiful Soup

Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。

Beautiful Soup 支持 Python 标准库中的 HTML 解析器，还支持一些第三方的解析器，比如 lxml。它的用法非常简单，只需要导入库，然后创建一个 BeautifulSoup 对象即可。

安装

使用 pip 安装 Beautiful Soup：

bash

pip install beautifulsoup4

Beautiful Soup 提供了很多方法来查找元素，比如 find() 和 find_all()。

python

soup = BeautifulSoup(content_html, 'html.parser')
divs = soup.find('div', class_='content-block data-overview-dashboard')

Beautiful Soup 支持 CSS 选择器，可以通过 select() 方法来使用。

比如：

python

soup.select('div.content-block.data-overview-dashboard')

还可以支持更复杂的选择器，比如：

python

# 可以使用通配符
soup.select('div[class^="index-module__ring-container___"]')

# 可以使用属性选择器
soup.select('div[class*="index-module__ring-container___"]')

可以使用 get() 方法来获取元素的属性。

python

user_id = row.get('data-row-key')