Beautiful Soup
Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。
Beautiful Soup 支持 Python 标准库中的 HTML 解析器,还支持一些第三方的解析器,比如 lxml。它的用法非常简单,只需要导入库,然后创建一个 BeautifulSoup 对象即可。
安装
使用 pip 安装 Beautiful Soup:
bash
pip install beautifulsoup4元素查找
Beautiful Soup 提供了很多方法来查找元素,比如 find() 和 find_all()。
python
soup = BeautifulSoup(content_html, 'html.parser')
divs = soup.find('div', class_='content-block data-overview-dashboard')常用的查找方法
find 查找第一个符合条件的元素。
find_all 查找所有符合条件的元素。
select 使用 CSS 选择器来查找元素。
select_one 使用 CSS 选择器来查找第一个符合条件的元素。
get 获取元素的属性。
CSS 选择器
Beautiful Soup 支持 CSS 选择器,可以通过 select() 方法来使用。
比如:
python
soup.select('div.content-block.data-overview-dashboard')还可以支持更复杂的选择器,比如:
python
# 可以使用通配符
soup.select('div[class^="index-module__ring-container___"]')
# 可以使用属性选择器
soup.select('div[class*="index-module__ring-container___"]')获取元素的属性
可以使用 get() 方法来获取元素的属性。
python
user_id = row.get('data-row-key')