news 2026/5/29 23:44:15

100 天学会爬虫 · Day 8:如何用 XPath 高效定位网页元素?(爬虫最常用解析方式之一)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
100 天学会爬虫 · Day 8:如何用 XPath 高效定位网页元素?(爬虫最常用解析方式之一)

在爬虫开发中,解析 HTML 的方式主要有三种:

  • 正则表达式(不推荐新手使用)

  • BeautifulSoup(简单易用)

  • XPath(最强大、最精确)

今天我们要学习的是爬虫工程师最喜欢的解析方式之一:

XPath —— 提取网页结构最强大的工具

只要你掌握 XPath,再复杂的 HTML 都能被你快速解析。


🔍 一、XPath 是什么?

XPath 全称:

XML Path Language(XML 路径语言)

虽然名字里带 XML,但它同样适用于HTML

它的作用是:

  • 通过路径查找节点

  • 精确定位网页元素

  • 快速提取文本、属性、子节点

你可以把 XPath 看成网页的“地图导航”:

从 /html/body/div[1]/h1 找到标题节点

非常直观、非常精确。


🧭 二、为什么爬虫必须掌握 XPath?

理由如下:

✔ 1. BeautifulSoup 不够精确

遇到多层嵌套或重复节点时,XPath 的定位能力远超 BeautifulSoup。

✔ 2. 数据结构复杂的网站,XPath 更容易处理

尤其是电商站点、资讯站点、层级列表网站。

✔ 3. XPath 语法非常统一

你学会一次,可以用一辈子。

✔ 4. lxml + XPath 的解析速度非常快

适合大规模爬虫工程。


🔧 三、用 lxml + XPath 的基础用法

安装 lxml:

pip install lxml

解析 HTML:

from lxml import etree html = etree.HTML("<html>...</html>") result = html.xpath("你的 XPath 表达式")

result会返回一个列表,包含匹配到的节点或文本。


🧪 四、XPath 常用语法(爬虫最常用 Top 10)


① 选取所有某标签节点

//h1 //div //a

② 选取具体 class 的标签

//h1[@class="title"]

③ 选取含有某部分 class 的节点(超常用)

//div[contains(@class, "item")]

适用于 class 多个值的情况:

<div class="item active main">

④ 选取文本内容

//h1/text()

⑤ 选取属性(如 src、href)

//img/@src //a/@href

⑥ 索引定位(从 1 开始)

//ul/li[1] # 第一个 li //ul/li[last()] # 最后一个 li

⑦ 选取子节点(/)

//div/h1

⑧ 选取任意深度节点(//)

//div//span

⑨ 选取包含文本的节点

//a[contains(text(), "Python")]

⑩ 多条件筛选(进阶)

//div[@class="item" and @data-id="123"]

🔍 五、实战示例:解析文章标题与内容

假设你抓取一个网页,结构如下:

<div class="article"> <h1 class="title">Python 爬虫入门</h1> <p class="summary">这是简介内容</p> </div>

XPath 提取:

提取标题:

title = html.xpath('//h1[@class="title"]/text()')

提取简介:

summary = html.xpath('//p[@class="summary"]/text()')

提取整个文章块:

article = html.xpath('//div[@class="article"]')[0]

🧩 六、解析列表结构(爬虫最常见场景)

网页中常见:

新闻列表
商品列表
评论列表
视频列表
结构可能是:

<ul class="news"> <li> <a href="/1.html">新闻 1</a> </li> <li> <a href="/2.html">新闻 2</a> </li> </ul>

提取所有标题:

titles = html.xpath('//ul[@class="news"]/li/a/text()')

提取所有链接:

links = html.xpath('//ul[@class="news"]/li/a/@href')

XPath 对列表解析极其强大。


🛠 七、如何在浏览器中获取 XPath?

Chrome 可以自动生成 XPath:

  1. 打开 Elements 面板

  2. 右键节点

  3. 点击Copy → Copy XPath

但注意:

  • 自动 XPath不够简洁

  • 很多路径层级过深

  • 建议自行优化

例如自动生成:

/html/body/div[2]/div[3]/div/h1

建议手写:

//h1[@class="title"]

更通用、更不易失败。

🔦 八、XPath 解析失败的常见原因


❌ 1. 页面由 JS 渲染(HTML 中没有数据)

此时应抓 Ajax 或使用 Selenium/Playwright。


❌ 2. class 有多个值,你却写成完整匹配

例如:

<div class="item active">

应写:

//div[contains(@class, "item")]

❌ 3. 标签层级不固定

//更稳妥。


❌ 4. 忘记加 text() 或 @href


✅ 总结

今天你学到了:

  • XPath 是最强大的 HTML 解析工具之一

  • 支持精确定位节点、属性、文本

  • 非常适合爬虫解析复杂网页

  • Chrome 可以辅助生成 XPath

  • XPath 常见的十大语法

  • XPath 在列表结构中的应用

  • XPath 失败的常见原因及解决方案

掌握 XPath 是你成为爬虫开发者的重要里程碑,一旦熟练,再复杂的页面都能迎刃而解。

如果你在写 XPath 时遇到:

  • 结构太复杂难以定位

  • 多层嵌套不知如何写路径

  • text() 提取不到内容

  • Chrome 生成的 XPath 不能用

  • 每个节点结构都不固定

可以加我微信cpseagogo,我可以帮你一起分析 HTML 结构和 XPath 写法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 23:33:34

Wan2.2-T2V-A14B在婚礼场地布置预览中的三维空间表达

Wan2.2-T2V-A14B&#xff1a;用一句话“说”出一场婚礼的视觉魔法 ✨ 你有没有经历过这样的场景&#xff1f;客户坐在你对面&#xff0c;眼神放光地说&#xff1a;“我想要一个梦幻、浪漫、有仪式感的婚礼……但又不要太俗气。” 然后你点头如捣蒜&#xff0c;心里却在疯狂打鼓…

作者头像 李华
网站建设 2026/5/30 4:16:29

为了解决传统M1卡(IC卡)安全性低、易被克隆的痛点,同时兼顾了老旧系统的升级门禁卡被随意复制、NFC模拟以及访客管理难的问题,一款“普通IC卡防复制破解之二维码刷卡门禁读卡器”。

门禁卡被随意复制、NFC模拟以及访客管理难的问题&#xff0c;推出了一款“普通IC卡防复制破解之二维码刷卡门禁读卡器”&#xff08;型号通常为DAIC-MJ-JMRW系列或相关QR版本&#xff09;。这款产品主要是为了解决传统M1卡&#xff08;IC卡&#xff09;安全性低、易被克隆的痛点…

作者头像 李华
网站建设 2026/5/30 3:40:16

有哪些轻松有效防控孩子近视的方法,却一直被家长忽视了?

在孩子近视防控的过程中&#xff0c;家长们往往聚焦于控制电子产品使用时长、督促户外活动等常见方法&#xff0c;却容易忽略一些融入日常、无需额外付出过多精力的关键手段。其中&#xff0c;眼调节训练灯作为一种能在孩子读书、写作业等核心用眼场景中同步发挥作用的工具&…

作者头像 李华
网站建设 2026/5/20 12:14:55

AI能不能帮你做工作汇报PPT?2025评测榜单告诉你答案

年终汇报愁断肠&#xff0c;AI办公来帮忙 又到年终&#xff0c;职场人都忙得晕头转向&#xff0c;其中最让人头疼的就是年终总结报告了。熬夜加班改报告是常有的事&#xff0c;好不容易写好了内容&#xff0c;却又在搭建框架上犯了难&#xff0c;内容显得杂乱无章。就算框架有…

作者头像 李华
网站建设 2026/5/29 17:40:09

B站视频下载终极指南:批量下载高清画质一键搞定

还在为无法离线观看B站精彩内容而烦恼吗&#xff1f;想要轻松实现B站视频下载&#xff0c;享受高清画质的观影体验&#xff1f;今天为大家推荐一款功能强大的开源工具——哔哩下载姬&#xff0c;让你彻底告别在线播放的种种限制&#xff01; 【免费下载链接】downkyi 哔哩下载姬…

作者头像 李华
网站建设 2026/5/30 3:38:57

2026年大模型(LLM)学习终极指南:从零基础到精通,一篇涵盖全部核心技术与实战!

简介 大语言模型技术主要包括预训练、适配微调、提示学习和知识增强等。预训练阶段通过优化任务设计、热启动机制和分层渐进训练等策略提升效率&#xff1b;适配微调包括指令微调和参数高效微调(如Prefix-Tuning、LoRA等)&#xff1b;提示学习涵盖少样本、零样本和上下文学习&…

作者头像 李华