XPath的and和or运算符如何组合多个条件？-XML/RSS教程-PHP中文网

xpath中and和or的优先级规则是：1. and运算符的优先级高于or运算符，因此在无括号的情况下会先执行and；2. 可通过括号明确优先级，确保逻辑符合预期；3. 实际应用中需结合稳定属性、分步定位和分段测试来提升表达式的可读性与维护性；4. 典型场景包括数据抓取中的多条件商品筛选、评论过滤，以及自动化测试中的元素状态验证与复杂定位，均依赖and和or的灵活组合实现精准匹配。

XPath的and和or运算符如何组合多个条件？

XPath中，

and

登录后复制

和

or

登录后复制

运算符用于连接多个条件表达式，创建更精确的节点选择路径。它们可以灵活组合，通过括号来明确优先级，实现复杂的筛选逻辑，从而帮助我们从复杂的XML或HTML文档中精准定位到目标元素。

XPath的

and

登录后复制

和

or

登录后复制

运算符是进行条件组合的核心。简单来说，

and

登录后复制

要求所有条件都必须为真，才能匹配到节点；而

or

登录后复制

则表示只要其中一个条件为真，就能匹配。

比如，我想找一个

div

登录后复制

元素，它必须同时满足两个条件：

id

登录后复制

是"content"并且

class

登录后复制

是"main"。这时候我就会写：

//div[@id='content' and @class='main']

登录后复制

如果我希望找到一个

div

登录后复制

元素，只要它的

id

登录后复制

是"header"或者

class

登录后复制

是"footer"就行，那么我会用

or

登录后复制

：

//div[@id='header' or @class='footer']

登录后复制

事情变得有趣起来，当我们把

and

登录后复制

和

or

登录后复制

混在一起用的时候。就像写代码一样，优先级是个大问题。我记得有一次，我尝试去抓取一个电商网站的产品信息，需要找到那些既是“新品”又是“打折商品”的，但同时，如果它属于某个“特定品牌”，无论是否打折或新品，我也想把它抓出来。一开始我没加括号，结果发现抓出来的数据总是不对劲，有些不符合预期的产品也进来了。后来才意识到，

and

登录后复制

的优先级比

or

登录后复制

高。

所以，如果我想表达“（是新品且打折）或者（是特定品牌）”，我必须用括号来强制优先级：

//div[(@class='new-arrival' and @class='discount') or @data-brand='XYZ']

登录后复制

如果没有括号，

and

登录后复制

会先执行，表达式就会被解析成“是新品并且（是打折或者特定品牌）”，这显然不是我想要的。这个小细节，当年可把我折腾得不轻，也让我对XPath的逻辑运算有了更深刻的理解。

XPath中and和or的优先级规则是什么？

在XPath中，

and

登录后复制

运算符的优先级高于

or

登录后复制

运算符。这意味着，在一个没有明确括号的表达式中，

and

登录后复制

条件会优先被评估。这个规则与许多编程语言中的逻辑运算符优先级是一致的，例如Java、Python或JavaScript等。

举个例子，假设我们有这样的XPath表达式：

//a[@href='#' and @class='active' or @id='default']

登录后复制

根据优先级规则，这个表达式会被解析为：

//a[(@href='#' and @class='active') or @id='default']

登录后复制

它会先查找所有

href='#'

登录后复制

并且

class='active'

登录后复制

的

<a>

登录后复制

标签，然后在这个结果集的基础上，再加入所有

id='default'

登录后复制

的

<a>

登录后复制

标签。

如果你想要表达的是“

href='#'

登录后复制

并且（

class='active'

登录后复制

或者

id='default'

登录后复制

）”，那么你必须使用括号来明确你的意图：

//a[@href='#' and (@class='active' or @id='default')]

登录后复制

这时候，括号内的

or

登录后复制

条件会先被评估，找出所有

class='active'

登录后复制

或者

id='default'

登录后复制

的

<a>

登录后复制

标签，然后这个结果集再与

href='#'

登录后复制

的条件进行

and

登录后复制

操作。这两种写法的最终匹配结果是截然不同的。理解并正确使用括号，是编写复杂XPath表达式的关键，它能确保你的选择器行为符合预期，避免因为优先级误解而导致的匹配错误。

构建复杂XPath表达式时，如何保证其可读性和维护性？

构建复杂的XPath表达式，尤其是在处理大型或结构不稳定的页面时，确实是个挑战。我个人的经验是，首先要避免“一锅端”式的超长表达式。把复杂的逻辑拆解开来，一步一步地构建，会清晰很多。

一个有效的方法是，先定位到一个大致的区域，比如一个特定的

div

登录后复制

或者

section

登录后复制

，然后再在这个区域内部进行更精细的筛选。这就像我们写CSS选择器一样，先

#main-content

登录后复制

，再

> .item

登录后复制

。

例如，如果你要找一个特定产品卡片里的价格：

//div[@class='product-card' and @data-id='12345']/div[@class='price']/span[@class='current-price']

登录后复制

这里，我先定位到特定的产品卡片，然后在这个卡片内部寻找价格元素。这比直接写一个很长的、从根节点开始的路径要清晰得多。

另一个是，尽可能使用那些相对稳定、具有业务含义的属性，而不是那些可能随时变化的、无意义的类名或索引。

id

登录后复制

属性通常是最好的选择，因为它理论上是唯一的。

name

登录后复制

、

data-*

登录后复制

属性（如

data-test-id

登录后复制

、

data-product-sku

登录后复制

）也非常好用，它们通常是为了方便开发或测试而设计的，相对稳定。如果只能依赖类名，尽量选择那些看起来不那么随机生成、更具描述性的类名。

最后，测试是不可或缺的。我经常会在浏览器开发者工具里（比如Chrome的Console）直接输入

$x("你的XPath表达式")

登录后复制

来验证我的表达式是否正确匹配了预期的元素。对于特别复杂的表达式，我会分段测试，确保每一步的筛选结果都是正确的，这能大大减少调试的时间。有时候，一个看起来很完美的XPath，在实际运行时却因为某个小细节而失效，这种时候，分段测试就能很快找出问题所在。

XPath条件组合在数据抓取与自动化测试中的典型应用场景有哪些？

XPath的条件组合能力在数据抓取（网络爬虫）和自动化测试中简直是不可或缺的利器。

在数据抓取方面，我经常用它来精确筛选出我需要的信息，同时排除掉无关的噪音。

筛选特定状态或属性的商品：比如，在一个电商网站上，我想抓取所有“有货”且“价格低于100元”的“图书”类商品。我可以写：
```
//div[@class='product-item' and contains(@class, 'in-stock') and .//span[@class='price' and number(text()) < 100] and .//a[@class='category-link' and text()='图书']]
```
登录后复制
这里，我结合了类名、属性值、文本内容以及数值比较，来达到非常精确的筛选目的。
定位具有多个特征的用户评论：如果我只想获取那些“评分高于4星”并且“包含特定关键词（如‘好用’或‘推荐’）”的用户评论，我可以这样写：
```
//div[@class='review-card' and .//span[@class='rating' and @data-stars > 4] and (contains(.//div[@class='review-text'], '好用') or contains(.//div[@class='review-text'], '推荐'))]
```
登录后复制
这能帮助我快速聚焦到高质量或有特定反馈的评论上。

在自动化测试中，XPath的条件组合则用于确保我们能稳定、准确地找到页面上的交互元素，并验证其状态。

查找特定状态的按钮或链接：例如，我要点击一个“提交”按钮，但前提是它必须是“启用”状态且“可见”的：
```
//button[text()='提交' and not(@disabled) and @aria-hidden='false']
```
登录后复制
或者更简洁地，如果
```
disabled
```
登录后复制
属性存在就表示禁用：
```
//button[text()='提交' and not(@disabled)]
```
登录后复制
这能避免测试脚本尝试点击一个不可交互的元素而导致失败。
验证表格中的特定行或单元格：在测试一个数据表格时，我可能需要验证某个特定用户（通过用户名识别）的“状态”是否为“活跃”：
```
//tr[.//td[text()='张三'] and .//td[text()='活跃']]
```
登录后复制
这里，我通过组合条件，确保定位到的是“张三”那一行的“活跃”状态单元格，而不是其他行或列。
定位具有多个数据属性的元素：当页面元素没有唯一的ID时，但有多个
```
data-*
```
登录后复制
登录后复制
属性来标识其业务含义，我可以用这些属性组合来定位。比如一个产品列表中的某个特定产品卡片：
```
//div[@data-product-id='P001' and @data-category='Electronics' and @data-status='Available']
```
登录后复制
这种方式在应对动态加载或结构复杂的页面时，能提供更强的健壮性。