在网页抓取的上下文中,根据 CSS 类准确定位特定元素至关重要。虽然 CSS 选择器在处理 HTML 时很简单,但在处理 XML 文档或利用高级网页抓取技术时,XPath 就变得必要了。
这个问题源于需要使用 XPath 仅根据“日期”类来选择元素。但是,提供的代码片段会产生意外的结果。
//[@class="date"]
要正确选择 XPath 中具有特定类的元素,应使用以下语法:
//*[contains(concat(" ", normalize-space(@class), " "), " foo ")]
在此表达式中:
要避免的两个常见但有缺陷的 XPath 选择器包括:
这里提供的解决方案归因于网络爬虫同事发表了一篇有价值的博客文章来解决这个特定问题。我们感谢他们分享他们的见解。
以上是如何使用XPath正确选择CSS类?的详细内容。更多信息请关注PHP中文网其他相关文章!