在网络爬虫过程中无法定位HTML元素。该元素在站点检查工具中可见

Question

我正在尝试从此URL中爬取所有表格的标题：https://www.nature.com/articles/s41586-023-06192-4我可以在网站上找到这个HTML元素：Table1CalculatedCt–M–Ctangles我无法爬取这个标题

P粉920485285 · Answer

所以你使用的代码看起来没问题，我想到的问题是，网站可能是通过JavaScript或某个XHR调用加载你要爬取的那个元素，因此当你使用requests库发送请求时，它无法获取到那个元素。

解决这个问题的方法是，尝试使用Selenium，用selenium打开网站，然后将页面源代码加载到bs4中，这样你的代码就能正常工作了。

注意：当整个网站加载完毕后，将页面源代码加载到bs4中。你还需要使用selenium创建一个登录功能，因为这个网站需要登录才能查看内容。