python - pyspider遇到不能识别的url时报错

Question

大家好，我遇到一个很棘手的问题想请教大家是怎么解决的。 问题描述： pyspider遇到不规则的html页面时，只要其实包含不能正常解析的url时就会报错,如页面http://www.jb51.net/os/windows/win2008/18272.html，其...

大家讲道理 · Answer

如果你要深究，这是 lxml， pyquery， urlparse 标准库的 bug。

只能 catch 掉，然后手动建树。