正则表达式 - python 爬虫匹配中文总是失败?
PHP中文网
PHP中文网 2017-04-17 16:09:32
0
4
476
PHP中文网
PHP中文网

认证高级PHP讲师

全員に返信(4)
Ty80

html 漏了u?
另外看下你整个文件保存的字符集,不然即使你加了u,如果文件是GBK的那么也可能遇到一些意外的问题。

いいねを押す +0
阿神
  1. 字符集不同,如@DDTDDT 所说,你的html缺了unicode的标记u,但是正则表达式却用了unicode

  2. 你的微信号后面的冒号,一个是半角,一个是全角

いいねを押す +0
左手右手慢动作

可以使用Beautiful Soup

いいねを押す +0
小葫芦

你正则表达式是 unicode 编码的,你的 html 是字符串类型的,在 python2 中中文字符一般设置成的是utf-8编码,你用 unicode 字符串的正则去获取 utf-8 编码的字符串当然就匹配失败了。

建议将 html 用 unicode 编码。

也就是拿到 utf-8 编码的html后 ,content = html.decode('utf-8')

再用正则匹配 content

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!