python：requests获取网页源码的时候乱码-PHP中文网问答

/ 注册

php开发
前端

HTML| CSS| JavaScript| Vue.js

后端

PHP| ThinkPHP| Laravel| MySQL| Redis
最新推荐

php8，我来也

84669人学习

细说PHP(2021版)第一季

65727人学习

TP6.0 搭建个人博客实战（玉女心经版）

82984人学习

2018前端入门_HTML5

467778人学习
大前端
原生基础

HTML| CSS| HTML5| CSS3| JavaScript

框架开发

jQuery| Vue.js| React| AngularJS| Node.js| BootStrap| AJAX| Foundation
最新推荐

JavaScript极速入门_玉女心经系列

498837人学习

独孤九贱(1)_HTML5视频教程

471966人学习

CSS视频教程-玉女心经版

256484人学习

30分钟学会网站布局

152542人学习
后端开发
编程语言

PHP| Python| Go| Java| C| C++| C#| VBSscript| Scala| Lua| Perl| Ruby| JSP| XML| ASP

框架/工具

ThinkPHP| Laravel| Servlet| Django| ASP.NET
最新推荐

Thinkphp6.0正式版视频教程

224170人学习

php8，我来也

84669人学习

PHP实战天龙八部之微信支付视频教程

139536人学习

CI框架30分钟极速入门

81804人学习
数据库
基础入门

MySQL| SQL Server

进阶学习

MongoDB| Oracle| Redis| Memcached
最新推荐

MySQL权威开发指南（教程）

85022人学习

Redis基础视频课程

11944人学习

尚观Oracle入门到精通视频教程

20001人学习

PDO操作极速入门,今天你用了吗？

60816人学习
移动端
原生开发

Android| iOS

多端开发

Swift| Flutter| uni-app| 小程序| 其他
最新推荐

你的第一行UNI-APP代码

5487人学习

Uniapp简爱读书项目开发--第一季

15007人学习

公益直播：Uniapp微信小程序1:1仿饿了么首页

2150人学习

Flutter从零到APP上架

6980人学习
运维开发
环境使用

Linux| Docker

工具使用

PhpStudy| Git| 其他工具
最新推荐

phpStudy V8 视频教程

194925人学习

兄弟连新版Linux视频教程

359900人学习

Git教程(60分钟全程无废话版)

1142人学习

vscode其实很简单

19058人学习
UI设计
UI设计

Axure| PS
最新推荐

AXURE 9视频教程(适合产品经理交互产品设计 UI)

3206人学习

零基础精通 PS 视频教程

180550人学习

16天带你入门UI视频教程

48569人学习

PS技法与切片技术视频教程

17603人学习
计算机基础
类库分类

HTTP| TCP/IP| 编程基础
最新推荐

阿里云环境搭建以及项目上线视频教程

40936人学习

计算机网络概述—程序员必须掌握的基础知识

1049人学习

程序员入门必备教程—HTTP协议详解

750人学习

Websocket视频教程

32909人学习

python：requests获取网页源码的时候乱码

伊谢尔伦 2017-04-17 14:17:41

[Python讨论组]

346

def getHtml(url,timeout=20):
    try:
        headers = {
            'Accept-Language': 'zh-cn',
            'Content-Type': 'application/x-www-form-urlencoded',
            'User-Agent': 'Mozilla/4.0 (compatible MSIE 6.00 Windows NT 5.1 SV1)',
        }
        r = requests.get(url,headers=headers,timeout=timeout)
        html = r.text
        return html
    except Exception,ex:
        return None
soup = BeautifulSoup(getHtml())
print soup.title

以上代码，如何改进，才能在获取任何网页标题的时候，不至于乱码。
注：提取部分网页的标题的时候会直接乱码显示。如何改进，才能通用？

伊谢尔伦

小伙看你根骨奇佳，潜力无限，来学PHP伐。

全部回复(6)

ringa_lee2017-04-17 14:19:41 6楼

有个 chardet 用来检测编码的，如果安装了，BeautifulSoup 貌似会自动调用这个库来检测编码并 decode 成 unicode。

对了，上面是从网上看的。

总之拿到文件编码就好办了。

赞 +0

添加回复

PHP中文网2017-04-17 14:19:41 5楼

查看一下网页的编码，比如是gbk的话，就r.encoding='gbk'。一下内容摘自requests文档

Requests会自动解码来自服务器的内容。大多数unicode字符集都能被无缝地解码。

请求发出后，Requests会基于HTTP头部对响应的编码作出有根据的推测。当你访问 r.text 之时，Requests会使用其推测的文本编码。你可以找出Requests使用了什么编码，并且能够使用 r.encoding 属性来改变它:

r.encoding
'utf-8'
r.encoding = 'ISO-8859-1'
如果你改变了编码，每当你访问 r.text ，Request都将会使用 r.encoding 的新值。你可能希望在使用特殊逻辑计算出文本的编码的情况下来修改编码。比如 HTTP 和 XML 自身可以指定编码。这样的话，你应该使用 r.content 来找到编码，然后设置 r.encoding 为相应的编码。这样就能使用正确的编码解析 r.text 了。

赞 +0

添加回复