社区学习工具库休闲

简体中文

首页 > 后端开发 > Python教程 > python 采集中文乱码问题的方法

python 采集中文乱码问题的方法

高洛峰

发布： 2017-02-24 15:31:42

原创

1433 人浏览过

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

登录后复制

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

登录后复制

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了，希望对大家有所帮助，多多支持PHP中文网

更多python 采集中文乱码问题的方法相关文章请关注PHP中文网！

相关标签：

python 中文乱码

来源：php.cn

上一篇：Python黑帽编程 3.4 跨越VLAN 下一篇：20招让你的Python飞起来

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

html设置加粗、倾斜、下划线、删除线等字体效果示例介绍

1970-01-01 08:00:00
实现一个 Java 版的 Redis

1970-01-01 08:00:00
最简单的微信小程序Demo

1970-01-01 08:00:00
python中pandas.DataFrame（创建、索引、增添与删除）的简单操作方法介绍

1970-01-01 08:00:00
微信小程序：如何实现tabs选项卡效果示例

1970-01-01 08:00:00
Python构造自定义方法来美化字典结构输出

1970-01-01 08:00:00
HTML5:使用Canvas实时处理Video

1970-01-01 08:00:00
Asp.net使用SignalR实现发送图片

1970-01-01 08:00:00
微信小程序开发教程-App()和Page()函数概述

1970-01-01 08:00:00
详解python redis使用方法

1970-01-01 08:00:00

最新问题

有没有办法强制弹性框中的文本垂直居中，无论我们有什么其他 CSS 代码？我有以下CSS代码，它是我正在开发的网站中使用的更大CSS代码的一部分：.cards-u{display:flex;flex-wrap:wrap;justify-content:c...

来自于 2024-04-06 20:41:51

0

1

518

为什么省略 0ms sleep 会破坏我的 css 转换？我正在尝试实现FLIP动画，看看我是否理解正确。在这个代码笔中（请原谅糟糕的代码，我只是在乱搞），如果我注释掉睡眠，平滑过渡将不再有效。div突然改变位置。这很奇怪，因为睡眠时间为...

来自于 2024-04-06 16:29:50

0

2

490

在Laravel中以Bootstrap模式展示AWS PDF文件我已经下载了awsurl，例如https://xxx-xx-dev.s3.ap-south-1.amazonaws.com/std_check/655712202215174539...

来自于 2024-04-04 22:16:18

0

1

1450

尝试了一切方法，但HTML内容仍未显示基本上，html文档的内容不会在浏览器上显示任何内容。我制作的这个HTML文档是从另一个html文件链接的。当我在浏览器上打开这个HTML文件时，它是空白的，当其中有明确的代码时没...

来自于 2024-04-04 19:16:15

0

1

3496

将 HTTPS 重定向与重写规则相结合无法添加 .php 扩展名希望有人能够提供帮助。我想从内部链接中删除文件扩展名(.php)，但当然我需要首先在htaccess中进行配置。我相信正确的代码是RewriteEngineOnRewriteCon...

来自于 2024-04-04 15:44:30

0

1

299

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1421228
php入门教程之一周学会PHP

4264932
JAVA 初级入门视频教程

2516009
小甲鱼零基础入门学习Python视频教程

506192
PHP 零基础入门教程

861303

最新下载

更多>

网站特效

网站源码

网站素材

前端模板