Python爬取gb2312编码的网页，并存储中文字符

使用python爬取gb2312编码的网页的时候，经常会出现乱码问题，将网页中获取的信息存入json文件中的时候，json文件默认会保存中文的Unicode编码，如果不进行转码，那么存入json文件中的中文会出现乱码问题。

工具/原料

python

方法/步骤

这是第一次写的代码，没有做任何的编码转化，最后得到的json文件中所有的中文都以Unicode编码的方式呈现，这样很不直观。

代码运行后的json文件中的内容如图片中所示，可以看到box_title后面的是Unicode，并且该编码转化为中文后还是一个乱码，所以就需要下面的处理了。

在python中，当遇到中文的时候就需要进行转码，中文的编码有多种，所以需要指明一种编码方式，这里使用sys.setdefaultencoding进行指明（当我们没有指明解码方式，python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding为ANSCII，如果 s 不是这个类型就会出错）

指明解码方式之后，需要将gb2312编码的网页进行转码，将编码转化为utf-8编码。

最后将josn.dump的参数中设置 ensure_ascii=False（设置之后就能正常的将中文存储在json文件中），完成之后，最终的代码如下

上一篇：python怎么运行代码

下一篇：IronPython | Python和.Net的混合编程

欧尼酱

Python爬取gb2312编码的网页，并存储中文字符

如何在线学习Python的编程？

Python如何运行一个python程序

如何使用Python实现根据网址采集网页？

Python编程初学者指南

Python web开发框架github下载地址

（web开发）用python创建一个最简单的网站

怎么学习用python编程序：[1]python初尝试

（web开发）用python模拟登录

python 从入门到精通教程一：[1]Hello,world!

python怎么运行代码

Python实现网页源码抓取

小白如何入门 Python 编程

怎么使用PyCharm编写Python程序，简单教程。

如何使用python的requests模块调用网站API

python编程序如何学习

python开发操作系统教程

如何成为一名高级Python程序员

Python下载教程

python入门系列:(3) python的几种编写方式

入门Python的教程

如何制作糖醋胡萝卜片？

《热血海贼王》声望快速获得途经攻略

魔兽世界7.0至高岭声望怎么冲攻略

饥荒怎么杀猪人 饥荒疯猪怎么走位打

nbalive声望币如何用

铁炉堡声望怎么刷

熹妃传的名望副本怎么玩

warframe怎么升级殁世械灵声望

92you《热血海贼王》声望的获得

糖醋白萝卜腌制方法

糖醋白萝卜的腌制方法

碧蓝航线小声望

虎豹骑声望怎么快速获得声望如何使用攻略

紫罗兰之眼声望怎么刷

战舰少女捞船大法

魔兽世界纳特帕格声望怎么冲

魔兽世界赞达拉部落声望怎样提升？

热血海贼王游戏的声望的获取方法

微微玩热血海贼王声望获得完全指南

热血海贼王声望获得途径

饥荒怎么杀猪人饥荒疯猪怎么走位打