Python中的编码问题，中文乱码问题

百变鹏仔1年前 (2023-11-21)阅读数 33#技术干货

文章标签字符串

如果不声明编码，则中文会报错，即使是注释也会报错。只要写中文，必须加一句：#--coding:utf-8--。

文档编码是一种告诉程序——无论是计算机的操作系统还是Python代码——读取文档的规则。正确读取一个文档，往往需要先知道文件的扩展名，因为编码方式往往与扩展名有很大的关系。

(1)纯文本文档的获取与处理：直接用urlopen读取后，用read()函数获取文本内容即可。纯文本页面不要转换成BeautifulSoup对象，因为无法解析，会被认为是一堆字符串，只能用字符串的操作方法来解析。

(2)CSV文档、PDF文档等非纯文本文档的读取方式：直接通过文档获取链接以字符串的方式读取文档——通过io库的StringIO函数将字符串转换为StringIO对象——通过CSV库或PDF库将StringIO对象读取为相应格式的文档，

编码类型：

(1)UTF-8：统一字符集-转换格式8位。它的开头有标记指示字符占了用了多少个字节来表示，一个字符最多有四个字节。

(2)ASCII：每个字符7位，用来表示中文会不够用，但是英文够用了。

(3)UtF-8和ASCII的结合：首位为0，即只包含一个字节的UTF-8字符和ASCII通用，因为相当于只用到了7位。但首位为1的两字节UTF-8字符不通用。

(4)ISO编码：解决非英文非中文语言文档太大的问题，比如土耳其语没有那么多字符，又不能用单纯的ASCII。因此使用ASCII的首位来做特殊化，可以针对不同的语言生成不同的规则。

在用Python读网页或文档时，最好统一将获取的内容统一转换成UTF-8编码。获取国际站的内容时，最好先看看网站metasharset信息中所指示的编码方式后再确定选择哪种编码方式。

Encode和Decode：

字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码(decode)成unicode，再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode(‘gb2312’)，表示将gb2312编码的字符串str1转换成unicode编码。

Python中的编码问题，中文乱码问题

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode(‘gb2312’)，表示将unicode编码的字符串str2转换成gb2312编码。

因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码

以上内容为大家介绍了Python中的编码问题，中文乱码问题，希望对大家有所帮助，如果想要了解更多Python相关知识，请关注IT培训机构:开发教育。

鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com

免责声明：我们致力于保护作者版权，注重分享，当前被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱：344225443@qq.com)

图片声明：本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明：本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)