python2中的Unicode Strings

是丫丫呀1年前 (2023-11-21)阅读数 33#技术干货

从python2.0开始，就有一种新的数据类型UnicodeStrings，但是在python3的到来，这个概念已经被弱化了。python2.*的默认编码格式是ASCII码，而python3.*的默认编码格式已经换成了Unicode，所以2.*还是有必要提一下。在python2系列中，如果要操作非ASCII码的字符，就可以用这个对象进行操作。它可以跟strings进行任意的转换。比如，现在有一个字符串变量s，保存中文字符"测试"，现在直接打印是会报错的，因为存在一个非ASCII码的字符，python2.*是无法进行解析的，如果在上面加个u，就能正常显示(在集成开发工具内，设置集成工具和工程的默认编码为utf-8)

#-*-coding:gbk-*-if__name__=="__main__":

s1='测试'

#s1=s1.decode('gbk')

s1=unicode(s1,'gbk')

prints1

如上代码段在JetBrainsPyCharm2016.1.2内，使用2.7.11做解释器，做了一个小测试~~

1.不设置源文件编码格式，输入中文，后直接打印，会提示存在‘non-ascii’，编译不通过

2.设置源文件编码格式为gbk，输入中文后，打印乱码

3.设置源文件编码格式为gbk，输入中文s1=u'测试'后，打印正常

4.设置源文件编码格式为gbk，输入中文后，先将字符串解码decode或者unicode方法，后打印正常

5.设置源文件编码格式为utf-8，输入中文后直接输出正常

6.设置工具和工程的默认编码为gbk，输入中文后，打印正常。

然后有点明白了~~在python2系列的IDE中声明一个非ASCII码的字符串，不声明源文件的编码格式，编译是不通过的，因为源文件python2的解析器尝试使用默认的ASCII码去编译，却发现存在非ASCII码的字符串;如果在此基础上设置源文件的编码格式为gbk，编译是可以通过了，但是打印出来的字符串是乱码的，为啥乱码呢?因为IDE是采用utf-8的编码格式，而源文件是采用gbk格式，所以会出现中文乱码现象，单纯的解决乱码有3种可行方式，一个方法是：将源文件里需要打印的字符串解码成utf-8(或者unicode)再打印;另一个方法是：修改源文件的编码格式直接为utf-8，最后一种是：修改IDE编码格式为gbk;显然第二种方法是最佳方法。

以上内容为大家介绍了python2中的UnicodeStrings，希望对大家有所帮助，如果想要了解更多Python相关知识，请关注IT培训机构:开发教育。

鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com

免责声明：我们致力于保护作者版权，注重分享，当前被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱：344225443@qq.com)

图片声明：本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明：本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)