python编码 | 好好学java | Spring Boot | Spring Cloud | 微服务 | Java技术 | Java面试 | 分布式

python,python基础,python学习

python基础

发布日期: 2021-04-05

作者: 欧阳思海

文章字数: 1.3k

阅读时长: 4 分

阅读次数:

本人花费半年的时间总结的《Java面试指南》已拿腾讯等大厂offer，已开源在github ，欢迎star！

本文GitHub https://github.com/OUYANGSIHAI/JavaInterview 已收录，这是我花了6个月总结的一线大厂Java面试总结，本人已拿大厂offer，欢迎star

原文链接：blog.ouyangsihai.cn >> python编码

点击上方”python宝典”,关注获取python全套视频，

技术文章第一时间送达!

一什么是编码？

基本概念很简单。首先，我们从一段信息即消息说起，消息以人类可以理解、易懂的表示存在。我打算将这种表示称为“明文”（plain text）。对于说英语的人，纸张上打印的或屏幕上显示的英文单词都算作明文。

其次，我们需要能将明文表示的消息转成另外某种表示，我们还需要能将编码文本转回成明文。从明文到编码文本的转换称为“编码”，从编码文本又转回成明文则为“解码”。

ASCII


s1=u'苑'
print repr(s1) #u'u82d1'

b=s1.encode('utf8')
print b
print type(b)  #type 'str'
print repr(b)  #'xe8x8bx91'

s2='苑昊'
u=s2.decode('utf8')
print u        # 苑昊
print type(u)  # type 'unicode'
print repr(u)  # u'u82d1u660a'

#注意
u2=s2.decode('gbk')
print u2  #鑻戞槉
print len('苑昊') #6

无论是utf8还是gbk都只是一种编码规则，一种把unicode数据编码成字节数据的规则，所以utf8编码的字节一定要用utf8的规则解码，否则就会出现乱码或者报错的情况。

Python 2 悄悄掩盖掉了 byte 到 unicode 的转换，只要数据全部是 ASCII 的话，所有的转换都是正确的，一旦一个非 ASCII 字符偷偷进入你的程序，那么默认的解码将会失效，从而造成 UnicodeDecodeError 的错误。py2编码让程序在处理 ASCII 的时候更加简单。你复出的代价就是在处理非 ASCII 的时候将会失败。

三 python3的string编码

py3也有两种数据类型：str和bytes； str类型存unicode数据，bytse类型存bytes数据，与py2比只是换了一下名字而已。


import json

s='苑昊'
print(type(s))       #class 'str'
print(json.dumps(s)) #  "u82d1u660a"

b=s.encode('utf8')
print(type(b))      # class 'bytes'
print(b)            # b'xe8x8bx91xe6x98x8a'


u=b.decode('utf8')
print(type(u))       #class 'str'
print(u)             #苑昊
print(json.dumps(u)) #"u82d1u660a"


print(len('苑昊')) # 2

四文件从磁盘到内存的编码

说到这，才来到我们的重点！

抛开执行执行程序，请问大家，文本编辑器大家都是用过吧，如果不懂是什么，那么word总用过吧，ok，当我们在word上编辑文字的时候，不管是中文还是英文，计算机都是不认识的，那么在保存之前数据是通过什么形式存在内存的呢？yes，就是unicode数据，为什么要存unicode数据，这是因为它的名字最屌：万国码！解释起来就是无论英文，中文，日文，拉丁文，世界上的任何字符它都有唯一编码对应，所以兼容性是最好的。

好，那当我们保存了存到磁盘上的数据又是什么呢？

答案是通过某种编码方式编码的bytes字节串。比如utf8-－－一种可变长编码，很好的节省了空间；当然还有历史产物的gbk编码等等。于是，在我们的文本编辑器软件都有默认的保存文件的编码方式，比如utf8，比如gbk。当我们点击保存的时候，这些编辑软件已经”默默地”帮我们做了编码工作。

那当我们再打开这个文件时，软件又默默地给我们做了解码的工作，将数据再解码成unicode,然后就可以呈现明文给用户了！所以，unicode是离用户更近的数据，bytes是离计算机更近的数据。

说了这么多，和我们程序执行有什么关系呢？

先明确一个概念：py解释器本身就是一个软件，一个类似于文本编辑器一样的软件！

现在让我们一起还原一个py文件从创建到执行的编码过程：

打开pycharm，创建hello.py文件，写入


ret=1+1
s='苑昊'
print(s)

当我们保存的的时候，hello.py文件就以pycharm默认的编码方式保存到了磁盘；关闭文件后再打开，pycharm就再以默认的编码方式对该文件打开后读到的内容进行解码，转成unicode到内存我们就看到了我们的明文；

而如果我们点击运行按钮或者在命令行运行该文件时，py解释器这个软件就会被调用，打开文件，然后解码存在磁盘上的bytes数据成unicode数据，这个过程和编辑器是一样的，不同的是解释器会再将这些unicode数据翻译成C代码再转成二进制的数据流，最后通过控制操作系统调用cpu来执行这些二进制数据，整个过程才算结束。

那么问题来了，我们的文本编辑器有自己默认的编码解码方式，我们的解释器有吗？

当然有啦，py2默认ASCII码，py3默认的utf8，可以通过如下方式查询


import sys
print(sys.getdefaultencoding())

识别图中二维码,欢迎关注python宝典

本人花费半年的时间总结的《Java面试指南》已拿腾讯等大厂offer，已开源在github ，欢迎star！

本文GitHub https://github.com/OUYANGSIHAI/JavaInterview 已收录，这是我花了6个月总结的一线大厂Java面试总结，本人已拿大厂offer，欢迎star

原文链接：blog.ouyangsihai.cn >> python编码

转载请注明: 好好学java python编码

python的语法规范及for和while

点击上方”python宝典”,关注获取python全套视频，技术文章第一时间送达! 1、缩进：空白在Python中是重要的。事实上行首的空白是重要的。它称为缩进。在逻辑行首的空白（空格和制表符）用来决定逻辑行的缩进层次，从而用来决定语句的

2021-04-05 python基础

python,python基础,python学习

python文件操作

点击上方”python宝典”,关注获取python全套视频，技术文章第一时间送达! 一介绍计算机系统分为：计算机硬件，操作系统，应用程序三部分。我们用python或其他语言编写的应用程序若想要把数据永久保存下来，必须要保存于硬盘中，

2021-04-05 python基础

python,python基础,python学习

三 python3的string编码

四 文件从磁盘到内存的编码

多少都是对我的认可

四文件从磁盘到内存的编码