第四章 文本和位元組序列
02-03
人類使用文本,計算機使用位元組序列。
本章講的主要內容是「編碼」n其實也沒有什麼好說的n作者就是在一直給我們這樣一個引導:
- 「換unix類系統、使用Python3」
我的確是這樣做的,也的確沒有遇到什麼編碼相關的問題
編碼和解碼
把碼位轉換成位元組序列的過程是編碼(encode)n把位元組序列轉換為碼位的過程是解碼(decode)
n編碼和解碼nnns = hello the worldnb = s.encode(utf-8)nprint(b)nprint(b.decode(utf-8))nncn = "中國"n# gbk 和 gb2312 都是在win系統下使用較多的中文編碼nd = cn.encode(gbk)nprint (d)nprint(d.decode(gb2312))nnnOUT :nnbhello the worldnhello the worldnbxd6xd0xb9xfan中國nn
說點什麼?
編碼的問題,我沒有太多感觸,n這本書上的內容介紹了:
- 字元、碼位、位元組標書
- bytes,bytearray和memoryview,等二進位序列的獨特性
- 全部Unicode和陳舊字符集的編碼器
- 避免處理錯誤編碼
- 處理文本的最佳實踐
- 默認編碼的陷阱和標準I/O的問題
- 規範化Unicode文本,進行安全比較
- 。。。
其實以我現在淺薄的理解,n上面的問題我全都沒有遇到過,
在國內常用的中文編碼一般是 :gbk和gb2312n而在國際上,全球80%的網站都在使用 UTF-8.
Python3的默認編碼也是UTF-8n所以在遇到編碼相關問題的時候,n一本只要encode - decode一下就能解決。n所以這章我就粗略的掃了一下。
推薦閱讀:
※flowpy添加switch語句支持
※如何優化 Python 爬蟲的速度?
※Python實現爬蟲代理池?
※Python 機器學習之 SVM 預測買賣(標的物:比特幣)
TAG:Python |