標籤:

第四章 文本和位元組序列

人類使用文本,計算機使用位元組序列。

本章講的主要內容是「編碼」n其實也沒有什麼好說的n作者就是在一直給我們這樣一個引導:

  • 「換unix類系統、使用Python3」

我的確是這樣做的,也的確沒有遇到什麼編碼相關的問題

編碼和解碼

把碼位轉換成位元組序列的過程是編碼(encode)n把位元組序列轉換為碼位的過程是解碼(decode)

n編碼和解碼nnns = hello the worldnb = s.encode(utf-8)nprint(b)nprint(b.decode(utf-8))nncn = "中國"n# gbk 和 gb2312 都是在win系統下使用較多的中文編碼nd = cn.encode(gbk)nprint (d)nprint(d.decode(gb2312))nnnOUT :nnbhello the worldnhello the worldnbxd6xd0xb9xfan中國nn

說點什麼?

編碼的問題,我沒有太多感觸,n這本書上的內容介紹了:

  • 字元、碼位、位元組標書
  • bytes,bytearray和memoryview,等二進位序列的獨特性
  • 全部Unicode和陳舊字符集的編碼器
  • 避免處理錯誤編碼
  • 處理文本的最佳實踐
  • 默認編碼的陷阱和標準I/O的問題
  • 規範化Unicode文本,進行安全比較
  • 。。。

其實以我現在淺薄的理解,n上面的問題我全都沒有遇到過,

在國內常用的中文編碼一般是 :gbk和gb2312n而在國際上,全球80%的網站都在使用 UTF-8.

Python3的默認編碼也是UTF-8n所以在遇到編碼相關問題的時候,n一本只要encode - decode一下就能解決。n所以這章我就粗略的掃了一下。

推薦閱讀:

flowpy添加switch語句支持
如何優化 Python 爬蟲的速度?
Python實現爬蟲代理池?
Python 機器學習之 SVM 預測買賣(標的物:比特幣)

TAG:Python |