台湾 || 语言: 大陆简体港澳繁體台灣正體

一篇文章助你理解Python2中字元串編碼問題

雪花臺灣 2019-03-03 11:24

前幾天給大家介紹了unicode編碼和utf-8編碼的理論知識，沒來得及上車的小夥伴們可以戳這篇文章：淺談unicode編碼和utf-8編碼的關係。下面在Python2環境中進行代碼演示，分別Windows和Linux操作系統下進行演示，以加深對字元串編碼的理解。

1、首先在Windows操作系統下的Python2環境中進行演示，我們都知道Python2中的編碼問題經常出現，需要通過編碼（encode）和解碼（decode）進行實現。通過cmd進入命令行窗口，然後輸入兩個字元串』abc』和u』abc』，如下圖所示。需要注意的是這兩個字元串的編碼格式是不一樣的，前者是string，後者是unicode。接下來對其進行編碼，指定編碼為utf-8，可以發現兩個都正常顯示，沒有報錯。

當字元串變為中文的時候，爾後對其再次進行編碼演示的時候，如下圖所示，可以看到前者有報錯產生，而後者沒有報錯。這個報錯在Python2中經常出現，所以需要特別注意，Python字元串在內存中它是通過unicode來進行編碼的。此時定義的str1它傳遞過來的是utf-8編碼，非unicode編碼，使用encode()函數的前提是待轉換的字元串編碼為unicode編碼。所以可以看到str1會報錯，而str2並沒有報錯。在Windows下字元串的編碼格式是GB2312編碼，在Linux下字元串的編碼格式是utf-8編碼。如果想要將str1順利的轉換為utf-8編碼的話，則需要先將str1進行解碼成unicode編碼，再進行編碼即可，此時得到的結果同str2轉換的結果是一致的。

2、現在在Linux操作系統下的Python2環境中進行演示，使用一樣的字元串，結果最後是一樣的，但是過程有些不同，如下圖所示。

在Windows下字元串的編碼格式是GB2312編碼，在Linux下字元串的編碼格式是utf-8編碼。所以當輸入有中文的字元串的時候，直接編碼為utf-8會報錯；通過gb2312編碼進行解碼也會報錯。只要通過utf-8編碼進行解碼，然後再通過utf-8進行編碼纔可以正確的輸出結果。

有個地方大家可能會覺得很奇怪，就是一開始str1.encode(『utf-8』)，表面上看上去str1已經是unicode編碼了，之後進行編碼，按說沒有什麼問題，可是為什麼還是會報錯呢？其實主要原因還是在於str1並不是真正的解碼成了unicode格式。其實str1.encode(『utf-8』)，它默認的會進行一步解碼，但是其decode()的過程調用的是默認的編碼格式，而這個默認的編碼格式卻是ASCII編碼，如下圖所示。

當中文字元串使用ASCII編碼進行解碼之後，本身就報錯了，後邊的encode(『utf-8』)根本就沒有執行到。

關於Python2中字元串編碼的問題，就先介紹到這裡了，相信大家應該有了一個初步的認識了，下一篇文章將介紹Python3中字元串編碼的問題。

推薦閱讀：

相關文章