標籤:

JSP中的pagaEncoding和contentType中charset的區別

<%@ page contentType="text/html" pageEncoding="GBK" %>每一個JSP頁面中的首行都是以上的內容,其實這一行代碼的contentType中還隱藏了一個charset=「編碼類型」;我們知道,JSP本質上就是一個Servlet(JSP可以完成的功能Servlet全都可以完成,反之不行),而Servlet就是一個JAVA類,所以一個JSP頁面編寫完成之後執行的時候,Tomcat就會自動將其翻譯成*.java,然後再由*.java編譯成*.class文件,然後當用戶訪問JSP頁面的時候由Tomcat或其他容器來執行*.class文件。pageEncoding是JSP文件本身的編碼,而contentType中的charset是伺服器發送給客戶端時的內容編碼。下面來做一個小測驗就知道這兩者的差別了,首先我們新建一個簡單的jsp頁面,可以看到裡面只是簡單的輸出了一句話「測試pageEncoding和contentType中的charSet的區別!」,其中包含中文和英文字元,pageEncoding編碼方式設為「GBK」:[html]view plaincopyprint?

<%@pagecontentType="text/html"pageEncoding="GBK"%><html><head><title>登陸驗證</title></head><body><%="測試pageEncoding和contentType中的charSet的區別!"%></body></html>很顯然,啟動Tomcat程序運行沒有任何問題,可以輸出。

我們現在修改上面的代碼,在pageContent中加入charset=utf-8 ,即:<%@ page contentType="text/html;charset=utf-8" pageEncoding="GBK"%> 這樣我們再刷新頁面會出現中文亂碼

但是這種亂碼卻可以通過改變瀏覽器的編碼方式來解決,在瀏覽器空白處右鍵-->編碼,選擇Unicode(UTF-8)即可。那我們現在再來改一下,我們將pageEncoding改為utf-8;即:<%@ page contentType="text/html" pageEncoding="utf-8"%>這樣很明顯,JSP在編碼的時候將採用utf-8;默認的charset也是utf-8 ,這個時候刷新,頁面中又出現了亂碼。

在此基礎上,我們改變charset=gbk再來看一下效果,此時瀏覽器的編碼為utf-8:

修改瀏覽器編碼為GBK:

可以看到,當pageEncoding編碼為UTF-8時無論如何,用戶訪問JSP頁面的時候,內容都是中文亂碼。為什麼會這樣,pageEncoding和contentType中的charset區別到底在哪裡?網上搜索了一下,我認為下面的這個解釋說的挺好,挺詳細的。事實上,jsp需要經過兩次「編碼」,第一階段會用pageEncoding,第二階段會用utf-8的.java文件至utf-8的.class文件,第三階段就是由Tomcat傳回瀏覽器的網頁, 用的是contentType。ContentType 屬性指定響應的 HTTP 內容類型。如果未指定 ContentType,默認為 text/HTML。第一階段:將jsp編譯成Servlet(.java)文件。用到的指令是pageEncoding,根據pageEncoding=「XXX」的指示,找到編碼的規則為「XXX」,伺服器在將JSP文件編譯成.java文件時會根據pageEncoding的設定讀取jsp,結果是由指定的編碼方案翻譯成統一的UTF-8編碼的JAVA源碼(即.java)。第二階段:從Servlet文件(.java)到Java位元組碼文件(.class),從UTF-8到UTF-8。在這一階段中,不論JSP編寫時候用的是什麼編碼方案,經過這個階段的結果全部是UTF-8的encoding的java源碼。JAVAC用UTF-8的encoding讀取java源碼,編譯成UTF-8編碼的二進位碼(即.class),這是JVM對常數字串在二進位碼(java encoding)內表達的規範。這一過程是由JVM的內在規範決定的,不受外界控制。第三階段:從伺服器到瀏覽器,這在一過程中用到的指令是contentType。伺服器載入和執行由第二階段生成出來JAVA二進位碼,輸出的結果,也就是在客戶端可見到的結果,在這次輸出過程中,由contentType屬性中的charset來指定,將UTF8形式的二進位碼以charset的編碼形式來輸出。如果沒有人為設定,則默認的是ISO-8859-1的形式。pageEncoding:設置JSP源文件本身和響應正文中的字符集編碼。contentType:設置JSP源文件和響應正文的字符集編碼及MIME類型。contentType的charset:設置伺服器發送給客戶端時的內容的編碼。可以簡單認為是,pageEncoding是jsp文件本身的編碼;contentType的charset是指伺服器發送給客戶端時的內容編碼。例如:pageEncoding="GBK"。這句話的意思是,告訴JVM 這個jsp本身採用的"GBK"編碼,在JSP編譯成Servlet傳給JVM的時候,就用「GBK」的編碼方式將Jsp網頁源文件翻譯成統一的UTF-8形式的Java位元組碼(如果不加設定,則JVM默認的用ISO-8859-1這種編碼方式)。contentType里的charset=gbk,指的是此網頁文件輸出到瀏覽器的輸出方式為gbk(如果不加設定,則默認為pageEncoding所設定的編碼類型),理解了以上的過程,相信大家都對上述的各種亂碼情況都有了更深入的理解,知其然而知其所以然了。(參考文章:http://www.cnblogs.com/kevin-yuan/archive/2011/12/31/2308479.html)
推薦閱讀:

心理諮詢與聊天的區別
pain sore ache 區別pain sore ache有什麼區別?pain有幾種用法?包含p...
真健身和假健身的區別,看你屬於哪一種?
珍珠粉與珍珠層粉有什麼區別?
緬甸蜜蠟與波羅的海蜜蠟的區別

TAG:區別 |