JSP中文亂碼解決方案-Tomcat5.0版

06-19

標題:JSP中文亂碼解決方案-Tomcat5.0版

內容:首先，說說JSP/Servlet中的幾個編碼的作用。在JSP/Servlet中主要有以下幾個地方可以設置編碼，pageEncoding="UTF-8"、contentType="text/html;charset=UTF-8"、request.setCharacterEncoding("UTF-8")和response.setCharacterEncoding("UTF-8")，其中前兩個只能用於JSP中，而後兩個可以用於JSP和Servlet中。1、pageEncoding="UTF-8"的作用是設置JSP編譯成Servlet時使用的編碼。　　眾所周知，JSP在伺服器上是要先被編譯成Servlet的。pageEncoding="UTF-8"的作用就是告訴JSP編譯器在將JSP文件編譯成Servlet時使用的編碼。通常，在JSP內部定義的字元串（直接在JSP中定義，而不是從瀏覽器提交的數據）出現亂碼時，很多都是由於該參數設置錯誤引起的。例如，你的JSP文件是以GBK為編碼保存的，而在JSP中卻指定pageEncoding="UTF-8"，就會引起JSP內部定義的字元串為亂碼。　　另外，該參數還有一個功能，就是在JSP中不指定contentType參數，也不使用response.setCharacterEncoding方法時，指定對伺服器響應進行重新編碼的編碼。　　2、contentType="text/html;charset=UTF-8"的作用是指定對伺服器響應進行重新編碼的編碼。　　在不使用response.setCharacterEncoding方法時，用該參數指定對伺服器響應進行重新編碼的編碼。伺服器在將數據發送到瀏覽器前，對數據進行重新編碼時，使用的就是該編碼。　　3、request.setCharacterEncoding("UTF-8")的作用是設置對客戶端請求進行重新編碼的編碼。　　該方法用來指定對瀏覽器發送來的數據進行重新編碼（或者稱為解碼）時，使用的編碼。　　4、response.setCharacterEncoding("UTF-8")的作用是指定對伺服器響應進行重新編碼的編碼。　　伺服器在將數據發送到瀏覽器前，對數據進行重新編碼時，使用的就是該編碼。　　其次，要說一說瀏覽器是怎麼樣對接收和發送的數據進行編碼的　　response.setCharacterEncoding("UTF-8")的作用是指定對伺服器響應進行重新編碼的編碼。同時，瀏覽器也是根據這個參數來對其接收到的數據進行重新編碼（或者稱為解碼）。所以在無論你在JSP中設置response.setCharacterEncoding("UTF-8")或者response.setCharacterEncoding("GBK")，瀏覽器均能正確顯示中文（前提是你發送到瀏覽器的數據編碼是正確的，比如正確設置了pageEncoding參數等）。讀者可以做個實驗，在JSP中設置response.setCharacterEncoding("UTF-8")，在IE中顯示該頁面時，在IE的菜單中選擇"查看(V)"à"編碼(D)"中可以查看到是"Unicode（UTF-8）"，而在在JSP中設置response.setCharacterEncoding("GBK")，在IE中顯示該頁面時，在IE的菜單中選擇"查看(V)"à"編碼(D)"中可以查看到是"簡體中文（GB2312）"。　　瀏覽器在發送數據時，對URL和參數會進行URL編碼，對參數中的中文，瀏覽器也是使用response.setCharacterEncoding參數來進行URL編碼的。以百度和GOOGLE為例，如果你在百度中搜索"漢字"，百度會將其編碼為"%BA%BA%D7%D6"。而在GOOGLE中搜索"漢字"，GOOGLE會將其編碼為"%E6%B1%89%E5%AD%97"，這是因為百度的response.setCharacterEncoding參數為GBK，而GOOGLE的的response.setCharacterEncoding參數為UTF-8。　　瀏覽器在接收伺服器數據和發送數據到伺服器時所使用的編碼是相同的，默認情況下均為JSP頁面的response.setCharacterEncoding參數（或者contentType和pageEncoding參數），我們稱其為瀏覽器編碼。當然，在IE中可以修改瀏覽器編碼（在IE的菜單中選擇"查看(V)"à"編碼(D)"中修改），但通常情況下，修改該參數會使原本正確的頁面中出現亂碼。一個有趣的例子是，在IE中瀏覽GOOGLE的主頁時，將瀏覽器編碼修改為"簡體中文（GB2312）"，此時，頁面上的中文會變成亂碼，不理它，在文本框中輸入"漢字"，提交，GOOGLE會將其編碼為"%BA%BA%D7%D6"，可見，瀏覽器在對中文進行URL編碼時，使用的就是瀏覽器編碼。　　弄清了瀏覽器是在接收和發送數據時，是如何對數據進行編碼的了，我們再來看看伺服器是在接收和發送數據時，是如何對數據進行編碼的。　　對於發送數據，伺服器按照response.setCharacterEncoding—contentType—pageEncoding的優先順序，對要發送的數據進行編碼。　　對於接收數據，要分三種情況。一種是瀏覽器直接用URL提交的數據，另外兩種是用表單的GET和POST方式提交的數據。　　因為各種WEB伺服器對這三種方式的處理也不相同，所以我們以Tomcat5.0為例。　　無論使用那種方式提交，如果參數中包含中文，瀏覽器都會使用當前瀏覽器編碼對其進行URL編碼。　　對於表單中POST方式提交的數據，只要在接收數據的JSP中正確request.setCharacterEncoding參數，即將對客戶端請求進行重新編碼的編碼設置成瀏覽器編碼，就可以保證得到的參數編碼正確。有寫讀者可能會問，那如何得到瀏覽器編碼呢？上面我們提過了，在默認請情況下，瀏覽器編碼就是你在響應該請求的JSP頁面中response.setCharacterEncoding設置的值。所以對於POST表單提交的數據，在獲得數據的JSP頁面中request.setCharacterEncoding要和生成提交該表單的JSP頁面的response.setCharacterEncoding設置成相同的值。　　對於URL提交的數據和表單中GET方式提交的數據，在接收數據的JSP中設置request.setCharacterEncoding參數是不行的，因為在Tomcat5.0中，默認情況下使用ISO-8859-1對URL提交的數據和表單中GET方式提交的數據進行重新編碼（解碼），而不使用該參數對URL提交的數據和表單中GET方式提交的數據進行重新編碼（解碼）。要解決該問題，應該在Tomcat的配置文件的Connector標籤中設置useBodyEncodingForURI或者URIEncoding屬性，其中useBodyEncodingForURI參數表示是否用request.setCharacterEncoding參數對URL提交的數據和表單中GET方式提交的數據進行重新編碼，在默認情況下，該參數為false（Tomcat4.0中該參數默認為true）；URIEncoding參數指定對所有GET方式請求（包括URL提交的數據和表單中GET方式提交的數據）進行統一的重新編碼（解碼）的編碼。URIEncoding和useBodyEncodingForURI區別是，URIEncoding是對所有GET方式的請求的數據進行統一的重新編碼（解碼），而useBodyEncodingForURI則是根據響應該請求的頁面的request.setCharacterEncoding參數對數據進行的重新編碼（解碼），不同的頁面可以有不同的重新編碼（解碼）的編碼。所以對於URL提交的數據和表單中GET方式提交的數據，可以修改URIEncoding參數為瀏覽器編碼或者修改useBodyEncodingForURI為true，並且在獲得數據的JSP頁面中request.setCharacterEncoding參數設置成瀏覽器編碼。　　下面總結下，以Tomcat5.0為WEB伺服器時，如何防止中文亂碼。1、對於同一個應用，最好統一編碼，推薦為UTF-8，當然GBK也可以。2、正確設置JSP的pageEncoding參數3、在所有的JSP/Servlet中設置contentType="text/html;charset=UTF-8"或response.setCharacterEncoding("UTF-8")，從而間接實現對瀏覽器編碼的設置。4、對於請求，可以使用過濾器或者在每個JSP/Servlet中設置request.setCharacterEncoding("UTF-8")。同時，要修改Tomcat的默認配置，推薦將useBodyEncodingForURI參數設置為true，也可以將URIEncoding參數設置為UTF-8（有可能影響其他應用，所以不推薦）。