閱讀(3.1k) 書簽贊(0) 我要糾錯

java 編碼轉換過程

2018-09-28 19:24 更新

java編碼轉換過程

前面三篇博客側重介紹字符、編碼問題，通過這三篇博客各位博友對各種字符編碼有了一個初步的了解，要了解java的中文問題這是必須要了解的。但是了解這些僅僅只是一個開始，以下博客將側重介紹java亂碼是如何產生的、存在哪些亂碼的情況、該如何從根本上解決亂碼問題。各位隨博主一起征服令人厭煩的java亂碼問題吧?。。?/p>

java編碼轉換過程

我們總是用一個java類文件和用戶進行最直接的交互（輸入、輸出），這些交互內容包含的文字可能會包含中文。無論這些java類是與數據庫交互，還是與前端頁面交互，他們的生命周期總是這樣的：

1、程序員在操作系統(tǒng)上通過編輯器編寫程序代碼并且以.java的格式保存操作系統(tǒng)中，這些文件我們稱之為源文件。

2、通過JDK中的javac.exe編譯這些源文件形成.class類。

3、直接運行這些類或者部署在WEB容器中運行，得到輸出結果。

這些過程是從宏觀上面來觀察的，了解這個肯定是不行的，我們需要真正來了解java是如何來編碼和被解碼的：

第一步：當我們用編輯器編寫java源文件，程序文件在保存時會采用操作系統(tǒng)默認的編碼格式（一般我們中文的操作系統(tǒng)采用的是GBK編碼格式）形成一個.java文件。java源文件是采用操作系統(tǒng)默認支持的file.encoding編碼格式保存的。下面代碼可以查看系統(tǒng)的file.encoding參數值。

System.out.println(System.getProperty("file.encoding"));

第二步：當我們使用javac.exe編譯我們的java文件時，JDK首先會確認它的編譯參數encoding來確定源代碼字符集，如果我們不指定該編譯參數，JDK首先會獲取操作系統(tǒng)默認的file.encoding參數，然后JDK就會把我們編寫的java源程序從file.encoding編碼格式轉化為JAVA內部默認的UNICODE格式放入內存中。

第三步：JDK將上面編譯好的且保存在內存中信息寫入class文件中，形成.class文件。此時.class文件是Unicode編碼的，也就是說我們常見的.class文件中的內容無論是中文字符還是英文字符，他們都已經轉換為Unicode編碼格式了。

在這一步中對對JSP源文件的處理方式有點兒不同：WEB容器調用JSP編譯器，JSP編譯器首先會查看JSP文件是否設置了文件編碼格式，如果沒有設置則JSP編譯器會調用調用JDK采用默認的編碼方式將JSP文件轉化為臨時的servlet類，然后再編譯為.class文件并保持到臨時文件夾中。

第四步：運行編譯的類：在這里會存在一下幾種情況

1、直接在console上運行。

2、JSP/Servlet類。

3、java類與數據庫之間。

這三種情況每種情況的方式都會不同，

1.Console上運行的類

這種情況下，JVM首先會把保存在操作系統(tǒng)中的class文件讀入到內存中，這個時候內存中class文件編碼格式為Unicode，然后JVM運行它。如果需要用戶輸入信息，則會采用file.encoding編碼格式對用戶輸入的信息進行編碼同時轉換為Unicode編碼格式保存到內存中。程序運行后，將產生的結果再轉化為file.encoding格式返回給操作系統(tǒng)并輸出到界面去。整個流程如下：

在上面整個流程中，凡是涉及的編碼轉換都不能出現錯誤，否則將會產生亂碼。

2.Servlet類

由于JSP文件最終也會轉換為servlet文件（只不過存儲的位置不同而已），所以這里我們也將JSP文件納入其中。

當用戶請求Servlet時，WEB容器會調用它的JVM來運行Servlet。首先JVM會把servlet的class加載到內存中去，內存中的servlet代碼是Unicode編碼格式的。然后JVM在內存中運行該Servlet，在運行過程中如果需要接受從客戶端傳遞過來的數據（如表單和URL傳遞的數據），則WEB容器會接受傳入的數據，在接收過程中如果程序設定了傳入參數的的編碼則采用設定的編碼格式，如果沒有設置則采用默認的ISO-8859-1編碼格式，接收的數據后JVM會將這些數據進行編碼格式轉換為Unicode并且存入到內存中。運行Servlet后產生輸出結果，同時這些輸出結果的編碼格式仍然為Unicode。緊接著WEB容器會將產生的Unicode編碼格式的字符串直接發(fā)送置客戶端，如果程序指定了輸出時的編碼格式，則按照指定的編碼格式輸出到瀏覽器，否則采用默認的ISO-8859-1編碼格式。整個過程流程圖如下：

3.數據庫部分

我們知道java程序與數據庫的連接都是通過JDBC驅動程序來連接的，而JDBC驅動程序默認的是ISO-8859-1編碼格式的，也就是說我們通過java程序向數據庫傳遞數據時，JDBC首先會將Unicode編碼格式的數據轉換為ISO-8859-1的編碼格式，然后在存儲在數據庫中，即在數據庫保存數據時，默認格式為ISO-8859-1。