一網打盡中文編碼轉換
1.問題提出
在學編程序時,曾經有人問過「你可以編一個記事本程序嗎?」當時很不屑一顧,但是隨著學習MFC的深入,了解到記事本程序也並非易事,難點就是四種編碼之間的轉換。
對於編碼,這是一個令初學者頭疼的問題,特別是對於編碼的轉換,更是難以捉摸。筆者為了完成畢業設計中的一個編碼轉換模塊,研究了中文編碼和常見的字符集後,決定解決"記事本"程序的編碼問題,更進一步完成GB2312、Big5、GBK、Unicode 、Unicode big endian、UTF-8共6種編碼之間的任意轉換。
2.問題解決
(1)編碼基礎知識
a.了解編碼和字符集
這部分內容,我不在贅述,可參見CSDN Ancky的專欄中《各種字符集和編碼詳解》
博客地址:http://blog.csdn.net/ancky/article/details/2034809
b.單位元組、雙位元組、多位元組
這部分內容,可參見我先前翻譯的博文《C++字元串完全指南--第一部分:win32字元編碼》
博客地址:http://blog.csdn.net/ziyuanxiazai123/article/details/7482360
c.區域和代碼頁
這部分內容,可參見博客 http://hi.baidu.com/tzpwater/blog/item/bd4abb0b60bff1db3ac7636a.html
d.中文編碼GB2312、GBK、Big5,這部分內容請參見CSDN lengshine 博客中《GB2312、GBK、Big5漢字編碼》,博客地址:http://blog.csdn.net/lengshine/article/details/5470545
e.Windows程序的字元編碼
這部分內容,可參見博客http://blog.sina.com.cn/s/blog_4e3197f20100a6z2.html 中《Windows程序的字元編碼》
(2)編碼總結
a.六種編碼的特點
六種編碼的特點如下圖所示:
b.編碼存儲差別
ANSI(在簡體中文中默認為GB2312)、Unicode、Unicode big endian 、UTF-8存儲存在差別。
以中文"你好"二字為例,他們存貯格式如下圖所示:
c.GB2312、Big5、GBK編碼的區別
三者中漢字均採用二個位元組表示,但是位元組表示的值範圍有所不同,如下圖所示:
(3)編碼轉換方式
6種編碼互相轉換,由排列組合知識知道共有30個方向的轉換.筆者採用的轉換方法,
多位元組文件與Unicode文件轉換如下圖所示:
多位元組文件之間轉換如下圖所示:
(4)編碼轉換使用的三個函數
a.MultiByteToWideChar
該函數完成多位元組字元串向Unicode寬字元串的轉換.
函數原型為:
int MultiByteToWideChar( UINT CodePage, // 代碼頁 DWORD dwFlags, // 轉換標誌 LPCSTR lpMultiByteStr, // 待轉換的字元串 int cbMultiByte, // 待轉換字元串的位元組數目 LPWSTR lpWideCharStr, // 轉換後寬字元串的存儲空間 int cchWideChar // 轉換後寬字元串的存儲空間大小 以寬字元大小為單位);b.WideCharToMultiByte該函數完成Unicode寬字元串到多位元組字元串的轉換,使用方法具體參見MSDN。以上兩個函數可以完成大部分的字元串轉換,可以將其封裝成多位元組和寬位元組之間的轉換函數:[cpp] view plaincopyprint?
- wchar_t*Coder::MByteToWChar(UINTCodePage,LPCSTRlpcszSrcStr)
- {
- LPWSTRlpcwsStrDes=NULL;
- intlen=MultiByteToWideChar(CodePage,0,lpcszSrcStr,-1,NULL,0);
- lpcwsStrDes=newwchar_t[len+1];
- if(!lpcwsStrDes)
- returnNULL;
- memset(lpcwsStrDes,0,sizeof(wchar_t)*(len+1));
- len=MultiByteToWideChar(CodePage,0,lpcszSrcStr,-1,lpcwsStrDes,len);
- if(len)
- returnlpcwsStrDes;
- else
- {
- delete[]lpcwsStrDes;
- returnNULL;
- }
- }
- char*Coder::WCharToMByte(UINTCodePage,LPCWSTRlpcwszSrcStr)
- {
- char*lpszDesStr=NULL;
- intlen=WideCharToMultiByte(CodePage,0,lpcwszSrcStr,-1,NULL,0,NULL,NULL);
- lpszDesStr=newchar[len+1];
- memset(lpszDesStr,0,sizeof(char)*(len+1));
- if(!lpszDesStr)
- returnNULL;
- len=WideCharToMultiByte(CodePage,0,lpcwszSrcStr,-1,lpszDesStr,len,NULL,NULL);
- if(len)
- returnlpszDesStr;
- else
- {
- delete[]lpszDesStr;
- returnNULL;
- }
- }
c.LCMapString依賴於本地機器的字元轉換函數,尤其是中文編碼在轉換時要依賴於本地機器,直接利用上述a、b中敘述的函數會產生錯誤,例如直接從GB2312轉換到Big5,利用
MultiByteToWideChar函數將GB2312轉換到Unicode字元串,然後從Unicode字元串利用函數
WideCharToMultiByte轉換成Big5,將會發生錯誤,錯誤的結果如下圖所示:
因此中文編碼轉換時適當使用LCMapString函數,才能完成正確的轉換.例如:[cpp] view plaincopyprint?
- //簡體中文GB2312轉換成繁體中文BIG5
- char*Coder::GB2312ToBIG5(constchar*szGB2312Str)
- {
- LCIDlcid=MAKELCID(MAKELANGID(LANG_CHINESE,SUBLANG_CHINESE_SIMPLIFIED),SORT_CHINESE_PRC);
- intnLength=LCMapString(lcid,LCMAP_TRADITIONAL_CHINESE,szGB2312Str,-1,NULL,0);
- char*pBuffer=newchar[nLength+1];
- if(!pBuffer)
- returnNULL;
- LCMapString(lcid,LCMAP_TRADITIONAL_CHINESE,szGB2312Str,-1,pBuffer,nLength);
- pBuffer[nLength]=0;
- wchar_t*pUnicodeBuff=MByteToWChar(CP_GB2312,pBuffer);
- char*pBIG5Buff=WCharToMByte(CP_BIG5,pUnicodeBuff);
- delete[]pBuffer;
- delete[]pUnicodeBuff;
- returnpBIG5Buff;
- }
(5)編碼實現實現Coder類完成編碼轉換工作.Coder類的代碼清單如下:[cpp] view plaincopyprint?
- //Coder.h:interfacefortheCoderclass.
- //
- //////////////////////////////////////////////////////////////////////
- #if!defined(AFX_ENCODING_H__2AC955FB_9F8F_4871_9B77_C6C65730507F__INCLUDED_)
- #defineAFX_ENCODING_H__2AC955FB_9F8F_4871_9B77_C6C65730507F__INCLUDED_
- #if_MSC_VER>1000
- #pragmaonce
- #endif//_MSC_VER>1000
- //-----------------------------------------------------------------------------------------------
- //程序用途:實現GB2312、big5、GBK、Unicode、Unicodebigendian、UTF-8六種編碼的任意裝換
- //程序作者:湖北師範學院計算機科學與技術學院王定橋
- //核心演算法:根據不同編碼特點向其他編碼轉換
- //測試結果:在Windows7VC6.0環境下測試通過
- //製作時間:2012-04-24
- //代碼版權:代碼公開供學習交流使用歡迎指正錯誤改善演算法
- //-----------------------------------------------------------------------------------------------
- //Windows代碼頁
- typedefenumCodeType
- {
- CP_GB2312=936,
- CP_BIG5=950,
- CP_GBK=0//此處特殊處理CP_GBK僅作一標誌GBK代碼頁值尚未查得
- }CodePages;
- //txt文件編碼
- typedefenumTextCodeType
- {
- GB2312=0,
- BIG5=1,
- GBK=2,
- UTF8=3,
- UNICODE=4,
- UNICODEBIGENDIAN=5,
- DefaultCodeType=-1
- }TextCode;
- classCoder
- {
- public:
- Coder();
- virtual~Coder();
- public:
- //默認一次轉換位元組大小
- UINTPREDEFINEDSIZE;
- //指定轉換時默認一次轉換位元組大小
- voidSetDefaultConvertSize(UINTnCount);
- //編碼類型轉換為字元串
- CStringCodeTypeToString(TextCodetc);
- //文件轉到另一種文件
- BOOLFileToOtherFile(CStringfilesourcepath,CStringfilesavepath,TextCodetcTo,TextCodetcCur=DefaultCodeType);
- //Unicode和Unicodebigendian文件之間轉換
- BOOLUnicodeEndianFileConvert(CStringfilesourcepath,CStringfilesavepath,TextCodetcTo);
- //多位元組文件之間的轉換
- BOOLMBFileToMBFile(CStringfilesourcepath,CStringfilesavepath,TextCodetcTo,TextCodetcCur=DefaultCodeType);
- //Unicode和Unicodebigendian文件向多位元組文件轉換
- BOOLUnicodeFileToMBFile(CStringfilesourcepath,CStringfilesavepath,TextCodetcTo);
- //多位元組文件向Unicode和Unicodebigendian文件轉換
- BOOLMBFileToUnicodeFile(CStringfilesourcepath,CStringfilesavepath,TextCodetcTo,TextCodetcCur=DefaultCodeType);
- //獲取文件編碼類型
- TextCodeGetCodeType(CStringfilepath);
- //繁體中文BIG5轉換成簡體中文GB2312
- char*BIG5ToGB2312(constchar*szBIG5Str);
- //簡體中文GB2312轉換成繁體中文BIG5
- char*GB2312ToBIG5(constchar*szGB2312Str);
- //簡繁中文GBK編碼轉換成簡體中文GB2312
- char*GBKToGB2312(constchar*szGBkStr);
- //簡體中文GB2312編碼轉換成簡繁中文GBK
- char*GB2312ToGBK(constchar*szGB2312Str);
- //簡繁中文GBK轉換成繁體中文Big5
- char*GBKToBIG5(constchar*szGBKStr);
- //繁體中文BIG5轉換到簡繁中文GBK
- char*BIG5ToGBK(constchar*szBIG5Str);
- //寬字元串向多位元組字元串轉換
- char*WCharToMByte(UINTCodePage,LPCWSTRlpcwszSrcStr);
- //多位元組字元串向寬字元串轉換
- wchar_t*MByteToWChar(UINTCodePage,LPCSTRlpcszSrcStr);
- protected:
- //獲取編碼類型對應的代碼頁
- UINTGetCodePage(TextCodetccur);
- //多位元組向多位元組轉換
- char*MByteToMByte(UINTCodePageCur,UINTCodePageTo,constchar*szSrcStr);
- //Unicode和Unicodebigendian字元串之間的轉換
- voidUnicodeEndianConvert(LPWSTRlpwszstr);
- //文件頭常量位元組數組
- conststaticbyteUNICODEBOM[2];
- conststaticbyteUNICODEBEBOM[2];
- conststaticbyteUTF8BOM[3];
- };
- #endif//!defined(AFX_ENCODING_H__2AC955FB_9F8F_4871_9B77_C6C65730507F__INCLUDED_)
[cpp] view plaincopyprint?
- //Coder.cpp:implementationoftheCoderclass.
- //
- //////////////////////////////////////////////////////////////////////
- #include"stdafx.h"
- #include"Coder.h"
- #include"Encoding.h"
- #ifdef_DEBUG
- #undefTHIS_FILE
- staticcharTHIS_FILE[]=__FILE__;
- #definenewDEBUG_NEW
- #endif
- //////////////////////////////////////////////////////////////////////
- //Construction/Destruction
- //////////////////////////////////////////////////////////////////////
- //初始化文件頭常量
- /*static*/constbyteCoder::UNICODEBOM[2]={0xFF,0xFE};
- /*static*/constbyteCoder::UNICODEBEBOM[2]={0xFE,0xFF};
- /*static*/constbyteCoder::UTF8BOM[3]={0xEF,0xBB,0xBF};
- Coder::Coder()
- {
- PREDEFINEDSIZE=2097152;//默認一次轉換位元組大小2M位元組
- }
- Coder::~Coder()
- {
- }
- //繁體中文BIG5轉換成簡體中文GB2312
- char*Coder::BIG5ToGB2312(constchar*szBIG5Str)
- {
- CStringmsg;
- LCIDlcid=MAKELCID(MAKELANGID(LANG_CHINESE,SUBLANG_CHINESE_SIMPLIFIED),SORT_CHINESE_PRC);
- wchar_t*szUnicodeBuff=MByteToWChar(CP_BIG5,szBIG5Str);
- char*szGB2312Buff=WCharToMByte(CP_GB2312,szUnicodeBuff);
- intnLength=LCMapString(lcid,LCMAP_SIMPLIFIED_CHINESE,szGB2312Buff,-1,NULL,0);
- char*pBuffer=newchar[nLength+1];
- if(!pBuffer)
- returnNULL;
- memset(pBuffer,0,sizeof(char)*(nLength+1));
- LCMapString(0x0804,LCMAP_SIMPLIFIED_CHINESE,szGB2312Buff,-1,pBuffer,nLength);
- delete[]szUnicodeBuff;
- delete[]szGB2312Buff;
- returnpBuffer;
- }
- //GB2312轉GBK
- char*Coder::GB2312ToGBK(constchar*szGB2312Str)
- {
- intnStrLen=strlen(szGB2312Str);
- if(!nStrLen)
- returnNULL;
- LCIDwLCID=MAKELCID(MAKELANGID(LANG_CHINESE,SUBLANG_CHINESE_SIMPLIFIED),SORT_CHINESE_PRC);
- intnReturn=LCMapString(wLCID,LCMAP_TRADITIONAL_CHINESE,szGB2312Str,nStrLen,NULL,0);
- if(!nReturn)
- returnNULL;
- char*pcBuf=newchar[nReturn+1];
- if(!pcBuf)
- returnNULL;
- memset(pcBuf,0,sizeof(char)*(nReturn+1));
- wLCID=MAKELCID(MAKELANGID(LANG_CHINESE,SUBLANG_CHINESE_SIMPLIFIED),SORT_CHINESE_PRC);
- LCMapString(wLCID,LCMAP_TRADITIONAL_CHINESE,szGB2312Str,nReturn,pcBuf,nReturn);
- returnpcBuf;
- }
- //GBK轉換成GB2312
- char*Coder::GBKToGB2312(constchar*szGBKStr)
- {
- intnStrLen=strlen(szGBKStr);
- if(!nStrLen)
- returnNULL;
- LCIDwLCID=MAKELCID(MAKELANGID(LANG_CHINESE,SUBLANG_CHINESE_SIMPLIFIED),SORT_CHINESE_BIG5);
- intnReturn=LCMapString(wLCID,LCMAP_SIMPLIFIED_CHINESE,szGBKStr,nStrLen,NULL,0);
- if(!nReturn)
- returnNULL;
- char*pcBuf=newchar[nReturn+1];
- memset(pcBuf,0,sizeof(char)*(nReturn+1));
- wLCID=MAKELCID(MAKELANGID(LANG_CHINESE,SUBLANG_CHINESE_SIMPLIFIED),SORT_CHINESE_BIG5);
- LCMapString(wLCID,LCMAP_SIMPLIFIED_CHINESE,szGBKStr,nReturn,pcBuf,nReturn);
- returnpcBuf;
- }
- //簡繁中文GBK轉換成繁體中文Big5
- char*Coder::GBKToBIG5(constchar*szGBKStr)
- {
- char*pTemp=NULL;
- char*pBuffer=NULL;
- pTemp=GBKToGB2312(szGBKStr);
- pBuffer=GB2312ToBIG5(pTemp);
- delete[]pTemp;
- returnpBuffer;
- }
- //繁體中文BIG5轉換到簡繁中文GBK
- char*Coder::BIG5ToGBK(constchar*szBIG5Str)
- {
- char*pTemp=NULL;
- char*pBuffer=NULL;
- pTemp=BIG5ToGB2312(szBIG5Str);
- pBuffer=GB2312ToGBK(pTemp);
- delete[]pTemp;
- returnpBuffer;
- }
- //簡體中文GB2312轉換成繁體中文BIG5
- char*Coder::GB2312ToBIG5(constchar*szGB2312Str)
- {
- LCIDlcid=MAKELCID(MAKELANGID(LANG_CHINESE,SUBLANG_CHINESE_SIMPLIFIED),SORT_CHINESE_PRC);
- intnLength=LCMapString(lcid,LCMAP_TRADITIONAL_CHINESE,szGB2312Str,-1,NULL,0);
- char*pBuffer=newchar[nLength+1];
- if(!pBuffer)
- returnNULL;
- LCMapString(lcid,LCMAP_TRADITIONAL_CHINESE,szGB2312Str,-1,pBuffer,nLength);
- pBuffer[nLength]=0;
- wchar_t*pUnicodeBuff=MByteToWChar(CP_GB2312,pBuffer);
- char*pBIG5Buff=WCharToMByte(CP_BIG5,pUnicodeBuff);
- delete[]pBuffer;
- delete[]pUnicodeBuff;
- returnpBIG5Buff;
- }
- //獲取文件編碼類型
- //Unicode編碼文件通過讀取文件頭判別
- //中文編碼通過統計文件編碼類別來判別判別次數最多為30次
- //中文編碼的判別存在誤差
- TextCodeCoder::GetCodeType(CStringfilepath)
- {
- CFilefile;
- bytebuf[3];//unsignedchar
- TextCodetctemp;
- if(file.Open(filepath,CFile::modeRead))
- {
- file.Read(buf,3);
- if(buf[0]==UTF8BOM[0]&&buf[1]==UTF8BOM[1]&&buf[2]==UTF8BOM[2])
- returnUTF8;
- else
- if(buf[0]==UNICODEBOM[0]&&buf[1]==UNICODEBOM[1])
- returnUNICODE;
- else
- if(buf[0]==UNICODEBEBOM[0]&&buf[1]==UNICODEBEBOM[1])
- returnUNICODEBIGENDIAN;
- else
- {
- inttime=30;
- while(file.Read(buf,2)&&time)
- {
- if((buf[0]>=176&&buf[0]<=247)&&(buf[1]>=160&&buf[1]<=254))
- tctemp=GB2312;
- else
- if((buf[0]>=129&&buf[0]<=255)&&((buf[1]>=64&&buf[1]<=126)||(buf[1]>=161&&buf[1]<=254)))
- tctemp=BIG5;
- else
- if((buf[0]>=129&&buf[0]<=254)&&(buf[1]>=64&&buf[1]<=254))
- tctemp=GBK;
- time--;
- file.Seek(100,CFile::current);//跳過一定位元組利於統計全文
- }
- returntctemp;
- }
- }
- else
- returnGB2312;
- }
- //多位元組文件轉換為UNICODE、UNICODEbigendian文件
- BOOLCoder::MBFileToUnicodeFile(CStringfilesourcepath,CStringfilesavepath,TextCodetcTo,TextCodetcCur)
- {
- TextCodecurtc;
- CFilefilesource,filesave;;
- char*pChSrc=NULL;
- char*pChTemp=NULL;
- wchar_t*pwChDes=NULL;
- DWORDfilelength,readlen,len;
- intbufferlen,strlength;
- UINTCodePage;
- //由於存在誤差允許用戶自定義轉換
- if(tcCur!=DefaultCodeType)
- curtc=tcCur;
- else
- curtc=GetCodeType(filesourcepath);
- if(curtc>UTF8||tcTo<UNICODE||curtc==tcTo)
- returnFALSE;
- //源文件打開失敗或者源文件無內容後者保存文件建立失敗均返迴轉換失敗
- if(!filesource.Open(filesourcepath,CFile::modeRead)||0==(filelength=filesource.GetLength()))
- returnFALSE;
- if(!filesave.Open(filesavepath,CFile::modeCreate|CFile::modeWrite))
- returnFALSE;
- //預分配內存分配失敗則轉換失敗
- if(filelength<PREDEFINEDSIZE)
- bufferlen=filelength;
- else
- bufferlen=PREDEFINEDSIZE;
- pChSrc=newchar[bufferlen+1];
- if(!pChSrc)
- returnFALSE;
- //根據當前文件類別指定轉換代碼頁
- switch(curtc)
- {
- caseGB2312:
- CodePage=CP_GB2312;
- break;
- caseGBK:
- CodePage=CP_GB2312;//特殊處理
- break;
- caseBIG5:
- CodePage=CP_BIG5;
- break;
- caseUTF8:
- CodePage=CP_UTF8;
- break;
- default:
- break;
- }
- //UTF8文件跳過文件
- if(UTF8==curtc)
- filesource.Seek(3*sizeof(byte),CFile::begin);
- //寫入文件頭
- if(UNICODEBIGENDIAN==tcTo)
- filesave.Write(&UNICODEBEBOM,2*sizeof(byte));
- else
- filesave.Write(&UNICODEBOM,2*sizeof(byte));
- //讀取文件分段轉換知道結束
- while(filelength>0)
- {
- memset(pChSrc,0,sizeof(char)*(bufferlen+1));
- if(filelength>PREDEFINEDSIZE)
- len=PREDEFINEDSIZE;
- else
- len=filelength;
- readlen=filesource.Read(pChSrc,len);
- if(!readlen)
- break;
- //GBK轉換為GB2312處理
- if(GBK==curtc)
- {
- pChTemp=pChSrc;
- pChSrc=GBKToGB2312(pChSrc);
- }
- pwChDes=MByteToWChar(CodePage,pChSrc);
- if(pwChDes)
- {
- if(UNICODEBIGENDIAN==tcTo)
- UnicodeEndianConvert(pwChDes);
- strlength=wcslen(pwChDes)*2;//這裡注意寫入文件的長度
- filesave.Write(pwChDes,strlength);
- filesave.Flush();
- filelength-=readlen;
- }
- else
- break;
- }
- delete[]pChSrc;
- delete[]pChTemp;
- delete[]pwChDes;
- returnTRUE;
- }
- //
- wchar_t*Coder::MByteToWChar(UINTCodePage,LPCSTRlpcszSrcStr)
- {
- LPWSTRlpcwsStrDes=NULL;
- intlen=MultiByteToWideChar(CodePage,0,lpcszSrcStr,-1,NULL,0);
- lpcwsStrDes=newwchar_t[len+1];
- if(!lpcwsStrDes)
- returnNULL;
- memset(lpcwsStrDes,0,sizeof(wchar_t)*(len+1));
- len=MultiByteToWideChar(CodePage,0,lpcszSrcStr,-1,lpcwsStrDes,len);
- if(len)
- returnlpcwsStrDes;
- else
- {
- delete[]lpcwsStrDes;
- returnNULL;
- }
- }
- char*Coder::WCharToMByte(UINTCodePage,LPCWSTRlpcwszSrcStr)
- {
- char*lpszDesStr=NULL;
- intlen=WideCharToMultiByte(CodePage,0,lpcwszSrcStr,-1,NULL,0,NULL,NULL);
- lpszDesStr=newchar[len+1];
- memset(lpszDesStr,0,sizeof(char)*(len+1));
- if(!lpszDesStr)
- returnNULL;
- len=WideCharToMultiByte(CodePage,0,lpcwszSrcStr,-1,lpszDesStr,len,NULL,NULL);
- if(len)
- returnlpszDesStr;
- else
- {
- delete[]lpszDesStr;
- returnNULL;
- }
- }
- //Unicode和Unicodebigendian之間位元組序的轉換
- voidCoder::UnicodeEndianConvert(LPWSTRlpwszstr)
- {
- wchar_twchtemp[2];
- longindex;
- intlen=wcslen(lpwszstr);
- if(!len)
- return;
- //交換高低位元組直到遇到結束符
- index=0;
- while(index<len)
- {
- wchtemp[0]=lpwszstr[index];
- wchtemp[1]=lpwszstr[index+1];
- unsignedcharhigh,low;
- high=(wchtemp[0]&0xFF00)>>8;
- low=wchtemp[0]&0x00FF;
- wchtemp[0]=(low<<8)|high;
- high=(wchtemp[1]&0xFF00)>>8;
- low=wchtemp[1]&0x00FF;
- wchtemp[1]=(low<<8)|high;
- lpwszstr[index]=wchtemp[0];
- lpwszstr[index+1]=wchtemp[1];
- index+=2;
- }
- }
- //Unicode和Unicodebigendian文件向多位元組文件轉換
- BOOLCoder::UnicodeFileToMBFile(CStringfilesourcepath,CStringfilesavepath,TextCodetcTo)
- {
- TextCodecurtc;
- CFilefilesource,filesave;;
- char*pChDes=NULL;
- char*pChTemp=NULL;
- wchar_t*pwChSrc=NULL;
- DWORDfilelength,readlen,len;
- intbufferlen,strlength;
- UINTCodePage;
- curtc=GetCodeType(filesourcepath);
- //文件轉換類型錯誤則轉換失敗
- if(curtc<=UTF8||tcTo>UTF8||curtc==tcTo)
- returnFALSE;
- //源文件打開失敗或者源文件無內容後者保存文件建立失敗均轉換失敗
- if(!filesource.Open(filesourcepath,CFile::modeRead)||0==(filelength=filesource.GetLength()))
- returnFALSE;
- if(!filesave.Open(filesavepath,CFile::modeCreate|CFile::modeWrite))
- returnFALSE;
- //預分配內存分配失敗則轉換失敗
- if(filelength<PREDEFINEDSIZE)
- bufferlen=filelength;
- else
- bufferlen=PREDEFINEDSIZE;
- pwChSrc=newwchar_t[(bufferlen/2)+1];
- if(!pwChSrc)
- returnFALSE;
- //預先決定代碼頁
- switch(tcTo)
- {
- caseGB2312:
- CodePage=CP_GB2312;
- break;
- caseGBK:
- CodePage=CP_GB2312;//特殊處理
- break;
- caseBIG5:
- CodePage=CP_GB2312;//特殊處理
- break;
- caseUTF8:
- CodePage=CP_UTF8;
- break;
- default:
- break;
- }
- filesource.Seek(sizeof(wchar_t),CFile::begin);
- while(filelength>0)
- {
- memset(pwChSrc,0,sizeof(wchar_t)*((bufferlen/2)+1));
- if(filelength>PREDEFINEDSIZE)
- len=PREDEFINEDSIZE;
- else
- len=filelength;
- readlen=filesource.Read(pwChSrc,len);
- if(!readlen)
- break;
- if(UNICODEBIGENDIAN==curtc)
- UnicodeEndianConvert(pwChSrc);
- pChDes=WCharToMByte(CodePage,pwChSrc);
- //GBK無法直接轉換BIG5直接轉換會產生錯誤二者均先轉到GB2312然後再轉到目的類型
- if(GBK==tcTo)
- {
- pChTemp=pChDes;
- pChDes=GB2312ToGBK(pChDes);
- }
- if(BIG5==tcTo)
- {
- pChTemp=pChDes;
- pChDes=GB2312ToBIG5(pChDes);
- }
- if(pChDes)
- {
- strlength=strlen(pChDes);
- filesave.Write(pChDes,strlength);
- filesave.Flush();
- filelength-=readlen;
- }
- else
- break;
- }
- delete[]pChDes;
- delete[]pChTemp;
- delete[]pwChSrc;
- returnTRUE;
- }
- //多位元組文件轉為多位元組文件
- //多位元組轉為多位元組時,一般先轉為UNICODE類型,再轉換到指定目的類型,實行兩次轉換
- BOOLCoder::MBFileToMBFile(CStringfilesourcepath,CStringfilesavepath,TextCodetcTo,TextCodetcCur)
- {
- BOOLbret=FALSE;
- TextCodecurtc;
- CFilefilesource,filesave;
- char*pChDes=NULL;
- char*pChSrc=NULL;
- DWORDfilelength,readlen,len;
- intbufferlen,strlength;
- UINTCodePageCur,CodePageTo;
- //由於存在誤差允許用戶自定義轉換
- if(DefaultCodeType!=tcCur)
- curtc=tcCur;
- else
- curtc=GetCodeType(filesourcepath);
- //轉換類型錯誤則返迴轉換失敗
- if(curtc>UTF8||tcTo>UTF8||curtc==tcTo)
- returnFALSE;
- //源文件打開失敗或者源文件無內容後者保存文件建立失敗均返迴轉換失敗
- if(!filesource.Open(filesourcepath,CFile::modeRead)||0==(filelength=filesource.GetLength()))
- returnFALSE;
- if(!filesave.Open(filesavepath,CFile::modeCreate|CFile::modeWrite))
- returnFALSE;
- //預分配內存分配失敗則轉換失敗
- if(filelength<PREDEFINEDSIZE)
- bufferlen=filelength;
- else
- bufferlen=PREDEFINEDSIZE;
- pChSrc=newchar[bufferlen+1];
- if(!pChSrc)
- returnFALSE;
- if(UTF8==curtc)
- filesource.Seek(3*sizeof(byte),CFile::begin);
- CodePageCur=GetCodePage(curtc);
- CodePageTo=GetCodePage(tcTo);
- while(filelength>0)
- {
- memset(pChSrc,0,sizeof(char)*(bufferlen+1));
- if(filelength>PREDEFINEDSIZE)
- len=PREDEFINEDSIZE;
- else
- len=filelength;
- readlen=filesource.Read(pChSrc,len);
- if(!readlen)
- break;
- pChDes=MByteToMByte(CodePageCur,CodePageTo,pChSrc);
- if(pChDes)
- {
- strlength=strlen(pChDes);
- filesave.Write(pChDes,strlength);
- filelength-=readlen;
- }
- else
- break;
- }
- delete[]pChSrc;
- delete[]pChDes;
- returnTRUE;
- }
- //Unicode和Unicodebigendian文件之間轉換
- BOOLCoder::UnicodeEndianFileConvert(CStringfilesourcepath,CStringfilesavepath,TextCodetcTo)
- {
- TextCodecurtc=GetCodeType(filesourcepath);
- if(curtc!=UNICODE&&curtc!=UNICODEBIGENDIAN)
- returnFALSE;
- if(curtc==tcTo)
- returnFALSE;
- CFilefilesource,filesave;;
- wchar_t*pwChDes;
- DWORDlength;
- if(!filesource.Open(filesourcepath,CFile::modeRead)||!filesave.Open(filesavepath,CFile::modeCreate|CFile::modeWrite))
- returnFALSE;
- length=filesource.GetLength();
- if(!length)
- returnFALSE;
- pwChDes=newwchar_t[(length/2)+1];
- if(!pwChDes)
- returnFALSE;
- memset(pwChDes,0,sizeof(wchar_t)*((length/2)+1));
- filesource.Read(pwChDes,length);
- UnicodeEndianConvert(pwChDes);
- length=wcslen(pwChDes)*2;
- if(UNICODE==tcTo)
- filesave.Write(&UNICODEBOM,2*sizeof(byte));
- else
- filesave.Write(&UNICODEBEBOM,2*sizeof(byte));
- filesave.Write(pwChDes,length);
- filesave.Flush();
- delete[]pwChDes;
- returnTRUE;
- }
- //文件轉到另一種文件
- //6種格式文件兩兩轉換共計30種轉換
- BOOLCoder::FileToOtherFile(CStringfilesourcepath,CStringfilesavepath,TextCodetcTo,TextCodetcCur)
- {
- TextCodecurtc;
- BOOLbret=FALSE;
- if(DefaultCodeType!=tcCur)
- curtc=tcCur;
- else
- curtc=GetCodeType(filesourcepath);
- if(curtc==tcTo)
- returnFALSE;
- //UNICODE和UNICODEbigendian文件之間轉換共2種
- if(curtc>=UNICODE&&tcTo>=UNICODE)
- bret=UnicodeEndianFileConvert(filesourcepath,filesavepath,tcTo);
- else
- //多位元組文件向UNICODE和UNICODEbigendian文件之間轉換共8種
- if(curtc<UNICODE&&tcTo>=UNICODE)
- bret=MBFileToUnicodeFile(filesourcepath,filesavepath,tcTo,curtc);
- else
- //UNICODE和UNICODEbigendian文件向多位元組文件轉換共8種
- if(curtc>=UNICODE&&tcTo<UNICODE)
- bret=UnicodeFileToMBFile(filesourcepath,filesavepath,tcTo);
- else
- //多位元組文件之間轉換共12種
- if(curtc<UNICODE&&tcTo<UNICODE)
- bret=MBFileToMBFile(filesourcepath,filesavepath,tcTo,curtc);
- returnbret;
- }
- //編碼類型轉換為字元串
- CStringCoder::CodeTypeToString(TextCodetc)
- {
- CStringstrtype;
- switch(tc)
- {
- caseGB2312:
- strtype=_T("GB2312");
- break;
- caseBIG5:
- strtype=_T("Big5");
- break;
- caseGBK:
- strtype=_T("GBK");
- break;
- caseUTF8:
- strtype=_T("UTF-8");
- break;
- caseUNICODE:
- strtype=_T("Unicode");
- break;
- caseUNICODEBIGENDIAN:
- strtype=_T("Unicodebigendian");
- break;
- }
- returnstrtype;
- }
- //多位元組向多位元組轉換
- char*Coder::MByteToMByte(UINTCodePageCur,UINTCodePageTo,constchar*szSrcStr)
- {
- char*pchDes=NULL;
- char*pchTemp=NULL;
- wchar_t*pwchtemp=NULL;
- //三種中文編碼之間轉換
- if(CodePageCur!=CP_UTF8&&CodePageTo!=CP_UTF8)
- {
- switch(CodePageCur)
- {
- caseCP_GB2312:
- {
- if(CP_BIG5==CodePageTo)
- pchDes=GB2312ToBIG5(szSrcStr);
- else
- pchDes=GB2312ToGBK(szSrcStr);
- break;
- }
- caseCP_BIG5:
- {
- if(CP_GB2312==CodePageTo)
- pchDes=BIG5ToGB2312(szSrcStr);
- else
- pchDes=BIG5ToGBK(szSrcStr);
- break;
- }
- caseCP_GBK:
- {
- if(CP_GB2312==CodePageTo)
- pchDes=GBKToGB2312(szSrcStr);
- else
- pchDes=GBKToBIG5(szSrcStr);
- break;
- }
- }
- }
- else
- {//從UTF-8轉到其他多位元組直接轉到GB2312其他形式用GB2312做中間形式
- if(CP_UTF8==CodePageCur)
- {
- pwchtemp=MByteToWChar(CodePageCur,szSrcStr);
- if(CP_GB2312==CodePageTo)
- {
- pchDes=WCharToMByte(CP_GB2312,pwchtemp);
- }
- else
- {
- pchTemp=WCharToMByte(CP_GB2312,pwchtemp);
- if(CP_GBK==CodePageTo)
- pchDes=GB2312ToGBK(pchTemp);
- else
- pchDes=GB2312ToBIG5(pchTemp);
- }
- }
- //從其他多位元組轉到UTF-8
- else
- {
- if(CP_GBK==CodePageCur)
- {
- pchTemp=GBKToGB2312(szSrcStr);
- pwchtemp=MByteToWChar(CP_GB2312,pchTemp);
- }
- else
- pwchtemp=MByteToWChar(CodePageCur,szSrcStr);
- pchDes=WCharToMByte(CodePageTo,pwchtemp);
- }
- }
- delete[]pchTemp;
- delete[]pwchtemp;
- returnpchDes;
- }
- //獲取編碼類型對應的代碼頁
- UINTCoder::GetCodePage(TextCodetccur)
- {
- UINTCodePage;
- switch(tccur)
- {
- caseGB2312:
- CodePage=CP_GB2312;
- break;
- caseBIG5:
- CodePage=CP_BIG5;
- break;
- caseGBK:
- CodePage=CP_GBK;
- break;
- caseUTF8:
- CodePage=CP_UTF8;
- break;
- caseUNICODEBIGENDIAN:
- caseUNICODE:
- break;
- }
- returnCodePage;
- }
- //指定轉換時默認一次轉換位元組大小
- voidCoder::SetDefaultConvertSize(UINTnCount)
- {
- if(nCount!=0)
- PREDEFINEDSIZE=nCount;
- }
3.運行效果 在win7 VC 6.0下測試六種編碼的轉換測試通過,30個方向的轉換如下圖所示:
測試程序運行效果如下圖所示:
GB2312轉換到GBK編碼效果如下圖所示:
UTF-8轉換到Big5編碼的效果如下圖所示:
本文代碼及轉碼程序下載 :http://download.csdn.net/user/ziyuanxiazai123
4.尚未解決的問題
(1)LCMapString函數的理解還不完全熟悉,其中參數偏多,理解需要一定基礎知識。
(2)為什麼記事本程序的轉碼後存在些亂碼,亂碼是正確的嗎?因為我的程序使用了中間過渡形式,因此沒有任何亂碼。
(3)是否有更簡單和清晰的方式實現編碼轉換,待進一步研究。
推薦閱讀:
※簡繁轉換易錯字43例(下)
※如何將星座的赤經和赤緯轉換為地球上的經度緯度.(最好寫的詳細點.)
※時間轉換7
※虛實轉換全在腰
※梅竹再講;我編輯的[...顏色值..轉換器] 的應用和圖片編輯方法