如何讓UEFI BIOS支持漢字顯示:漢字編碼與顯示實踐
我們通常看到的UEFI BIOS都是大片英文字元,對於中國用戶而言,提供中文提示可以幫助我們建立更好的用戶體驗。那麼如何在BIOS中顯示中文呢,其實比較簡單,我們分成兩個部分介紹,第一部分介紹字元編碼理論,第二部分介紹UEFI實踐。如果你對字元編碼理論很了解,可以直接從第二部分看起。
UEFI在訂立之初就充分考慮了多國語言的管理、編碼和顯示問題。多語言的管理不在本文的範圍內,大家可以參考UEFI spec。UEFI中的字元串統一採用Unicode的UCS-2編碼。說起Unicode,它很容易和ASCII、UTF-8、UTF-16、UTF-32和GB2312編碼等等概念混淆混淆。我們先來從歷史沿革來看看他們都是什麼,各自的優缺點都是什麼。
Unicode、UTF-16與UCS-2
如果你是一個生活在2003年的程序員,卻不了解字元、字符集、編碼和Unicode這些基礎知識。那你可要小心了,要是被我抓到你,我會讓你在潛水艇里剝六個月洋蔥來懲罰你。
這個邪惡的恫嚇是Joel Spolsky在1993首次發出的,時至今日,unicode已經廣泛使用在了我們周圍,2003年到了現在又過去十幾年了,如果還不知道unicode,被他抓住就不只是剝洋蔥這麼簡單了。。。
為了避免被他抓住的可悲下場。我們趕緊來複習下字元編碼的歷史和unicode的產生。
1.歷史
話說很久以前,計算機製造商有自己的表示字元的方式。他們並不需要擔心如何和其它計算機交流,並提出了各自的方式來將字形渲染到屏幕上。隨著計算機越來越流行,廠商之間的競爭更加激烈,在不同的計算機體系間轉換數據變得十分頭疼,人們厭煩了這種自定義造成的混亂。
最終,計算機製造商一起制定了一個標準的方法來描述字元。他們定義使用一個位元組的低7位來表示字元,例如,字母A是65,c是99,~是126等等, ASCII碼就這樣誕生了。原始的ASCII標準定義了從0到127 的字元,這樣正好能用七個比特表示。不過好景不長,它國家的人趁這個機會開始使用128到255範圍內的編碼來表達自己語言中的字元。例如,144在阿拉伯人的ASCII碼中是 ,而在俄羅斯的ASCII碼中是?。即使在美國,對於未使用區域也有各種各樣的利用。IBM PC就出現了「OEM 字體」或」擴展ASCII碼」,為用戶提供漂亮的圖形文字來繪製文本框並支持一些歐洲字元,例如英鎊(£)符號。
勤勞的中國人民也行動起來,我們不客氣地把那些127號之後的奇異符號們直接取消掉, 規定:一個小於127的字元的意義與原來相同,但兩個大於127的字元連在一起時,就表示一個漢字,前面的一個位元組(他稱之為高位元組)從0xA1用到0xF7,後面一個位元組(低位元組)從0xA1到0xFE,這樣我們就可以組合出大約7000多個簡體漢字了。在這些編碼里,我們還把數學符號、羅馬希臘的字母、日文的假名們都編進去了,連在 ASCII 里本來就有的數字、標點、字母都統統重新編了兩個位元組長的編碼,這就是常說的"全形"字元,而原來在127號以下的那些就叫"半形"字元了。
中國人民看到這樣很不錯,於是就把這種漢字方案叫做 "GB2312"。GB2312 是對 ASCII 的中文擴展。但是中國的漢字太多了,我們很快就就發現有許多人的人名沒有辦法在這裡打出來,於是我們不得不繼續把 GB2312 沒有用到的碼位找出來老實不客氣地用上。
後來還是不夠用,於是乾脆不再要求低位元組一定是127號之後的內碼,只要第一個位元組是大於127就固定表示這是一個漢字的開始,不管後面跟的是不是擴展字符集里的內容。結果擴展之後的編碼方案被稱為 GBK 標準,GBK 包括了 GB2312 的所有內容,同時又增加了近20000個新的漢字(包括繁體字)和符號。
後來少數民族也要用電腦了,於是我們再擴展,又加了幾千個新的少數民族的字,GBK 擴成了 GB18030。從此之後,中華民族的文化就可以在計算機時代中傳承了。
這帶來了一點小麻煩:字元串長度和編碼的長度不唯一對應,以為常常處理中英夾雜的問題。這也難不倒中國的程序猿們,一個有(di)趣(xiao)的函數就可以解決。另一個稍大點的麻煩是錯誤的傳染性,在某處一個位元組的缺失會使隨後的其他文章成為亂碼!
當各個國家都像中國這樣搞出一套自己的編碼標準,結果互相之間誰也不懂誰的編碼,誰也不支持別人的編碼,連大陸和台灣這樣只相隔了150海里,使用著同一種語言的兄弟地區,也搓弄出來自己的編碼:BIG5。天哪,從此黑暗籠罩在編碼領域,工程師和文檔管理大師們都念下面這個咒語:「換個編碼,這些亂碼一定就會好的,芝麻開門吧!」
ISO國際組織實在不能不管了,於是他們在1991年重新搞一個包括了地球上所有文化、所有字母和符號的編碼!他們打算叫它"Universal Multiple-Octet Coded Character Set",簡稱 UCS, 俗稱 "UNICODE"。他們雄心勃勃,創立了一個65535個碼錶的字符集,認為能Cover所有的字元,這個集合就是UCS-2。這裡我只能說他們Too young, too simple, sometimes…咳咳。我天朝文字界表示不服,康熙字典就有4萬多,再看看我們的詞源和辭海,嚇死你們!韓國人也表示不服:「漢字是我們韓國人發明的!」,更別提還有別的國家的各種蝌蚪文。幸虧ISO知錯能改後面推出UCS-4方案,說簡單了就是四個位元組來表示一個字元,這樣我們就可以組合出21億個不同的字元出來(最高位有其他用途),這大概將來外星人入侵時可以將外星人的文字也包括進來!
Unicode背後的想法非常簡單,然而卻被普遍的誤解了。Unicode就像一個電話本,標記著字元和數字之間的映射關係。Joel稱之為「神奇數字」,因為它們可能是隨機指定的,而且不會給出任何解釋。官方術語是碼位(Code Point),總是用U+開頭。理論上每種語言中的每種字元都被Unicode協會指定了一個神奇數字。例如希伯來文中的第一個字母?,是U+2135,字母A是U+0061。Unicode並不涉及字元是怎麼在位元組中表示的,它僅僅指定了字元對應的數字,僅此而已。他的編碼和傳輸的問題是UTF(Unicode Transformation Formats)定義的,我們通常會遇到的是UTF-8,UTF-16和UTF-32。
2.UTF-8
UTF-8是一個非常驚艷的概念,它漂亮的實現了對ASCII碼的向後兼容,以保證Unicode可以被大眾接受。發明它的人至少應該得個諾貝爾和平獎。Java的預設編碼便是UTF-8。
在UTF-8中,0-127號的字元用1個位元組來表示,使用和US-ASCII相同的編碼。這意味著1980年代寫的文檔用UTF-8打開一點問題都沒有。只有128號及以上的字元才用2個,3個或者4個位元組來表示。因此,UTF-8被稱作可變長度編碼。
3.UTF-16
另一個流行的可變長度編碼方案是UTF-16,它使用2個或者4個位元組來存儲字元。如果字元編碼小於0x10000,則UTF-16直接用UCS-2的兩個位元組表示,否則用變換後的四位元組表示。變換通過一個特殊保留的區間用來表示大於FFFF的值。這些值會通過4個位元組來編碼。這裡不再詳述。Windows系統在NT後預設即是UTF-16。
4.UTF-32
定長編碼,所有字元都是四個位元組。即UCS-4直接搬過來。
5.各種編碼方式優缺點以及UEFI的選擇
英語國家通常都和字母打交道,使用UTF-32會是一種巨大的浪費,想像一下你的.c程序忽然擴大四倍的樣子!用UTF-16也會有些浪費。似乎UTF-8很優秀了?其實還是那個問題,字元串長度和編碼長度不一致,導致要做些運算才能得到字元串長度。而UTF-32就方便了,直接字元串長度除以4即可!
UEFI採取了折中的方式,沒有採用他們中任何一個,而是採用標準的UCS-2編碼,即每個字元佔兩個位元組,字元串長度=編碼長度 / 2;(強迫症發作,不得不加個分號) ,對於UTF-16的擴展部分,答案很簡單,不支持!
字元顯示原理
了解完了字元編碼,我們接著看看一個字元如何顯示出來。UEFI提供GOP或UGA protocol,我們可以用它來顯示一幅點陣圖。同樣,如果我們有了點陣字型檔,我們也可以用它來顯示字元。幸運的是,UEFI已經替我們考慮好了怎麼顯示字元,它定義了SimpleFont格式。SimpleFont是一種點陣字體,有兩種格式,一種是窄體字,一種是寬體字。窄體字是一種8×19的點陣字型檔,寬體字是16×19的點陣字型檔,分成兩半,前一半表示左邊部分,後一半表示右邊部分。點陣字型檔中每一位(bit)代表一個像素,有色是1,空白是0。我們以英文E做例子:
它的編碼是:
EFI_NARROW_GLYPH GlyphData[] = {…n {0x0045, 0x00,{0x00, 0x00, 0x00, 0xFE, 0x66, 0x62,0x60, 0x68, 0x78, 0x68,0x60, 0x60, 0x62, 0x66, 0xFE, 0x00, 0x00, 0x00, 0x00}},n …};n
我們可以通過HiiAddPackages的形式註冊字體點陣到HII的數據倉庫中。在EDKII的GraphicConsoleDxe驅動中有現成的例子。窄體字點陣在
MdeModulePkgUniversalConsoleGraphicsConsoleDxe LaffStd.cn
中,註冊函數在同一個驅動的GraphicsConsole.c的RegisterFontPackage函數里:
PackageLength = sizeof (EFI_HII_SIMPLE_FONT_PACKAGE_HDR) + mNarrowFontSize + 4;n Package = AllocateZeroPool (PackageLength);n ASSERT (Package != NULL);n WriteUnaligned32((UINT32 *) Package,PackageLength);n SimplifiedFont = (EFI_HII_SIMPLE_FONT_PACKAGE_HDR *) (Package + 4);n SimplifiedFont->Header.Length = (UINT32) (PackageLength - 4);n SimplifiedFont->Header.Type = EFI_HII_PACKAGE_SIMPLE_FONTS;n SimplifiedFont->NumberOfNarrowGlyphs = (UINT16) (mNarrowFontSize / sizeof (EFI_NARROW_GLYPH));n Location = (UINT8 *) (&SimplifiedFont->NumberOfWideGlyphs + 1);n CopyMem (Location, gUsStdNarrowGlyphData, mNarrowFontSize);nnn mHiiHandle = HiiAddPackages (n &mFontPackageListGuid,n NULL,n Package,n NULLn );n
注意Simple Font同時支持寬體和窄體兩種。那麼漢字應該是什麼樣呢,我們以「永」字來舉個例子:
按照寬體字的編碼標準應該編做:
EFI_WIDE_GLYPH gUsStdWideGlyphData[] = {n { 0x6c38, 0x00, {0x00,0x02,0x01,0x00,0x1F,0x01,0x01,0x7D,0x05,0x05,0x09,0x09,0x11,0x21,0x41,0x05,0x02,0x00,0x00}, {0x00,0x00,0x00,0x00,0x00,0x08,0x18,0xA0,0xC0,0x40,0x20,0x20,0x10,0x0E,0x04,0x00,0x00,0x00,0x00}, n {0x00,0x00,0x00}},n …};n
如前文,注意分成左邊和右邊兩部分。很簡單是不是?
實踐
1。環境搭建
有了前面的理論我們來驗證一下, NT32提供了很好的實驗環境,我們不必有個物理的機器就可以驗證對EDKII內核的改動。我們先從Github上下載最新的EDKII的源程序。接下來配置編譯環境:
Edksetup –nt32n
環境設置好後我們編譯一下:
Buildn
一切順利的話,我們可以運行看看:
Build runn
2。編程
到這裡,實驗環境搭建完成。我們開始進行我們最喜歡的活動吧!打開LaffStd.c,加入「永」的點陣字模:
EFI_WIDE_GLYPH gUsStdWideGlyphData[] = {n { 0x6c38, 0x00, {0x00,0x02,0x01,0x00,0x1F,0x01,0x01,0x7D,0x05,0x05,0x09,0x09,0x11,0x21,0x41,0x05,0x02,0x00,0x00}, {0x00,0x00,0x00,0x00,0x00,0x08,0x18,0xA0,0xC0,0x40,0x20,0x20,0x10,0x0E,0x04,0x00,0x00,0x00,0x00}, {0x00,0x00,0x00}},n { 0x0000, 0x00, {0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00}, {0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00}, {0x00,0x00,0x00}} //EOLn};nUINT32 mWideFontSize = sizeof (gUsStdWideGlyphData);n
接下來在GraphicConsoleDxe.c里將其和窄體字一起註冊到HII(注意Wide部分才是新加的):
PackageLength = sizeof (EFI_HII_SIMPLE_FONT_PACKAGE_HDR) + mNarrowFontSize +mWideFontSize + 4;n Package = AllocateZeroPool (PackageLength);n ASSERT (Package != NULL);n WriteUnaligned32((UINT32 *) Package,PackageLength);n SimplifiedFont = (EFI_HII_SIMPLE_FONT_PACKAGE_HDR *) (Package + 4);n SimplifiedFont->Header.Length = (UINT32) (PackageLength - 4);n SimplifiedFont->Header.Type = EFI_HII_PACKAGE_SIMPLE_FONTS;n SimplifiedFont->NumberOfNarrowGlyphs = (UINT16) (mNarrowFontSize / sizeof (EFI_NARROW_GLYPH));n Location = (UINT8 *) (&SimplifiedFont->NumberOfWideGlyphs + 1);n CopyMem (Location, gUsStdNarrowGlyphData, mNarrowFontSize);nn SimplifiedFont->NumberOfWideGlyphs = (UINT16) (mWideFontSize / sizeof (EFI_WIDE_GLYPH));n Location += mNarrowFontSize;n CopyMem (Location, gUsStdWideGlyphData, mWideFontSize);n
大功告成,開香檳!Wait a minute,好像需要驗證一下。我們從MdeModulePackage的HelloWorld Shell應用下手,加入下面兩行到main函數:
Print (L"I like it!n");nPrint (L"永n");n
試試看吧。運行NT32環境,進入shell,鍵入HelloWorld,得到如下:
一切正常!順便考驗一下HII對寬體和窄體字混排會不會出問題,代碼改成如下:
Print (L"I like it!n");nPrint (L"永n");nPrint (L"I永like it!n");nPrint (L"Il永ike it!n");n
再次編譯測試,結果如下:
噠噠,HII順利過關!
後記
這裡只舉了一個字的字模,其他的字怎麼辦?有一種辦法是在Windows上用程序抓取True Type的字型檔,將其轉換成點陣字型檔。即寫個簡單的python程序,將true type的字投影到16×19的方格上,投影的每個格子有色即是1,無色即是0。簡單方便,瞬間就可以完成。這裡有兩個小問題:
1. True Type字型檔是矢量字型檔,放大不會變形。放到我們的小格子裡面,有些邊邊角角需要在修飾一下。可以藉助網上免費的小工具,數量也不會太多。
2. 字體是有版權的!不能亂用。我們可以找些Open的字型檔,將其copy到windows的font目錄下即可。
最後要提醒的是,如果用在產品中最好另外寫個模塊單獨註冊,不要全部加到GraphicConsoleDxe中去了。
歡迎大家關注本專欄和用微信掃描下方二維碼加入微信公眾號"UEFIBlog",在那裡有最新的文章。同時歡迎大家給本專欄和公眾號投稿!
推薦閱讀: