如何解讀類似「??????」的文字?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ㎜ ㎝ ㎞ ㎎ ㎏ ㏄ ㎡ ? 〝 ? № ? ℡ ? ? ? ? ? ㈱ 有 代 ? ? ?
按照@郭駿熹知友的指導用了有道的搜索搜索到了相關信息
貌似和 「CP392」以及「JIS X 0213:2004 に登録されているNEC特殊文字」有關係
但鑒於我沒有日語基礎,能不能有知友就能做這個問題小做拓展談一談「機種依存文字」?
我找到相關鏈接如下
[a] NEC特殊文字
[a] JIPS
另外想問,為什麼只有有道搜索可以進行該類文字的搜索而別的搜索引擎不行?


排名第一的答案沒有解釋清楚。
當年,NEC出了PC8801系列 做出了符合JIS第二級別標準的漢字ROM
裡面除開JIS規定的漢字和符號,還加入了一大堆自定義的東西,不僅有這些縮寫,還有年號明治、大正、昭和,株式會社,還有很多其他的縮寫和特殊符號
後來pc88發展出了pc98 然後pc98在日本泡沫經濟最高潮那段時間 佔據了日本商業微機的壟斷地位(這點和大陸、台灣不同,當時日本人認為純軟體顯示和處理日文的效率根本不能滿足要求,而使得不能硬體處理日文的IBM-PC互換機根本無法打入日本市場),這些文字被廣泛應用。
後來隨著高速CPU、大內存的出現,出現了純軟體方式在IBM-PC互換機快速顯示和處理日文的DOS/V系統,這使得IBM-PC互換機打入了日本市場;然後Windows的普及使得同樣X86、同樣支持Windows的PC98機根本無法和廉價的IBM-PC互換機競爭而使得PC98最終成為歷史。
雖然PC98架構在Unicode標準制定時已經處於被淘汰的邊緣,但是由於已經得到了廣泛的應用,這些NEC漢字ROM定義的文字也被收錄了。
至於國內搜索引擎的問題,只是因為很多國內網站仍然只支持GBK而不能真正支持Unicode的處理而已。
補充說明:現在日本人在談論日本手機垂直整合運營模式帶來的「加拉帕戈斯化」問題的時候,有時候會把PC-98模式的失敗作為加拉帕戈斯化的惡劣影響的例子。PC-98xx這個架構和後來的日本功能手機的共同點是,都是完全針對日本國內的獨特需求而特化(PC-98xx是基於硬體的高速日本語顯示和輸入,日本功能手機則是日本獨有的2G PDC網路、3G 運營商主導的內容模式和契約模式),都具有應對日本國內有限的市場需求而產生的高機能和高價格化傾向。iPhone手機在日本市場的出現,迫使日本廠商推出Android系統的智能手機以與之對抗,但是日本廠商在運營商的要求下,把原來功能手機的所謂「n種神器」功能一股腦塞進Android,而和以前一樣,忽略人機交互、系統優化等iPhone成功的真正原因,導致早期的日本本土Android機惡評如潮,出現了像IS04、F-10D這樣的「地雷」機種,最後使得日本本土Android機的整體形象受影響,靠運營商支持才能發展到現在。但是,由於個人電腦不存在所謂運營商依賴,PC-98xx後期引入Windows系統之後,硬體日本語顯示的優勢立即不復存在而轉變為需要使用特殊版本Windows的劣勢,結局是兵敗如山倒。


跟 ? 類似,將某個特殊名詞簡寫(壓縮空間),意義么,按照左中右,上下的順序讀出來就知道了:(片假名一般是外來辭彙,這幾個都是英語,物理單位)
?:calorie 卡路里;
?:percent 百分比
?:hectare 公頃
?:millibar 毫巴(百帕,氣象上常用的氣壓單位)
?:metre 米
?:litre 升


排名第一的那個回答完全沒解釋當初這些字元存在的原因嘛。
一句「至於為什麼要搞二分之一文字請去問NEC」直接跳過了最重要的部分。

這要不得不說起日本很久很久以來就有的兩個特點:

第一是什麼都願意簡略。
舉個更容易理解的例子,凡是超過4個假名、並且有一定「知名度」的詞,在日本都喜歡被約定俗成地縮至4個假名以內,比如木村拓哉(きむらたくや)被大家叫做「きむたく」,比如PuzzleDragons(パズル&ドラゴンズ)被讀作「パズドラ」。
「機種依存文字」中,很多都是年號(?)、符號(№)、專有名詞(㈱,表示株式會社)也是這個原因。

第二是非常喜歡外來語。
片假名對日本人來說是個非常方便的東西,對於國外的詞,你不需要為它應該翻譯成什麼而苦惱(比如「sofa」到底應該翻譯成「沙發」還是「騷發」還是「莎閥」),找個讀音類似的片假名直接拿來用就好。於是 calorie 就變成了カロリー(讀音類似「卡撈力」),percent 就變成了パーセント(讀音類似「趴森頭」),metre 就變成了メートル(讀音類似「賣套路」)。

這樣一來,讀起來倒是方便了,就是寫出來太長太佔地方,結合上面所說的第一個特點,日本人想出一個「把這些表示計量單位的片假名,以及那些約定俗成的年號符號專有名詞什麼的,都堆成一個字元那麼大吧」的方法,就是「機種依存文字」存在的原因。

當然,還有個很重要的一點,雖然用我們的輸入法打這些文字很麻煩,但是微軟官方的「日本語入力」(也是絕大多數日本人用的輸入法)是可以很輕鬆打出來的,這也是這些字元至今仍然沒有死絕的原因之一。


如其他答題者所言,這類「機種依存文字」正在漸漸退出視野,然而有時候還能在
信封標籤
商品外包裝
等等需要極力壓縮文字空間的地方發現它們的身影。

還有一個不算用處的用處:拿來做文字遊戲。比如下面這個例子。

???? ??????????? ?????? 
??????????? ???? ???? 
????????? ?? ??

形如亂碼一般。
但如果僅閱讀每組文字的下面半行,即可得以下句子:
ロンリーロンリークリスマスヒトリボッチ クルシークルシークリスマス
ヒトリボッチ ナコーガ シノーガ クリスマスドンゾコ ブルブル ブルブル

粗譯:
Lonely~Lonely~孤單的聖誕節~痛苦的聖誕節~
形單影隻,哭吧,死吧,黑暗谷底的聖誕節,渾身顫抖,抖抖抖。

幾乎發展成暗語一類的東西了。


1.1 在久遠的曾經……那個Windows尚未統治世界,蘋果還在Apple II遊盪的年代,有個邪惡的公司叫做NEC。
1.2 這一派邪惡勢力,在迎接8位CPU往16位進發的路上,為了我也不太懂的什麼理由,開發了二分之一字元文字。
1.3 這些文字甫一出現,便在中二病中廣為流傳,日漸紅火。
1.4 這些文字依存於NEC或IBM出品之PC,但也有單獨抽出之安裝包供更多中二病之用。
1.5 由於我不太懂的什麼理由二,自從Win95被淘汰之後,它們便很難純手打打出來了,大多被歸入軟鍵盤之【符號II】菜單中。

2.1 Windows98/Me出現後,PC端機種依存文字逐漸消失,移動端機種依存文字開始抬頭。
2.2 EZweb與iMode兩家將機種依存文字事業發揚光大。
2.3 機種依存文字伴隨手機郵件產業度過了一段燦爛無比的日子。
2.4 萬惡的智能機打破了這一切。
2.5 手機郵件產業逐漸沒落,機種依存文字氣息奄奄,朝不慮夕。

不拽聖經體的話,這些就是那些當年搞出來的二分之一字元文字的符號化,至於為什麼要搞二分之一文字請去問NEC。
機種依存文字顧名思義就是Unicode字型檔里沒有,需要各機種單獨小字型檔才能顯示。譬如SONY系機種依存文字一般顯示出來是問號、NEC系和iMode出來是口口口、EZweb和軟銀出來一般是=====。

搜索為什麼搜不出……因為丫現在是以符號身份活著的。
度娘不指望,Yahoo Japan和google japan如果你把單個符號粘貼進搜索框,是可以自動匹配的。


http://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E5%AD%97%E5%85%83

維基百科你值得擁有


?kilo- 千 ?centi- 厘 ?metre米 ?gram克 ?ton噸 ?watt瓦特 ?dollar美元 ?cent分 ?頁碼


不知道樓主聽說過「漢卡」沒有,當年還在286-386時代是非常流行的一種硬體,作用是把字型檔(包括漢字編碼和字體)集成在裡面,再通過軟體介面調用,達到快速顯示漢字的目的。後來隨著奔騰晶元和Windows 95的到來,這些字型檔硬體在電腦上逐漸消失了,卻被發展初期的手機繼承下來,以至於後來出現各種的「字型檔門」事件。
我們的硬體漢卡的設計思想就是從日本借鑒來的,有所不同的是我們的漢字編碼是有國家標準統一的,而日本由各個廠商制定了不同的標準且互不兼容,換句話說就是依賴某種/某家電腦廠商的文字表現形式,就是[機種依存文字]。到CJK(中日韓統一編碼)制定的時候就把這些都集成進去了(Unicode也使用了相同辦法)。
現在像№,㈠,⑴,⒉,這些只佔用一個編碼、2個字元位置的符號就是那個時代的遺存。

還有就是支持Unicode編碼的搜索引擎都應該能夠處理這些字元,只不過大部分的搜索引擎都沒有做這些字的語義分析,而且存世量較少,所以一般只有針對日本市場的搜索引擎才會做這些工作。


這只是為了把複雜的詞縮為一個字元,很多這種文字都不能用ASCII碼錶示,所以叫做機種依存文字,因為很有可能歐美的網頁顯示不全(比如顯示成一個□)。
取部分這類字元,按編碼列表如下:

0x3220㈠㈡㈢㈣㈤㈥㈦㈧㈨㈩月火水木金土
0x3230日㈱有社名特財祝勞代呼學監企資協
0x3240祭休自至
0x3300????????????????
0x3310????????????????
0x3320????????????????
0x3330????????????????
0x3340????????????????
0x3350????????
0x3280一二三四五六七八九十月火水木金土
0x3290日株有社名特財祝勞秘男女適優?注
0x32A0項休寫㊣?????醫宗學監企資協
0x32B0夜

類似的字元還有????,等等,與上面表中的字元一樣,縮成一個字元和分開寫的含義是一樣的。
其實歐美也有類似的行為,比如€等等,不過這些字元的意思和日文詞相比清楚多了。


感謝 @LiTuX 的答案
在他的答案里已經給出了這些字元的用處了。

而相應地,反對說比如「這是早期垃圾編碼造成的惡果在UNICODE中的繼承」的這樣的答案,因為(就拿這個來說):為何說是「惡果」呢?首先它具有意義,而有了對應的編碼後又能節約位元組數,豈不是非常棒的?類似的還有emoji,其單個符號表達的信息含量可能是更大的,而佔用位元組卻並不多,能實現這樣一種狀態的話,就意味著只需要一套編碼,就可以用很少的存儲來存儲很大的信息了,輸入成本也會有一定程度的減少(在都會被輸入法候選到的情況下),這在電子設備輸入與存貯逐漸變多的時代無疑是順應潮流的。
而實現這一狀態的便是Unicode編碼了。……
……我的原則是向尊重一切形狀不相同的符號的編碼規則致敬……所以……
這裡,我便要反對,將此說為「惡果」了。

當然了,亦或許我們關注的角度互不相同。
如此便也就無從「反對」了。


還有一些機種依存文字被大伙兒遺漏了,那就是——電報用縮寫。形如『1點』『2時』『3月』縮成一個字元的即是。


我只是圍觀下,原來這種文字是我大NEC的傑作2333
作為一個大多時候使用Unicode的人表示,只在做遊戲漢化的時候使用過此類文字……


有道現在用的360的搜索技術。360、微軟的必應是可以搜索的。百度搜狗谷歌可能不認這種字元。
日語韓語的搜索引擎也可以搜索。


推薦閱讀:

TAG:字體 | 排版 | 字體排印 | 日語 | 日文字體 |