迄今收錄現代漢字最全的字典是什麼呢?
像《通用規範漢字表》收字8105個,其中常用字為一級字表,其餘為二、三級字表,但都為通用字。請問現代漢語中除《通用字表》收錄的這8105字,還會存在其他所謂的生僻字吧?如何斷定這些生僻字是現代漢語中通行或還有使用價值的、而不是已廢除的古代漢字?迄今有這麼一本現代漢語字典嗎,其不僅收錄了通用字又收錄了現代漢語中的生僻字?
當然,這裡所說的生僻字不包括異體字。
收錄漢字最全第一可能是《異體字大字典》,第二是《中華字海》,第三是《漢語大字典》。
如果將所有漢字古今文字和漢字變體包括進去(甲骨、金文、篆書,日本、越南、契丹、西夏等地漢字),那收錄字數最多是字典是日本的《今昔文字鏡》,大約有17萬字,見維基百科:
https://zh.wikipedia.org/wiki/%E4%BB%8A%E6%98%94%E6%96%87%E5%AD%97%E9%8F%A1
《今昔文字鏡》網站:
?ì?????????í
歷代漢字字典收字數:
秦漢---清代
- 秦代:《倉頡》、《博學》、《爰曆》三篇共有3300字,
- 漢代揚雄作《訓纂篇》,有5340字,東漢許慎《說文解字》有9353字了,(不包括重文)
- 魏晉南北朝:《字林》,有12824字,《字統》,有13734字,《玉篇》有16917字。
- 唐孫強增字本《玉篇》有22561字。
- 宋代司馬光修《類篇》多至31319字,
- 清代《康熙字典》就有47000多字了。
近現代:
- 1915年歐陽博存等的《中華大字典》,有48000多字。
- 1959年日本諸橋轍次的《大漢和辭典》,收字49964個。
- 1971年張其昀主編的《中文大辭典》,有49888字。
- 1990年徐仲舒主編的《漢語大字典》,收字數為54678個。
- 1994年冷玉龍等的《中華字海》,有85000字。
- 台灣的教育部《異體大字典》收字10,6230個(包括重文)
- 台灣《中文大辭典》收字4,9905個
我以為這些字典中,最實用、權威可靠的是徐中舒等300名權威學者編纂了10年的《漢語大字典》,不同的字典有不同的用途,像一般人、學生用《現代漢語詞典》,而《漢語大字典》的好處就是無論是學術研究還是工具書,都是一流的。我一般是《說文》 、《康熙》、《漢字大字典》三本配合使用!
另外,查一些這輩子都不可能用到的疑難、冷僻字就用《中華字海》和《異體字大字典》,查漢字演變就用李學勤編的《字源》,查古今學者訓釋古文字就用《古文字詁林》。
還有,你的問題太泛化了,不集中在一個點上,也不好回答。比如:
「如何斷定這些生僻字是現代漢語中通行或還有使用價值的、而不是已廢除的古代漢字?」
判斷冷僻字、廢字是不難的,關於「使用價值」,我試著從我能理解的角度去回答。
1、「使用價值」不好判斷,我個人只能理解為現代漢字學中的「字頻」和「漢字效用」。
「字頻」也就是使用統計學的方法對語料進行統計,分出漢字的常用等級!這個研究進行了幾十年,《通用規範漢字表》就是根據「字頻」統計而來,分為三個常用等級。
依據經濟學中「效用遞減」概念,現代漢字學根據字頻統計數據也創造了「漢字效用遞減」這個概念,中國國家標準局的統計數據是:
1000個最常用的漢字和2400個次常用的漢字可以覆蓋和90%、99%的文本,以1400字遞增覆蓋率就縮小10倍,6600字以外漢字覆蓋率不超過0.001%。
見下圖:
1979-1986年北京語言學院語言教學所出版《現代漢語頻率詞典》一書,基於180萬漢字的語料,依據字頻統計得到4574個字種分為四個常用級別,數據顯示2418個常用漢字覆蓋99%文本。
如下圖:
香港中文大學也有60-90年代台灣、香港、大陸三個地區的統計數據資料,與中國數據基本相同,見網址:
Chinese Character Frequency Statistics for Hong Kong, Mainland China and Taiwan
大陸八、九十年代字頻統計
近些年,以互聯網和電腦為工具,選取了幾十億字的語料文本,統計結果也差不多。
如:1994 年 Big5 中文網路討論字頻統計,這個統計數據與民國、和中國70-80年代的「字頻」相差不大。
「字頻」統計一直都在進行,語料庫的範圍、字數越來越大,《通用規範漢字表》也一直都在微調,因為語言在變。
豆瓣上網友搜集到的一些語料庫:
語料庫資源
《通用規範漢字表》考慮到了各行各業的用字情況,盡可能的達到都能兼顧。
可以參考中央政府網站的文件:研製專家工作組解答《通用規范漢字表》有關問題
因此,《通用規範漢字表》是絕對可以很好的記錄表達現代漢語,一點缺陷可能就是「人名、地名」中的冷僻字無法電子化處理。這點有很多新聞報道,比如章太炎的四個女兒名字,除了古文獻,現代漢語是不會用到的。這不是《通用規範漢字表》的弊端,這是漢字的一點弊端。
也就是說:在《通用規範漢字表》以外的漢字,你說的「使用價值」是很小的,這完全可以用數據量化判斷。
2、「規範化、標準化」漢字,沒有廢除任何漢字,「規範標準化」的好處是不言自明的,特別是在信息社會。私底下你用火星文都可以,但是在公共領域內就必須要使用規範漢字,減少信息傳遞、溝通的成本。
文字是記錄語言的,語言在變,文字也會變,先秦文字和文本除了受過專業學術訓練以外,很少人能看懂,就是頂級學者之間還有很多爭議。魏晉、唐宋漢語文本中「字頻」跟今天有很大的區別。明清通俗小說如《水滸》、《紅樓夢》的「字頻」跟現代漢語區別不大,因為它們是現代白話文的前身。
因此,很多古文字沒有對應的現代漢字,除學術研究如:文字學、古漢語以外,「使用價值」也不大。
能不能明確的的記錄語言是衡量文字系統好壞的標準,也就是「我手能不能寫我口?」。從上面的統計數據可以看出,《通用規範漢字表》在記錄現代漢語(普通話)沒有任何問題,但是在記錄方言的時候有問題。比如粵語就生造了很多方言字。
說法只作參考,很不嚴謹,所以匿了……
還會存在其他生僻字吧?存在。
如何斷定生僻還是廢除?沒法斷定,廢除沒廢除其實也是模糊的,你翻字典揀到一個古字生僻字,覺得很好用一瞬間就愛上了這個字,也可以經常用。
插一句,生僻字異體字其實也是相對的,有人這麼寫過,寫的人多了,即使不符合字源字理,也可能成為規定的正字,本身定標準也就是根植於人民群眾怎麼用的。
然後,字典。把所有漢字收全這種收集欲當然自古以來就存在,這樣的收集性質的東西不少。
然而漢字只會越來越多。
前人所作實體字典代表性的就是《漢語大字典》《康熙字典》《字海》了。
現在也有計算機行業的組織、網站在繼續這個事業,其基礎也是基本收錄了以上紙質字典所有字的。
Unicode,目前通行的字符集,也就在不斷更新編碼越來越多的生僻漢字。
http://glyphwiki.org 是一個在線編輯和分享漢字字形的網站,主頁上說迄今為止已經收錄了至少390000個字形(包括各種異體字、創作的字),排除異體字後的「字位」有至少210000個。
還有 http://zdic.net,http://yedict.com,今昔文字鏡,等等網站。
亍尢彳卬殳[ ]毌邘戔圢氕伋仝冮氿汈氾忉宄[ ]訒扞圲圫芏芃朳朸[ ]邨吒吖屼屾辿釓仳俔伈癿甪邠犴冱邡閆[ ]汋?訩[ ]孖[ ]纊玒玓玘瑒剗[ ]壢坉扽[ ]坋扺?毐芰芣苊苉芘芴芠[ ]芤杕杙杄杧榪尪尨軑[ ]坒羋旴旵咼?岍[ ]岠岜呇冏覎嶴伾?伭佖伲佁颺狃閌汧汫[ ][ ]沄沘[ ]汭?沇忮忳忺[ ]禡詗邲詘詖屓[ ]岊阽?阼妧妘[ ]紘馹[ ]紵[ ][ ]紖玤玞瑲玟邽邿坥坰坬坽弆耵?[ ]茋薴苾苠枅?枘枍矼矻匼[ ][ ][ ]旿昇昄昒昈咉咇咍岵崬岨岞峂?囷[ ]釤鍆鍚牥佴垈侁侹佸佺隹?侂佽侘郈舠鄶郃攽肭肸肷狉獮飿忞於炌炆泙沺泂泜泃泇怊峃穸祋祊[ ][ ][ ]鳲弢弨陑[ ]陎[ ]巹乸妭姈[ ]逕叕[ ]駔[ ]?騶[ ]紼紿砉耔?玶珇珅[ ]珋玹珌玿韍垚垯垙塏埏垍耇x垎堖垟垞挓垵垏拶荖荁薘蕘茈茽荄茺[ ]荓茳[ ]茛葒?柷柃柊枹栐柖郚剅?迺厖砆砑砄耏奓?軹軤轢軺昺[ ]曨盷咡咺昳昣噠昤昫昡咥昪虷虸哃峘耑峛[ ]峗峧帡鈃[ ]鉅[ ][ ][ ]鈧鈥鈄矧秬倈舁俜俙俍垕衎艤弇侴鶬?胠[ ]胈胩胣朏颭訄餏庤疢炣炟?洭洘洓洿?泚湞浉洸洑洢洈洚洺洨滻?洴洣恔宬窀扂褘祏祐祕叚隉陞娀姞姱姤姶姽枲絰駰[ ][ ][ ][ ]彖驫恝珪珛珹琊玼珖[ ]珽珦珫珒[ ]珢珕珝[ ]埗垾垺埆垿埌埇莰茝[ ]鄀薟莝?莙栻椏[ ]桄梠栴梴栒酎酏[ ]砵砠砫砬硜恧翃郪[ ]輈輇[ ]剕貲哢晅晊嗊哳哱冔曄晐暉畖蚄蚆[ ]幬崁峿[ ]嶮帨崀贐[ ]鉕[ ][ ][ ][ ]眚甡笫倻倴脩倮倕倞[ ]倓倧衃虒舭舯舥瓞鬯鴒脎朓胲虓魛狴峱狻眢[ ]勍痄疰痃竘羖羓桊敉烠烔烶烻[ ]涍浡浭浬涄涢涐浰浟浛浼浲涘悈悃悢[ ]宧窅窊窵扅扆袪袗襏祧隺堲疍[ ]陴烝砮?哿翀翂剟[ ][ ]綌騂[ ]?琎珸珵琄琈琀珺掭堎堐埼掎埫堌晢[ ]掞埪壼?聹菝萚菥莿?勩?萆菂菍菼萣?菉?檮梽桲棶桯梣梌桹敔厴硔x磑硚硊硍勔?齕逴唪啫翈?晙畤[ ]趼跂蛃蚲[ ]蚺嘽?崧崟崞崒崌崡鉶[ ][ ]銪[ ]鋮鋣銍銱銩鐋牻牿穭笱笯偰偡鵂偭偲偁?鄅偓徛衒舳舲鵃悆鄃瓻?腡脞脟?魢猇猊猄觖[ ]庱庼庳痓?竫堃閿羝羕焆烺焌淏[ ]淟淜淴淯湴涴[ ]?惛惔悰惙寁逭[ ][ ]袼褌祲[ ][ ]諝艴弸弶[ ]隃婞娵婼媖嫿婍婌婫婤婘婠[ ][ ][ ][ ]綯[ ][ ]驌[ ]絜珷琲琡琟琔琭堾堼揕?堧喆堨塅堠縶[ ][ ]葜惎萳葙靬葴蕆蒈鄚蕢蓇萩蒐葰葎鄑蒎葖蒄萹棤棽棫椓椑[ ]鵐椆棓棬棪椀楗[ ]甦醱覿奡皕硪欹詟[ ]輬棐齗[ ]黹牚睎晫晪晱[ ]蛑畯斝喤崶嵁[ ]崾嵅崿嶔翙[ ]圌圐贔淼賙x鐒[ ]鋱[ ][ ]鋝鋶鐦[ ]鋟犇頲稌筀筘簹筥筅傃傉翛傒傕舾畬[ ]脿腘?腙腒[ ]?猰[ ]猯?餶凓鄗[ ]廋廆鄌粢遆旐[ ]焞[ ]欻[ ]溚溁湝渰湓?渟溠渼溇湣湑溞愐愃敩甯棨扊襝祼婻媆媞?媓媂媄毿矞[ ][ ]縕缐騤瑃瑓瑅瑆?瑖瑝瑔瑀[ ]瑳瑂嶅瑑遘髢塥堽赬摛塝搒搌蒱蒨蓏蔀蓢蓂蒻蕷椹楪榃榲楒楞楩櫬椸楙歅[ ]碃碏[ ]碈?硿鄠轀[ ][ ]齠觜?暕鵾[ ]?暅跱蜐蜎嵲賵骱錆[ ]鍩鍈鑕鍃[ ]錇錟[ ]稑稙?[ ]筻篔筶筦筤傺鵯僇艅艉谼貆膃腨腯鮋鮓鮊?[ ][ ]鮍雊猺颸觟[ ]饁裛廒瘀癉鄘鶊鄜麀鄣闒[ ]煁煃熅煋煟煓灄溍溹滆滉溦溵漷滧滘滍愭慥慆塱[ ]裼禋禔禘禒譾鷫[ ]愍嫄媱戤勠戣[ ][ ]縗耤瑧[ ]瑨瑱璦瑢斠摏墕墈墐墘摴銎[ ]墚撖[ ]靽鞁蔌蔈蓰蘞蔊嘏榰榑檟[ ]槜榍疐[ ]酺釃酲酴碶?[ ]碨[ ]碹碥劂[ ]?夥瞍鶡?跽蜾幖嶍圙[ ]鍾鎪鍠[ ]鍰鎄鎡鐨鎇馝鶖籜箖劄僬僦僔僎槃?鮚鮞[ ]鮦鰂鮜鱠[ ][ ][ ]夐獍飀[ ]凘廑廙瘞瘥瘕鮺鄫熇漹漖瀠灠潩漼漴?漈漋漻慬窬窶?[ ]褕禛禚隩嫕嫭嫜嫪[ ]?麹璆漦叇墣墦墡劐薁薀蔃鼒槱鷊磏磉殣慭霅暵暲暶踦踣?蝘蝲蝤噇噂噀罶嶲嶓?嶟嶒鏌鎛鎲鎿[ ]鎔稹儇皞皛?艎艏鶲[ ]鰷鮶鯒櫫觭鶹鶺餱糈翦鷁鶼熛潖潵?澂澛瑬潽潾潏憭憕[ ]戭褯禤[ ]嫽遹[ ]璥璲璒憙擐鄹薳鞔黇[ ]蕗薢蕹橞橑橦醑觱磡[ ]磜豶[ ][ ][ ]鹺虤暿曌曈?蹅踶?螗疁?幪[ ]嶦[ ][ ][ ]馞穄篚篯簉鼽衠盦螣縢鯖鯕鯫鯴鰺[ ]嚲癀瘭[ ]羱糒燋熻燊燚燏濩濋澪澽澴澭澼憷憺懍黌嬛鷚翯[ ]璱[ ]璬璮髽擿薿薸檑櫆檞醨繄磹磻瞫瞵蹐蠨?[ ]鏷[ ][ ]鑥鐠[ ][ ][ ][ ]矰穙穜穟簕簃簏儦魋斶艚[ ]谿?[ ]鰏[ ]鱨鰮鰃鰁鱂獯?馘襕襚[ ]螱甓嬬嬥[ ][ ]瓀釐鬶爇鞳鞮[ ]藟藦藨鸏檫黶礞礌[ ]蹢蹜蟫?嚚髃鐶鐿酇馧簠簝簰鼫鼩皦臑?鰟鰜鸌鸇癗[ ]旞翷囅?瀔瀍瀌襜?[ ]嚭?鬷醭蹯蠋翾鰵儳儴鞀[ ][ ]?鰼麑麖蠃彟嬿鬒蘘欂醵顬甗[ ]巇酅髎犨[ ][ ]?爔瀱瀹瀼瀵襫孅驦[ ]耰[ ]瓖鬘趯[ ]罍鼱鱯鱤鱣爟爚灈韂糵蘼礵鸘躔皭龢鳤亹籥鼷[ ]
這是8105個字的第三表,你來感受一下……(方括弧里是編碼於 Unicode 基本多文種平面之外的字,沒有裝過超大字型檔大部分會顯示為框框;x是 Unicode 還沒有編碼的字)(好像知乎直接把它們全都砍了——一個也看不到了√)
難道不是 UNICODE-16碼錶?
( ????? )
這字典都是簡體還是繁體
推薦閱讀:
※現代漢語、中古漢語、上古漢語在音繫上各有什麼特點?
※北京方言里保留了哪些其他方言少有的古漢語特徵?
※「屆」是怎麼成為量詞的?
※上古漢語存在屈折嗎?
※「混沌」和「糊塗」是同源詞嗎?