漢字是語素文字,總數非常龐大。漢字總共有多少字?到目前爲止,恐怕沒人能夠答得上來精確的數字。  

關於漢字的數量,根據古代的字書和詞書的記載,可以看出其發展情況。

秦代的《倉頡》《博學》《爰歷》三篇共有3300字,漢代揚雄作《訓纂篇》,有5340字,到許慎作《說文解字》就有9353字了,晉宋以後,文字又日漸增繁。據唐代封演《聞見記·文字篇》所記晉呂忱作《字林》,有12824字,後魏楊承慶作《字統》,有13734字,梁顧野王作《玉篇》有16917字。唐代孫強增字本《玉篇》有22561字。到宋代司馬光修《類篇》多至31319字,到清代《康熙字典》就有47000多字了。1915年歐陽博存等的《中華大字典》,有48000多字。1959年日本諸橋轍次的《大漢和辭典》,收字49964個。1971年張其昀主編的《中文大辭典》,有49888字。

隨着時代的推移,字典中所收的字數越來越多。1990年徐仲舒主編的《漢語大字典》,收字數爲54678個。1994年冷玉龍等的《中華字海》,收字數更是驚人,多達85000字。

如果學習和使用漢字真的需要掌握七八萬個漢字的音形義的話,那漢字將是世界上沒人能夠也沒人願意學習和使用的文字了。幸好《中華字海》一類字書裏收錄的漢字絕大部分是“死字”,也就是歷史上存在過而今天的書面語裏已經廢置不用的字。

而將佛經、道經和石刻資料中發現的異體字也包含在內的《中華字海》,收字85568個。除了中國以外,受漢字影響的其他國家字書中也有大量漢字收錄,比如日本《大漢和詞典》收字五萬個左右,韓國《漢韓大辭典》收字53667個。

日本《今昔文字鏡》收字更是高達16萬,其中還包含了越南舊時曾使用的以漢字爲原型孳乳仿造的喃字。

雖然漢字數量衆多,甚至還有衍生字形,真要統計一個準確數字是一件困難的事情。但從商朝至今,使用最頻繁、字義穩定不變的核心漢字不超過300個。

這些核心漢字在任意一篇文本中,佔用字數量的70%,餘下29%則有2000個漢字,而那孤獨的1%則屬於其他幾萬個漢字,其中大多數屬於在文獻中出現過一次或幾次,或只在特定情況下才使用的“一次性”的漢字。

而在27部先秦主要文獻中,1076個漢字佔全部用字的95%,而這些先秦典籍使用的漢字數量其實並沒有想象中那麼豐富。比如《詩經》用字2831個,《周易》用字1358個,《老子》用字824個,而《孫子兵法》用字更是僅有760個。所謂微言大義,可見一斑。

漢朝及以後的文獻中,如《史記》用字4932個,其中868個漢字構成了全篇90%的篇幅,有1017個漢字只出現過一次。

如果以《四庫全書》作爲依據,其收錄3071本書共計8億字,使用了29088個不同漢字。如果將用字頻率做一個統計,那麼最常用的1000字構成了整部書篇幅的81%,2000字構成了92%,4000字構成了98%。

而《現代漢語常用字表》則是有3500個漢字,能夠覆蓋現代主流文本的99.48的篇幅。

所以中國九年義務教育的語文課標裏要求“認識常用漢字3500個左右”這個標準,可以說是十分有依據。

不過認識漢字的數量足夠多,並不代表一個人的漢語水平一定很高,因爲還涉及到構詞和造句的問題。畢竟僅有760字的《孫子兵法》不是所有人都讀得懂,當這些單語素的字組成千上萬不同的詞和短語,要是還包含典故的話,那就是傳說中“既熟悉又陌生”的感覺了。

這也是許多老外在學習漢字時最頭疼的一件事——認識幾千個漢字,但仍然讀不懂一篇文章。

相關文章