汉字是语素文字,总数非常庞大。汉字总共有多少字?到目前为止,恐怕没人能够答得上来精确的数字。  

关于汉字的数量,根据古代的字书和词书的记载,可以看出其发展情况。

秦代的《仓颉》《博学》《爰历》三篇共有3300字,汉代扬雄作《训纂篇》,有5340字,到许慎作《说文解字》就有9353字了,晋宋以后,文字又日渐增繁。据唐代封演《闻见记·文字篇》所记晋吕忱作《字林》,有12824字,后魏杨承庆作《字统》,有13734字,梁顾野王作《玉篇》有16917字。唐代孙强增字本《玉篇》有22561字。到宋代司马光修《类篇》多至31319字,到清代《康熙字典》就有47000多字了。1915年欧阳博存等的《中华大字典》,有48000多字。1959年日本诸桥辙次的《大汉和辞典》,收字49964个。1971年张其昀主编的《中文大辞典》,有49888字。

随着时代的推移,字典中所收的字数越来越多。1990年徐仲舒主编的《汉语大字典》,收字数为54678个。1994年冷玉龙等的《中华字海》,收字数更是惊人,多达85000字。

如果学习和使用汉字真的需要掌握七八万个汉字的音形义的话,那汉字将是世界上没人能够也没人愿意学习和使用的文字了。幸好《中华字海》一类字书里收录的汉字绝大部分是“死字”,也就是历史上存在过而今天的书面语里已经废置不用的字。

而将佛经、道经和石刻资料中发现的异体字也包含在内的《中华字海》,收字85568个。除了中国以外,受汉字影响的其他国家字书中也有大量汉字收录,比如日本《大汉和词典》收字五万个左右,韩国《汉韩大辞典》收字53667个。

日本《今昔文字镜》收字更是高达16万,其中还包含了越南旧时曾使用的以汉字为原型孳乳仿造的喃字。

虽然汉字数量众多,甚至还有衍生字形,真要统计一个准确数字是一件困难的事情。但从商朝至今,使用最频繁、字义稳定不变的核心汉字不超过300个。

这些核心汉字在任意一篇文本中,占用字数量的70%,余下29%则有2000个汉字,而那孤独的1%则属于其他几万个汉字,其中大多数属于在文献中出现过一次或几次,或只在特定情况下才使用的“一次性”的汉字。

而在27部先秦主要文献中,1076个汉字占全部用字的95%,而这些先秦典籍使用的汉字数量其实并没有想象中那么丰富。比如《诗经》用字2831个,《周易》用字1358个,《老子》用字824个,而《孙子兵法》用字更是仅有760个。所谓微言大义,可见一斑。

汉朝及以后的文献中,如《史记》用字4932个,其中868个汉字构成了全篇90%的篇幅,有1017个汉字只出现过一次。

如果以《四库全书》作为依据,其收录3071本书共计8亿字,使用了29088个不同汉字。如果将用字频率做一个统计,那么最常用的1000字构成了整部书篇幅的81%,2000字构成了92%,4000字构成了98%。

而《现代汉语常用字表》则是有3500个汉字,能够覆盖现代主流文本的99.48的篇幅。

所以中国九年义务教育的语文课标里要求“认识常用汉字3500个左右”这个标准,可以说是十分有依据。

不过认识汉字的数量足够多,并不代表一个人的汉语水平一定很高,因为还涉及到构词和造句的问题。毕竟仅有760字的《孙子兵法》不是所有人都读得懂,当这些单语素的字组成千上万不同的词和短语,要是还包含典故的话,那就是传说中“既熟悉又陌生”的感觉了。

这也是许多老外在学习汉字时最头疼的一件事——认识几千个汉字,但仍然读不懂一篇文章。

相关文章