经过十余年研制,2013年《通用规范汉字表》问世。甫一问世,就获得了极高的地位,取代了过去一直沿用的多个字表。以一替众方便了使用者,一些被取代的字表之间相龃龉的地方也得到合理安排,少数位于扩展区的汉字因为进入了该表也得到了新生产的电子设备的普遍支持,可以说该表是发挥了相应作用的。但该字表也含有不可忽视的缺陷。

缺陷一:通用性。

先给出一点字表的基础知识:《通用规范汉字表》共收字8105个,分为三级:一级字表为常用字集,收字3500个,主要满足基础教育和文化普及的基本用字需要;二级字表收字3000个,使用度仅次于一级字;三级字表收字1605个,是姓氏人名、地名、科学技术术语和中小学语文教材文言文用字中未进入一、二级字表的较通用的字,主要满足信息化时代与大众生活密切相关的专门领域的用字需要。

一、二级字表研制使用了:国家语委「现代汉语平衡语料库」(9 100万字元)、北京语言大学「现代新闻媒体动态流通语料库」(3.5亿字元)、「教育科普综合语料库」(518万字元)、「儿童文学语料库」(570万字元)、《现代汉语词典》(第五版)和《新华字典》(第十版)等。毫无疑问,这些语料保证了一、二级字表的科学性。但问题出在了三级字表。试想一下,如果经过这么全的语料筛选还有字没进入一、二级字表,那这三级字表的通用性有多低?

那么三级字表来源于哪里?根据该表说明,有以下来源:①姓氏人名用字,来源于1982年人口普查的抽样数据、公安部提供的数据、古代有影响的名人的姓氏人名用字;②地名用字,来源于民政部和国家测绘地理信息局提供的数据;③科技术语用字,来源于全国科学技术名词审定委员会和中国社会科学院语言研究所提供的数据;④中小学文言文,来源于中小学语文教材。从上述文字来看,尽管号称《通用规范汉字表》,但它的三级字表并不通用。

我觉得这个字表应该改名叫《规范基础用字表》,一级字表还是常用字表,一、二级字表就合称通用字表,三级字表就改名叫专用字表,专门解决四类用字:姓氏人名、地名、科技术语和中小学文言文。 但这样也有值得进一步商榷的问题:只有这四类领域值得进入三级字表/专用字表吗?例如:古代地名用字(如商代都城「隞」和「沬」、「牛鞞县」的「鞞」、「大?兰国」的「?」、「?萨罗」的「?」),国外地名用字(如「滀仕」的「滀」、「高槻市」的「槻」、「栃木县」的「栃」),古代器物用字(如「?台皿」、「𪾔」、「韘」),古代官职军职用字(如「庲降都督」的「庲」、「𫄙军」的「𫄙」、「彍骑」的「彍」),古今民族名用字(如「濊貊」、「賨」、「僜」、「?亻革」),曲艺乐器名称用字(如「伬艺」的「伬」、「?剧」的「?」、「铓锣」的「铓」),体育运动用字(如太极拳术语「掤」、「挒」),宗教用字(如「阿閦佛」的「閦」、「罗睺罗」的「睺」、「三钵啰佉多」的「佉」),祭祀用字(如「肜」、「禫」),饮食名称用字(如「粄」、「糬」、「食其」、「喼汁」的「喼」、「龙头鲓」的「鲓」),年号用字(如「奲都」的「奲」)甚至吉祥物用字(如「砳砳」)等等。

缺陷二:规范性

????①繁体字

字表对于繁体字原则上是一个也不收。《简化字总表》留下了「余」和「折」这2个转圜用字。到《通规字表》就连这2字都抛弃了。在普遍使用简体字的今天,除了查阅古籍和与港澳台交流,大多数繁体字确实实际使用意义不大,不恢复繁体字的做法值得肯定。

但问题出在「一简对多繁」上!汉字的发展并不只有简化,还有必要的繁化以分化字义。简化字形无可厚非,但简化字数就可能导致歧义了。尤其是「症」与「症」,前者是中医肿瘤的诊治用语,后者用于一般病症,这两回事要是混淆了病人就可能要看错病吃错药了。一些「一简对多繁」的繁体字还有不少实际语用,尤其值得一提的是同被简化为「蒙」的「蒙」和「蒙」:「溟蒙」和「蒙眬」本来有著偏旁一致的形式美,现行文字政策非要强行规范成「溟蒙」和「蒙眬」。此外,「蒙」广泛用于人名用字(凌蒙初、王蒙、桂雨蒙、赖雨蒙)和地名用字(广西的蒙江镇、四川的蒙阳镇和蒙溪河、贵州的蒙江和蒙坝、吉林的蒙江乡、广东的蒙浬),「蒙」还用于「黑蒙」(amaurosis)这一医学术语,这2字的语用并没有因为被简化就消失。又比如「朱」被规范为「朱」,但武汉地名「朱山湖」也是地方政府认可的规范地名,这导致文字规范与地名规范相冲突。(2019/1/6补充:除了「一简对多繁」,也有「多简对一繁」,例如「恶」「苹」「钟」,一些字甚至「多简对多繁」,例如「复/覆」。非一一对应的繁简关系对繁简转换带来了不少的麻烦,影响古文化传承和与港澳台的交流。)

另一个繁体字问题是类推简化是否有边界。字表回避了对这个问题的回答,但新增类推简化字226个。无限类推成本较高,有限类推又会导致文字结构缺乏系统性,尤其当你看到一堆简体字印刷的鱼类名称中混杂著「鯮𫚒𫚔鱥𫚉」等字。如何探寻类推简化的边界还需商榷,但至少应该满足表意的系统性。

②异体字

字表依据实际使用给45个异体字的地位予以扶正。但既然字表研制过程中参考了相关语料库,应该发现还有一些情况下异体字仍然被普遍使用。例如建筑学术语「跴」、「鞌之战」的「鞌」、「殽之战」的「殽」、「氹仔岛」的「氹」、「袁瓌」的「瓌」。尤其要谈谈「合」这个字,一方面它是「阁」和「阖」的异体字,另一方面它又有自己独有的义项:小门。它还是姓氏,还用于地名(如合皂山),不把它扶为规范正体总觉得不对。另外,「契阔谈?」的「?」之前已经恢复规范身份,这次又把规范的身份褫夺了,那么「契阔谈yàn」应怎么样规范书写?

2019/1/6补充:如《《现代汉语词典》中因一味承袭古代字书注音所致错误举隅》一文所言,「菍」字的收录需要斟酌,应该改收它的异体字「棯」。「栘??」二字也应补收。

③旧用字

此外字表还把旧用字淘汰在外,但没有考究实际语用。因为「硫磺」被规范为「硫黄」就不收「磺」,不管「磺酸」、「磺胺」等语用;因为「朊」被规范为「蛋白质」就不收「朊」,不管「朊病毒」等语用。但就这样,字表还是错收了部分已经淘汰的字,例如「胩」,现在一般规范叫作「异氰」。

④错收的罕用字

搞笑的是,《通用规范汉字表》收录了「榑」这个字。根据《新华字典》解释,这个字念fú,用于「榑桑」一词,但「榑桑」是「扶桑」的异形词,且词频远不及后者,也没有不容忽略的出处。你要说用于人名「朱榑」可他也没那么有名。后来得知该字是跟名词委沟通后补收的。根据术语在线的查询结果,该字用于建筑学术语,对应英文purlin(桁檩)。问题来了,名词委本应该收录的建筑学术语其实应该是「𣏢」而不是「榑」!𣏢是宋代对桁檩的称呼。由于「𣏢」和「榑」字形相近,于是名词委闹出了这个乌龙,继而害得语委在拟定通规字表时收入了「榑」这个在现代汉语并不通用的字。

2019/1/6补充:有30字在《简化字总表》却不在《通用规范汉字表》,包括:?、?、?、?、硷、?、?、鲶、?、?、?、?、诶、谉、?、?、咨、唡、钶、?、?、?、馎、饦、鳆、?、鹥、挜、挢、铓。其中,从「?」到「咨」为已经淘汰的异体字的类推简化字,从「唡」到「?」为科技术语已经淘汰的旧用字,馎饦是一种古代麺食(就是麺片汤),鳆鱼是鲍鱼古称,「?」表示滑溜,「鹥」在古书上指凤凰,「挜」在上海话里指硬塞给人东西(张爱玲爱用这个字),「挢」作动词指抬起、拱起,「铓」用于「铓锣」。感觉挜、挢、铓三个字还可以讨论一下,其他字确实不该收。

缺陷三:系统性和全面性

大概因为语料库信息不对称吧,字表增收了「蒄」、「?」等多环芳烃名称用字,偏偏漏收了「苝」。另外,字表收了连绵词「𫘧駬」的「??」却不收「駬」,非常奇怪。此外,字表收录了「虺𬯎」的「𬯎/??」,却没有收异形词「虺尵」的「?兀贵」,这是钦定了「虺tuí」的规范写法吗?(虽然《诗经》里写的是「陟彼崔嵬,我马虺𬯎」,但现汉以「虺?兀贵」为正)

2019/1/6补充:一些口语常用但书面语少见的字,比如「?」、「?」、「?」、「?」、「跩」、「敹」、「冇」、「搲」、「?」、「?火巴」以及语气词「唦」、「唻」、「?口欧」等,也应该有所考量。

另外三级字表号称收齐了乡镇以上行政区划地名用字,结果前几天我在知乎上就看到「下?石太 镇」的「?石太」还没有Unicode编码。又比如,不知道是不是把「甽」看作「圳」的异体字了,浙江深甽镇的「甽」没有收录,但「深甽」要是规范成「深圳」就和广东的「深圳」重名了,因此「甽」还是有必要收录的。之前看书就遇到了「艋舺」「琅?王乔」「噍吧哖」等有名的台湾地名都有字没有收入。不少表外八辅字有大量地名在用,如「?门外」、「塂」等。

中小学文言文用字也没收全,不知道是什么考虑。例如《蜀道难》的「噫吁嚱」的「嚱」,「砯崖转石万壑雷」的「砯」。征求意见稿还收了「如倩女之𫖃面」的「𫖃」、「都揾做重重叠叠的泪」的「揾」,正式稿中却删去了。细想一下,「垂緌饮清露」的「緌」、「乘彼垝垣,以望复关」的「垝」、「晻晻日欲暝」的「晻」、「斥𫛩每闻欺大鸟」的「𫛩」、「今宵剩把银釭照」的「釭」、「文章易作,峬峭难为」的「峬」等等,这些有名的诗句里都含有表外汉字。

就像前面说的,字表要么缩减自己的作用——即只收通用字,要么就扩大收字范围,改为满足百姓基础用字的需要。那么,收字就要考虑各个学科的全面需要。例如,字表不能满足建筑学专用术语用字,漏收了「盝顶」的「盝」、「明栿」的「栿」、「槏柱」的「槏」、「材栔制」的「栔」、「睒电窗」的「睒」,一些已收的建筑学用字也从原来的「通用字表」降权到「三级字表」。如果字表目的是满足基础用字,那么建筑学用字方面是需要进一步补充的。制表时说为了方便大家看病用药需求要添加了一些医药专用字,但还是没收全,漏收了「白疕」的「疕」、「臁疮」的「臁」、「目瞏」的「瞏」。生物系统命名方面,字表较先前的多表而言添加了较多生物名称用字,可是仍然不够,别说「属」这一级别(如「獛属」「溪蚚蝗属」「箣柊属」「荚蒾属」「菵草属」「山檨子属」),「科」一级(如「躄鱼科」「花荵科」「鳋科」「西貒科」)甚至「目」一级(如「?犭亚 兽目」「蚖目」)的用字都没有收全,一些常见的植物(如蔬菜「茖葱」,中药「荠苨」「龙脷叶」「榼藤子」「苦蘵」「山橿」,水果「槾橘」「枳椇」,调料「山嵛菜」,木材「𪲛木」)和有名的动物(如「獚犬」、「蟿螽」、「蠵龟」)还含有表外汉字。化学术语也需要梳理,例如「凎」、「?艹守 烷」、「呫吨」等。

2019/1/6补充:位于非URO区的科技术语用汉字详见:科技术语在非URO区域(截至Unicode11)的分布 、动植物普通名中unicode10未编码汉字

人名用字详见:含有《通用规范汉字表》表外汉字的名人人名 第一部分:繁体字、异体字、国外自造字 、 含有《通用规范汉字表》表外汉字的名人人名 第二部分:第一部分以外的低频生僻字


推荐阅读:
相关文章