準擴展H區(WS2017)地名用字提交情況

來自專欄生僻地名用字18 人贊了文章

在很多人的努力下,WS2017(IRG Working Set 2017)中提交的地名用字相比之前的擴展集明顯增多,我們主要分析了《八輔字情調查表》中地名外字的提交情況,具體如下。

經過初步統計,WS2017初始提交的349個表內地名字中,共有280字見於《信息技術 信息交換用字符集 第八輔助集》,另有69字八輔未收。其中G源後又撤回一字「?木?」(GDM-00143),所以截止目前WS2017中共提交了280個八輔內地名字以及68個八輔外地名字。

1 提交源統計

*注:此處統計的是在WS2017中提交至IRG的證據源類型。提交源分為G(大陸非壯字/地名字/人名字)、GXM(大陸人名用字)、GDM(大陸地名用字)、GZ(大陸提交壯字)、UTC(委員會源)、UK(英國)、T(臺灣)、K(韓國)、V(越南)幾大類。

GDM、UK、UTC : 1字(「?辶化」)

GZ、UK : 1字(「?門見」)

GXM、UK : 2字 (「?山在」、「?身長」)

GXM、UTC : 3字(「?山貢」、「?分水」、「?石尋」)

G、UTC : 2字(「?先母」、「?火千」)

UK、V : 1字(「?土舍」)

UTC、SAT : 1字(「?土夭」,unify to 「?土天, U+2BB5B」)

UTC、V : 1字(「??田」)

GZ : 2字(「?竹孟」、「?辶等」,作為壯字提交)

T : 1字(「?艹卜」,作為化學用字提交)

V : 3字(「?氵郎」、「?石來」、「?竹坡」,作為喃字提交)

K : 4字(「?老土」、「?土任」、「?王邦」、「?石豪」,皆取自韓國漢籍)

GDM、UTC : 12字

GDM、UK : 26字

GXM : 16字

GDM : 68字

UTC : 79字

UK : 125字

其中,八輔外68字的提交源情況為GDM 15字,GDM、UK 2字(「?山領」、「?木烏」),GXM 1字(「?口蘇」),UK 34字, UTC 16字。

2 證據可信度、Unify情況

2.1 證據情況及可信度

由UK源、UTC源提交的地名字絕大多數用的是地名證據,一小部分用的是方言字證據或者其它資料,但可信度以及清晰度都較高,出問題的可能性不大。

僅有公安部白條作為證據的人名/地名字通過情況仍然不容樂觀,尤其是一部分地名用字的列印白條疑似出現了亂碼的現象,G源在提交後也撤回了一些字,其中就包括前文提到的「?木?」。

臺灣作為化學用字提交的「?艹卜」字證據較為可靠。

對於其它源提交的字形恰好與八輔字重合的字,我還沒有詳細研究,在此不做過多的介紹。

2.2 Unify情況

「?石帶」 GDM unify to 「?石帶, U+25567」?

「?土夭」unify to 「?土天, U+2BB5B」

「??且」unify to 「?(U+2053F)且, U+262A8」

3 總結

前兩天剛剛寫完了最後一份大地名字提案,並提交至UK源。這些字會在接下來的1-2個Working Set中提交編碼,全部編碼所需時間在10年左右。

雖然一直在努力,但是仍然有太多太多的字被淹沒在了浩如煙海的典籍之中。有時候也會很失落,得知這個地方的新身份證被偷偷改成了常用字,那個地方的新身份證也突然就改了。覺得這些字以及它們所包含的東西就像曾經的北京老城牆一樣,在時代的洪流中註定會被拋棄,又無法恢復。不知道以後的人會不會後悔這些字以及相關文化的散失。我說不準,只能看。

最後還是感謝吧,太多的朋友幫助我做了許多無可替代的工作。沒有你們,也不會有這麼多的證據。


推薦閱讀:
相關文章