前面谈了GB 18030和CNS 11643以后,日本、韩国、朝鲜的就跳过吧哈哈哈。(理由有很多,主要就是因为懒……ヾ(=???=)?喵?)

在TCVN之前,越南也发过一些关于国语字、汉喃的国标,在这份国标颁布以后,基本上以前的也就原则上不再使用了。

一、TCVN 8271之前

(1)国语字

RFC 1456:VIQR和VISCII

VIQR实际上是一个没办法的办法,借用ASCII的字元来临时表示越南国语字。如:

Vi?t Nam = Vie^.t Nam

而VISCII是一个八位的编码方案/字符集。它把码位拓展到了所有位元组,为了字符集的完整性,0x80到0x9F都用来填可见字元了,甚至C0中的一些位置也被可见字元占据。VISCII的办法是把所有的字母连同声调都单独编码。虽然它不是真正的国标,但却成了后来的事实标准。RFC的申请人是Vietnamese Standardization Working Group。

TCVN 5712-1993 VSCII-2

同年同月(1993年5月),VSCII-2发布,年底提交了ISO-IR的申请。严格来说,这不是一个很靠谱的方案。

(2)汉喃

喃字字符集:TCVN 5773-1993 (V0)

汉字字符集:TCVN 6056-1995 (V1)

Unicode核心规范的附录E记载到1994年在越南河内召开的IRG #2上,IRG接受了越南成为IRG的一部分。V0和V1就是就在这时候进入Unicode。本身这两个字符集还是ISO/IEC 2022的框架,但从来没听说有同形地使用过EUC-VN或者ISO-2022-VN这样的方案。这两个字符集的落地其实也就和Unicode的流行有很大关系了。当时提出并推动越南汉喃进入Unicode和ISO/IEC 10646的重要人物是吴圣人老师(Ng? Thanh Nhàn),他在1999到2007年期间担任了VNPF的副主席。

往后的V源还包括V2、V3这两个以汉喃研究院来命名的来源其实是个Pseudo Standard,V4是很多书同时指向。这三个来源都是按照ISO/IEC 2022的框架排列的。在Lee Collins(康立论)接手VNPF后的新的来源是VU和V。VU这种标记办法是Dr. Ken Lunde提议日本的,但日本没有接受这个办法,越南倒是用来作为横向扩展。而V(-F)是他们新提交的字元。

需要注意的是,越南在编码层面上说的喃字,其实还包括岱喃字,以后可能还会有瑶喃字等。

二、Unicode

在Unicode中,与当代越南关系最密切的是国语字的部分。Unicode在1.0的时候就已经收录了越南的国语字字元。如今的Unicode体系中允许两种处理办法,当然UCD和NFC、NFD等又将它们联系了起来。

汉喃部分的情况在上面已经谈及。越南在WS2017中重启汉喃编码工作。

高棉文。Unicode上的高棉文字母在1997年由Michal Everson(叶密豪)等人提出。高棉文原来还有别的方案,但显得相当不好用。

占文。Unicode上的占文字母提案也非常的(现在已经找不到了)。应该还是越南自己提出来的,后来还有叶密豪和吴圣人的一段讨论。直到2006年叶密豪才有了新的提案。

越南傣文。Unicode上的早期提案由吴中越老师(Ng? Trung Vi?t)和他的搭档们撰写。

三、TCVN 8271

这份国标包括六个部分。前两部分发布于2009年,后四部分发布于2010年。而实际上它是一个本地化的Unicode子集。

第一部分:总论。谈及这份国标涉及的范围和采用Unicode的框架和几种UTF的编码实现等内容。如果要出版中日韩朝越的编码术语对照,这部分是绝对不能忽视的。

第二部分:汉喃。这部分包括了部首增补区、康熙部首区、扩展A、URO、扩展B和扩展C中有V字头和越南需要的字元,最后一个码位是U+2B727。当那些不需要的字元在这一部分中将被跳过。(在撰写本文的时候,我才意识到这一部分并不包含标点符号。)

第三部分:国语字。这部分包括了拉丁基本区、拉丁-1、拉丁扩展A、拉丁扩展B、组合发音符、拉丁扩展补充区和标点符号。同样地,对于越南不需要的字元,标准中全部变为空白。当我将三份关于国语字的标准比对后,发现了两个重要的问题,我也和吴中越老师讨论过。

(1)三份标准中都不包含越南盾的货币符号。

? (U+20AB)现在收录于货币符号区,但在Unicode 1.0的时候并没有这个符号。最早是由吴圣人、吴中越等老师在1994年向WG2提交。当时反对的声浪巨大,从记录来看,叶密豪是最早站出来支持越南的。据吴中越老师说,这个符号在六七十年代,甚至八十年代,可见于越南的每一本书,但到了数字化浪潮以后,虽然Unicode在2.0收录了这个字元,而且是作为原生货币符号区外第一个收录的货币符号(实际上也是意义重大),但当时根本没有软体和平台愿意支持这个符号,对越南人来说就是输入困难。慢慢地,这个符号已逐渐从越南人的生活中消失了,所以越南的新国标暂时不考虑收录这个字元。原来的老标准估计是不想动ASCII的位置,而不会像GB 1988一样把美元符号替换为人民币符号。如今有时还能从手写的价目牌上发现这个符号。

(2)国语字的字母究竟采用哪种形式?

TCVN 8271-3实际上把两种处理办法都收录了,但因为历史习惯,还是VISCII的方案更多见。

第四部分:高棉文字母。实际上只是简单转录了两个和高棉文有关的区块。由于柬埔寨货币符号? (U+17DB)是收录于高棉文区块的,因而就发生了非常诡异的事情——越南的国标没有收录自家的货币符号,却收录了柬埔寨的货币符号。(╯▽╰)╭

第五部分:占文字母。这部分和Unicode完全对应,没什么可说的。

第六部分:越南傣文字母。这部分也是和Unicode完全对应,没什么可说的。

四、尴尬的VIQR

在Unicode已经如此普遍的年代,原生的VIQR已经不再必要,现在它却被使用在Unikey等输入法上作为方案之一,我自己用的就是这种。按形来输入还是比较简单易懂的。

在iOS等智能手机系统中,采用QWERTY键盘来输入都已经太落后了吧。

五、越南用文字/字元编码的未来及可能

(1)汉字与越南意义上的各种喃字

(a)横向扩展

越南的古籍还在清理当中,过去认为用不上的字,以后还有可能发现有用的。比如,「袄」在越南都成了绝对民族想像的象征了,但这个字却没有V源字头。我正在写著的一份关于V源的文件中会提到这个问题,目标指向IRG #52。

(b)新字

目前所知,越南已经整理的未编码字还有好几千尚未提交到IRG,当然还有没整理好的。另一方面,越南对一些确实使用过,但又是中国几乎不用的汉字关注极少。WS2017中包含了至少一个这类字。

在IRG #51上,我送给汉喃院的老师一本由韦树关等老师编写的《中国京语词典》,有些老师知道这回事,有些老师则显得十分惊讶。(有意思的是,越南有一位大学者叫韦树观。)

(c)IVS

康立论有著很强烈的申请IVS的意图,这大概也是好事,而且越南多数字的字际关系非常清楚,这就很适合使用IVS了。

(2)其他文种

具体还有没其他文种,我也不好说,但理论上是会有的。越南有柬埔寨的文献,而柬埔寨的历史文字其实还是(可能)需单独编码的。等著汉喃院的老师们和其他有兴趣的学者、编码工作者去发现更大的可能吧。

(待续……)


推荐阅读:
相关文章