前面談了GB 18030和CNS 11643以後,日本、韓國、朝鮮的就跳過吧哈哈哈。(理由有很多,主要就是因為懶……ヾ(=???=)?喵?)

在TCVN之前,越南也發過一些關於國語字、漢喃的國標,在這份國標頒布以後,基本上以前的也就原則上不再使用了。

一、TCVN 8271之前

(1)國語字

RFC 1456:VIQR和VISCII

VIQR實際上是一個沒辦法的辦法,借用ASCII的字元來臨時表示越南國語字。如:

Vi?t Nam = Vie^.t Nam

而VISCII是一個八位的編碼方案/字符集。它把碼位拓展到了所有位元組,為了字符集的完整性,0x80到0x9F都用來填可見字元了,甚至C0中的一些位置也被可見字元佔據。VISCII的辦法是把所有的字母連同聲調都單獨編碼。雖然它不是真正的國標,但卻成了後來的事實標準。RFC的申請人是Vietnamese Standardization Working Group。

TCVN 5712-1993 VSCII-2

同年同月(1993年5月),VSCII-2發布,年底提交了ISO-IR的申請。嚴格來說,這不是一個很靠譜的方案。

(2)漢喃

喃字字符集:TCVN 5773-1993 (V0)

漢字字符集:TCVN 6056-1995 (V1)

Unicode核心規範的附錄E記載到1994年在越南河內召開的IRG #2上,IRG接受了越南成為IRG的一部分。V0和V1就是就在這時候進入Unicode。本身這兩個字符集還是ISO/IEC 2022的框架,但從來沒聽說有同形地使用過EUC-VN或者ISO-2022-VN這樣的方案。這兩個字符集的落地其實也就和Unicode的流行有很大關係了。當時提出並推動越南漢喃進入Unicode和ISO/IEC 10646的重要人物是吳聖人老師(Ng? Thanh Nhàn),他在1999到2007年期間擔任了VNPF的副主席。

往後的V源還包括V2、V3這兩個以漢喃研究院來命名的來源其實是個Pseudo Standard,V4是很多書同時指向。這三個來源都是按照ISO/IEC 2022的框架排列的。在Lee Collins(康立論)接手VNPF後的新的來源是VU和V。VU這種標記辦法是Dr. Ken Lunde提議日本的,但日本沒有接受這個辦法,越南倒是用來作為橫向擴展。而V(-F)是他們新提交的字元。

需要注意的是,越南在編碼層面上說的喃字,其實還包括岱喃字,以後可能還會有瑤喃字等。

二、Unicode

在Unicode中,與當代越南關係最密切的是國語字的部分。Unicode在1.0的時候就已經收錄了越南的國語字字元。如今的Unicode體系中允許兩種處理辦法,當然UCD和NFC、NFD等又將它們聯繫了起來。

漢喃部分的情況在上面已經談及。越南在WS2017中重啟漢喃編碼工作。

高棉文。Unicode上的高棉文字母在1997年由Michal Everson(葉密豪)等人提出。高棉文原來還有別的方案,但顯得相當不好用。

佔文。Unicode上的佔文字母提案也非常的(現在已經找不到了)。應該還是越南自己提出來的,後來還有葉密豪和吳聖人的一段討論。直到2006年葉密豪纔有了新的提案。

越南傣文。Unicode上的早期提案由吳中越老師(Ng? Trung Vi?t)和他的搭檔們撰寫。

三、TCVN 8271

這份國標包括六個部分。前兩部分發佈於2009年,後四部分發佈於2010年。而實際上它是一個本地化的Unicode子集。

第一部分:總論。談及這份國標涉及的範圍和採用Unicode的框架和幾種UTF的編碼實現等內容。如果要出版中日韓朝越的編碼術語對照,這部分是絕對不能忽視的。

第二部分:漢喃。這部分包括了部首增補區、康熙部首區、擴展A、URO、擴展B和擴展C中有V字頭和越南需要的字元,最後一個碼位是U+2B727。當那些不需要的字元在這一部分中將被跳過。(在撰寫本文的時候,我才意識到這一部分並不包含標點符號。)

第三部分:國語字。這部分包括了拉丁基本區、拉丁-1、拉丁擴展A、拉丁擴展B、組合發音符、拉丁擴展補充區和標點符號。同樣地,對於越南不需要的字元,標準中全部變為空白。當我將三份關於國語字的標準比對後,發現了兩個重要的問題,我也和吳中越老師討論過。

(1)三份標準中都不包含越南盾的貨幣符號。

? (U+20AB)現在收錄於貨幣符號區,但在Unicode 1.0的時候並沒有這個符號。最早是由吳聖人、吳中越等老師在1994年向WG2提交。當時反對的聲浪巨大,從記錄來看,葉密豪是最早站出來支持越南的。據吳中越老師說,這個符號在六七十年代,甚至八十年代,可見於越南的每一本書,但到了數字化浪潮以後,雖然Unicode在2.0收錄了這個字元,而且是作為原生貨幣符號區外第一個收錄的貨幣符號(實際上也是意義重大),但當時根本沒有軟體和平臺願意支持這個符號,對越南人來說就是輸入困難。慢慢地,這個符號已逐漸從越南人的生活中消失了,所以越南的新國標暫時不考慮收錄這個字元。原來的老標準估計是不想動ASCII的位置,而不會像GB 1988一樣把美元符號替換為人民幣符號。如今有時還能從手寫的價目牌上發現這個符號。

(2)國語字的字母究竟採用哪種形式?

TCVN 8271-3實際上把兩種處理辦法都收錄了,但因為歷史習慣,還是VISCII的方案更多見。

第四部分:高棉文字母。實際上只是簡單轉錄了兩個和高棉文有關的區塊。由於柬埔寨貨幣符號? (U+17DB)是收錄於高棉文區塊的,因而就發生了非常詭異的事情——越南的國標沒有收錄自家的貨幣符號,卻收錄了柬埔寨的貨幣符號。(╯▽╰)╭

第五部分:佔文字母。這部分和Unicode完全對應,沒什麼可說的。

第六部分:越南傣文字母。這部分也是和Unicode完全對應,沒什麼可說的。

四、尷尬的VIQR

在Unicode已經如此普遍的年代,原生的VIQR已經不再必要,現在它卻被使用在Unikey等輸入法上作為方案之一,我自己用的就是這種。按形來輸入還是比較簡單易懂的。

在iOS等智能手機系統中,採用QWERTY鍵盤來輸入都已經太落後了吧。

五、越南用文字/字元編碼的未來及可能

(1)漢字與越南意義上的各種喃字

(a)橫向擴展

越南的古籍還在清理當中,過去認為用不上的字,以後還有可能發現有用的。比如,「襖」在越南都成了絕對民族想像的象徵了,但這個字卻沒有V源字頭。我正在寫著的一份關於V源的文件中會提到這個問題,目標指向IRG #52。

(b)新字

目前所知,越南已經整理的未編碼字還有好幾千尚未提交到IRG,當然還有沒整理好的。另一方面,越南對一些確實使用過,但又是中國幾乎不用的漢字關注極少。WS2017中包含了至少一個這類字。

在IRG #51上,我送給漢喃院的老師一本由韋樹關等老師編寫的《中國京語詞典》,有些老師知道這回事,有些老師則顯得十分驚訝。(有意思的是,越南有一位大學者叫韋樹觀。)

(c)IVS

康立論有著很強烈的申請IVS的意圖,這大概也是好事,而且越南多數字的字際關係非常清楚,這就很適合使用IVS了。

(2)其他文種

具體還有沒其他文種,我也不好說,但理論上是會有的。越南有柬埔寨的文獻,而柬埔寨的歷史文字其實還是(可能)需單獨編碼的。等著漢喃院的老師們和其他有興趣的學者、編碼工作者去發現更大的可能吧。

(待續……)


推薦閱讀:
相關文章