美國加州聖地牙哥台灣同鄉會
San Diego Taiwanese Cultural Association
http://www.taiwancenter.com/sdtca/index.html
  2004 年 12 月

再論「解決台語『有音無字』第一步」
─以國際統一編碼(UniCode)及『字型』(Font)來完成台灣語言書寫文字的標準化─

翰聲

在「解決台語『有音無字』第一步」一文中筆者建議,解決台灣語言『有音無字』標準化必要的第一步有三部曲,這三部曲取非常的簡單,可以馬上進行。雖然分為三部曲,事實上這三部曲是一體的三面可以同時進行:

第一部曲:終結『臺灣書寫語文的戰國時代』,全面收輯已創的『有音無字』新字詞並加註發音及例辭例句;

第二部曲:建立「台灣語文資訊交換碼」及訂定「台灣增補字符集」,新字或新符號應及時編定「台灣增補字符集」;

第三部曲:台灣語文申請加列入國際統一編碼ISO10646/Unicode。

為了協同各種不同的意見,取得共識,早日解決台語『有音無字』的問題,筆者再為文詳細說明,希望所有關心臺灣語言文字標準化及電腦化的人士能一起合作,積極促進臺灣語言文字標準化及電腦化。

應用國際統一編碼(UniCode)及『字型』(Font)來完成台灣語言書寫文字的標準化

事實上,「解決台語『有音無字』第一步」的終極目標在達成台灣語言書寫文字的標準化。因為台灣語言書寫文字由於時代的背景,幾乎是由民間自發性的努力的結果,一直到民進黨執政,政府才開始參與。由於研究開發者各有喜好,發展出不同的拼音法或注音法,同一字有不同的寫法。甚至於南轅北轍有的主張全漢字,有的主張全面用羅馬字母書寫。同樣主張全面用羅馬字母書寫的,也有不同的文字符號。所以要在短時間內協調統一採用某一種系統,並不容易。近年來筆者分析研究發現這是一個有解的難題,而解決的方法第一步就是要應用現代科技的電腦來解決。在分析說明應用電腦來解決的方法之前,必須先很粗淺地說明一下電腦如何顯現文字符號(簡稱字符)的內部作業,以幫助了解筆者所提議的解決方法的可能性。

字符的顯示

當我們在鍵盤上,打一個字鍵或一組字鍵的時候,有一組根據字鍵位置所訂的『掃描內碼』會從鍵盤送出,根據這所接收到的『掃描內碼』,電腦會在一個已訂的字表內取得『目標內碼』,根據這個『目標內碼』在電腦在使用者所選定的『字型』(Font)檔案內取得該字符,並送達顯示器顯示。例如:在標準的個人電腦鍵盤上打A鍵,鍵盤會送出一組『掃描內碼』內含﹝1E﹞碼,然後取得十六進位的『目標內碼』﹝41﹞,再根據已定的字型如Courier, Times New Roman, Arial等顯示在顯示器。當然真正的電腦內部作業是更複雜百千倍。由此可知,決定一個字符的顯示的基本要素有鍵盤的型式,目標內碼,以及字型等。

電腦漢字字符的輸入和顯示

在了解這些基本的作業及因素,讓我們再進一步了解個人電腦上中文漢字的輸入和顯示。在電腦上漢字和拼音文字最大的不同在於拼音文字每一字符可用一個字的內碼來儲存。但是漢字得用兩個字的內碼來儲存。拼音文字因為每一字符可用一個字的內碼來儲存,所以每一個字皆可以用一個固定的字鍵來輸入。得用兩個字的內碼來儲存的漢字就沒這麼的簡單,幸虧許多電腦先進的創意及努力我們有了許多不同的輸入的方法。而這許多的輸入方法的目的只有一個:如何產生一組『掃描內碼』,進而取得要顯示的漢字的『目標內碼』,及自型,(如楷書,行書,或草書),從而顯示在顯示器上。所以決定一個漢字字符的顯示除了的基本因素有鍵盤的型式,目標內碼,和字型以外,還要加入一個輸入法。

目前視窗XP在個人電腦上有九種不同的中文漢字輸入法。另有中國的簡字、新加坡、香港、及澳門等的漢字輸入法不在此討論。﹝近年有語音輸入法或用寫字板輸入法,雖然找到相對的字詞過程比較複雜,但是取得字符顯示在顯示器的原理還是一樣。﹞九種不同的台灣中文漢字輸入法是字母、行陣、五大碼、倉頡、大易、新倉頡、注音、簡易、及統一內碼,另有微軟也提供一套新式注音輸入法。鍵盤則有標準式,倚天式、精業式、IBM式、漢語拼音式、ㄅㄆㄇㄈ二式(或稱國音二式),及台灣拼音式。

台灣的國家標準內碼是『CNS11643』並為ISO10646/UniCode採用,但再台灣漢字內碼最被廣泛使用的是『大五碼』(Big5)。視窗作業系統所提供的字型是『細明體』等,其他如楷書,行書,草書等有許多的專門設計字型的軟體公司販售字型檔案,可以很簡單的裝載入個人電腦上使用。假如內碼和字型不相容,就會產生所謂的亂碼,產生沒有意義的字體。

用多線道的高速公路做個比喻每一線道速度有不同,就如同九種中文漢字輸入法因個人喜好或精通不一,輸入速度有不同。各種車型各有不同,引擎又各有不同,就如字型各有不同。交通規則就像各個不同系統所使用的內碼。但所有在高速公路上奔馳的交通工具,目的只有一個就是要把人或物送到目的地。一個地區只能使用一套交通規則,一個外國人道另外一個國家去開車,一定要再取得當地的駕駛執照。其目的就是要他了解當地的交通規則,遵守當地的交通規則,否則就相當危險。就像在電腦上沒有用正確的內碼去讀一個文件會產生亂碼一樣。我們在這裡說了這麼多不同的要素,綜合所有的要素,最終目的就是要把字顯現在顯示器上。

國際統一編碼(UniCode)解決繁多的電腦內碼問題

不同的電腦作業系統就可使用有不同的內碼,再加上不同的國家以及不同的語言,那種錯綜複雜的情形可想而知。國際統一編碼(UniCode)就在這種大家希求簡化的情形下產生的。現在只要應用國際統一編碼(UniCode)所儲存的檔案資料,每一個字符就有一個固定的內碼,所以能輕易的從甲電腦系統傳送到乙電腦系統,經過簡單的轉換就可在乙電腦上閱讀或更改。就好比全世界只用一套交通規則,一個人在任何一個國家只需要一張合格的駕照,就可以通行世界各地,到各處的公路開車。

台語書寫文字面對的問題

現在我們再回頭來看台語書寫文字。相信讀者和我一樣已經有一個共識。不管台語書寫文字有多複雜,不管輸入的方法有多少,不論台語『有音無字』有多少新創字,現代電腦絕對有辦法解決。

國際統一編碼CJK漢字3.1版收集中日韓文所用的漢字(包括簡字)有82頁每頁256個字,另有26頁的補充字放在補充,及兩頁的相容字,總共大約不超過28,160個字,若再加上部首及其他特殊符號,可用的漢字大約不到三萬個。而目前台灣日常使用的漢字只有五千字左右,所以筆者作一個教育性的猜測 (educational guessing) ,台語『有音無字』的字大約估計最多不過千來字,甚至不及千字之多。再加上特殊拼音符號或注音符號多不過上百,少不過數十,這總數千多個新字的數目對已收入國際統一編碼CJK漢字的28,160個字來說不過九牛一毛。所以假如將台語『有音無字』的電腦內碼問題解決,所有的問題,例如不同的音標系統、不同的漢字或拼音等都會迎刃而解。

台語的注音音標

筆者在瀏覽國際統一編碼的資料時,發現了一個令人十分的興奮又憂傷的資料。國際統一編碼已將台語的ㄅㄆㄇㄈ注音特殊音聲調符號收輯入一個特區稱為Bopomofo Exteneded,共有二十四個符號 (附圖一 ) ,這些符號有別於原有的注音符號。令人興奮的是,只要有一個台語ㄅㄆㄇㄈ的輸入法,我們就可以用台語的發音來輸入我們媽媽教我們講的話,把它變成字。令人憂傷的是研究發展台語的專家們似乎沒有多少人注意及斯。台灣作家楊青矗所創的『台語注音符號』所用的注音符記號可通用於國、台、客三種語言,似乎就是從這二十四個符號衍生來的。還有一個更令人更興奮的是─台語ㄅㄆㄇㄈ的輸入法已經上市,而且還是免費的。美中不足的是這版本只能在視窗98作業系統上使用。

因為截稿時間已到,下回我們再來研究「解決台語『有音無字』第一步」的策略。

附:什麼是Unicode(統一碼/標準萬國碼)?
在統一碼/標準萬國碼的網頁上有多種文字的解釋:http://www.unicode.org/standard/translations/t-chinese.html 讀者可自行上網瀏覽。
附圖一:國際統一編碼的台語的ㄅㄆㄇㄈ注音特殊音聲調符號