中文資訊處理的現況與未來─智邦公益電子報─台灣最大公益電子報發行中心

OpenFoundry自由軟體充電報

OpenFoundry自由軟體充電報

2005.9.11／報主．Tumi

本期內容：
‧
‧

[OSSF專欄] 中文資訊處理的現況與未來

胡崇偉（OSSF 工作小組）/文 2005/09/09

一、「中文資訊處理」的意義是什麼？這個詞涵蓋了哪些範圍？

中文使用者遇到電腦時，就一定會碰觸到中文資訊處理（CIP; Chinese Information Processing）的問題。舉凡瀏覽中文網頁、透過鍵盤輸入中文字、在螢幕上顯示中文字、選用不同的中文字體來列印文件等等日常生活的行為，都和中文資訊處理息息相關。

那麼，中文資訊處理涵蓋了哪些範圍呢？簡單地說，可以從「外表看得到的」和「裡面在運作的」兩個層次，由外到內來做個列舉：

（一）中文的顯示（包含中文字型、中文列印等）；
（二）中文的輸入（包含輸入法、文字辨識等）；
（三）中文語言資料的處理（例如中文詞庫、中文斷字、翻譯）；
（四）中文應用軟體（例如原生的中文軟體，及外國軟體的中文化）；
（五）中文內碼（包含character code、codepage等）；
（六）中文字的組構及表示方式。

舉例來說，在使用文書處理軟體時，使用者主要關心的是如何輸入中文、如何顯示及印出中文文件；在文件建立過程中，使用者也希望能搜尋或排序中文資訊；但是，比較少關心中文軟體裡面的工作原理，也很少擔心中文儲存的問題，這些都是屬於「裡面在運作」的部份。

不過，上述的列舉並不等於中文資訊處理的全部。舉例來說，台灣目前有將過去中文古籍數位化的計劃，亦即將過去的古書整理為可於電腦資料庫中取用的資料，然而靠人工輸入古籍的文字相當費時費工，因此有了借重 OCR（光學字母辨識）技術來輔助此一任務的想法。此刻，「中文數位化」便不只是一個中文輸入的問題，而是涉及了中文字的影像辨識，以及辨識資料如何透過語料庫或詞庫進行修訂的知識與技術。

而這些中文數位化、中文詞庫、中文語言處理、中文理解的問題，又和中文的語言知識、中文的語言結構有所關聯，涵蓋的層面及所涉及的知識，都相當地深廣。加上新的技術和需求，帶來新的中文資訊處理問題（例如高解析度輸出設備需要高點數的中文字型配合，才能有令人滿意的輸出結果），新的作業系統（例如 GNU Linux 的興起）與新的思考方式（開放源碼的作業及思考模式），也帶來了新的挑戰與新的可能性。這些內在與外在的因素，都使得中文資訊處理的領域，仍然有許多待開發的空間，相關的工作持續需要投入資源來推展。

二、中研院資訊所對中文資訊處理的期許與成果

因為長期投入「語言與知識處理」及「文獻整理」的研發工作，中研院資訊所在中文資訊處理的領域，歷經二十餘年的研究發展，累積相當豐碩的成果。在研究方法上，針對中文語言的特性及需要，進行問題的探討與分析，一方面對漢字字形的結構做制式表達與辨識，另一方面為中文資訊的擷取、應用、表達，打下自動化知識建構的基礎。目前，不但能夠有效地自動分析網路上產生的大量中文資訊，也針對中文系統缺字問題，提出根本的解決方法。

資訊所在中文資訊處理的成果，將透過自由軟體鑄造場的彙整，提供資訊所對外界的一項服務。成果的彙整上，可概分為形、義、音，三種面向，它們是源自於缺字問題的解決，以及建立完整的中文知識網的需要。

因為漢字是一個開放性質的字集，依古今的變異、專業與應用環境的差異，漢字有了字數、字形、字音、以及字義上的變化，這成為中文資訊處理的一項挑戰。單純就字數而言，中文字並不適合作固定數量的限定，這點與數量固定的西方語文「字母集」相較，是不可以一概而論的。然而，現行漢字交換碼的結構，卻仿照西方語文的字母集結構來設計，自然容易產生許多困擾。

早期，中研院進行古籍數位化工作，累積了近萬個中文缺字。為了解決缺字問題，資訊所的謝清俊研究員帶領文獻處理實驗室同仁莊德明研究助技師與助理，徹底分析了古籍、漢語字典、各國字集標準等資料，以「構字式」為基礎，建構了「漢字構形資料庫」系統，不僅以構字式完成漢字的表達與識別，還克服了兩項大問題: 一是將古今字形與古今構字的銜接和對映，二是針對異體字形的表達和處理。

為了支援構字式的表達呈現，目前已整理出四萬餘字的兩套字型，公開讓各界使用。隨系統附有楷體、明體、小篆、金文、甲骨文、楚系文字等字型，使用者可由 OpenFoundry 網站「中文應用」的網址（註一）下載楷體、明體兩套 True Type Font，或安裝整套漢字構形資料庫系統以取得所有字型檔案。另外，也能利用系統裡的異體字資料庫，來提高中文資料檢索的精確度。

除了可以下載漢字構形資料庫的字型之外，資訊所目前也正在推動構字式的基礎項目納入標準，並針對主計處的全字庫字型，進行構字式的分析，在搭配簡易操作的輸入法環境及造字系統之後，將可有效協助構字式及全字庫的推廣使用。

另一方面，如何將網路上不斷成長的資料，轉化成有用的資訊與知識，也是中文資訊處理的重要課題，這部份屬於中文字義的應用領域，包括資訊的檢索、語意的查詢、知識的抽取等。由簡立峰研究員帶領的網路知識擷取實驗室，所開發釋出的 PAT-tree 中文抽詞程式，就是一套建立中文語詞庫的基礎工具程式。由陳克健研究員帶領的中文詞知識庫小組，則長期維護中文詞彙庫及語料庫等的中文處理基礎建設。透過上述成果的整合，可以協助中文語文專家及搜尋引擎系統開發者，有效建立字辭庫的內容。

在中文辨識系統方面，由張復副研究員帶領的文件分析與辨識實驗室，已完成一套架構在 GNU Linux 作業系統上的軟體，可以進行中文文件的辨識及管理。王新民副研究員則完成了中文語音辨識及語音資訊檢索系統，如何提昇語音辨識率及檢索效能，則是進一步研發的方向。

在語言與知識處理的方面，成果也是相當豐富。在注音自動轉國字的軟體方面，包括許聞廉研究員及其團隊開發的「自然輸入法」，以及徐讚昇研究員指導龔律全、陳康本所設計的「酷音輸入法」。自然輸入法軟體提供下載試用至今，總下載次數已接近八十三萬人次。「酷音輸入法」則是成為 Open Source 社群開發智慧型輸入法的重要基礎。

三、開放源碼為中文資訊處理帶來新的開發模式

開放源碼軟體（OSS; Open Source Software）不只是源碼的公開，更是一套思考問題的流程。當前世界很多的OSS成功案例，都說明了開放源碼開發模式不只成就了某幾套軟體，更組織了來自世界各地、不同背景及不同才能的社群。OSS 的專案強調協力合作、資源的共享與公開、對問題的迅速回應與修正。

這樣思考問題的流程，對於中文資訊處理領域，也有所幫助。中文資訊處理的問題，以往通常得仰賴少數集中的資訊廠商（例如特定的軟體供應商、作業系統生產者等等）來解決，這些廠商如果只採用專屬（proprietary）開發模式，一旦環境改變、軟硬體版本更新、廠商易手或失去市場動機，中文資訊處理的問題往往又回到了原點。開放源碼在這一個面向上，提供了新的機會及加值模式。另一方面，許多關於中文內碼（或者是國際標準碼中的中文碼段）、中文顯示及輸入、軟體的中文化（本地化，localization）等議題，都是以在 GNU Linux 或其他開放源碼平台上做為討論的基礎。當然，GNU Linux並不是開放源碼的全部，但不可否認的是，推行以Linux（或其他開放源碼的作業系統平台）為基礎的中文應用環境，確實是當前解決中文資訊處理問題的重要方向。

對於中文資訊處理這個領域，自由軟體鑄造場（OSSF）也期許自己能扮演積極的角色。鑄造場所奠基的 OpenFoundry 系統，是一套功能完整的軟體開發平台，可以幫助開發者管理專案，包括專案的發佈、檔案的倉儲、版本的管理、建立及文件內容的維護、mailing list、臭蟲及軟體修訂回報系統等等。鑄造場同時也是一種開放空間，讓專案跟專案之間可以在公共空間裡進駐，一群人可以知道另一群人在做什麼，甚至專案與專案之間還可以進行交流討論，（在開放源碼的社會法律框架下）引用彼此的成果、程式碼及資料。為了提供本土使用者更友善的操作介面，OpenFoundry系統也是諸多軟體鑄造場中，中文化最成功的。

中文是全球華人的共同資產，為了迎接電腦網路所帶來的挑戰與機會，中文資訊力的普及與提昇，此刻便顯得日益重要。台灣是全球正體中文的發展中心，所擔負的使命與責任也特別大。中研院願意將既有的研發成果與全民共享，並期待與其他單位共同合作，讓各項成果能創造更大的價值及利益，發揮更大的影響力。

註一：http://www.openfoundry.org/rsrclink.pl?section=zh_Chinese

[法律源地] 從 SCO 控告 IBM 一案看源碼的混入

葛冬梅（OSSF 法政組）/文 2005/09/09

2003 年 3 月美國一家電腦公司 SCO 控告電腦界的藍色巨人 IBM，在未經 SCO 的授權下將 Unix 的源碼使用在 Linux 的程式核心中。這項指控的基礎在於，SCO 擁有 Unix 的著作權，SCO 並未授權 IBM 可以將 Unix 的源碼用在 Linux 中，因此 SCO 向 IBM 提出控訴，並要求賠償其所受到的損害。IBM 也於同年八月初向 SCO 提出反訴。目前全案審理仍處於膠著狀態（註一）。

對於這個案子，許多人均抱以相當高的期望，寄望透過這一個案子的審理，法院可以對 GNU/GPL 在美國法上的定位做一個清楚的闡釋。不過若是我們撇開主觀意識，單純地從宏觀的角度來重新審視這個案子，可以發現案件爭端的最終源頭在於自由／開放源碼軟體的社群開發模式，因為任何一個人均可以對源碼加以修改，所以任何一個人均可將任何一段其他軟體的源碼寫入自由／開放源碼軟體中，若是所寫入的源碼是未經他人授權的，而修改人不知情，再加上現代軟體的程式碼量均相當的大，使用未經授權源碼的情形並不容易被察覺，這時候就會為被修改的軟體埋下法律爭端的隱憂。SCO 控告 IBM 一案就是基於這樣一個前提而產生的。

將未經授權的源碼寫入自由／開放源碼軟體的情況不易為人所查覺，同樣地，將自由／開放源碼軟體的源碼寫入另外一個自由／開放源碼碼軟體中也一樣不易為人所知，這樣的行為在原則上不會引發特別的問題，因為自由／開放源碼軟體的開發特性就是在於任何人均可以修改，並且將源碼擷取來自行運用。不過若是寫入源碼與被寫入程式間的授權條款相衝突，就會產生問題，這個問題在程式開發者有意識的情況下，可以透過事先對授權條款的分析與瞭解而加以預防，較易產生問題的是，開發者在無意識的情況下將源碼寫入授權條款不相容的程式中，而產生授權條款衝突的情況，若事後得知衝突的事實，除了可能引發法律爭端外，還可能導致必須將所寫入源碼全部置換的結果，這些後續的補救措施皆是費時耗力的。

此外，就算是寫入源碼與被寫入程式的授權條款間不相衝突，仍然有可能會導致問題。以最極端的兩類授權條款為例，若是 GNU/GPL 源碼被寫入 BSD 程式中，軟體開發者卻不知情，並且以不符合 GNU/GPL 的方式來散布被寫入程式，就有可能會造成違反 GNU/GPL 的法律效果。此外，因為對於自由／開放源碼軟體授權條款有所瞭解的人都知道，由於 BSD 類的授權條款對使用者幾乎沒有任何限制，使用者甚至可以將軟體以收取授權金或封閉源碼的方式再散布，因此許多軟體開發者刻意選擇 BSD 類的軟體，以降低法律風險。若是為了降低法律風險而刻意選用BSD類授權條款散布的源碼，卻沒有注意到 GNU/GPL 源碼混入的可能性，此時避險的原因可能反過來成為提高風險的原因。

本文的目的並非在於引起程式開發者使用的恐懼，而是希望透過 SCO 控訴 IBM 這件自由軟體界眾所周知的案件作為引子，從不同的角度來審視這個案件所可能引發的思考點，期望在喧鬧的 GNU/GPL 法律效力論戰中，透過不同的法律角度，將做為自由軟體基礎的社群開發模式做另類的思考。尤其社群開發模式乃是自由軟體的重要基礎，而這樣的開發模式造成源碼混入的情況也無可避免的話，正視因此而引發的授權條款衝突或違反問題，並進而積極地採取瞭解與預防措施才會是正確的態度。

如何在開發的過程中，避免上述問題的產生並非易事，除了每位開發者必須對於這樣的問題有所意識以及事前的法律分析之外，可能還必須考量程式開發目的與技術上可行性。不過究竟怎麼樣的措施可以真正避免問題的產生或者將問題的影響程度降到最低，可能還是必須要等到發生實際案例的時候，所有認同自由／開放源碼軟體的人士，才會一同來真正地構思一套可行的預防措施吧！

註一：有關本案事實與相關文件請見此。

報主的話：
本電子報為摘要版，若欲訂閱全文版請按此

| 寫信給報主 | 留言板 | 電子報首頁 |