中研院釋出漢字檢字系統原始碼

因應電腦處理中文資料常常遇到一些電腦無法輸入的文字,中研院近日將其內含之「漢字部件檢字程式」,以及相關「漢字字型」以公眾授權模式釋出程式原始碼。

「中央研究院漢字部件檢字系統」是為解決相關單位將漢字古籍、史料、佛典等典藏資料電腦化時缺字窘境,由中央研究院資訊科學研究所研究員謝清俊及與同仁莊德明助領導的文獻處理實驗室開發的的缺字解決方案。

漢字部件檢字系統1993年改良而成,陸續推出 Windows 3.1/95/98/Me/2000/XP 的版本,Vista 的版本仍在研發中。莊德明表示,「中央研究院漢字部件檢字系統」內含有「漢字部件檢字程式」,以及運作所需的相關「漢字字型」。「漢字部件檢字程式」部份,考量到與其他軟體程式碼能相互融通,故採「GNU 公眾授權條款 3.0 版本〈GNU General Public License 3.0〉」進行公眾釋出;而在「漢字字型」部份則因為其具有「圖形著作」的特性,而另行採用「GNU 自由文件授權條款 1.2 版本〈GNU Free Documentation License 1.2〉」,以及「創用CC 姓名標示-相同方式分享台灣授權條款 2.5 版〈Creative Commons Attribution-Share Alike 2.5 Taiwan〉」兩種授權條款併行釋出。

目前「中央研究院漢字部件檢字系統」主要的應用在於解決缺字問題,最新的版本為 2007 年 12 月上線的 2.51 版, 此版收錄古今漢字 115,197 個,其中楷書字形 62,671 個,小篆及重文 11,100 個,金文 20,091 個,楚系簡帛文字 19,138 個,甲骨文 2,197 個;另收《漢語大字典》異體字表 12,208 組。莊德明老師進一步指出,現正進行 3.0 版的研發,此版最大的特色是中文字碼改用 Unicode,並可同時適用於 Windows 的繁簡體字版本。

下載中央研究院漢字部件檢字系統:http://www.sinica.edu.tw/~cdp/cdphanzi/

資料來源:http://www.zdnet.com.tw/news/software/0,2000085678,20128738,00.htm?feed=RSS:+ZDNet+Taiwan%3A+%B7s%BBD+-+%B7%ED%A4%E9%B3%CC%B7s