中文信息处理

中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支，是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用，从1980年代开始，中文信息处理进入了快速发展阶段，并极大地提高了中文社会的信息处理效率。中文信息处理分为汉字信息处理与汉语信息处理两部分，具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。

基本信息

中文名
中文信息处理
外文名
Chinese information processing
性质
计算机处理方式
领域
计算机

范围

基于历史、国家疆域、政治等各种问题，中文信息处理系统所需要处理的文字，有

时不仅包括简体汉字、繁体汉字，也包括藏文、蒙文、壮文、维吾尔文等大量少数民族的文字，周边国家的日本假名、谚文，还包括古汉语文字、西夏文、契丹文等各种不同的文字。中文信息处理可以从硬件及软件两方面去看，以下详述中文信息处理的发展历史、现况及未来发展等多方面的面貌。

范畴

基础研究：汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集

汉字

、通用汉字样本库、汉字属性字典、语料库等输入技术：中文输入法、中文手写输入、中文语音输入、文字识别等

输出技术：汉字字模技术（字型库）、汉字激光照排、汉语语音合成等

存储技术：汉字库标准等

转换技术：繁简转换等

信息处理：中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面等

历史

电脑在1946年由IBM发明，当时的电脑主要用于计算。及至1960年代，商用电脑开始普及，电脑被用于处理大规模的数据，当中其一个重要项目是图书馆的目录整理。在当时，美国国会图书馆及多家大学都有不少来自东亚的藏书。为了有效管理这批藏书，必须要有一套有效处理东亚文字的系统。这套系统包括了两方面：其一是如何把东亚文字储存在电脑内；其二是如何在电脑表示出东亚文字。

汉字

在过去，每一台电脑都有各自的数据表达方式，使电脑之间不能沟通。及至1960年代美国信息交换标准码(ASCⅡ）的出现，电脑之间才可以互相沟通。不过，ASCⅡ并不能有效处理英文以外的文字。

最早可以处理中文的电脑，可以追溯到1970年。在当年举办的日本大阪万国博览会上，IBM公司公开了部分汉字处理系统的技术资料，到了1971年正式发表。当时公布的机种包括有「IBM 2345 汉字印刷机」丶「IBM 029 汉字穿孔机」丶「「IBM System/360-System/370 OS/VS」及「DOS/VSE」等。其後，日本本土公司也争相开发，包括有富士通的JEF（Japanese processing Extended Facility）丶NEC的JIPS（Japanese Information Processing System）及日立的KEIS（Kanji processing Extended Information System）等，全是大型电脑。到了1979年5月，NEC发表了可使用汉字ROM的私人电脑PC-8000系列；到了1982年10月，更开发出有名的16位元的PC-9801私人电脑，能处理汉字的电脑在日本渐渐普及。在七十年代末期，更出现一种专门用作编辑文件的文书处理器，可看成为一种拥有特定功能的小型电脑，八十年代中後期再演化成手提方式，并可打印出汉字。至於输入方式，由1978年9月26日东芝发售「JW-10」起，「假名汉字变换」成为主流的汉字输入法；即以日文拼音的方式，配合人工智能，输入汉字词汇。在还没有真正的中文电脑前，中国大陆部分学者依靠入口日本的电脑来处理中文。

1973年，新华社派出考察团到日本，参观了日本共同社丶日立丶日本电气丶松下及东芝等公司。他们看到共同社采用磁芯技术解决了2000左右汉字和片假名的存储问题，并发现工作人员使用大键盘方式输入稿件。他们回国後，提出了采用电脑技术改善新华社收发编印四方面，并由中国四机部（民用机械丶核工业和核武器丶航空及电子工业）与北京市科技局邀请了富士通等公司到中国进行技术座谈会。後来，四机部提出研制汉字信息处理系统。在1974年8月，中国开始了748工程，包括了用计算机来处理中文字，展开了各种研究工作，后来到1980年公布了GB2312-80汉字编码的国家标准，1983年中国科学院研究Unix中文化，1985年推出了Unix中文版。

中文信息处理

基本信息

范围

范畴

相关学科

历史