• 1.摘要
  • 2.基本信息
  • 3.范围
  • 3.1.范畴
  • 3.2.相关学科
  • 3.3.历史
  • 4.中文电脑系统
  • 5.输出输入
  • 5.1.输出字体
  • 5.2.外置输入设备
  • 6.研究项目
  • 7.方言研究

中文信息处理

中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用,从1980年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。

基本信息

  • 中文名

    中文信息处理

  • 外文名

    Chinese information processing

  • 性质

    计算机处理方式

  • 领域

    计算机

范围

基于历史、国家疆域、政治等各种问题,中文信息处理系统所需要处理的文字,有

时不仅包括简体汉字、繁体汉字,也包括藏文、蒙文、壮文、维吾尔文等大量少数民族的文字,周边国家的日本假名、谚文,还包括古汉语文字、西夏文、契丹文等各种不同的文字。中文信息处理可以从硬件及软件两方面去看,以下详述中文信息处理的发展历史、现况及未来发展等多方面的面貌。

范畴

基础研究:汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集

汉字

、通用汉字样本库、汉字属性字典、语料库等 输入技术:中文输入法、中文手写输入、中文语音输入、文字识别等

输出技术:汉字字模技术(字型库)、汉字激光照排、汉语语音合成等

存储技术:汉字库标准等

转换技术:繁简转换等

信息处理:中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面等

相关学科

语言文字学、计算机科学、模式识别、人工智能、心理学、数学、数理统计、控制论、神经计算、模型论、信息学、形式化理论、声学等

历史

电脑在1946年由IBM发明,当时的电脑主要用于计算。及至1960年代,商用电脑开始普及,电脑被用于处理大规模的数据,当中其一个重要项目是图书馆的目录整理。在当时,美国国会图书馆及多家大学都有不少来自东亚的藏书。为了有效管理这批藏书,必须要有一套有效处理东亚文字的系统。这套系统包括了两方面:其一是如何把东亚文字储存在电脑内;其二是如何在电脑表示出东亚文字。

汉字

在过去,每一台电脑都有各自的数据表达方式,使电脑之间不能沟通。及至1960年代美国信息交换标准码(ASCⅡ)的出现,电脑之间才可以互相沟通。不过,ASCⅡ并不能有效处理英文以外的文字。

最早可以处理中文的电脑,可以追溯到1970年。在当年举办的日本大阪万国博览会上,IBM公司公开了部分汉字处理系统的技术资料,到了1971年正式发表。当时公布的机种包括有「IBM 2345 汉字印刷机」丶「IBM 029 汉字穿孔机」丶「「IBM System/360-System/370 OS/VS」及「DOS/VSE」等。其後,日本本土公司也争相开发,包括有富士通的JEF(Japanese processing Extended Facility)丶NEC的JIPS(Japanese Information Processing System)及日立的KEIS(Kanji processing Extended Information System)等,全是大型电脑。到了1979年5月,NEC发表了可使用汉字ROM的私人电脑PC-8000系列;到了1982年10月,更开发出有名的16位元的PC-9801私人电脑,能处理汉字的电脑在日本渐渐普及。在七十年代末期,更出现一种专门用作编辑文件的文书处理器,可看成为一种拥有特定功能的小型电脑,八十年代中後期再演化成手提方式,并可打印出汉字。至於输入方式,由1978年9月26日东芝发售「JW-10」起,「假名汉字变换」成为主流的汉字输入法;即以日文拼音的方式,配合人工智能,输入汉字词汇。在还没有真正的中文电脑前,中国大陆部分学者依靠入口日本的电脑来处理中文。

1973年,新华社派出考察团到日本,参观了日本共同社丶日立丶日本电气丶松下及东芝等公司。他们看到共同社采用磁芯技术解决了2000左右汉字和片假名的存储问题,并发现工作人员使用大键盘方式输入稿件。他们回国後,提出了采用电脑技术改善新华社收发编印四方面,并由中国四机部(民用机械丶核工业和核武器丶航空及电子工业)与北京市科技局邀请了富士通等公司到中国进行技术座谈会。後来,四机部提出研制汉字信息处理系统。在1974年8月,中国开始了748工程,包括了用计算机来处理中文字,展开了各种研究工作,后来到1980年公布了GB2312-80汉字编码的国家标准,1983年中国科学院研究Unix中文化,1985年推出了Unix中文版。