藏文自动分词的理论与方法研究
内容简介
藏语分词研究是藏语文本信息处理最基本的研究工作,国内藏语分词研究经历了十多年的历史,研究方法也从最初的基于词典匹配的规则方法到基于大规模文本的统计方法。但是到目前为止没有一个实用的藏语分词软件和供分词研究的评测语料库。本书作者针对藏语分词中的各种问题,进行细致的阐述,并在同一评测语料库的基础上,对各种分词方法进行实验、测试,比较。
作者简介
龙从军,男,1978年9月,中国社会科学院民族学与人类学研究所语音学与计算语言学研究室助理研究员,博士,中国科学院软件研究所基础软件研究中心博士后(在站)。主要研究方向:藏语计算语言学,尤其在藏语自动分词、词性自动标注、句法语义自动标注方面进行过大量的研究。撰写多篇论文,出版合著2本。
读者对象
藏语计算语言学、藏语文本信息处理的研究人员,民族语言计算语言学方向学生。对藏文感兴趣的社会读者
目录
第1章 现代藏文文本特点
1.1现代藏文字母、符号和编码
1.2藏文字符编码与分词的关系
1.3藏文音节结构
1.4藏文的数字
1.5藏文黏写特点
1.6藏文标点符号特点
1.7 藏文命名实体的特点
1.7.1藏文人名特点
1.7.2藏文地名的特点
1.7.3藏文机构名的特点
1.7.4藏文时间词特点