中文切词
中文切词(又称中文分词,ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
基本信息
- 中文名
中文切词
- 外文名
Chinese Word Segmentation
- 性质
一个汉字序列切分成单独的词
- 重要性
文本挖掘的基础
简介
中文切词(又称中文分词,Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于 字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
中文分词的缘起
之所以存在 中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:
1、与英文为代表的拉丁语系语言相比,英文以空格作为天然的分割符,而中文不存在
例句:“Knowledge is power“ , 可自然分割为 Knowledge/ is/ power 三个词,每个词能独立表义
而中文里:知识就是力量 , 由于缺少 分隔符,无法进行符合汉字表义的切分:知识/ 就是/ 力量
2、在中文里,“词”比“单字”的表义能力更强
现代汉语的基本表达单元为“词”,以双字或者多字居多,其单独切分后难以独自表义
例如:机械工程,基本语义单元为“机械”和“工程”,如果按单子切分为“机”、“械”、“工”、“程”,则这些单字不符合人对中文语义的理解,因此不符合需求。
分类方法
基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个 “充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)