中文切词

中文切词(又称中文分词，ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。

基本信息

中文名
中文切词
外文名
Chinese Word Segmentation
性质
一个汉字序列切分成单独的词
重要性
文本挖掘的基础

简介

中文切词(又称中文分词，Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。

中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。

现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

中文分词的缘起

之所以存在中文分词技术，是由于中文在基本文法上有其特殊性，具体表现在：

1、与英文为代表的拉丁语系语言相比，英文以空格作为天然的分割符，而中文不存在

例句：“Knowledge is power“ , 可自然分割为 Knowledge/ is/ power 三个词，每个词能独立表义

而中文里：知识就是力量 , 由于缺少分隔符，无法进行符合汉字表义的切分：知识/ 就是/ 力量

2、在中文里，“词”比“单字”的表义能力更强

现代汉语的基本表达单元为“词”，以双字或者多字居多，其单独切分后难以独自表义

例如：机械工程，基本语义单元为“机械”和“工程”，如果按单子切分为“机”、“械”、“工”、“程”，则这些单字不符合人对中文语义的理解，因此不符合需求。

分类方法

基于字符串匹配的分词方法

这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个 “充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：

1）正向最大匹配法（由左到右的方向）；

2）逆向最大匹配法（由右到左的方向）；

3）最少切分（使每一句中切出的词数最小）；

4）双向最大匹配法（进行由左到右、由右到左两次扫描）