• 1.摘要
  • 2.基本信息
  • 3.简介
  • 4.分类方法
  • 4.1.基于字符串匹配的分词方法
  • 4.2.基于理解的分词方法
  • 4.3.基于统计的分词方法
  • 5.分词中的难题
  • 6.常见中文分词开源项目:
  • 6.1.SCWS:
  • 6.2.ICTCLAS:
  • 6.3.HTTPCWS:
  • 7.庖丁解牛分词:

中文切词

中文切词(又称中文分词,ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。

基本信息

  • 中文名

    中文切词

  • 外文名

    Chinese Word Segmentation

  • 性质

    一个汉字序列切分成单独的词

  • 重要性

    文本挖掘的基础

简介

中文切词(又称中文分词,Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

现有的分词算法可分为三大类:基于 字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

中文分词的缘起

之所以存在 中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:

1、与英文为代表的拉丁语系语言相比,英文以空格作为天然的分割符,而中文不存在

例句:“Knowledge is power“ , 可自然分割为 Knowledge/ is/ power 三个词,每个词能独立表义

而中文里:知识就是力量 , 由于缺少 分隔符,无法进行符合汉字表义的切分:知识/ 就是/ 力量

2、在中文里,“词”比“单字”的表义能力更强

现代汉语的基本表达单元为“词”,以双字或者多字居多,其单独切分后难以独自表义

例如:机械工程,基本语义单元为“机械”和“工程”,如果按单子切分为“机”、“械”、“工”、“程”,则这些单字不符合人对中文语义的理解,因此不符合需求。

分类方法

基于字符串匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个 “充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的词数最小);

4)双向最大匹配法(进行由左到右、由右到左两次扫描)