文本挖掘中若干关键问题研究
基本介绍
作者: 陆旭 丛书名: 博士论丛
出版社:中国科学技术大学出版社
ISBN:9787312022807
上架时间:2009-10-28
出版日期:2008 年12月
开本:16开
页码:117
版次:1-1
内容简介
本书介绍了文本分类和偏最小二乘回归,提出了基于变量投影重要性指标的文本分类特征选择方法,论述了偏最小二乘Logistic文本分类模型,阐述了CHTC层次文本分类模型的研究工作,本书可供相关领域科研工作者、大学高年级学生和研究生阅读。
编辑推荐
《文本挖掘中若干关键问题研究》:自动文本分类是将自然文本文件根据内容自动分为预先定义的一个或几个类别的过程,基于统计学习、机器学习的文本分类技术已经成为主流技术,《文本挖掘中若干关键问题研究》对基于统计学习的文本分类及其相关技术进行了研究,为解决文本分类的稀疏性和高维性问题,基于偏最小二乘理论,提出一种新的维数约简算法,从提高文本分类性能和准确性出发,运用偏最小二乘的最新理论成果,提出了一种能较好提取潜在语义的新文本分类模型,对于数量庞大的文档类别,传统的平坦文本分类的性能受到很大的制约,层次文本分类是一种有效的解决方法,由此提出了一种新的层次文本分类模型。
目录
前言.
第1章 导论
1.1 研究背景
1.2 文本分类综述
1.3 本书的内容结构