文本作者身份识别--基于机器学习与计算语言学
《文本作者身份识别--基于机器学习与计算语言学》是于2017年2月清华大学出版社出版的一本图书,作者是祁瑞华。1
基本信息
- 书名
文本作者身份识别--基于机器学习与计算语言学
- 作者
祁瑞华2
- ISBN
97873024557692
- 出版社
清华大学出版社
- 出版时间
2017年2月
图书简介
文本作者身份识别广泛应用于文学作品、新闻稿、商品评论、垃圾邮件的作者身份鉴定以及法庭取证等领域。随着大数据时代网络文本的大量涌现,匿名文本的作者身份识别在网络取证、不良舆情监控等任务中的应用成为国内外学者关注的热点。1
本书探讨了文本作者身份识别的关键问题、基本方法和最新研究进展,并应用于实践得以验证。全书共7章,分为3部分: 第1部分包括第1~2章,介绍文本作者身份识别的基本概念、研究内容、建模基本方法和主要应用领域; 第2部分包括第3~4章,介绍现有的作者身份文体特征、作者身份识别算法、性能评价指标、主要实验平台等; 第3部分包括第5~7章,介绍本书对作者身份识别研究的贡献和在中英文博客、微博语料上的实验验证。1
本书主要面向文本挖掘领域的研究生和相关专业的研究人员,既可以作为文本分析与处理研究的教科书,也可以作为政府相关部门产品研发人员的参考书。1
目录
第1章绪论
1.1基本概念
1.1.1作者身份识别
1.1.2作者身份描述
1.1.3作者聚类分析
1.1.4机器学习
1.1.5计算语言学
1.2作者身份识别研究
1.2.1文体风格特征研究内容
1.2.2作者身份建模技术研究内容
1.3作者身份建模基本方法
1.3.1基于侧面的作者身份建模
1.3.2基于实例的作者身份建模
1.4作者身份识别面临的主要问题