基于半监督与集成学习的
文本分类方法
y5 ? W
Publishing House of Electronics Industry
北京·BEIJING
内 容 简 介
文本分类技术广泛应用于新闻媒体、网络期刊文献、数字图书馆、互联网等领域,
是人类处理海量文本信息的重要手段。
本书重点探讨了利用信息论中的评估函数量化特征权值的方法;基于权值调整改进
Co-training的算法;利用互信息或 CHI统计量构造特征独立模型,进行特征子集划分的
方法;基于投票熵维护样本权重的 BoostVE分类模型;融合半监督学习和集成学习的
SemiBoost-CR分类模型。
其中特征选择和权值调整方法、基于特征独立模型划分特征子集的方法适用于文本
分类,其他算法不仅适用于文本分类,对机器学习和数据挖掘的其他研究也有较大的参
考价值和借鉴作用。
本书适合研究方向为文本挖掘、机器学习的硕士、博士研究生及相关专业技术人员
学习和参考。
未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。
版权所有,侵权必究。
图书在版编目( CIP)数据
基于半监督与集成学习的文本分类方法/唐焕玲著.—北京:电子工业出版社, 2013.8
ISBN 978-7-121-21256-7
Ⅰ. ①基… Ⅱ. ①唐… Ⅲ. ①文字处理—研究 Ⅳ. ①TP391.1
中国版本图书馆 CIP数据核字( 2013)第188126号
责任编辑:张 京
文字编辑:薄 宇
印 刷:
装 订:
出版发行:电子工业出版社
北京市海淀区万寿路 173信箱 邮编 100036
开 本:900×1 280 1/32 印张:5.875 字数:205千字
印 次:2013年8月第1次印刷
定 价:29.00元
凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与
本社发行部联系,联系及邮购电话:( 010)88254888。
质量投诉请发邮件至 zlts@phei.com.cn,盗版侵权举报请发邮件至 dbqq@phei.com.cn。
服务热线:( 010)88258888。
三河市鑫金马印装有限公司
三河市鑫金马印装有限公司
前 言
文本分类( Text/Document Categorization)是指按照预先定义的主题类别,
通过一定的学习机制,在对带有类别标签的训练文本进行学习的基础上,给
未知文本分配一个或多个类别标签的过程。文本分类技术广泛应用于新闻媒
体、网络期刊文献、数字图书馆、互联网等领域,是人类处理海量文本信息
的重要手段。数据挖掘技术在信息检索、邮件过滤、 Web个性化服务等领域
的成功应用均在一定程度上依赖于准确的文本分类技术。因此,文本
《基于半监督与集成学习的文本分类方法》.pdf