登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost
  • 摘要

    现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题.针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法——NIBoost(New Imbalanced Boost).首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重.实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势.

  • 作者

    王莉  陈红梅  王生武  WANG Li  CHEN Hongmei  WANG Shengwu 

  • 作者单位

    西南交通大学 信息科学与技术学院,成都,611756

  • 刊期

    2019年3期 ISTIC PKU

  • 关键词

    非平衡数据集  分类  代价敏感  过采样  Adaboost算法 

相似文献 查看更多>>
3.214.184.196