登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
关于大数据存储过程中缺失信息检测仿真
  • 摘要

    对大数据存储过程中缺失信息进行有效检测,不仅可以避免用户数据查询异常,而且可以提高系统非完整数据挖掘分析的准确性与完整性.当前缺失信息检测方法在数据量上升的过程中,由检测算法带来的检测时延呈现指数增长,影响检测精度,甚至造成系统程序阻塞崩溃,为了对现有方法的检测时延进行有效优化,同时兼顾检测精度,提出了分布式优化近邻聚类的缺失信息检测方法.首先采用近邻传播对非完整数据集做聚类处理,将其分为完整和非完整两个数据集,并利用提出的区间相似度,把属于一类的数据归属于同一个簇,这种聚类方式避免了其它对象带来的干扰,有利于提高聚类精度和速度;然后,为了更加有效的提高检测算法执行效率,设计了分布式计算优化聚类过程,将主要耗时操作的聚类过程采取并行计算;最后,将聚类后得到的同类对象利用信息熵计算,检测得到缺失信息.通过仿真,验证了所提方法对于非完整数据缺失信息检测时延具有明显的优化效果,同时具有良好的检测精度.

  • 作者

    冉娟  任琼  RAN Juan  REN Qiong 

  • 作者单位

    天津大学仁爱学院计算机科学与技术系,天津,301636/江汉大学数学与计算机科学学院,湖北武汉,430056

  • 刊期

    2018年12期 ISTIC PKU

  • 关键词

    非完全数据  缺失信息  近邻传播  区间相似度  分布式计算 

相似文献 查看更多>>
18.207.137.4