提出了一种将支持向量机与无监督聚类相结合的新分类算法,给出了一种新的网页表示方法并应用于网页分类问题.该算法首先利用无监督聚类分别对训练集中正例和反例聚类,然后挑选一些例子训练SVM并获得SVM分类器.任何网...
近年来,随着互联网的迅速发展以及网络业务的不断增长,恶意网页给人们的个人隐私和财产安全造成的威胁日趋严重.恶意网页识别技术作为抵御网络攻击的核心安全技术,可以帮助人们有效避免恶意网页引起的安全威胁,确保网络...
Web页面的主题识别和分类是垂直搜索引擎的核心,是结构化数据抽取的前提,具有重要的学术价值,工程应用也非常广泛.以往的工作多以定向爬虫技术来解决垂直搜索引擎数据采集的专业化问题,而Web页面的主题识别和分类也多采...
多标记学习主要用于解决单个样本同时属于多个类别的问题.传统的多标记学习通常假设训练数据集合有大量有标记的训练样本.然而在许多实际问题中,大量训练样本中通常只有少量有标记的训练样本.为了更好地利用丰富的未标...
粒子群优化算法由于其高效、容易理解、易于实现,在很多领域得到了应用.网页分类是网络信息检索研究的关键技术之一,在对网页的表示时,将Web页面分解为不同的部分,之后迭代使用SVM算法构造分类器.由于PSO算法是一种基于...
为了提高搜索引擎的查准率,帮助用户快速地定位其感兴趣的网页,研究了如何在Spider式搜索引擎"天网"系统中提供目录导航服务 .基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 .主要贡献有两点:①搜集并建...
针对海量网页在线自动高效获取网页分类系统设计中如何更有效地平衡准确度与资源开销之间的矛盾问题,提出一种基于级联式分类器的网页分类方法.该方法利用级联策略,将在线与离线网页分类方法结合,各取所长.级联分类系统...
目前,在网页分类中,对HTML主要结构特征进行加权的常用方法是绝对数值加权方法.这种方法的缺点是加权系数为定值,其对长文本和短文本所起的作用不同,使得结构特征对正文的影响随着正文长度的增加而削弱.针对该缺点,本文...
综述了网页分类的国内外研究现状,分析了网页分类的核心技术,包括思想、算法、公式、评测标准.为了打击非法网络传销,必须对传销网页进行准确识别与分类.根据网页中“最大内容段”的长度,计算出这个网页为“信息网页”...
针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提...
将SVM和KNN算法结合在一起,组成一种新的Web文本分类算法-SVM-KNN算法.当Web文本和SVM最优超平面的距离大于预选设定的阈值,则采用SVM进行分类,反之采用SVM作为代表点的KNN算法对样本分类.实证结果表明,SVM-KNN分类算法...
针对网页分类中关联分类方法存在的如下两点不足:(1)仅把网页当成纯文本处理,忽略了网页的标签信息,(2)仅用网页中的特征词作为关联规则的项,没有考虑特征词的权重,或仅以词频来量化权重,忽略了特征词位置特征的影响,提...
在大数据时代,网络上的信息量获得了爆炸性增长,准确的网页分类技术有助于用户从海量网页中迅速定位到自己感兴趣的信息.网页分类技术在诸多应用中发挥着至关重要的作用,其大体可以分为基于网页内容分析和基于URL分析的...
为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视.网页分类技术一般采用信息增益、互信息等进行特征选取,并使用kNN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和...
研究网页自动分类是为快速找到用户所需网页.由于网络中网页数量相当大,而且网络是一种半结构化、海量、高维等文本,传统文本分类方法无法进行降维和消除冗余信息,易出现维数灾问题,网页分类准确率低,用户很难找到自己...
研究了基于频率共现熵的跨语言网页自动分类问题,使用翻译软件将所有中文网页翻译为英文,计算中文和英文网页的共现特征频率共现熵值,确定中文和英文网页的共现知识,并与英文网页相结合训练中文分类模型.实验结果表明,...
在这个信息爆炸的时代,如何处理这些海量的数据如何有效的分类已经引起了人们的高度重视,尤其是在互联无技术迅速发展的阶段,网页分类这领域已成为热点.与传统的分类方法相比,支持向量机具有高维、小样本、适应性强的特...
提出一种基于页面空间特征、视觉特征和内容特征的主题相关性判别方法,通过主题相关度大小量化描述不同内容的重要性,并采用混合加权方法从主题相关节点中提取网页的主题特征.分类实验结果表明,相比传统的FullDoc全文分...
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多.本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法.实验结果表明,本文的方法...
Web网页的自动分类有助于更好地对其内容进行组织和管理,针对XML网页的分类问题,提出了一种基于Web挖掘和文档对象模型(DOM)树的XML网页分类方法.首先,收集XML网页的文本信息.然后,对XML文本进行去冗余操作,并提取网页...