登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
Web社区紧密核的抽取方法
  • 摘要

    针对采用紧密二分图来抽取社区核的(α,β)密度方法和γ-dense密度方法进行了分析,指出了存在的问题. 提出紧密二分图块的概念和采用2步骤构造二分图的方法,减少不必要节点和边的扩展. 提出最大紧密二分图块的概念和抽取算法. 新算法在4个Web爬虫爬取的数据集下进行了测试并抽取了大量的社区核,人工验证这些社区核,80%均为有效的社区. 同时针对Dourisboure等人的方法进行了不同规模数据集的测试,证明了里面包含大量的割点. 实验结果的分析表明,新算法是可行的和有效的.

  • 作者

    杨楠  丁晖  刘悦  Yang Nan  Ding Hui  Liu Yue 

  • 作者单位

    中国人民大学信息学院,北京,100872

  • 刊期

    2010年z1期 ISTIC EI PKU

  • 关键词

    Web社区  紧密二分图  链接分析 

参考文献
  • [1] Ravi Kumar;Prabhakar Raghavan;Sridhar Rajagopalan. Trawling the Web for emerging cyber-communities. Computer networks, 1999,11/16
  • [2] Flake G;Lawrence S. Efficient Identification of Web communities. New York:ACM, 2000
  • [3] Flake G;Lawrence S. Self-organization and identification of Web communities. IEEE Transaction on Computer, 2002,03
  • [4] Reddy P;Kitsuregawa M. An approach to relate the Web communities through bipartite graphs. Los Alamitos,CA:IEEE Computer Society, 2001
  • [5] Dourisboure Y;Geraci F;Pellegrini M. Extraction and classification of dense communities in the Web. New York:ACM, 2007
  • [6] Gibson D;Kumar R. Discovering large dense subgraphs in massive graphs. New York:ACM, 2005
  • [7] Kumar R;Raghavan P. Extracting large-scale knowledge bases from the Web. San Framcisco:Morgan Kaufmann, 1999
  • [8] Toyoda M;Kitsregawa M. A Web community chart for navigating related communities. http://www10.org/cdrom/postrs/1083.pdf, 2010-06-30
  • [9] Gibson D;Kleinberg J;Raghavan P. Inferring Web communities from link topology. New York:ACM, 1998
  • [10] Kessler M. Bibliographic coupling between scientific papers. American Documentation, 1963
  • [11] Small H. Co-citation in the scientific literature:A new measure of the relationship between two documents. Journal of the American Society For Information Science, 1973,04
查看更多︾
相似文献 查看更多>>
54.210.158.163