提取网页中的链接关系解决办法-Java教程-爱易网页

提取网页中的链接关系解决办法

日期：2014-05-20　浏览次数：21140 次

提取网页中的链接关系
我现在做了一个spider程序，给他一个合法的url，他就可以开始抓取网页中的url了，理论上他可以沿着这个url不停的抓下去，知道发现不了其他的饿连接了．我把抓取的url存放在数据库里面，并按抓取的先后顺序给他们编号，但是我现在想知道网页之间的连接关系，并把他们之间的连接关系用一个图来表示出来，该怎么做啊？

------解决方案--------------------
描述的清楚一点你想获取哪种关系图？说的清楚点，正好这几天我也在做这个东西。可能帮的上你
------解决方案--------------------
有开源的htmlparse包,网页间的关系不好做。不是简单的树型结构,可能是数据结构中的图形结构。
------解决方案--------------------
提取URL好说，但是要把页面之间的关系分析出来不简单。因为URL链接本来就是没有规律的。
------解决方案--------------------
class site1 extend Site{
Site[] LinkIn;
Site[] LinkOut;
}
然后再加一堆方法,应该可以表示吧

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

提取网页中的链接关系解决办法

相关资料更多>

推荐阅读更多>