日期:2014-05-20  浏览次数:20636 次

提取网页中的链接关系
我现在做了一个spider程序,给他一个合法的url,他就可以开始抓取网页中的url了,理论上他可以沿着这个url不停的抓下去,知道发现不了其他的饿连接了.我把抓取的url存放在数据库里面,并按抓取的先后顺序给他们编号,但是我现在想知道网页之间的连接关系,并把他们之间的连接关系用一个图来表示出来,该怎么做啊?

------解决方案--------------------
描述的清楚一点 你想获取哪种关系图? 说的清楚点,正好这几天我也在做这个东西 。可能帮的上你
------解决方案--------------------
有开源的htmlparse包,网页间的关系不好做。不是简单的树型结构,可能是数据结构中的图形结构。
------解决方案--------------------
提取URL好说,但是要把页面之间的关系分析出来不简单。因为URL链接本来就是没有规律的。
------解决方案--------------------
class site1 extend Site{
Site[] LinkIn;
Site[] LinkOut;
}
然后再加一堆方法,应该可以表示吧