求高手帮忙 关于搜索出的网页是否是主页的判断
现在要实现的是
通过程序模拟浏览器访问Google查询结果,并对搜索出来的网址进行收集(这部分的功能已经实现)
问题是现在要对收集到的网址进行判断,判断是否是主页
例如:搜索“有限公司” 搜索出很多地址,有些是公司的主页 有些则是招聘信息或者广告之类的。
问题是 如何来辨别这些地址那些是公司的主页?
我在网上查过,有说判断RP值的,但是通过实践发现并不保准……
请高手给个思路和指点!
------解决方案--------------------能获取网页的链接吧 分析链接如果是www.luger.me样式的就是主页如果是http://www.luger.me/archives/637.html 就不是主页,一种思路不能保证百分百正确