有关新闻源网页更新情况跟踪的程序问题
大家新年好!我要做的事情如下:
比如某个部门有一个新闻目录的网页,其对应的网页内容是目录导航型,包含大量指向正文内容型(即“新闻报道”)网页的链接。该目录会定期更新,不断出现一些指向新发布新闻报道的链接。同时,指向过期新闻的链接则被移除。
我要定期抓取和统计某个单位所有部门的新闻目录网页,并且判断其中每个部门新闻链接数的更新情况,并排序。我的想法是解析这个网页里面新闻的链接,比如http://cese.pku.edu.cn/dispcl2.asp?id=98这里的新闻链接有http://cese.pku.edu.cn/dispart.asp?id=1175这种格式,所以我就在http://cese.pku.edu.cn/dispcl2.asp?id=98的网页里面解析具有http://cese.pku.edu.cn/dispart.asp?id=这种形式的内容有多少个,分别是什么记录然后保存下来。每天进行一次。
这是我想到的做法,我现在有这么几个问题。
1.要实现我的目标有没有更好的做法呢?
2.由于有多个部门的新闻目录情况统计,我应该以文件形式还是数据库中存储每天的链接,然后比较呢?如果是文件是否一天一个目录,然后以单位的名称为文件名存储?
3.不同部门的新闻目录网页与链接的url格式关系不是很一致是否每一个单位得单独写一段程序呢?
------解决方案--------------------可以看看有没有RSS
------解决方案--------------------一般id是自增的,所以http://cese.pku.edu.cn/dispcl2.asp?id=98解析第一篇文章的id,
http://cese.pku.edu.cn/dispart.asp?id=1175
那么截至今天为止,最大文章编号为1175。(1176就报错了。)每天只要比较这个id,另外,最好再用curl解析一下url,看看curl header code返回是否200,(非301,,400...)来验证url是否有效。
------解决方案--------------------时间可以缩短,按小时来计算。如果有条件,找个服务器来做。可以模仿其他检索系统的存储格式。不需要单独写,封装好接口,用数组一个一个传入。