有关新闻源网页更新情况跟踪的程序有关问题-Apache教程-爱易网页

有关新闻源网页更新情况跟踪的程序有关问题

日期：2014-05-16　浏览次数：20714 次

有关新闻源网页更新情况跟踪的程序问题
     大家新年好！我要做的事情如下：

     比如某个部门有一个新闻目录的网页，其对应的网页内容是目录导航型，包含大量指向正文内容型（即“新闻报道”）网页的链接。该目录会定期更新，不断出现一些指向新发布新闻报道的链接。同时，指向过期新闻的链接则被移除。
     我要定期抓取和统计某个单位所有部门的新闻目录网页，并且判断其中每个部门新闻链接数的更新情况，并排序。我的想法是解析这个网页里面新闻的链接，比如http://cese.pku.edu.cn/dispcl2.asp?id=98这里的新闻链接有http://cese.pku.edu.cn/dispart.asp?id=1175这种格式，所以我就在http://cese.pku.edu.cn/dispcl2.asp?id=98的网页里面解析具有http://cese.pku.edu.cn/dispart.asp?id=这种形式的内容有多少个，分别是什么记录然后保存下来。每天进行一次。
     这是我想到的做法，我现在有这么几个问题。
     1.要实现我的目标有没有更好的做法呢？
     2.由于有多个部门的新闻目录情况统计，我应该以文件形式还是数据库中存储每天的链接，然后比较呢？如果是文件是否一天一个目录，然后以单位的名称为文件名存储？
     3.不同部门的新闻目录网页与链接的url格式关系不是很一致是否每一个单位得单独写一段程序呢？

------解决方案--------------------
可以看看有没有RSS
------解决方案--------------------
一般id是自增的，所以http://cese.pku.edu.cn/dispcl2.asp?id=98解析第一篇文章的id，
http://cese.pku.edu.cn/dispart.asp?id=1175
那么截至今天为止，最大文章编号为1175。（1176就报错了。）每天只要比较这个id，另外，最好再用curl解析一下url，看看curl header code返回是否200，（非301，,400...）来验证url是否有效。
------解决方案--------------------
时间可以缩短，按小时来计算。如果有条件，找个服务器来做。可以模仿其他检索系统的存储格式。不需要单独写，封装好接口，用数组一个一个传入。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

有关新闻源网页更新情况跟踪的程序有关问题

相关资料更多>

推荐阅读更多>