日期:2014-05-19  浏览次数:20753 次

新闻自动采集系统做完了,散分
系统采用C#编写,需要.NET   Framework   2.0环境,可以按照你设定的规则采集不同网站的新闻,不过要求你对正则表达式比较熟悉。
目前系统中还存在一些小缺陷,一是对分页的新闻网页无法提取;二是对一些需要用户登录的网页不能采集。需望高手指点。


------解决方案--------------------
分页的还不知道怎么好处理
只有遍历以下链接了

用户登录那种,最好程序内嵌一对用户名和密码
提交后去抓新闻
------解决方案--------------------
还要了解人家做网页的习惯~~哈哈~~~
------解决方案--------------------
分页根据页面的规则很多分页网页地址都是?page=1?page=2的
------解决方案--------------------
怎么做的,能把大体的思想说一下不
------解决方案--------------------
对于分页的要看人家分页的方法,用遍历就比较通用。。

对于要用户名和密码的,实际是加了个权限,如果能绕过,就可以方便达到目的。不然只有用合法用户名和密码登陆。
------解决方案--------------------
正在做这方面的.也搜集了比较多的资料.
系统已架起,正在优化...

------解决方案--------------------
恭喜
------解决方案--------------------
jf
------解决方案--------------------
恭喜,JF
------解决方案--------------------
TO:一是对分页的新闻网页无法提取

那也只能分析一下链接了,根据分页的网页URL的特点,来判断是否是同一则新闻...

TO:对一些需要用户登录的网页不能采集

这个没办法,你得知道登录的用户名和密码,才能进行采集...


另外恭喜一下,接分...
------解决方案--------------------
我做了一个采集阿里巴巴企业信息的东东。具体思路如下:
首先搜索一个你想要的关键字获得列表,获取这个列表的HTML,然后用正则得到每个企业的公司主页链接,关于分页可以分析一下他的URL,其实只有一个变量,用一个循环就可以搞定。得到的链接放到一个TXT中,然后一行一行的读取,再次获得HTML,正则得到你需要的信息。后面的...
------解决方案--------------------
楼主能对不同的新闻系统采集么?

------解决方案--------------------
我现在研究搜索引擎方面的,不过刚起步...
------解决方案--------------------
对每个不同页做不同的正则表达式
------解决方案--------------------
没做过,想学习一下。
------解决方案--------------------
JF,顶
------解决方案--------------------

用户登录那种,最好程序内嵌一对用户名和密码
提交后去抓新闻
------解决方案--------------------
没做过,想学习一下
------解决方案--------------------
jf ,还学习一下
------解决方案--------------------
记号,学习.
------解决方案--------------------
jf
------解决方案--------------------
是不同的网页,比如新浪和163的新闻页格式应该是不一样的?
------解决方案--------------------
jf
------解决方案--------------------
没研究过这类项目,只开发一些常用的小应用系统,也一直想做点有意思的东西.学习
------解决方案--------------------
jf
------解决方案--------------------
jf
------解决方案--------------------
加油,
恭喜。
------解决方案--------------------