新闻自动采集系统做完了，散分解决思路-C#教程-爱易网页

新闻自动采集系统做完了，散分解决思路

日期：2014-05-19　浏览次数：20808 次

新闻自动采集系统做完了，散分
系统采用C#编写，需要.NET Framework 2.0环境，可以按照你设定的规则采集不同网站的新闻，不过要求你对正则表达式比较熟悉。
目前系统中还存在一些小缺陷，一是对分页的新闻网页无法提取；二是对一些需要用户登录的网页不能采集。需望高手指点。

------解决方案--------------------
分页的还不知道怎么好处理
只有遍历以下链接了

用户登录那种，最好程序内嵌一对用户名和密码
提交后去抓新闻
------解决方案--------------------
还要了解人家做网页的习惯~~哈哈~~~
------解决方案--------------------
分页根据页面的规则很多分页网页地址都是?page=1?page=2的
------解决方案--------------------
怎么做的,能把大体的思想说一下不
------解决方案--------------------
对于分页的要看人家分页的方法，用遍历就比较通用。。

对于要用户名和密码的，实际是加了个权限，如果能绕过，就可以方便达到目的。不然只有用合法用户名和密码登陆。
------解决方案--------------------
正在做这方面的.也搜集了比较多的资料.
系统已架起,正在优化...

------解决方案--------------------
恭喜
------解决方案--------------------
jf
------解决方案--------------------
恭喜，JF
------解决方案--------------------
TO:一是对分页的新闻网页无法提取

那也只能分析一下链接了,根据分页的网页URL的特点,来判断是否是同一则新闻...

TO:对一些需要用户登录的网页不能采集

这个没办法,你得知道登录的用户名和密码,才能进行采集...

另外恭喜一下,接分...
------解决方案--------------------
我做了一个采集阿里巴巴企业信息的东东。具体思路如下：
首先搜索一个你想要的关键字获得列表，获取这个列表的HTML，然后用正则得到每个企业的公司主页链接，关于分页可以分析一下他的URL，其实只有一个变量，用一个循环就可以搞定。得到的链接放到一个TXT中，然后一行一行的读取，再次获得HTML，正则得到你需要的信息。后面的...
------解决方案--------------------
楼主能对不同的新闻系统采集么?

------解决方案--------------------
我现在研究搜索引擎方面的,不过刚起步...
------解决方案--------------------
对每个不同页做不同的正则表达式
------解决方案--------------------
没做过，想学习一下。
------解决方案--------------------
JF,顶
------解决方案--------------------

用户登录那种，最好程序内嵌一对用户名和密码
提交后去抓新闻
------解决方案--------------------
没做过，想学习一下
------解决方案--------------------
jf ,还学习一下
------解决方案--------------------
记号,学习.
------解决方案--------------------
jf
------解决方案--------------------
是不同的网页,比如新浪和163的新闻页格式应该是不一样的?
------解决方案--------------------
jf
------解决方案--------------------
没研究过这类项目,只开发一些常用的小应用系统,也一直想做点有意思的东西.学习
------解决方案--------------------
jf
------解决方案--------------------
jf
------解决方案--------------------
加油，
恭喜。
------解决方案--------------------

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

新闻自动采集系统做完了，散分解决思路

相关资料更多>

推荐阅读更多>