日期:2014-05-17  浏览次数:20441 次

web动态信息采集系统,求大神给建议
新手求建议,想用asp.net做发布者可以自定义要采集的信息的网页,会遇到哪些技术问题问题,有什么解决办法,求大神给个建议。谢了先。
------解决方案--------------------
爬虫?
------解决方案--------------------
用正则表达式
------解决方案--------------------
你先使用httprequest请求把需要采集的页面html请求过来
然后使用正则表达式  提取你需要的html代码片段(比如文章采集器一般会采集标题,内容,时间之类的)
把这些采集到的进行保存的数据库,继续进行下一个url页面的采集


------解决方案--------------------
ASP.NET WEBFORM下面用HttpWebRequest或WebClient,难点就是,如果目标网页需要登录后才能看的话,或者一些COOKIE的限制的话,相对会比较麻烦。
WINFORM下强烈推荐用WebBrowser,直接模拟游览器操作不会有上面的问题,其实在ASP.NET WEBFORM下也可以用WebBrowser。

其他需要懂点正则表达式。