C# 爬虫技术。。。
公司里要做新闻采集。。。我就网上看了下爬虫的文章。。我发觉有用WebClient做的,也有用HttpWebRequest做的。。所以我现在很郁闷。。到底该如何做,这2钟方法优缺点是啥?。。。还有,是否能求高手们留下QQ。。。。
------解决方案--------------------看下火车头采集器,是用C#开发的
------解决方案--------------------看下火车头采集器,是用C#开发的
嗯 是的 多线程开发
看看吧
------解决方案--------------------WebClient是WebRequest的再包装,简化使用,代码量少,但灵活不足.遇到需要登录等反采集的网站就不好弄了。
------解决方案--------------------爬虫.....。.net封装进来的都不算真正的多线程的。
你最好还是拿win32的socket来做。
------解决方案--------------------webclient 做简单点。
开多个线程同时处理速度快点。当然非常耗费cpu最好是夜间或没人使用网站的时候爬最好。
------解决方案--------------------
有点小赞同
------解决方案--------------------要下载东西发现我没分。。。呜呜