日期:2014-05-17 浏览次数:20511 次
string strResult = ""; HttpWebRequest request = (HttpWebRequest)WebRequest.Create(@"http://www.dangdang.com"); request.Method = "GET"; HttpWebResponse response = (HttpWebResponse)request.GetResponse(); Stream streamReceive = response.GetResponseStream(); Encoding encoding = Encoding.GetEncoding("gb2312"); StreamReader streamReader = new StreamReader(streamReceive, encoding); strResult = streamReader.ReadToEnd(); div1.InnerHtml = strResult;
------解决方案--------------------
首先获取目标网站的源码,用httpwebrequest,webclient,xmlhttp等都可以,个人建议使用xmlhttp,在对比这三个的速度方面自我感觉比其它两个能快些。
(获取列表什么的再弄一下)
然后就利用正则分析出你想要的数据。
然后再去掉那些html,css,js等标签,剩下的文本就是你要采集的内容了。
关于图片等内容,需要特殊处理,将图片下载到本地,或者存到数据库中。