日期:2014-05-17  浏览次数:20714 次

这个网站怎么不让抓取呢?
http://read.10086.cn/booklist?nodeId=0&fee=0&order=1&bookListType=1&view=2&page=2


我抓取的时候老报,“远程服务器返回错误: (500) 内部服务器错误。”

你们能帮我测试下吗?我的代码:
 HttpWebResponse res;
            string charSet = "";
            try
            {
                WebClient myWebClient = new WebClient();//创建WebClient实例myWebClient 
                myWebClient.Credentials = CredentialCache.DefaultNetworkCredentials;
                byte[] myDataBuffer = myWebClient.DownloadData(url);
                string strWebData = Encoding.Default.GetString(myDataBuffer);

                //获取网页字符编码描述信息 
                Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
                string webCharSet = charSetMatch.Groups[2].Value.Replace("\"", "");
                if (charSet == null || charSet == "")
                    charSet = webCharSet;

                if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
                    strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
                return strWebData;
            }
            catch (WebException ex)
            {