日期:2014-05-18  浏览次数:20764 次

如何根据URL获得网页的html源代码?
1)网址如http://XXXXXXXXXXXX.php?id=0&p=1,变动的只有id和p 一个id下对应有10个页面,如何获得每个网址下对应的html文件并保存到文件中,然后如何解析内容获得所需要的数据?

2)现在使用了webBrowser控件,如何通过该控件得到网页的html?我用:
string strURL = txbURL.Text.Trim();
webBrowserContent.Navigate(strURL);
string txt = webBrowserContent.Document.Body.InnerHtml;总是显示:NullReferenceException未将对象引用设置到对象的实例

3)假如不使用webBrowser控件,通过:
  public string GetHtml(string url)
  {
  Uri uri = new Uri(url);
  WebRequest wr = WebRequest.Create(uri);
  Stream s = wr.GetResponse().GetResponseStream();
  StreamReader sr = new StreamReader(s,Encoding.UTF8);
  return sr.ReadToEnd();
  }
html代码总是和网页不一致,需要先登录网页, 如何实现网页登陆?



------解决方案--------------------
算了直接上简单办法把

C# code

string strURL = txbURL.Text.Trim();
webBrowserContent.Navigate(strURL);
while (web.ReadyState != WebBrowserReadyState.Completed)
{
   Application.DoEvents(); 
}
string txt = webBrowserContent.Document.Body.InnerHtml;