日期:2014-05-18  浏览次数:20490 次

想请教大家采集程序的实现原理,或者讲讲小偷的实现原理,希望高手不吝指教!
我比较对这个感兴趣的,网上的都很简单,
还有就是怎么获取一个网址下的所有html页面地址?

------解决方案--------------------
private void Page_Load(object sender, System.EventArgs e)
{
Response.Write(this.GetPageContent());

}

#region Web 窗体设计器生成的代码
override protected void OnInit(EventArgs e)
{
//
// CODEGEN: 该调用是 ASP.NET Web 窗体设计器所必需的。
//
InitializeComponent();
base.OnInit(e);
}

/// <summary>
/// 设计器支持所需的方法 - 不要使用代码编辑器修改
/// 此方法的内容。
/// </summary>
private void InitializeComponent()
{
this.Load += new System.EventHandler(this.Page_Load);

}
#endregion


private string url= "你要采集的网页 "

public string GetPageContent()
{
string ResponseText = String.Empty;
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(this.url);
request.UserAgent = Request.UserAgent;

System.Net.WebResponse response = request.GetResponse();

//返回信息
Stream resStream = response.GetResponseStream();
StreamReader sr = new StreamReader(resStream, System.Text.Encoding.Default);
ResponseText = sr.ReadToEnd();
resStream.Close();
sr.Close();

return ResponseText;
}

------解决方案--------------------
楼上是对单一网页的采集,获取所有html地址可以通过扫描你所得到的所有的html文件源码,匹配所有链接,通过递归这一过程来获得。