想请教大家采集程序的实现原理,或者讲讲小偷的实现原理,希望高手不吝指教!
我比较对这个感兴趣的,网上的都很简单,
还有就是怎么获取一个网址下的所有html页面地址?
------解决方案--------------------private void Page_Load(object sender, System.EventArgs e)
{
Response.Write(this.GetPageContent());
}
#region Web 窗体设计器生成的代码
override protected void OnInit(EventArgs e)
{
//
// CODEGEN: 该调用是 ASP.NET Web 窗体设计器所必需的。
//
InitializeComponent();
base.OnInit(e);
}
/// <summary>
/// 设计器支持所需的方法 - 不要使用代码编辑器修改
/// 此方法的内容。
/// </summary>
private void InitializeComponent()
{
this.Load += new System.EventHandler(this.Page_Load);
}
#endregion
private string url= "你要采集的网页 "
public string GetPageContent()
{
string ResponseText = String.Empty;
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(this.url);
request.UserAgent = Request.UserAgent;
System.Net.WebResponse response = request.GetResponse();
//返回信息
Stream resStream = response.GetResponseStream();
StreamReader sr = new StreamReader(resStream, System.Text.Encoding.Default);
ResponseText = sr.ReadToEnd();
resStream.Close();
sr.Close();
return ResponseText;
}
------解决方案--------------------楼上是对单一网页的采集,获取所有html地址可以通过扫描你所得到的所有的html文件源码,匹配所有链接,通过递归这一过程来获得。