100分问个.net采集器的问题
从51aspx上下的一些例子都不是自己想要的。而且51aspx关于采集的例子才4,5个,都是输入个网址然后在根据正则获取
这种方法我会了。
想问的是
例如输入个主页的网址,然后根据主页里面的链接一个一个采集下去,可以自己定义数量要采集几个,这个要用到多线程
该怎么用呢?
就是不用要采集一个页面还要输入那个页面的网址,只要输入一个网址可以根据里面的网址采集下去
该怎么写呢?有谁有例子可以参考下吗?
------解决方案--------------------从51aspx上下的一些例子都不是自己想要的。而且51aspx关于采集的例子才4,5个,都是输入个网址然后在根据正则获取
while(获取的结果里面还有链接){
结果 = 采集(此链接)
}
------解决方案--------------------
------解决方案--------------------不了解,帮顶,关注!
------解决方案--------------------
------解决方案--------------------void Func(string url){
Document doc = new Document(url);
ElementCollect els = doc.GetElementsByTagName("a");
foreach(Element el in els){
Func(el.Attributes["href"]);
}
}
http://blog.csdn.net/sq_zhuyi/archive/2010/06/26/5695397.aspx
------解决方案--------------------循环套循环,中间加上控件变量 .
------解决方案--------------------一般情况下就是输入首页地址,然后把首页中的地址全抓出来,然后再一个一个往下抓
一般都是用队列
------解决方案--------------------路过,帮顶下
------解决方案--------------------采集要有针对性!
不同的网站配置不同的采集方案!(正则方案)。没有通用的
------解决方案--------------------是获取一个地址就采集,还是地址全部获取完了之后一次性采集
------解决方案--------------------获取一个地址列表。一个个采集。都这么做的。
------解决方案--------------------不懂
------解决方案--------------------可以定义个最大线程数,采集的任务采用队列形式。根据任务动态分配线程
------解决方案--------------------