爬虫程序,经常一个页面一两兆,经常因内存资源没有自动及时清理导致程序崩溃,咋办???
一个页面经常一两兆...看着内存占用不断的增高...就是提取页面中的关键字就不需要这个页面了,但是内存资源不断的增加....程序没有就时自动清理导致程序崩溃...咋办?
------解决方案--------------------
有问题啊
特殊是这行 Split('>')
HTML代码里最多的是什么?不就是<和>嘛
你这样Split,搞死C#了
先把你要分析的内容Substring出来
再用正则取出正确的内容就行了
------解决方案--------------------
正则不会
临时抄抄书就行了
int i1 = html.IndexOf("kitnice");
int i2 = html.IndexOf(结束标志, i1);
html=html.Substring(i1, i2-i1);
这样优化也好少少