日期:2014-05-16  浏览次数:20530 次

如何解析网页,获取超级链接地址?
浏览器中输入一个网页地址,经过浏览器的解析,就会显示出这个页面需要展示出来的内容,这个中间有个解析的过程包括css、js文件的解析等,具体过程没有研究过。

我的问题是,如何写程序来解析一个网页,譬如只获取这个网页的所有超级链接地址?
有些超级连接地址是显式的,直接下载网页文件就可以获取,而另外一些地址是隐式的,是根据js文件等动态生成的,请问对于动态生成的链接地址,如何来解析获取?


------解决方案--------------------
用webbrowser控件加载网页,DocumentCompleted时js动态生成的链接也能获取到。
------解决方案--------------------
去看看网络蜘蛛(爬虫)的代码,有很多!去codejoke上!分析链接! 

要分析文字和图片,就只能使用IHTMLDocument去获取,然后分析! 

图片我觉得可以采用文本搜索的方式,查找后缀,然后向前分析图片名称或者链接地址! 
但是文字,很麻烦! 
我觉得可以使用剪贴板来实现! 
打开网页后ctrl+a,然后选择性黏贴(无格式问题),就可以获取!具体怎么做就不知道!不过应该不难!