有谁写过可以处理动态脚本语言如Javascript的爬虫?
用java的HTMLEditorKit.Parser从html中提取链接,如果碰到javascript语言,就会出错,如
document.write( " <a href=\ "../ " + m + "\ " onMouseOver=\ "MSHL(并不完整)
它会把\../做为一个链接加入,会导致一个url黑洞。
------解决方案--------------------跳过这样的链接!
------解决方案--------------------跳过脚本块。
------解决方案--------------------只能忽略掉,除非你的爬虫能支持javascript的运行。