日期:2014-05-20  浏览次数:20699 次

有谁写过可以处理动态脚本语言如Javascript的爬虫?
用java的HTMLEditorKit.Parser从html中提取链接,如果碰到javascript语言,就会出错,如
document.write( " <a   href=\ "../ "   +   m   +   "\ "   onMouseOver=\ "MSHL(并不完整)

它会把\../做为一个链接加入,会导致一个url黑洞。

------解决方案--------------------
跳过这样的链接!
------解决方案--------------------
跳过脚本块。
------解决方案--------------------
只能忽略掉,除非你的爬虫能支持javascript的运行。