日期:2014-05-17  浏览次数:20729 次

有关爬虫解析js动态链接问题(htmlunit应用)

帮助文档:http://htmlunit.sourceforge.net/

依赖jar包很文档:http://sourceforge.net/projects/htmlunit/files/

举例:解析一个html中的图片地址,图片地址由js赋值。

public void getElements() throws Exception {
??????? final WebClient webClient = new WebClient();
??????? final HtmlPage page =

???????????????webClient.getPage("http://localhost:8080/jsTest");
??????? final HtmlDivision div = page.getHtmlElementById("modePhoto");
??????? DomNodeList<DomNode> dnl=div.getChildNodes();
??????? System.out.println(dnl.get(0).getAttributes().getNamedItem("src").getTextContent());
??? }

需要抓取的html:

有关爬虫解析js动态链接问题(htmlunit应用)

获取一个特定的浏览器版本:
?public void homePage_INTERNET_EXPLORER() throws Exception {
???? final WebClient webClient = new WebClient(BrowserVersion.INTERNET_EXPLORER_8);
???? final HtmlPage page = webClient.getPage("http://htmlunit.sourceforge.net");
//???? assertEquals("HtmlUnit - Welcome to HtmlUnit", page.getTitleText());
?}

------待续

1 楼 jccmjl 2012-04-20  
朋友你好我现在是HtmlUnit运用者,我现在在项目爬去中遇见一个非常棘手的问题,就是分页数据怎样爬取,我现在真的不明白了,朋友可以的话加我QQ452276647 这个问题解决了非常非常的感谢了!!!!!
2 楼 shijincheng0223 2012-04-21  
jccmjl 写道
朋友你好我现在是HtmlUnit运用者,我现在在项目爬去中遇见一个非常棘手的问题,就是分页数据怎样爬取,我现在真的不明白了,朋友可以的话加我QQ452276647 这个问题解决了非常非常的感谢了!!!!!

不好意思,这个HtmlUnit我用着不好用,后来就不用了。也没研究分页的问题。
3 楼 jccmjl 2012-04-23  
shijincheng0223 写道
jccmjl 写道
朋友你好我现在是HtmlUnit运用者,我现在在项目爬去中遇见一个非常棘手的问题,就是分页数据怎样爬取,我现在真的不明白了,朋友可以的话加我QQ452276647 这个问题解决了非常非常的感谢了!!!!!

不好意思,这个HtmlUnit我用着不好用,后来就不用了。也没研究分页的问题。

好的没关系,那个分页我已经解决了。
4 楼 matraxa 2012-05-30  
jccmjl 写道
shijincheng0223 写道
jccmjl 写道
朋友你好我现在是HtmlUnit运用者,我现在在项目爬去中遇见一个非常棘手的问题,就是分页数据怎样爬取,我现在真的不明白了,朋友可以的话加我QQ452276647 这个问题解决了非常非常的感谢了!!!!!

不好意思,这个HtmlUnit我用着不好用,后来就不用了。也没研究分页的问题。

好的没关系,那个分页我已经解决了。


您好,请问那个分页是怎么实现的?可以的话加我QQ122737688,这个问题困扰我很久了,请多多指教