日期:2014-05-16 浏览次数:20493 次
jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。
jsoup的主要功能如下:
String jscript = "function getAllHtml() {"+
"var a='';" +
"a = '<html><head><title>';" +
"a += document.title;"+
"a += '</title></head>';"+
"a += document.body.outerHTML;"+
"a += '</html>';"+
"return a;"+
"}"+
"getAllHtml();";
String result = webBrowser.executeScript(jscript);
Document doc=Jsoup.parse(result);??
package ins1000.main;
import ins1000.dialect.DefiniteUrl;
import ins1000.dialect.impl.CopyOfDefiniteUrl_zhilianzhaoping;
import ins1000.dialect.impl.DefiniteUrl_baiduMap;
import ins1000.util.BrowserReadHtml;
import java.util.ArrayList;
import java.util.List;
/**
* 以网页翻页为例子
* @author Administrator
*
*/
public class Main{
static List<DefiniteUrl> definiteUrls=new ArrayList<DefiniteUrl>();
static{
definiteUrls.add(new DefiniteUrl_baiduMap());
definiteUrls.add(new CopyOfDefiniteUrl_zhilianzhaoping());
}
public static void main(String[] args) throws Exception {
for(DefiniteUrl du:definiteUrls){
BrowserReadHtml brh= new BrowserReadHtml(du);
brh.begin();
}
}
public static void finish(DefiniteUrl du) {
definiteUrls.remove(du);
if(definiteUrls.size()==0){
System.exit(0);
}
}
}