日期:2014-05-17  浏览次数:20613 次

请教一问题,如何抓取一个网站首页的源码?
目前简单代码如下
Java code
import java.io.DataInputStream;
import java.net.URL;
import java.net.URLConnection;

public class GetHTMLByURLConnection {

    public static void main(String[] args) throws Exception{
        URL url = new URL("http://www.citibet.net");
        URLConnection urlConnection = url.openConnection();
        DataInputStream dis = new DataInputStream(urlConnection.getInputStream());
        String readLine = null;
        while((readLine = dis.readLine())!=null){
            System.out.println(readLine);
        }
        
        dis.close();
    }

}

但获取到的内容和直接从浏览器右键查看源代码获取到的内容不一样,请指教?程序该如何修改?

------解决方案--------------------
没写过 留着看
------解决方案--------------------
这个真的可以抓取?

------解决方案--------------------
乱码了呢
------解决方案--------------------
源码是未经编译过的,是程序员写的最初的东西,浏览器上的都是编译后才显示出来的。肯定不一样了。我先试试他真的能否抓取不
------解决方案--------------------
抓取源码,如果可以那还不错,不过源码都是已经被编译过滴,在浏览器上显示都是编译后的代码,能直接读取吗?质疑一下下
------解决方案--------------------
你这个是编译后的东东吧。
------解决方案--------------------
如果抓取的网页是html格式的,倒是可以
但如果是Jsp,Asp,Php等动态网页,是不可能的。
------解决方案--------------------
探讨

如果抓取的网页是html格式的,倒是可以
但如果是Jsp,Asp,Php等动态网页,是不可能的。