请问一有关问题，怎么抓取一个网站首页的源码-Java教程-爱易网页

请问一有关问题，怎么抓取一个网站首页的源码

日期：2014-05-17　浏览次数：21119 次

请教一问题，如何抓取一个网站首页的源码？
目前简单代码如下

Java code

import java.io.DataInputStream;
import java.net.URL;
import java.net.URLConnection;

public class GetHTMLByURLConnection {

    public static void main(String[] args) throws Exception{
        URL url = new URL("http://www.citibet.net");
        URLConnection urlConnection = url.openConnection();
        DataInputStream dis = new DataInputStream(urlConnection.getInputStream());
        String readLine = null;
        while((readLine = dis.readLine())!=null){
            System.out.println(readLine);
        }
        
        dis.close();
    }

}

但获取到的内容和直接从浏览器右键查看源代码获取到的内容不一样，请指教？程序该如何修改？

------解决方案--------------------
没写过留着看
------解决方案--------------------
这个真的可以抓取？

------解决方案--------------------
乱码了呢
------解决方案--------------------
源码是未经编译过的，是程序员写的最初的东西，浏览器上的都是编译后才显示出来的。肯定不一样了。我先试试他真的能否抓取不
------解决方案--------------------
抓取源码，如果可以那还不错，不过源码都是已经被编译过滴，在浏览器上显示都是编译后的代码，能直接读取吗？质疑一下下
------解决方案--------------------
你这个是编译后的东东吧。
------解决方案--------------------
如果抓取的网页是html格式的，倒是可以
但如果是Jsp，Asp，Php等动态网页，是不可能的。
------解决方案--------------------

探讨

如果抓取的网页是html格式的，倒是可以
但如果是Jsp，Asp，Php等动态网页，是不可能的。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

请问一有关问题，怎么抓取一个网站首页的源码

相关资料更多>

推荐阅读更多>