一个关于java获取URL源代码的有关问题-Java教程-爱易网页

一个关于java获取URL源代码的有关问题

日期：2014-05-20　浏览次数：20726 次

一个关于java获取URL源代码的问题
现在要做一个小程序对指定的url来获取其网页内容，当访问一般的页面是可以成功的得到其源代码。但是，当url为一个指定的文件时就不行，会发生错误。

例如：当url为 http://bbs.csdn.net/ 时，可以顺利得到页面代码
而 http://dota2.dl.wanmei.com/dota2/patch/night_stalker_basic.flv 就会出现错误

请问怎么解决，谢谢了。。

程序如下

package com.wsw.j2se.url;



import java.io.ByteArrayOutputStream;

import java.io.InputStream;

import java.net.HttpURLConnection;

import java.net.URL;



/**

 * 通过网站域名URL获取该网站的源码

 * @author Administrator

 *

 */

public class HtmlRequest {

    /**

    * @param args

    * @throws MalformedURLException 

    */

    public static void main(String[] args) throws Exception    {

        URL url = new URL("http://dota2.dl.wanmei.com/dota2/patch/night_stalker_basic.flv"); 

        String urlsource = getURLSource(url);

        System.out.println(urlsource);

    }

    

    /**

     * 通过网站域名URL获取该网站的源码

     * @param url

     * @return String

     * @throws Exception

     */

    public static String getURLSource(URL url) throws Exception    {

        HttpURLConnection conn = (HttpURLConnection)url.openConnection();

        conn.setRequestMethod("GET");

        conn.setConnectTimeout(5 * 1000);

        InputStream inStream =  conn.getInputStream();  //通过输入流获取html二进制数据

        byte[] data = readInputStream(inStream);        //把二进制数据转化为byte字节数据

        String htmlSource = new String(data);

        return htmlSource;

    }

    

    /**

     * 把二进制流转化为byte字节数组

     * @param instream

     * @return byte[]

     * @throws Exception

     */

    public static byte[] readInputStream(InputStream instream) throws Exception {

        ByteArrayOutputStream outStream = new ByteArrayOutputStream();

        byte[]  buffer = new byte[1204];

        int len = 0;

        while ((len = instream.read(buffer)) != -1){

            outStream.write(buffer,0,len);

        }

        instream.close();

        return outStream.toByteArray();         

    }

}

------解决方案--------------------
你这个不是html

http://dota2.dl.wanmei.com/dota2/patch/night_stalker_basic.flv
------解决方案--------------------
我自己运行了一下，出现的问题主要是你所运行的是一个文件下载链接，可能需要下载到本地解析，而bbs的那个就是一个网页，因此很轻松就显示出来
------解决方案--------------------

引用:

Quote: 引用:

你这个不是html

http://dota2.dl.wanmei.com/dota2/patch/night_stalker_basic.flv

不是，有的.flv就可以处理，例如：
http://d1.sina.com.cn/201404/02/544161_600_450.flv

我觉得是因为这个.flv内容比较小（3M左右），而上一个内容比较大（20几M）。
但是我现在就算是想跳过这些大一点的文件也不知道怎么处理，求指点

视频的你怎么解析，全是乱码啊
------解决方案--------------------
conn.getContentLength();
------解决方案--------------------
取流数据和取代码是两回事
------解决方案--------------------
http://baojunhu99.iteye.com/admin/blogs/2046252

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

一个关于java获取URL源代码的有关问题

相关资料更多>

推荐阅读更多>