日期:2014-05-20  浏览次数:20682 次

关于Java获取网页内容失败的问题,求大神指点
我想采集例这个网站的html源码
http://www.19lou.com/forum-26-thread-11501349353908253-1-1.html

代码如下:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;

public class Test {

protected static String charset = "UTF-8"; // 字符编码

public static String getNewsContent(String newsUrl) {
URL url = null;
BufferedReader is = null;
try {
url = new URL(newsUrl);
URLConnection urlc = null;
urlc = url.openConnection();
urlc = url.openConnection();
urlc.getInputStream();
is = new BufferedReader(new InputStreamReader(
urlc.getInputStream(), charset));
// InputStream is = urlc.getInputStream();
StringBuffer sb = new StringBuffer();
// String s = null;
// while((s=is.readLine())!=null){
// sb.append(s+"\r\n");
// }
for (char buffer[] = new char[65535]; is.read(buffer) != -1; sb
.append(new String(buffer)))
;
is.close();
return sb.toString() != null ? sb.toString().trim() : "";
} catch (IOException ex) {
System.out.println(ex.getMessage());
}
return "";
}

public static void main(String[] args) {
String content = getNewsContent("http://www.19lou.com/forum-26-thread-11501349353908253-1-1.html");
System.out.println(content);
}

}


居然获取不了,获取的是一堆js,看了以后才知道原来是重定下了,请问各位大神,有没有方法可以获取到这种网站的HTML源码?
谢谢
------解决方案--------------------
一般来说,是不可以的,因为被封装了。

你试想,那都是别人的核心资源,你这么容易得到,别人拿什么吃饭?
------解决方案--------------------
1楼,我要的只是html源码而已,又不是它的项目的源代码,,,用浏览器都可以看的到,只不过是想用程序去取而已