日期:2014-05-20  浏览次数:20981 次

关于页面数据抓取
本人想抓取www.s1188.com的页面数据,发现通过WebRequest或者SOCKET编程获取到的都是:
<html>
<head>
<title> Welcome   888crown </title>
<meta   http-equiv= "Content-Type "   content= "text/html;   charset=big5 ">
</head>
<frameset   rows= "*,0 "   frameborder= "NO "   border= "0 "   framespacing= "0 ">  
<frame   name= "SI2_mem_index "   src= "app/member/ ">
<frame   name= "SI2_func "   scrolling= "NO "   noresize   src= "./ok.html ">
<noscript> <frame   src=*> </noscript>
</frameset>
<noframes>  
<body   bgcolor= "#FFFFFF "   text= "#000000 ">
</body>
</noframes>  
</html>

而通过the   word   浏览器的编辑功能可以看见源代码是:
<script> if(self   ==   top)   location= 'http://www.s1188.com '
; </script> <html>
<head>
<meta   http-equiv= "Content-Type "   content= "text/html;   charset=big5 ">
<title> singbet2 </title>
<link   href= "/style/member/mem_index.css "   rel= "stylesheet "   type= "text/css ">
<script   language= "JavaScript ">
<!--
function   MM_swapImgRestore()   {   //v3.0
    var   i,x,a=document.MM_sr;   for(i=0;a&&i <a.length&&(x=a[i])&&x.oSrc;i++)   x.src=x.oSrc;
}

function   MM_preloadImages()   {   //v3.0
    var   d=document;   if(d.images){   if(!d.MM_p)   d.MM_p=new   Array();
        var   i,j=d.MM_p.length,a=MM_preloadImages.arguments;   for(i=0;   i <a.length;   i++)
【具体请见http://community.csdn.net/Expert/topic/5375/5375109.xml?temp=.7443811】

请问使用什么方法可以得到第二个这样的源代码?


------解决方案--------------------
那个不是 隐藏了 代码 而是你取的地址的 代码 本来就是 那个 起始的
框架页面的代码
------解决方案--------------------
需要进一步把frame的页面取出来