日期:2014-05-17  浏览次数:21125 次

请教一下高人:这个网页的数据是通过何种方式动态加载的啊?
这是淘宝指数的一个网页,需要用淘宝账号登陆才能查看:
http://shu.taobao.com/top/50002766/search
我想用C#写个简单的采集程序,可是无法获取到数据。我用WebBrowser实例化一个wb加载网址,然后在DocumentCompleted事件中获取wb.Document.Body.InnerHtml。可是获取过来的内容只包含页眉和页脚,关键数据没有获取到。

获取到的数据如下:

<div id="nav"> 
</div>
<script>
(function(){
  var reloadNewPage = function () {
    ALIYUNSM.reloadUA();
    if ($.cookie('sc5')) {
      $.cookie('sc7', '1', {path: '/'});
      location.reload();
    } else {
      setTimeout(reloadNewPage, 25);
    }
  }
  setTimeout(reloadNewPage, 25);
})();
</script>
<footer class="footer">



可通过浏览器查看源码应该是这样的:

<div id="nav"> 
</div>
<div class="page-main clearfix">
//省略……
</div>

<footer class="footer">



这个好像是动态加载的,就在那个<script>脚本的位置加载的数据,不知道这是通过哪种方式加载,需要通过何种方式才能正确采集,请高手指点一下。

------解决方案--------------------
你要得到指数列表?
最简单的方式就是fiddle,wireshark抓包,然后playback获取数据,嘿嘿