图片抓取失败有关问题-PHP教程-爱易网页

图片抓取失败有关问题

日期：2014-05-16　浏览次数：20514 次

图片抓取失败问题
最近要抓取智库百科中的词条，但是词条中的图片抓取出现了问题，这是其中一个图片链接。
http://wiki.mbalib.com/w/images/2/22/%E6%B3%9B%E6%88%90%E6%9C%AC%E7%9A%84%E7%89%B9%E5%BE%81.jpg

无论是用file_get_contents，还是ob_start后readfile，还是用curl，还是snoopy，抓取下来的图片都是损坏的，抓下来的数据比原图小，但我看了一下这个站的图片貌似并没有设置防盗链或cookie验证之类的，求解决方法

抓取图片

------解决方案--------------------
他传送的图片数据是 gzip 压缩的，需要使用 gzdecode 函数解码（php5>=5.4.0 已添加进 gzip 扩展了

$url = 'http://wiki.mbalib.com/w/images/2/22/%E6%B3%9B%E6%88%90%E6%9C%AC%E7%9A%84%E7%89%B9%E5%BE%81.jpg';

$s = file_get_contents($url);

echo gzdecode($s);

如果你的 php 版本还没有那么高，可以自己写代码。网上也可以搜索到。
给一个老外的

function gzdecode($data) { 

  $len = strlen($data); 

  if ($len < 18 
------解决方案--------------------
 strcmp(substr($data,0,2),"\x1f\x8b")) { 

    return $data;  // Not GZIP format (See RFC 1952) 

  } 



  $method = ord(substr($data,2,1));  // Compression method 

  $flags  = ord(substr($data,3,1));  // Flags 

  if ($flags & 31 != $flags) { 

    // Reserved bits are set -- NOT ALLOWED by RFC 1952 

    return data; 

  } 



  // NOTE: $mtime may be negative (PHP integer limitations) 

  $mtime = unpack("V", substr($data,4,4)); 

  $mtime = $mtime[1]; 

  $xfl   = substr($data,8,1); 

  $os    = substr($data,8,1); 

  $headerlen = 10; 

  $extralen  = 0; 

  $extra     = ""; 

  if ($flags & 4) { 

    // 2-byte length prefixed EXTRA data in header 

    if ($len - $headerlen - 2 < 8) { 

      return false;    // Invalid format 

    } 

    $extralen = unpack("v",substr($data,8,2)); 

    $extralen = $extralen[1]; 

    if ($len - $headerlen - 2 - $extralen < 8) { 

      return false;    // Invalid format 

    } 

    $extra = substr($data,10,$extralen); 

    $headerlen += 2 + $extralen; 

  } 

  $filenamelen = 0; 

  $filename&

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

图片抓取失败有关问题

相关资料更多>

推荐阅读更多>