经过URL抓取网页的TITLE，有些网站抓不到，方法愚笨，求指点-PHP教程-爱易网页

经过URL抓取网页的TITLE，有些网站抓不到，方法愚笨，求指点

日期：2014-05-16　浏览次数：20528 次

通过URL抓取网页的TITLE，有些网站抓不到，方法愚笨，求指点。

本帖最后由 u012716911 于 2013-11-04 11:25:29 编辑

代码是我自己这样想着写的，不知道还有没有更好的方法。请各位给些指点
有些网站可以抓到，如百度，有些网站就抓不到，比如太平洋汽车的首页。



public function set_title()

	{

		// 获取进来URL

		$url = $_POST['url'];

		// $url = "www.pcauto.com.cn"; 抓不到！

		//一连串的curl设置		

		$ch = curl_init();

		curl_setopt($ch,CURLOPT_URL,$url);

		curl_setopt($ch,CURLOPT_HEADER,0);

		curl_setopt($ch,CURLOPT_ENCODING,'gzip');

		curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);

		$content_source = curl_exec($ch);

		curl_close($ch);

	

		//获取抓到内容的编码格式



		$encode = mb_detect_encoding($content_source, array('GB2312','GBK','UTF-8','ASCII')); 

		

		//转码

		$content_source = iconv($encode, 'utf-8//IGNORE',$content_source);

		

		//截取<title>

		if(preg_match("/<title>(.*?)<\/title>/i",$content_source,$title))

		{

			echo $title[1];

		}

		else

		{

			echo '拉取标题失败';

		}

	}

curl 抓取标题

------解决方案--------------------
问题出在正则匹配那里，你加个 s 修正符就好了
if(preg_match("/<title>(.*?)<\/title>/is",$content_source,$title))

s 如果设定了此修正符，模式中的圆点元字符（.）匹配所有的字符，包括换行符。没有此设定的话，则不包括换行符。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

经过URL抓取网页的TITLE，有些网站抓不到，方法愚笨，求指点

相关资料更多>

推荐阅读更多>