PHP扩展curl和正则表达式轻松采集旧事-PHP教程-PHP教程-爱易网页

PHP扩展curl和正则表达式轻松采集旧事-PHP教程

日期：2010-08-31　浏览次数：20783 次

Aiyiweb.Com提示：谈到采集，我们不得不说两个东西，第一个是如何获取近程网站的源代码，这个可以通过php的一个扩展curl来获取，另一个是如果去婚配你需求的信息，这个的处理办法是正则表达式。

采集曾经不是什么新名词了，很多站长为了省事，也局限于人力的缺乏，使用程序来给本人的网站添砖加瓦，比如本人的团体网站www.xxfsw.com也采集了大量的旧事，那么如果实现呢？今天我们运用php来实现这个功用。

谈到采集，我们不得不说两个东西，第一个是如何获取近程网站的源代码，这个可以通过php的一个扩展curl来获取，另一个是如果去婚配你需求的信息，这个的处理办法是正则表达式。

Windows下开启curl的方法如下：

1、拷贝PHP目录中的libeay32.dll， ssleay32.dll， php5ts.dll， php_curl.dll文件到 system32 目录。

2、修正php.ini：配置好 extension_dir ，去掉 extension = php_curl.dll 前面的分号。

3、重起apache。

Linux下开启curl的方法如下：

进入安装原php 的源码目录，

cd ext
cd curl
phpize
./configure --with-curl =DIR
make

就会在PHPDIR/ext/curl /moudles/下生成curl .so的文件。

复制curl .so文件到extensions的配置目录，修正php .ini就好了。

然后你就可以利用curl来获取到指定url的网页源码了，这里给大家一个封装好的函数：

以下为援用的内容：
function getwebcontent($url){
    $ch = curl_init();
    $timeout = 10;
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
    curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
    $contents = trim(curl_exec($ch));
    curl_close($ch);
    return $contents;
}

接下来就应该说到php中的正则表达式了：

1.中括号

［0-9］婚配0-9

［a-z］婚配a-z小写字母

［A-Z］婚配A-Z大写字母

［a-zA-Z］婚配所有大小写字母

可以使用ascii来制定更多

2.量词

以下为援用的内容：
p+婚配至少一个含p的字符串
p*陪陪任何包含0个或多个p的字符串
p?婚配任何包含0个或一个p的字符串
p{2}婚配包含2个p的序列的字符串
p{2,3}婚配任何包含2个或3个的字符串
p$婚配任何以p结尾的字符串
^p婚配任何以p开头的字符串
[^a-zA-Z]婚配任何不包含a-zA-Z的字符串
p.p婚配任何包含p、接下来是任何字符、再接下来有又是p的字符串
^.{2}$婚配任何值包含2个字符的字符串
<b>(.*)b>婚配任何被<b>>包围的字符串
p(hp)*婚配任何一个包含p,后面是多个或0个hp的字符串

3.预定义字符范围

以下为援用的内容：
[:alpha:]同[a-zA-Z]
[:alnum:]同[a-zA-Z0-9]
[:cntrl:]婚配控制字符，比如制表符，反斜杠，退格符
[:digit:]同[0-9]
[:graph:]所有ASCII33~166范围内可以打印的字符
[:lower:]同[a-z]
[:punct:]标点符号
[:upper:]同[A-Z]
[:space:]空白字符，可以是空格、水平制表符、换行、换页、回车
[:xdigit:]十六进制符同[a-fA-F0-9]

废话不多说，直接上我的源码吧，有什么不懂的可以上百度查查。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

PHP扩展curl和正则表达式轻松采集旧事-PHP教程

相关资料更多>

推荐阅读更多>