日期:2014-05-16  浏览次数:20534 次

怎么用正则匹配带多个属性的html标签
标签各式各样,毫无规律,主要还是属性的顺序不清楚
<a id="home" href="/Home/index" class="btn">
<a href="/Home/index" id="home" class="class">
<a class="btn" href="/home" id="home">

像这种但是属性顺序不同就有好几种,而且还有分别得到 id href class三种属性值,存到\1 \2 \3中(我用的是preg_replace, 因为要将整个标签替换指定格式)

想了好久不知道这个正则怎么写 望高人帮帮忙

我也想过用 <a ([^>]*)>匹配到后处理属性,再用str_replace替换回去,但这样重复搜索可能会导致资源开销过大吧   还有什么办法可以实现上面的要求呢?高人帮忙啊
------解决方案--------------------
推荐你学习一下PHPquery的用法,从此采集不需要再用正则
------解决方案--------------------
本帖最后由 xuzuning 于 2014-02-27 09:09:12 编辑
$s =<<< TXT
<a id="home" href="/Home/index" class="btn">
<a href="/Home/index" id="home" class="class">
<a class="btn" href="/home" id="home">
TXT;

echo preg_replace_callback('/<a\s(.+)>/i', 'foo', $s);

function foo($r) {
  preg_match_all('/(\w+)="(.+?)"/', $r[0], $t);
  $t = array_combine($t[1], $t[2]);
  ksort($t);
  $s = '';
  foreach($t as $k=>$v) $s .= " $k='$v'";
  return "<a$s>";
}
<a class='btn' href='/Home/index' id='home'>
<a class='class' href='/Home/index' id='home'>
<a class='btn' href='/home' id='home'>