日期:2014-05-17  浏览次数:20465 次

正则获取各类URL的一级域名代码是否可行?
本帖最后由 changjay 于 2010-09-07 23:25:30 编辑
有许多网址, 类似abc.abc.com ,abc.com/abc ,www.abc.com.cn , abc.com.tw ,www.abc.co.uk ,www.abc.com.jp/abc.php/id=abc(id=abc后面还可以跟很长)
还有很多种情况,我希望可以是万能的。

如何用PHP正则获取所有网址的一级域名?获得结果为 abc.com,abc.com.cn, abc.co.uk?

情况比较复杂。我用下面的代码,大致可以判断,但是当域名里有com,net,org,gov,cc,biz,info,cn,co时,正则出的结果就有问题了。
比如www.cool.com,被正则成了www.co。
希望正则高手帮我修改一下,变成一个万能的一级域名正则代码。
 

$url = $row["url"];
preg_match("#[\w-]+\.(com|net|org|gov|cc|biz|info|cn|co)(\.(cn|hk|uk))*#", $url, $match);
echo $match[0];



------解决方案--------------------
$s = <<< TEXT
abc.abc.com
abc.com/abc
www.abc.com.cn
abc.com.tw
www.abc.co.uk
www.abc.com.jp/abc.php/id=abc
www.cool.com
TEXT;

foreach(split("[\r\n]+", $s) as $url) {
  preg_match("#[\w-]+\.(com
------解决方案--------------------
net
------解决方案--------------------
org
------解决方案--------------------
gov
------解决方案--------------------
cc
------解决方案--------------------
biz
------解决方案--------------------
info
------解决方案--------------------
cn
------解决方案--------------------
co)\b(\.(cn
------解决方案--------------------
hk
------解决方案--------------------
uk
------解决方案--------------------
jp
------解决方案--------------------
tw))*#", $url, $match);
  echo "<p>$url <br />" . $match[0];
}

abc.abc.com 
abc.com

abc.com/abc 
abc.com

www.abc.com.cn 
abc.com.cn

abc.com.tw 
abc.com.tw

www.abc.co.uk 
abc.co.uk

www.abc.com.jp/abc.php/id=abc 
abc.com.jp

www.cool.com 
cool.com