提取URL,正则表达式
目前已经提取网页中的 <a href= "http://www.baidu.com " class = ...> 百 度 </a>
这一段, 但是现在还要提取href=后面的URL, 还有相关的关键字百度,正则表达式怎么写? 各位路过指教下啊, 绝对给分!
有效URL
http://www.site.baidu.com/cnld/html
www.site.baidu.com
site.baidu.com
并且匹配域名的正则表达式怎么写?
------解决方案--------------------(? <= <a href ?= ? "?)[^ "> ]+?(?= "|> )
------解决方案--------------------wuyazhe速度真快,但好像每次只能取出一列吧