日期:2014-05-20  浏览次数:20468 次

如何用正则表达式获取网页代码中的指定表格代码?
如我已经得到一个网页的源代码,源代码中有多个表格,我现在想获取源代码中的指定字符串(例如: <TABLE   width= "800 "   border=0   cellPadding=0   cellSpacing=1> )后出现的第一个表格,如何实现?

谢谢

------解决方案--------------------
这个可以通过这种方式来得到
string yourStr = .............;
string start = ............;
string resultStr = Regex.Replace(yourStr, start +@ "[\s\S]*?( <TABLE[\s> ][\s\S]*? </TABLE> ) ", "$1 " , RegexOptions.IgnoreCase);

但是这里有一个比较麻烦的地方,就是start里如果出现以下字符之一
.$ ^ { [ ( | ) ] } * + ? \
之一,或是更严谨的
~!@#$%^&*()_+-={}[]|\ <> ?,./: "; '`
之一时,就可能无法匹配成功了,需要预先对start做一下处理,先看一下你的这个字符串里会不会出现这种情况吧,比如你给的function send1(){这里的“(){”就需要先进行转义处理的才可以