日期:2014-05-18  浏览次数:20493 次

去除网页js,css的正则的问题
想要去除网页js和css,保留网页文本信息。网上找了一下找到如下正则:

\ <script.*\> .*\ <\/script\>    

测试了一下这个正则能匹配到js   tag,但是如果有这样一字符串: <script> ... </script> <p> 我要的内容 </p> <script> ... </script>
如果在我要的内容后面又出现了 </script> ,则我要的内容会全部匹配进去,请问正则高手如何修改这个正则。。。

------解决方案--------------------
\ <script.*\> .*?\ <\/script\>
------解决方案--------------------
try

string yourStr = ............;
string result = Regex.Replace(yourStr, @ " <script[^> ]*> [\s\S]*? </script> ", " ", RegexOptions.IgnoreCase);

------解决方案--------------------
用非貪婪模式.
\ <script.*\> .*?\ <\/script\>