日期:2014-05-16  浏览次数:20453 次

非必须不要乱使用正则

          今天针对手机号运营商归属进行一个统计,由于数据量较多(500万),用正则进行手机运营商的判断发现速度很慢,就做了一番分析比较,记录如下:

      

       场景: t_mobile 表有500多万条记录,手机号码上有索引,需要统计出三个运营商的数量;

       方法:

             1:select count(*)
                 from t_mobile
                 where REGEXP_LIKE(mobile_no,'^(133|153|180|189)[0-9]{8}|1349[0-9]{7}$');

                 耗时:37.471秒,结果 176693

                执行计划:

                

           2:select count(*)
                 from t_driver
                  where substr(mobile_no, 1, 3) in ('133', '153', '180', '189')
                  or substr(mobile_no, 1, 4) = '1349'

                耗时:4.356秒,结果 176693

                执行计划:
                
           分析查看两个执行计划,基本差不多,但为什么速度会插很多呢???
       
           经过分析认为可能是一下原因:
               1,使用正则多了一步要验证是否是手机号的功能,因此慢
               2,正则函数本身执行慢,
          
           我更倾向于前面一种,因此在使用正则的时候要考虑场景,不要为了简单就过度使用,就像这种情况,当已知是手机号的时候就不要为了省事使用正则来解决了。
            
         另外在使用正则的过程曾经遇到ORA-00600错误 这个错误,最终也没找到原因,将正则改成了其他的方式代替,所以,在非必须的情况下尽量少用正则