日期:2014-05-16  浏览次数:20586 次

SQLite数据库查询优化方案

SQLite是个典型的嵌入式DBMS,它有很多优点,它是轻量级的,在编译之后很小,其中一个原因就是在查询优化方面比较简单,它只是运用索引机制来进行优化的,经过对SQLite的查询优化的分析以及对源代码的研究,我将SQLite的查询优总结如下:
一、影响查询性能的因素:
1. 对表中行的检索数目,越小越好
2. 排序与否。
3. 是否要对一个索引。
4. 查询语句的形式
二、几个查询优化的转换
1. 对于单个表的单个列而言,如果都有形如T.C=expr这样的子句,并且都是用OR操作符连接起来,形如: x = expr1 OR expr2 = x OR x = expr3 此时由于对于OR,在SQLite中不能利用索引来优化,所以可以将它转换成带有IN操作符的子句:x IN(expr1,expr2,expr3)这样就可以用索引进行优化,效果很明显,但是如果在都没有索引的情况下OR语句执行效率会稍优于IN语句的效率。
2. 如果一个子句的操作符是BETWEEN,在SQLite中同样不能用索引进行优化,所以也要进行相应的等价转换: 如:a BETWEEN b AND c可以转换成:(a BETWEEN b AND c) AND (a>=b) AND (a<=c)。 在上面这个子句中, (a>=b) AND (a<=c)将被设为dynamic且是(a BETWEEN b AND c)的子句,那么如果BETWEEN语句已经编码,那么子句就忽略不计,如果存在可利用的index使得子句已经满足条件,那么父句则被忽略。
3. 如果一个单元的操作符是LIKE,那么将做下面的转换:x LIKE ‘abc%’,转换成:x>=‘abc’ AND x<‘abd’。因为在SQLite中的LIKE是不能用索引进行优化的,所以如果存在索引的话,则转换后和不转换相差很远,因为对LIKE不起作用,但如果不存在索引,那么LIKE在效率方面也还是比不上转换后的效率的。
三、 几种查询语句的处理(复合查询)
1.查询语句为:<SelectA> <operator> <selectB> ORDER BY <orderbylist> ORDER BY
???? 执行方法: is one of UNION ALL, UNION, EXCEPT, or INTERSECT. 这个语句的执行过程是先将selectA和selectB执行并且排序,再对两个结果扫描处理,对上面四种操作是不同的,将执行过程分成七个子过程:
?? outA: 将selectA的结果的一行放到最终结果集中
?? outB: 将selectA的结果的一行放到最终结果集中(只有UNION操作和UNION ALL操作,其它操作都不放入最终结果集中)
??? AltB: 当selectA的当前记录小于selectB的当前记录
??? AeqB: 当selectA的当前记录等于selectB的当前记录
??? AgtB: 当selectA的当前记录大于selectB的当前记录
??? EofA: 当selectA的结果遍历完
??? EofB: 当selectB的结果遍历完
???????? 下面就是四种操作的执行过程:

 执行顺序
?UNION ALL
?UNION
?EXCEPT
?INTERSECT
?
AltB:
?outA, nextA
?outA, nextA
?outA,nextA
?nextA
?
AeqB:
?outA, nextA
?nextA
?nextA
?outA, nextA
?
AgtB:
?outB, nextB
?outB, nextB
?nextB
?nextB
?
EofA:
?outB, nextB
?outB, nextB
?halt
?halt
?
EofB:
?outA, nextA
?outA, nextA
?outA,nextA
?halt
?

???? 2. 如果可能的话,可以把一个用到GROUP BY查询的语句转换成DISTINCT语句来查询,因为GROUP BY有时候可能会用到index,而对于DISTINCT都不会用到索引的 。
四、子查询扁平化
???? 例子:SELECT a FROM (SELECT x+y AS a FROM t1 WHERE z<100) WHERE a>5
???? 对这个SQL语句的执行一般默认的方法就是先执行内查询,把结果放到一个临时表中,再对这个表进行外部查询,这就要对数据处理两次,另外这个临时表没有索引,所以对外部查询就不能进行优化了,如果对上面的SQL进行处理后可以得到如下SQL语句:SELECT x+y AS a FROM t1 WHERE z<100 AND a>5,这个结果显然和上面的一样,但此时只需要对
数据进行查询一次就够了,另外如果在表t1上有索引的话就避免了遍历整个表。
运用flatten方法优化SQL的条件:
1.子查询和外查询没有都用集函数
2.子查询没有用集函数或者外查询不是个表的连接
3.子查询不是一个左外连接的右操作数
4.子查询没有用DISTINCT或者外查询不是个表的连接
5.子查询没有用DISTINCT或者外查询没有用集函数
6.子查询没有用集函数或者外查询没有用关键字DISTINCT
7.子查询有一个FROM语句
8.子查询没有用LIMIT或者外查询不是表的连接
9.子查询没有用LIMIT或者外查询没有用集函数
10.子查询没有用集函数或者外查询没用LIMIT
11.子查询和外查询不是同时是ORDER BY子句
12.子查询和外查询没有都用LIMIT
13.子查询没有用OFFSET
14.外查询不是一个复合查询的一部分或者子查询没有同时用关键字ORDER BY和LIMIT
15.外查询没有用集函数子查询不包含ORDER BY
16.复合子查询的扁平化:子查询不是一个复合查询,或者他是一个UNION ALL复合查询,但他是都由若干个非集函数的查询构成,他的父查询不是一个复合查询的子查询,也没有用集函数或者是DISTINCT查询,并且在FROM语句中没有其它的表或者子查询,父查询和子查询可能会包含WHERE语句,这些都会受到上面11、12、13条件的限制。
例:?? SELECT a+1 FROM (
????????????? SELECT x FROM tab
????????????? UNION ALL
????????????? SELECT y FROM tab
?????????????? UNION ALL
?????????????? SELECT abs(z*2) FROM tab2
?????????? ) WHERE a!=5 ORDER BY 1
转换为:
??????? SELECT x+1 FROM tab WHERE x+1!=5
?????????? UNION ALL
?????????? SELECT y+1 FROM tab WHERE y+1!=5
?????????? UNION ALL
?????????? SELECT abs(z*2)+1 FROM tab2 WHERE abs(z*2)+1!=5
?????????? ORDER BY 1
17.如果子查询是一个复合查询,那么父查询的所有的ORDER BY语句必须是对子查询的列的简单引用
18.子查询没有用LIMIT或者外查询不具有WHERE语句
子查询扁平化是由专门一个函数实现的,函数为:
static int flattenSubquery(
?Parse *pParse,?????? /* Parsing context */
?Select *p,?????????? /* The parent or outer SELECT statement */
?int iFrom,?????????? /* Index in p->pSrc->a[] of the inner subquery */
?int isAgg,?????????? /* True if outer SELECT uses aggregate functions */
?int subqueryIsAgg??? /* True if the subquery uses aggregate functions */
)
?????? 它是在Select.c文件中实现的。显然对于一个比较复杂的查询,如果满足上面的条件时对这个查询语句进行扁平化处理后就可以实现对查询的优化。如果正好存在索引的话效果会更好!

五、连接查询
?