日期:2014-05-16  浏览次数:20478 次

面试题:关于数据库索引

-----------简译。

源=http://20bits.com/article/interview-questions-database-indexes

?

-----------问题

解释一下什么是数据库索引,和它的工作原理。

?

-----------回答

数据库索引是一种辅助数据结构,它能加快数据提取速度。

索引是针对某列数据的,比如查询“列出所有姓Smith的人”会很快。

?

如果硬盘上有个文本文件,如何从中找出姓Smith的呢?

?

查找的代码可以如下:

results = []

for row in rows:

if row[2] == 'Smith':

results.append[row]

?

找满足条件的记录需要检查每行数据是非符合条件。

这个算法和数据的行数成正比。

很多数据库的表可能含有几百万或几亿行数据,这个算法就行不通了。

?

如何加快查找速度呢?用数据库索引。

?

任何类型的数据结构,如果能支持快速访问,都可以被看作索引。

常见索引:Hash索引,B-tree索引。

?

-----------Hash索引

参照上例,找姓Smith的人,我们可以建一个hash表。hash表的key就是last_name,value可以是指向数据行的指针。

?

这类索引就叫hash索引。很多数据库都支持这里索引。

但是它不常用。为什么?

考虑另一个查询:找所有45岁以下的人。hash索引可以处理等于关系,但不处理小于或大于关系。

给你2个的hash索引,它无法判断那个值更大,只能判断它们是否相等。

?

-----------B-tree索引

数据库中最常用的是B-tree索引。它是一种自平衡的tree。

B-tree的主要好处是它允许对数阶复杂度的查找、插入和删除。

和hash索引不同之处在于,它存的数据是有序的,这样能处理小于、大于和前缀的查询。

?

-----------其它索引

数据库中,其它类型的索引还有R-tree[MySQL支持]。

R-tree索引用于查询空间数据,比如,查找所有离San Francisco, CA. 10英里之内的城市。

?

还有bitmap索引,它的读取速度很快,但是比较占存储空间。适用于值稀疏分布的列。

?

-----------Performance

索引加快了查询速度,但是要付出代价。

比如表的插入和删除速度会减慢,因为需要更新索引。

如果表需要不断更新,索引很可能会导致performance问题。

还有空间代价。索引会占用内存或磁盘空间。

单个索引比表小,因为它不存所有的表数据,而是存相应的指针。

但表越大,索引通常也会跟着变大。

?

-----------设计

B-tree中的节点包含一个值和一个指向子节点的指针。

数据索引的值实际上是一对值:field值和指向某行的指针。

比如,某个对age的索引,B-tree的值可以是这样:(34, 0x875900)。

这样索引可以被存在内存中。

?

B-tree索引的每个节点占用一个磁盘块。这样每个节点通过一次磁盘操作就能被完全读取。

?

很多数据库用B+ tree,而不是B-tree。InnoDB的BTREE索引类型就更近于B+ tree。


another day
another day