oracle数据库菜鸟教程 oracle 性能优化工具

sql 的优化大多数情况下是索引的优化,那么,什么情况下该创建索引,什么情况下不创建索引呢,回答这个问题之前,先来了解一下基数和选择性吧 。
基数在 Oracle 数据库中,某一列的唯一键的数量叫做基数 。
举个例子,比如一张表中有个 sex 字段,它的值只有 “男” 和 “女” 两种情况,那我们就说这一列的基数是2 。
我们可以通过如下语句来查询一个字段的基数 。
select count(distinct deptno) as num from emp

oracle数据库菜鸟教程 oracle 性能优化工具


当一个字段的基数越大的时候,该列的数据分布可能就越均衡 。字段的基数越小时,该列的数据分布可能就越不均衡 。
举个例子,在一个有10000行数据的表中,sex 字段基数为2,他的数据分布可能为9999行是男的,1行是女的,这是分布不均衡的现象 。而在身份证字段中,它的基数是10000,每一行都是一个不同的身份证号码,这是分布均衡的现象 。
我们可以通过 group by 语句来查看数据的分布情况 。
select deptno,count(1) from emp group by deptno
oracle数据库菜鸟教程 oracle 性能优化工具


这个时候如果我们要查询表中性别为男的数据,那么返回的数据就占了表中数据的 99.99%,其实就相当于是全表扫描,这种情况就不应该走索引了 。但是如果查询表中性别为女的数据,那么返回的数据就占了表中数据的 0.01%,这个时候时候应该走索引 。
一般来说,当返回表中 5% 以内的数据的时候,就应该走索引 。超过 5% 的数据就要使用全表扫描 。但是这个说法太绝对了,就像上面查询 sex 字段时,查询男性时候超过了 5%,查询女性时候小于 5%,那这个字段需不需要创建索引呢?
这个时候,就需要引入选择性的概念了 。
选择性基数与表的总行数的比值就是选择性 。
我们可以通过以下 sql 语句来查询列的选择性 。
【oracle数据库菜鸟教程 oracle 性能优化工具】select count(distinct deptno)/count(1) as selectivity from emp
oracle数据库菜鸟教程 oracle 性能优化工具


当一个字段的选择性大于 20%,说明该列数据分布就是比较均衡的了 。这个时候如果在 where 子句中使用了该字段,那么就应该创建索引 。
PS:文中使用了数据量较少的表来举例子,是因为数据清晰直观,方便大家理解 。而在实际情况中,只有大表才会产生性能问题 。如果一个表里只有十几二十条数据,也就无所谓优化了 。

    推荐阅读