数据库在互联网公司各个岗位jd上出现的频率可是相当高,为此,小编花了一些时间汇总了一些比较热门的数据库面试题目,希望可以帮助大家拿到offer~
索引是通过预先排列的顺序,这样在查找时可以应用二分查找等高效算法。常规顺序查找,复杂性(O(n),二分查找复杂性(log2n)。在n很大的情况下,两者的效率差别及其悬殊。
举例来说:
该表包含一百万个数据,您需要为某个特定id查找数据。在连续查找的情况下,平均需要50万个数据。并且使用二分法,最多二十次就可以找到。两者的效率相差25000倍!
当一个或某些字段需要经常作为查询条件使用时,当表数据较多时,创建索引可以显著地提高查询速度,因为可以将全表扫描改为索引扫描。
无索引时,全表扫描即要逐条扫描所有记录,直到找到合格的,索引扫描才能直接定位。
无论数据表是否有索引,首先要在SGA的数据缓冲区中查找所需数据,当数据缓冲区中没有数据时,服务器进程才会读取磁盘。
不带索引时时,直接去读存储表数据的磁盘块,读到数据缓冲区,再去寻找所需的数据。
拥有索引时,首先读入索引表,通过索引表直接找到想要的数据的物理地址,然后将数据读取到数据缓冲区。
树是一种平衡多叉的树,从根节点到每一叶节点的高度差在1以内,并且同层次节点之间有指针相互连接,是有序的,如下图:
hash索引就是使用某种hash算法,将键值转换为新的hash值,检索时不需要像B+树那样逐个地从根节点到叶节点,只需一次hash算法,就是无序,如下图所示:
由于索引本身只存储相应的散列值,因此索引的结构非常紧凑,这也使得散列值的查找非常快速。
hash索引只在特定情况下才可用:
哈希索引只包含散列值和行指针,没有存储字段值,因此不能使用索引中的值来避免读取行。但是,访问内存行的速度非常快,因此在大多数情况下,这对性能的影响并不明显。
散列索引数据没有按索引值的顺序存储,因此也不能用于排序。
Hash索引也不支持部分索引列匹配查找,因为Hash索引总是使用整个索引列的内容计算Hash值。举例来说,在一个数据列(A,B)上建立哈希索引,如果一个查询只有一个数据列A,那么它就不能被使用。
hash索引仅支持等效的比较查询,包括=、IN()、<=>(注意:不同的操作<>和<=>)。
任何范围查询也不受支持,如WHEREprice>100。
除非存在大量的哈希冲突,否则访问哈希索引的数据非常快(不同索引列值具有相同的哈希值)。在发生哈希冲突时,存储引擎必须遍历链表中的所有行指针,逐行比较,直到找到所有合格的行为止。
与此同时,在哈希冲突频繁的情况下,某些索引维护操作的代价是高昂的。举例来说,如果对某个选择性很低(hash冲突很大)的列建立hash索引,则当从表中删除一行时,存储引擎需要遍历链表中的每一行,找到并删除对应行的引用,冲突越多,代价越大。