PostgreSQL索引扫描时为什么index only scan不返回ctid（post visit）新鲜出炉

🌐 经济型：买域名、轻量云服务器、用途：游戏网站等《腾讯云》特点：特价机便宜适合初学者用点我优惠购买

🚀 拓展型：买域名、轻量云服务器、用途：游戏网站等《阿里云》特点：中档服务器便宜域名备案事多点我优惠购买

🛡️ 稳定型：买域名、轻量云服务器、用途：游戏网站等《西部数码》特点：比上两家略贵但是稳定性超好事也少点我优惠购买

文章摘要

这篇文章讨论了PostgreSQL中索引扫描时使用`index only scan`的问题，尤其是当查询涉及`ctid`（常量行ID）时的情况。以下是文章的核心内容总结： 1. **什么是`index only scan`？** - 在PostgreSQL中，`index only scan`是一种高效的查询优化方式，仅通过索引获取符合条件的数据，而无需回表（`table access by index rowid`）。 - 类似于其他数据库如Oracle，`index only scan`在某些情况下可以显著提高查询性能。 2. **`ctid`与索引扫描的关系** - `ctid`是PostgreSQL索引中的一个特殊字段，通常用于唯一性检查。在传统PostgreSQL中，使用`ctid`时，优化器无法使用`index only scan`，而是会使用普通索引扫描。 - 这是因为PostgreSQL的优化机制（`check_index_only`函数）无法识别`ctid`字段的特殊性，认为这些数据可能需要通过回表获取。 3. **`index only scan`的判断机制** - PostgreSQL通过索引的`index_canreturn_attrs`位图来判断是否可以使用`index only scan`。这个位图记录了索引支持返回的字段。 - 查询所需的字段（`attrs_used`）是否是`index_canreturn_attrs`的子集，决定了是否使用`index only scan`。 - 然而，`index_canreturn_attrs`不包含`ctid`字段的信息，因此无法识别`ctid`的特殊性。 4. **`HOT`与索引可见性** - 优化器在解析阶段通过`vm_files`判断索引的可见性，以避免错误的使用`index only scan`。 - 但即使表中没有不可见的行，`index only scan`仍然无法处理涉及`ctid`的查询，因为`ctid`的特殊性在索引中被隐藏。 5. **结果** - 使用`ctid`时，PostgreSQL只能使用普通索引扫描（`index scan`），而无法使用`index only scan`。 - 这是由于PostgreSQL的索引优化机制无法正确识别`ctid`的特殊性，导致无法优化查询方式。这篇文章揭示了PostgreSQL在索引优化方面的限制，特别是在处理涉及`ctid`的查询时。理解这些机制有助于开发者更好地使用PostgreSQL的性能优化功能。

我们都知道在PostgreSQL中使用索引扫描时，是通过索引中存储的ctid去表中得到数据的。同时在PostgreSQL中如果要查询的列都在索引中，我们还可以使用index only scan。

既然如此，当我们在查询中用到ctid时，是否还能使用index only scan呢？

按理来说是没有问题的，例如在Oracle中：

SQL> select rowid,id from t1 where id=1;
—————————————————————————
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
—————————————————————————
| 0 | SELECT STATEMENT | | 1 | 25 | 1 (0)| 00:00:01 |
|* 1 | INDEX RANGE SCAN| IDX_T1 | 1 | 25 | 1 (0)| 00:00:01 |
—————————————————————————

我们的查询包含了rowid，仍然不需要回表TABLE ACCESS BY INDEX ROWID BATCHED的步骤。但是在PostgreSQL似乎并不是这样。

index only scan：

bill=# explain analyze select c1 from t1 where c1=10;
QUERY PLAN
———————————————————————————————————————
Index Only Scan using idx_t1 on t1 (cost=0.29..10.74 rows=523 width=4) (actual time=0.021..0.117 rows=523 loops=1)
Index Cond: (c1=10)
Heap Fetches: 0
Planning Time: 0.076 ms
Execution Time: 0.196 ms
(5 rows)

带上ctid后：

bill=# explain analyze select ctid,c1 from t1 where c1=10;
QUERY PLAN
—————————————————————————————————————–
Index Scan using idx_t1 on t1 (cost=0.29..81.71 rows=523 width=10) (actual time=0.038..0.447 rows=523 loops=1)
Index Cond: (c1=10)
Planning Time: 0.098 ms
Execution Time: 0.537 ms
(4 rows)

可以看到没有再去使用index only scan，取而代之的是普通的索引扫描。

为什么会这样呢？ctid必然是包含在任何btree索引中的，为什么用到ctid的时候就不能用index only scan？

在网上看到类似的问题：

传送门

解答是说和HOT有关，乍一看似乎有点道理，但是仔细想想，如果是HOT那么也会通过vm文件去判断多版本，那么对于ctid我们只要通过vm文件判断其可见性不是就可以了，至少当表中没有任何不可见的行时应该要使用index only scan啊。

这其实因为在使用vm文件进行可见性判断前，优化器在parse阶段就已经决定了是使用index scan还是index only scan，通过check_index_only函数来判断是否使用index only scan：

for (i=0; i < index->ncolumns; i++)
{
int attno=index->indexkeys[i];

if (attno==0)
continue;
if (index->canreturn[i])
index_canreturn_attrs=bms_add_member(index_canreturn_attrs,
attno – FirstLowInvalidHeapAttributeNumber);
else
index_cannotreturn_attrs=bms_add_member(index_cannotreturn_attrs,
attno – FirstLowInvalidHeapAttributeNumber);
}
index_canreturn_attrs=bms_del_members(index_canreturn_attrs,
index_cannotreturn_attrs);

result=bms_is_subset(attrs_used, index_canreturn_attrs);

简单解释下上面这段代码的逻辑，pg在判断是否使用index only scan时，就是将索引列取出放到一个bitmap位图index_canreturn_attrs中，将查询用到的列放到一个bitmap位图attrs_used中，然后判断attrs_used位图是否是index_canreturn_attrs的子集，如果是则使用index only scan，而这里的index_canreturn_attrs信息是从pg_index中去获取的，自然是不会存放ctid的信息。

到此这篇关于PostgreSQL索引扫描时为什么index only scan不返回ctid的文章就介绍到这了,更多相关PostgreSQL index only scan内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:PostgreSQL之INDEX 索引详解PostgreSql 重建索引的操作postgresql通过索引优化查询速度操作