索引不与`= any()`一起使用,但与`in`一起使用


15

t有两个索引:

create table t (a int, b int);
create type int_pair as (a int, b int);
create index t_row_idx on t (((a,b)::int_pair));
create index t_a_b_idx on t (a,b);

insert into t (a,b)
select i, i
from generate_series(1, 100000) g(i)
;

没有索引与any运算符一起使用:

explain analyze
select *
from t
where (a,b) = any(array[(1,1),(1,2)])
;
                                            QUERY PLAN                                             
---------------------------------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..1693.00 rows=1000 width=8) (actual time=0.042..126.789 rows=1 loops=1)
   Filter: (ROW(a, b) = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
   Rows Removed by Filter: 99999
 Planning time: 0.122 ms
 Execution time: 126.836 ms

但是其中之一与in运算符一起使用:

explain analyze
select *
from t
where (a,b) in ((1,1),(1,2))
;
                                                    QUERY PLAN                                                    
------------------------------------------------------------------------------------------------------------------
 Index Only Scan using t_a_b_idx on t  (cost=0.29..8.32 rows=1 width=8) (actual time=0.028..0.029 rows=1 loops=1)
   Index Cond: (a = 1)
   Filter: ((b = 1) OR (b = 2))
   Heap Fetches: 1
 Planning time: 0.161 ms
 Execution time: 0.066 ms

如果将记录强制转换为正确的类型,它将使用记录索引:

explain analyze
select *
from t
where (a,b)::int_pair = any(array[row(1,1),row(1,2)])
;
                                                  QUERY PLAN                                                  
--------------------------------------------------------------------------------------------------------------
 Index Scan using t_row_idx on t  (cost=0.42..12.87 rows=2 width=8) (actual time=0.106..0.126 rows=1 loops=1)
   Index Cond: (ROW(a, b)::int_pair = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
 Planning time: 0.208 ms
 Execution time: 0.203 ms

为什么计划any者不像操作员那样使用非记录索引给操作in员?


这个有趣的问题来自有关SO的相关讨论:stackoverflow.com/a/34601242/939860
Erwin Brandstetter

Answers:


13

在内部,有两个不同的形式IN,以及对ANY结构。

其中每个采用set等效于另一个,并且expr IN (<set>)还导致了expr = ANY(<set>)可以使用普通索引的相同查询计划。细节:

因此,以下两个查询是等效的,并且两个查询都可以使用纯索引t_a_b_idx(如果要使查询使用索引,这也可以作为解决方案):

EXPLAIN ANALYZE
SELECT *
FROM t
WHERE (a,b) = ANY(VALUES (1,1),(1,2));

要么:

...
WHERE (a,b) IN (VALUES (1,1),(1,2));

两者相同:

                                                        QUERY PLAN
--------------------------------------------------------------------------------------------------------------------------
 Nested Loop  (cost=0.33..16.71 rows=1 width=8) (actual time=0.101..0.101 rows=0 loops=1)
   ->  Unique  (cost=0.04..0.05 rows=2 width=8) (actual time=0.068..0.070 rows=2 loops=1)
         ->  Sort  (cost=0.04..0.04 rows=2 width=8) (actual time=0.067..0.068 rows=2 loops=1)
               Sort Key: "*VALUES*".column1, "*VALUES*".column2
               Sort Method: quicksort  Memory: 25kB
               ->  Values Scan on "*VALUES*"  (cost=0.00..0.03 rows=2 width=8) (actual time=0.005..0.005 rows=2 loops=1)
   ->  Index Only Scan using t_plain_idx on t  (cost=0.29..8.32 rows=1 width=8) (actual time=0.009..0.009 rows=0 loops=2)
         Index Cond: ((a = "*VALUES*".column1) AND (b = "*VALUES*".column2))
         Heap Fetches: 0
 Planning time: 4.080 ms
 Execution time: 0.202 ms

但是,由于Postgres中没有“表变量”,因此不能轻易将其传递给函数。这导致了开始本主题的问题:

有各种解决此问题的方法。一个是我在此处添加的替代答案。其他一些:


每种格式的第二种形式是不同的:ANY采用实际数组,而IN采用逗号分隔的值列表

这对于键入输入具有不同的结果。正如我们EXPLAIN在问题的输出中所看到的,这种形式:

WHERE (a,b) = ANY(ARRAY[(1,1),(1,2)]);

被视为以下项目的简写:

ROW(a, b) = ANY (ARRAY[ROW(1, 1), ROW(1, 2)])

并与实际的ROW值进行比较。Postgres当前不够聪明,无法看到复合类型上的索引t_row_idx适用。它也没有意识到简单索引也t_a_b_idx应该适用。

显式强制转换有助于克服这种缺乏智慧的情况:

WHERE (a,b)::int_pair = ANY(ARRAY[(1,1),(1,2)]::int_pair[]);

强制转换为正确的操作数(::int_pair[])是可选的(尽管在性能和避免歧义方面更可取)。一旦左操作数具有众所周知的类型,则将右操作数从“匿名记录”强制转换为匹配类型。只有这样,操作员才能被明确定义。然后Postgres根据运算符操作数选择适用的索引。对于许多定义a的运算符,COMMUTATOR查询计划器可以翻转操作数以将索引表达式带到左侧。但这对于ANY构造来说是不可能的。

有关:

..值作为元素,并且Postgres能够比较各个整数值,就像我们在EXPLAIN输出中再次看到的那样:

Filter: ((b = 1) OR (b = 2))

因此Postgres发现t_a_b_idx可以使用简单索引。


因此,示例中的特定情况将有另一种解决方案:由于示例中的自定义复合类型int_pair恰好等于表t本身的行类型,因此我们可以简化以下操作:

CREATE INDEX t_row_idx2 ON t ((t));

然后,此查询将使用索引,而无需进行任何更明确的强制转换:

EXPLAIN ANALYZE
SELECT *
FROM   t
WHERE  t = ANY(ARRAY[(1,1),(1,2)]);
                                                      QUERY PLAN
-----------------------------------------------------------------------------------------------------------------------
 Bitmap Heap Scan on t  (cost=40.59..496.08 rows=1000 width=8) (actual time=0.19
1..0.191 rows=0 loops=1)
   Recheck Cond: (t.* = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
   ->  Bitmap Index Scan on t_row_idx2  (cost=0.00..40.34 rows=1000 width=0) (actual time=0.188..0.188 rows=0 loops=1)
         Index Cond: (t.* = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
 Planning time: 2.575 ms
 Execution time: 0.267 ms

但是典型的用例将无法利用表行的隐式现有类型。


1
较小的补充:在上述情况下,虽然简短IN(...)列表可以(由计划者)翻译为... OR ...表达式,但通常只是将其翻译为ANY('{...}'),即使用数组。因此,在大多数情况下,IN带有值列表和ANY数组是同一回事。
dezso

1
@dezso:对于大多数简单的情况,是的。该问题说明了IN(...) 无法 翻译为的情况= ANY('{...}')
Erwin Brandstetter
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.