PostgreSQL unnest(),元素编号


89

当我有一个带有单独值的列时,可以使用以下unnest()函数:

myTable
id | elements
---+------------
1  |ab,cd,efg,hi
2  |jk,lm,no,pq
3  |rstuv,wxyz

select id, unnest(string_to_array(elements, ',')) AS elem
from myTable

id | elem
---+-----
1  | ab
1  | cd
1  | efg
1  | hi
2  | jk
...

如何包含元素编号?即:

id | elem | nr
---+------+---
1  | ab   | 1
1  | cd   | 2
1  | efg  | 3
1  | hi   | 4
2  | jk   | 1
...

我想要源字符串中每个元素的原始位置。我试着窗口函数(row_number()rank()等等),但我总是得到1。也许是因为它们在源表的同一行中?

我知道这是一个不好的表设计。不是我的,我只是想解决它。

Answers:


183

Postgres 9.4或更高版本

使用WITH ORDINALITY了一组返回功能:

FROM子句中的函数后缀为时WITH ORDINALITYbigint会在输出后附加一列,该 列从1开始,对于函数输出的每一行以1递增。这对于设置返回函数(例如)最有用unnest()

结合LATERALpg 9.3+中功能,并根据pgsql-hackers上的线程,上述查询现在可以写成:

SELECT t.id, a.elem, a.nr
FROM   tbl AS t
LEFT   JOIN LATERAL unnest(string_to_array(t.elements, ','))
                    WITH ORDINALITY AS a(elem, nr) ON TRUE;

LEFT JOIN ... ON TRUE保留左侧表中的所有行,即使右侧的表表达式不返回任何行。如果这无关紧要,则可以使用这种等效的,不太冗长的形式,并带有一个隐式CROSS JOIN LATERAL

SELECT t.id, a.elem, a.nr
FROM   tbl t, unnest(string_to_array(t.elements, ',')) WITH ORDINALITY a(elem, nr);

如果基于实际数组arr是数组列),则更简单:

SELECT t.id, a.elem, a.nr
FROM   tbl t, unnest(t.arr) WITH ORDINALITY a(elem, nr);

甚至使用最少的语法:

SELECT id, a, ordinality
FROM   tbl, unnest(arr) WITH ORDINALITY a;

a自动为表列的别名。添加的序数列的默认名称为ordinality。但是最好添加(更安全,更干净的)显式列别名和表限定列。

PostgreSQL 8.4-9.3

这样,row_number() OVER (PARTITION BY id ORDER BY elem)您将获得根据排序顺序排列的数字,而不是字符串中原始顺序位置的顺序编号。

您可以简单地省略ORDER BY

SELECT *, row_number() OVER (PARTITION by id) AS nr
FROM  (SELECT id, regexp_split_to_table(elements, ',') AS elem FROM tbl) t;

尽管这通常可以正常工作,但我从未见过它在简单查询中失败,但是PostgreSQL断言了没有的行的顺序ORDER BY。由于实现细节,它碰巧可以工作。

为了保证用空格分隔的字符串中元素的序号

SELECT id, arr[nr] AS elem, nr
FROM  (
   SELECT *, generate_subscripts(arr, 1) AS nr
   FROM  (SELECT id, string_to_array(elements, ' ') AS arr FROM tbl) t
   ) sub;

如果基于实际数组,则更简单:

SELECT id, arr[nr] AS elem, nr
FROM  (SELECT *, generate_subscripts(arr, 1) AS nr FROM tbl) t;

dba.SE的相关答案:

Postgres 8.1-8.4

这些功能都不是可用的,但:RETURNS TABLEgenerate_subscripts()unnest()array_length()。但这有效:

CREATE FUNCTION f_unnest_ord(anyarray, OUT val anyelement, OUT ordinality integer)
  RETURNS SETOF record
  LANGUAGE sql IMMUTABLE AS
'SELECT $1[i], i - array_lower($1,1) + 1
 FROM   generate_series(array_lower($1,1), array_upper($1,1)) i';

特别要注意的是,数组索引可以与元素的顺序位置不同。考虑具有扩展功能的演示

CREATE FUNCTION f_unnest_ord_idx(anyarray, OUT val anyelement, OUT ordinality int, OUT idx int)
  RETURNS SETOF record
  LANGUAGE sql IMMUTABLE AS
'SELECT $1[i], i - array_lower($1,1) + 1, i
 FROM   generate_series(array_lower($1,1), array_upper($1,1)) i';

SELECT id, arr, (rec).*
FROM  (
   SELECT *, f_unnest_ord_idx(arr) AS rec
   FROM  (VALUES (1, '{a,b,c}'::text[])  --  short for: '[1:3]={a,b,c}'
               , (2, '[5:7]={a,b,c}')
               , (3, '[-9:-7]={a,b,c}')
      ) t(id, arr)
   ) sub;

 id |       arr       | val | ordinality | idx
----+-----------------+-----+------------+-----
  1 | {a,b,c}         | a   |          1 |   1
  1 | {a,b,c}         | b   |          2 |   2
  1 | {a,b,c}         | c   |          3 |   3
  2 | [5:7]={a,b,c}   | a   |          1 |   5
  2 | [5:7]={a,b,c}   | b   |          2 |   6
  2 | [5:7]={a,b,c}   | c   |          3 |   7
  3 | [-9:-7]={a,b,c} | a   |          1 |  -9
  3 | [-9:-7]={a,b,c} | b   |          2 |  -8
  3 | [-9:-7]={a,b,c} | c   |          3 |  -7

相比:


10
对于PostgreSQL,此答案是SO中最全面的答案之一。谢谢欧文。
Alexandros

我们可以在新的pg版本中将下面的unnest2函数调整为实际的表返回值(不是伪造的行)吗?
彼得·克劳斯

@ erwin-brandstetter,您能否详细说明为什么/如果WITH ORDINALITY优先于此generate_subscripts()?在我看来,这generate_subscripts()更好,因为它显示了数组中的实际元素位置。例如,这在更新数组时很有用...我应该WITH ORDINALITY改用吗?
失落的马,2015年

1
@losthorse:我将这样概括:这WITH ORDINALITY是获取SQL查询中任何返回函数集的行号的通用解决方案。这是最快,最可靠的方式,它也恰好适用于基于1维的1维数组(考虑使用Postgres数组的默认值)。如果您使用任何其他类型的数组(大多数人不使用),并且您实际上需要保留/使用原始下标,那么generate_subscripts()这就是要走的路。但是,让unnest()一切变得平坦……
欧文·布兰德斯特

1
@ z0r_手册: Table functions appearing in FROM can also be preceded by the key word LATERAL, but for functions the key word is optional; the function's arguments can contain references to columns provided by preceding FROM items in any case.
欧文·

9

尝试:

select v.*, row_number() over (partition by id order by elem) rn from
(select
    id,
    unnest(string_to_array(elements, ',')) AS elem
 from myTable) v

6

使用下标生成函数
http://www.postgresql.org/docs/current/static/functions-srf.html#FUNCTIONS-SRF-SUBSCRIPTS

例如:

SELECT 
  id
  , elements[i] AS elem
  , i AS nr
FROM
  ( SELECT 
      id
      , elements
      , generate_subscripts(elements, 1) AS i
    FROM
      ( SELECT
          id
          , string_to_array(elements, ',') AS elements
        FROM
          myTable
      ) AS foo
  ) bar
;

更简单地说:

SELECT
  id
  , unnest(elements) AS elem
  , generate_subscripts(elements, 1) AS nr
FROM
  ( SELECT
      id
      , string_to_array(elements, ',') AS elements
    FROM
      myTable
  ) AS foo
;

3

如果元素的顺序不重要,则可以

select 
  id, elem, row_number() over (partition by id) as nr
from (
  select
      id,
      unnest(string_to_array(elements, ',')) AS elem
  from myTable
) a

0

unnest2() 作为锻炼

pg v8.4之前的旧版本需要用户定义unnest()。我们可以修改这个旧函数以返回带有索引的元素:

CREATE FUNCTION unnest2(anyarray)
  RETURNS setof record  AS
$BODY$
  SELECT $1[i], i
  FROM   generate_series(array_lower($1,1),
                         array_upper($1,1)) i;
$BODY$ LANGUAGE sql IMMUTABLE;

2
这在pg v8.4之前不起作用,因为还RETURNS TABLE没有。我在回答中增加了一章,讨论解决方案。
Erwin Brandstetter

1
@ErwinBrandstetter,您的答案非常有说服力,并且您正在完善4年前的文本(!)...您是否正在使用SO文本编写PostgreSQL书?:-)
彼得·克劳斯

大家好,它是一个Wiki,您可以编辑(!)...但是,我更正为setof record
彼得·克劳斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.