T-SQL-遍历表直到满足条件的最有效方法是什么


10

在中进行了编程任务T-SQL

任务:

  1. 人们想进入电梯,每个人都有一定的体重。
  2. 排队等候的人的顺序由立柱转弯确定。
  3. 电梯的最大容量为<= 1000磅。
  4. 返回在电梯沉重之前能够进入电梯的最后一个人的名字!
  5. 返回类型应为表格

在此处输入图片说明

问题: 解决此问题的最有效方法是什么?如果循环正确,是否还有改进的空间?

我使用了一个循环和#临时表,这是我的解决方案:

set rowcount 0
-- THE SOURCE TABLE "LINE" HAS THE SAME SCHEMA AS #RESULT AND #TEMP
use Northwind
go

declare @sum int
declare @curr int
set @sum = 0
declare @id int

IF OBJECT_ID('tempdb..#temp','u') IS NOT NULL
    DROP TABLE #temp

IF OBJECT_ID('tempdb..#result','u') IS NOT NULL
    DROP TABLE #result

create table #result( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

create table #temp( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

INSERT into #temp SELECT * FROM line order by turn

 WHILE EXISTS (SELECT 1 FROM #temp)
  BEGIN
   -- Get the top record
   SELECT TOP 1 @curr =  r.weight  FROM  #temp r order by turn  
   SELECT TOP 1 @id =  r.id  FROM  #temp r order by turn

    --print @curr
    print @sum

    IF(@sum + @curr <= 1000)
    BEGIN
    print 'entering........ again'
    --print @curr
      set @sum = @sum + @curr
      --print @sum
      INSERT INTO #result SELECT * FROM  #temp where [id] = @id  --id, [name], turn
      DELETE FROM #temp WHERE id = @id
    END
     ELSE
    BEGIN    
    print 'breaaaking.-----'
      BREAK
    END 
  END

   SELECT TOP 1 [name] FROM #result r order by r.turn desc 

这是我使用Northwind测试的表的Create脚本:

USE [Northwind]
GO

/****** Object:  Table [dbo].[line]    Script Date: 28.05.2018 21:56:18 ******/
SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[line](
    [id] [int] NOT NULL,
    [name] [varchar](255) NOT NULL,
    [weight] [int] NOT NULL,
    [turn] [int] NOT NULL,
PRIMARY KEY CLUSTERED 
(
    [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY],
UNIQUE NONCLUSTERED 
(
    [turn] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

GO

ALTER TABLE [dbo].[line]  WITH CHECK ADD CHECK  (([weight]>(0)))
GO

INSERT INTO [dbo].[line]
    ([id], [name], [weight], [turn])
VALUES
    (5, 'gary', 800, 1),
    (3, 'jo', 350, 2),
    (6, 'thomas', 400, 3),
    (2, 'will', 200, 4),
    (4, 'mark', 175, 5),
    (1, 'james', 100, 6)
;

Answers:


16

您应该尽量避免循环。它们通常不如基于集合的解决方案有效,并且可读性较低。

下面应该是非常有效的。

如果INCLUDE-在索引中可以包含name和weight列以避免进行键查找,则更是如此。

它可以按顺序扫描唯一索引turn并计算该Weight列的运行总计-然后使用LEAD相同的排序条件来查看下一行的运行总计。

一旦发现第一行超过或等于1000 NULL(表明没有下一行),它便可以停止扫描。

WITH T1
     AS (SELECT *,
                SUM(Weight) OVER (ORDER BY turn ROWS UNBOUNDED PRECEDING) AS cume_weight
         FROM   [dbo].[line]),
     T2
     AS (SELECT LEAD(cume_weight) OVER (ORDER BY turn) AS next_cume_weight,
                *
         FROM   T1)
SELECT TOP 1 name
FROM   T2
WHERE  next_cume_weight > 1000
        OR next_cume_weight IS NULL
ORDER  BY turn 

执行计划

在此处输入图片说明

在实践中,似乎要在严格必要的位置之前读取几行-看起来每个窗口假脱机/流聚合对都导致要读取另外两个行。

对于问题中的样本数据,理想情况下,它只需要从索引扫描中读取两行,但实际上它的读取值为6,但这不是一个显着的效率问题,并且不会随着向表中添加更多行而降低性能(例如这个演示

对于那些有兴趣在这个问题上与由每个操作者(如由输出的行的图像query_trace_column_values扩展事件)低于,行是在输出row_id顺序(开始于47第一行读出由索引扫描,并在精加工113TOP

单击下面的图像将其放大,或者查看动画版本以使流程更易于遵循

在右手流集合发出第一行的位置暂停动画(对于gary-turn = 1)。显然,它正在等待接收具有不同WindowCount的第一行(对于Jo-turn = 2)。并且窗口假脱机在读取具有不同turn字符的下一行之前,不会释放第一行“ Jo” (对于托马斯-turn = 3)

因此,窗口假脱机和流聚合都导致要读取另外一行,并且在计划中有四个,因此又增加了4行。

在此处输入图片说明

上面显示的各列的说明如下(基于此处的信息)

  • NodeName:索引扫描,NodeId:15,ColumnName:索引覆盖的id基表列
  • NodeName:索引扫描,NodeId:15,ColumnName:转向索引覆盖的基本表列
  • NodeName:聚集索引查找,NodeId:17,ColumnName:从查找中检索的权重基表列
  • NodeName:聚集索引查找,NodeId:17,ColumnName:从查找中检索到的名称基表列
  • NodeName:细分,NodeId:13,ColumnName:Segment1010在新组开始时返回1,否则返回null。由于仅第一行Partition By中的否SUM获得1
  • NodeName:序列项目,NodeId:12,ColumnName: row_number() Segment1010标志指示的组内的RowNumber1009。由于所有行都在同一组中,因此这是从1到6的升序整数rows between 5 preceding and 2 following。在类似的情况下,将用于过滤右帧行。(或LEAD以后)
  • NodeName:细分,NodeId:11,ColumnName:Segment1011在新组开始时返回1,否则返回null。由于仅第一行Partition By中的否SUM获得1(与Segment1010相同)
  • NodeName:窗口假脱机,NodeId:10,ColumnName:WindowCount1012该属性将属于窗口框架的行组合在一起。该窗口后台处理程序使用的“快速跟踪”案例UNBOUNDED PRECEDING。它在每个源行中发出两行。一种是累积值,另一种是详细值。尽管暴露的行之间没有明显的区别,但query_trace_column_values我认为实际存在累积列。
  • NodeName:流聚合,NodeId:9,ColumnName: Count(*) 根据计划由WindowCount1012分组的Expr1004,但实际上是运行计数
  • NodeName:流聚合,NodeId:9,ColumnName: SUM(weight) 根据计划由WindowCount1012分组的Expr1005,但实际上是运行权重之和(即cume_weight
  • NodeName:段,NodeId:7,ColumnName:Expr1002- CASE WHEN [Expr1004]=(0) THEN NULL ELSE [Expr1005] END不知道如何COUNT(*)将其设为0,因此将始终为sum(cume_weight
  • NodeName:段,NodeId:7,ColumnName:Segment1013partition byLEAD第一行上的否为1。所有剩余的为null
  • row_number()由Segment1013标志指示的组内的NodeName:序列项目,NodeId:6,ColumnName:RowNumber1006。由于所有行都在同一组中,因此这是从1到4的整数递增
  • NodeName:段,NodeId:4,ColumnName:BottomRowNumber1008 RowNumber1006 +1作为LEAD要求的下一行
  • NodeName:细分,NodeId:4,ColumnName:TopRowNumber1007 RowNumber1006 + 1,因为LEAD需要下一行
  • NodeName:段,NodeId:4,ColumnName:Segment1014partition byLEAD第一行上的否为1。所有剩余的为null
  • NodeName:窗口假脱机,NodeId:3,ColumnName:WindowCount1015该属性使用先前的行号将属于窗口框架的行组合在一起。的窗框LEAD最多有2行(当前一行和下一行)
  • 节点名:流聚合,节点Id:2的ColumnName:Expr1003 LAST_VALUE([Expr1002])LEAD(cume_weight)

6

出于好奇(因为问题指出T-SQL),也可以使用SQLCLR有效地解决此问题。

这个想法是一次读取一行,turn直到weight超过1000(或者我们用完了行),然后返回最后一次name读取。

源代码是:

using Microsoft.SqlServer.Server;
using System.Data;
using System.Data.SqlClient;
using System.Data.SqlTypes;

public partial class UserDefinedFunctions
{
    [SqlFunction(DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        IsDeterministic = true, IsPrecise = true)]
    [return: SqlFacet(IsFixedLength = false, IsNullable = true, MaxSize = 255)]
    public static SqlString Elevator()
    {
        const string query =
            @"SELECT L.[name], L.[weight]
            FROM dbo.line AS L
            ORDER BY L.turn;";

        using (var con = new SqlConnection("context connection = true"))
        {
            con.Open();
            using (var cmd = new SqlCommand(query, con))
            {
                var rdr = cmd.ExecuteReader(CommandBehavior.SingleResult);
                var name = SqlString.Null;
                var total = 0;

                while (rdr.Read() && (total += rdr.GetInt32(1)) <= 1000)
                {
                    name = rdr.GetSqlString(0);
                }
                return name;
            }
        }
    }
}

编译后的程序集和T-SQL函数:

CREATE ASSEMBLY Elevator AUTHORIZATION [dbo]
FROM 
WITH PERMISSION_SET = SAFE;
GO
CREATE FUNCTION dbo.Elevator ()
RETURNS nvarchar(255)
AS EXTERNAL NAME Elevator.UserDefinedFunctions.Elevator;

得到结果:

SELECT dbo.Elevator();

1

Martin Smith的解决方案略有不同

SELECT top 1 name
FROM (
    SELECT id, name, weight, turn
         , SUM(weight) OVER (ORDER BY turn) AS cumulative_weight
    FROM line                               
) as T
WHERE cumulative_weight <= 1000
ORDER BY turn DESC 

RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW 是默认的窗口框架,因此我没有声明。

使用当前累积权重的谓词代替下一个累积权重。

我没有检查任何计划,所以我无法确定这方面是否有所不同。


我知道,我被DB极客包围了:-)。我必须检查你们提到的所有关键字,以掌握它们的作用。我只看了一下Client statistics --> Total Execution Time,而不是Actual execution plan这里最有趣的地方。作为Client Statistics您的解决方案,它的速度要比Martin的慢一点。感谢您提供其他信息。哪种方法可以用来衡量不同方法之间的性能差异?
传奇'18

1
恐怕我对SQL Server的了解非常有限,因此在使用何种度量标准方面我没有太多的见识。马丁的回答中有db <> fiddle链接,也许您可​​以看一下那里的计划。
Lennart '18

1
我也没有检查计划,但可以想象这可能会计算整个表的运行总计,然后对与WHERE匹配的结果行​​进行排序。我怀疑它将使用检查约束来知道运行总量严格上升并且可以提前停止。同样在SQL Server中,除了使用批处理模式窗口聚合时,指定ROWS而不是RANGE更为可取,即使在没有重复的情况下也是如此,因为窗口假脱机不在内存中而不是光盘
Martin Smith,

@MartinSmith,有趣。在您的解决方案中,LEAD是否可以将T1内的next_cume_weight <10000谓词推入并从索引扫描中提早退出?我检查了查询计划,并ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW引入了Sequence Project (Compute Scalar)运算符。不用说,我不知道这意味着什么:-)
Lennart

1
索引按总和,前导和顶部所需的顺序交付行。top收到第一行后,它可以停止请求更多行,并且执行可以停止。
马丁·史密斯

0

您可以对自己进行联接:

select 
    a.id, a.turn, a.game, 
    coalesce(sum(b.weight), 0) as cumulative_weight
from
    table a
left join 
    table b
on
    a.turn > b.turn
group by
    a.id, a.turn, a.game ;

这种事情不是很有效,因为它会导致每行的选择。但是至少它表达为单个声明。

如果您不必完全用SQL进行操作,则只需选择所有行并遍历它们,然后就可以进行累加。

您也可以在没有临时表的情况下在存储过程中执行相同的操作。只需将总和和最后一行名称保存在变量中即可。


抱歉,我不知道如何使它与一起使用self-join,如果您可以制作一个可重现的示例,我已将表定义添加到我的问题中。我的SQL错误。...我需要最接近<= 1000磅的人员的姓名。
传说

看起来您的更新工作正常,如果您希望它产生的只是精确的输出,则需要进行一些调整。但是就像我说的那样,它并不是超级有效

好?我的ID为5的人为空...
传奇

这很奇怪,我希望sum()在0行中的总和返回0

超过0行的SUM不为0(不幸的是)。您需要使用COALESCE()ISNULL()函数或CASE表达式将其
设为
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.