如何优化查询

我有一个与此类似的数据库结构，

CREATE TABLE [dbo].[Dispatch](
    [DispatchId] [int] NOT NULL,
    [ContractId] [int] NOT NULL,
    [DispatchDescription] [nvarchar](50) NOT NULL,
CONSTRAINT [PK_Dispatch] PRIMARY KEY CLUSTERED 
(
    [DispatchId] ASC,
    [ContractId] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

GO

CREATE TABLE [dbo].[DispatchLink](
    [ContractLink1] [int] NOT NULL,
    [DispatchLink1] [int] NOT NULL,
    [ContractLink2] [int] NOT NULL,
    [DispatchLink2] [int] NOT NULL
) ON [PRIMARY]

GO
INSERT [dbo].[Dispatch] ([DispatchId], [ContractId], [DispatchDescription]) VALUES (1, 1, N'Test')
GO
INSERT [dbo].[Dispatch] ([DispatchId], [ContractId], [DispatchDescription]) VALUES (2, 1, N'Test')
GO
INSERT [dbo].[Dispatch] ([DispatchId], [ContractId], [DispatchDescription]) VALUES (3, 1, N'Test')
GO
INSERT [dbo].[Dispatch] ([DispatchId], [ContractId], [DispatchDescription]) VALUES (4, 1, N'Test')
GO
INSERT [dbo].[DispatchLink] ([ContractLink1], [DispatchLink1], [ContractLink2], [DispatchLink2]) VALUES (1, 1, 1, 2)
GO
INSERT [dbo].[DispatchLink] ([ContractLink1], [DispatchLink1], [ContractLink2], [DispatchLink2]) VALUES (1, 1, 1, 3)
GO
INSERT [dbo].[DispatchLink] ([ContractLink1], [DispatchLink1], [ContractLink2], [DispatchLink2]) VALUES (1, 3, 1, 2)
GO

DispatchLink表的重点是将两个Dispatch记录链接在一起。顺便说一句，由于遗留原因，我在调度表上使用了复合主键，因此我不会费劲地更改它。另外链接表可能不是正确的方法吗？但是又是遗产。

所以我的问题是，如果我运行此查询

select * from Dispatch d
inner join DispatchLink dl on d.DispatchId = dl.DispatchLink1 and d.ContractId = dl.ContractLink1
or d.DispatchId = dl.DispatchLink2 and d.ContractId = dl.ContractLink2

我永远无法使它在DispatchLink表上进行索引查找。它总是进行完整的索引扫描。可以使用一些记录，但是当该表中有50000时，它将根据查询计划扫描索引中的50000条记录。这是因为join子句中有“ and”和“ or”，但是我无法理解为什么SQL不能执行几个索引查找，而“ or”的左侧是索引查找，一个用于“或”的右侧。

我想对此进行解释，而不是建议加快查询速度，除非可以在不调整查询的情况下完成。原因是我将上面的查询用作合并复制联接筛选器，所以不幸的是，我不能仅添加另一种类型的查询。

更新：例如，这些是我一直添加的索引类型，

CREATE NONCLUSTERED INDEX IDX1 ON DispatchLink (ContractLink1, DispatchLink1)
CREATE NONCLUSTERED INDEX IDX2 ON DispatchLink (ContractLink2, DispatchLink2)
CREATE NONCLUSTERED INDEX IDX3 ON DispatchLink (ContractLink1, DispatchLink1, ContractLink2, DispatchLink2)

因此，它使用索引，但对整个索引进行索引扫描，因此50000条记录将扫描索引中的50000条记录。

sql-server query-performance

— 彼得
source

DispatchLink桌子上有索引吗？

— ypercubeᵀᴹ

我已经添加了上面尝试过的索引。

— 彼得2012年

在您的查询中：“从Dispatch d内部联接中选择* * d.DispatchId = dl.DispatchLink1和d.ContractId = dl.ContractLink1或d.DispatchId = dl.DispatchLink2和d.ContractId = dl.ContractLink2上的DispatchLink dl”，尝试删除“ OR”条件并用两个不使用“ OR”的SELECT语句的UNION代替，还使用两个SELECT中的唯一键列而不是“ *”，只是为了使测试尽可能纯净。

— NoChance 2012年

感谢SQL Kiwi，这是我以前尝试过的方法，但不幸的是它没有起作用。

— 彼得2012年

您是否可以通过复制发出一个更简单的查询：从d.DispatchId = dl.DispatchLink1和d.ContractId = dl.ContractLink1上的Dispatch d内部联接DispatchLink dl中选择*，如果是，我们可以在DispatchLink中复制数据，以便结果仍然有效...

— AK 2012年

优化器可以考虑许多计划备选方案（包括具有多个寻道的备选方案），但是对于析取（OR谓词），默认情况下它不考虑涉及索引交集的计划。给定索引：

CREATE CLUSTERED INDEX cx 
ON dbo.DispatchLink (DispatchLink1, ContractLink1);

CREATE NONCLUSTERED INDEX nc1 
ON dbo.DispatchLink (DispatchLink2, ContractLink2);

我们可以强制执行索引查找（假设使用SQL Server 2008或更高版本）：

SELECT * 
FROM dbo.Dispatch AS d
INNER JOIN dbo.DispatchLink AS dl WITH (FORCESEEK) ON 
    (d.DispatchId = dl.DispatchLink1 AND d.ContractId = dl.ContractLink1)
    OR (d.DispatchId = dl.DispatchLink2 AND d.ContractId = dl.ContractLink2);

预见计划

使用您的样本数据中，寻求在计划成本0.0332551单位相比0.0068057的扫描计划：

扫描计划

我们可以尝试各种可能的查询重写和提示。为促进优化程序不考虑原始计划的选项而进行的重写示例如下：

SELECT * 
FROM dbo.Dispatch AS d
CROSS APPLY
(
    SELECT TOP (1) * FROM
    (
        SELECT * FROM dbo.DispatchLink AS dl
        WHERE dl.DispatchLink1 = d.DispatchId
        AND dl.ContractLink1 = d.ContractId
        UNION ALL
        SELECT * FROM dbo.DispatchLink AS dl
        WHERE dl.DispatchLink2 = d.DispatchId
        AND dl.ContractLink2 = d.ContractId
    ) SQ1
) AS F1;

如果执行计划在第一个索引上找到匹配项，则它不会寻找第二个索引：

申请最佳计划

这可能比默认FORCESEEK计划的效果要好得多。

在不添加任何新索引的情况下，我们还可以强制向Dispatch表中查找：

SELECT * 
FROM dbo.DispatchLink AS dl
JOIN dbo.Dispatch AS d WITH (FORCESEEK) ON
    (d.DispatchId = dl.DispatchLink1 AND d.ContractId = dl.ContractLink1)
    OR (d.DispatchId = dl.DispatchLink2 AND d.ContractId = dl.ContractLink2);

寻求2

根据每个表中有多少行之类的信息，这可能比第一个示例更好或更糟。该APPLY + TOP改进仍然是可能的：

SELECT * 
FROM dbo.DispatchLink AS dl
CROSS APPLY
(
    SELECT TOP (1) * FROM
    (
        SELECT * FROM dbo.Dispatch AS d
        WHERE dl.DispatchLink1 = d.DispatchId
        AND dl.ContractLink1 = d.ContractId
        UNION ALL
        SELECT * FROM dbo.Dispatch AS d
        WHERE dl.DispatchLink2 = d.DispatchId
        AND dl.ContractLink2 = d.ContractId
    ) SQ1
) AS F1;

— 保罗·怀特9
source

这是一个非常有用的答案。我问了另一个问题dba.stackexchange.com/questions/23773/analysing-a-query-plan，其中显示了对真实数据（不是我的测试数据）的实际查询计划。我没有知识来确切了解查询计划的瓶颈是什么。也许你可以看看？

— 彼得2012年

这真的很有趣，因为添加“ FORCESEEK”使我的查询在9秒内运行，而不是花费10分钟以上。更新统计信息没有影响。为什么查询分析器会出错呢？

— 彼得2012年

我认为您在设计上是对的。您对重复的列表示什么意思？您将如何设计一个必须将两个Dispatch记录关联在一起的表结构？为了弄清楚“真实”表确实具有其自己的主键字段，但是在Dispatch中具有复合键并不能完全帮助您。

— 彼得2012年

SQL Kiwi。重复列。知道了谢谢。

— 彼得2012年