什么时候应该删除索引并重新创建?


9

我们正在构建一个最初将是1 TB的数据仓库,并且每月将增长20gig。

对于某些表,我们每天进行ETL流程,而另一些表则每周/每月进行。

当有数据导入到表中时,是否有必要删除并重新创建索引?

是否有必要删除和重新创建索引,或者它们会自动更新?

统计信息设置为自动更新。

非常感谢您的帮助和指导。

我得到了这个天才脚本:

SELECT 'ALTER INDEX [' + ix.name + '] ON [' + s.name + '].[' + t.name + '] ' +
       CASE WHEN ps.avg_fragmentation_in_percent > 40 THEN 'REBUILD' ELSE 'REORGANIZE' END +
       CASE WHEN pc.partition_count > 1 THEN ' PARTITION = ' + cast(ps.partition_number as nvarchar(max)) ELSE '' END
FROM   sys.indexes AS ix INNER JOIN sys.tables t
           ON t.object_id = ix.object_id
       INNER JOIN sys.schemas s
           ON t.schema_id = s.schema_id
       INNER JOIN (SELECT object_id, index_id, avg_fragmentation_in_percent, partition_number
                   FROM sys.dm_db_index_physical_stats (DB_ID(), NULL, NULL, NULL, NULL)) ps
           ON t.object_id = ps.object_id AND ix.index_id = ps.index_id
       INNER JOIN (SELECT object_id, index_id, COUNT(DISTINCT partition_number) AS partition_count
                   FROM sys.partitions
                   GROUP BY object_id, index_id) pc
           ON t.object_id = pc.object_id AND ix.index_id = pc.index_id
WHERE  ps.avg_fragmentation_in_percent > 10 AND
       ix.name IS NOT NULL

从这里:

http://weblogs.asp.net/okloeten/archive/2009/01/05/6819737.aspx

您是否建议我每天运行此脚本,并根据发现结果运行生成的代码?


如果有人向我解释我的问题是什么,我将不胜感激
l --''''''---------''''''''''''

这是我问的一个相关问题。dba.stackexchange.com/questions/11389/…我从这个问题和答案中学到的知识教给了我很多东西,因此,我们取得了很大的收获。
swasheck 2012年

Answers:


13

如果这是周期性ETL,并且您处于开发(即NOT LIVE)数据环境中,那么您绝对应该在加载周期中管理索引。

我每个月都会针对多个数据集执行此操作,其中最大的数据集每月会向5 TB数据集添加约100 GB。

我已经进行了广泛的测试,根据我自己的经验,关于索引的最有效的加载方式是:

  1. DISABLE 非聚集索引,保留聚集索引不变
  2. 将原始数据加载到数据表中
  3. REBUILD NC指标

如果仅作为管理的ETL的一部分定期添加行,这就是方法。这也可以确保您的所有统计信息都是最新的。

对于统计数据,重要的是要注意,向1TB数据库添加20GB不会达到统计数据自动更新的临界点,因此您可以添加整整一个月的数据而无需更新统计数据。

重建NC索引是解决此问题的好方法。如果碎片过多(取决于表结构和集群键),您可能还需要定期进行集群索引重建。


4
您也可以将统计信息作为流程的一个单独部分进行更新,如果这样做通常过于昂贵,则可以在两次NC重建之间进行更新。
亚伦·伯特兰

1

对于1TB +的数据库,每天删除和创建索引可能会过大(即使仅重新创建其中一些索引)。

如果由于索引更新增加了开销而担心表中的插入/更新速度,那么我建议您做两件事:

  1. 使用代理PK,以便聚集索引插入将具有最小的开销。
  2. 分析您的DWH,并在绝对必要时创建非聚集索引。

在插入/更新操作期间,您将不得不使用非集群索引更新。

如果您担心索引碎片,那么我建议创建每日作业(SQL Agent作业)以重建索引。重建期实际上可以是任何时间,具体取决于碎片级别。您应该在实践中注意到这一点,并相应地设置作业时间表。

您可以根据碎片级别将一些逻辑添加到重建脚本中。您可以在这里找到一些好的指导原则。

最重要的是,在任何情况下都不应在该大小的数据库上进行完整索引重建。


6
我不得不不同意很多。这将取决于他的用例,但是最后一行under any circumstances you shouldn't do a full index rebuild on a database of that size.根本不准确。我在大型数据库上执行ETL是我的主要工作,并且我看到禁用和重建索引会带来巨大的好处。
JNK 2012年

1
我希望这也适用于我的情况。在运行于生产环境中的略大于1TB的数据库上,我几乎无力承担每晚对超过5亿张表进行的非聚集索引重建的费用。行。我每晚都有几个ETL流程运行,从3:00 AM开始的最后一步是重建索引。
Marcel N.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.