100 TB容量数据库-资源和时间估计


10

我正在为100TB报告数据库设置进行“封底”计算。我正在从这里的专家那里寻找想法。建议环境:

  1. 储存容量〜100TB
  2. 表约200个,大小从1G​​B到5TB不等。平均大小可能在100GB-200GB之间
  3. ETL-作业可能需要在10亿个行的表之间进行联接,联接键的范围从10字节到500字节。这样的加入应在2-5分钟内完成
  4. 实时选择-最初仅对选择速度感兴趣。应该支持500次选择/秒。“每秒更新数”相对较小,因此在本练习中可以忽略。
  5. 需要24x7的可用性。2个独立的DB服务器应可用于服务选择调用(复制数据)。

问题:

  1. 目前,我正在研究Oracle。您在大型数据库的其他商业(或)开源解决方案方面的经验如何?
  2. 您认为哪种硬件操作系统最有效?我正在计划在Dell上使用Linux。
  3. 网络存储(例如NetApp)是否必须?您预计使用现成的商用磁盘会有哪些问题?
  4. 硬件和操作系统准备就绪后,您将留出多少时间来设置,配置数据库,存储等。
  5. 在您观察到的环境中,哪种团队组成最有效?我的意思是,管理和操作此类设置所需的各种管理员(OS Admin,Oracle DB Admin?)。要实现24x7的正常运行时间,可能需要多少个。
  6. 数据库许可,网络存储成本的任何近似值/范围。

我知道我没有所有的环境细节。我不是在寻找确切的细节,一个近似值就足够了。尽管某些问题可能最好由经理回答,但我对Admins的观点很感兴趣。感谢您的投入。


1
我认为这个问题回答的范围太广。在我进步之前,我会让其他人看看他们是否同意。
Philᵀᴹ

1
@Phil我同意,我不确定是否应该将其分为多个问题,所以具有不同专业知识的用户可以回答不同的部分。但是对于所有问题,环境描述都是相同的,因此继续进行单个问题的解答。我认为这可能是我关于SO的第一个问题(尽管是SO的常规用户),所以请认为我是新手,如果有解决此问题的更好方法,请提出建议。
卡什(Kash)2012年

10
这听起来像一个数百万美元的项目。您是否会根据论坛建议制定此类项目?
Remus Rusanu 2012年

1
@RemusRusanu这不是唯一的信息来源。当这进入正式评估阶段时,将有许多其他活动。我对SO用户提供的建议持高度评价。在写问题时,我确定我会发现一些我从未想到的非常有用的细节。
卡什(Kash)2012年

1
@RemusRusanu-是的。我看到的Netezza的最新价格是TwinFin系统2万美元/ TB。不知道该容量的Exadata盒要用什么。而且,SLA非常激进,而且系统看起来拥有庞大的用户群。它可能需要大量的数据集市服务器来处理查询负载。
ConcernedOfTunbridgeWells 2012年

Answers:


21

第一印象

  1. 根据您的性能要求,100TB是相当激进的数据量。如果要使用Oracle,则应检查其Exadata系统。另外,请查看Netezza或Teradata的产品。有了如此多的选择,您可能想要查看基于OLAP的前端,或者至少相当积极地使用实例化视图和查询重写。您将不会获得每秒500次表扫描的速度。

    对于延迟要求不那么严格的事物,您可能需要考虑使用更多的数据集市来为您的用户社区提供报告功能。在这种情况下,SQL Server和SSAS可能是数据集市的一种选择,因为在大量服务器上进行许可要比尝试对Oracle进行许可便宜。

  2. 参见(1)。在这种大小的数据集上,共享磁盘体系结构上的常规硬件可能会变慢。

  3. 没有!如果有人建议NFS给他们一个好的踢脚。直接连接存储或具有许多中档控制器的多控制器SAN。考虑一下可能是十几个MD3000系列控制器或类似的控制器-如果您不打算使用专门构建的“大数据”平台。

  4. 获得具有PB系列数据仓库平台经验的存储专家。如果您必须满足严格的SLA,那么您可能需要进行大量的ETL开发工作以及大量测试工作。

  5. 最好的情况下,数据仓库上的24x7全天候工作。这是一个运营报告平台吗?也许您可能会详细说明您的要求。

  6. 括约肌褶皱非常昂贵,并且取决于您的性能要求。上次(几年前)我看到Netezza曾经为TwinFin系统报价20,000美元/ TB,使您的平台100TB的价格为200万美元,加上冗余服务器和备份硬件的成本。我相信Exadata会便宜一些,但是我手头没有任何价格。

    查看Netezza,Exadata和Teradata平台进行比较,以及将Ab Initio作为ETL工具的成本。

这是一组相当激进的要求-数据仓库上的24x7通常无法完成,并且数据量足够大,足以使您进入“大数据”平台的境界。如果您有运营报告要求,则应仔细查看其内容。除非有特殊原因(例如,低延迟市场数据源),否则请将其与分析分开。在同一平台上混合操作和分析需求是不好的。

我认为您确实需要聘请专家来评估您的需求。如果不仔细研究您要实现的目标,我会给出一些关于该做什么或不该做什么的经验性建议。


8

处理此类海量数据时需要考虑的其他一些选择包括:

  1. @ConcernedOfTunbridgeWells发布的所有内容
  2. EMC的Greenplum
  3. Microsoft的并行数据仓库

不要计划在任何地方跳过硬件成本。具有这些规格的系统将花费您一些大钱。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.