我有一个自1998年以来的1000分钟股票的1分钟数据集,总行数左右(2012-1998)*(365*24*60)*1000 = 7.3 Billion
。
我大部分时间(99.9%)仅执行读取请求。
在数据库中存储此数据的最佳方法是什么?
- 1个有7.3B行的大表?
- 1000张表(每个股票代号一个),每个表有730万行?
- 对数据库引擎有什么建议吗?(我打算使用Amazon RDS的MySQL)
我不习惯处理这么大的数据集,因此这是我学习的绝佳机会。非常感谢您的帮助和建议。
编辑:
这是一个示例行:
'XX',20041208,938,43.7444,43.7541,43.735,43.7444,35116.7,1,0,0
第1列是股票代码,第2列是日期,第3列是分钟,其余分别是开-高-低-收盘价,交易量和3个整数列。
大多数查询将类似于“给我2012年4月12日12:15至2012年4月13日12:52之间的AAPL价格”
关于硬件:我计划使用Amazon RDS,因此在此方面我很灵活