生成测试数据的大型数据集的工具


25

很多时候,当试图提出一种有效的数据库设计时,最佳的做法是建立两个示例数据库,将它们填充数据,并对它们运行一些查询,以查看哪个数据库性能更好。

有没有一种工具可以相对快速地生成(理想情况下直接进入数据库)大型(约10,000条记录)测试数据集?我正在寻找至少与MySQL兼容的产品。

Answers:


12

最好的工具(如果可以找到)是DataFactory。(非常绝版)。我已经从中生成了绝对令人愉快的(而且看起来很真实)的数据集。

Generatedata.com是可以接受的,但是扩展性不是很好。

DataGenerator是值得关注的东西。

尽管DTM Data Generator笨拙且不能替代DataFactory,但它存在并正在出售,我已经使用它来生成适度可接受的数据。



4

我通常使用一些已知的数据作为输入来生成自己的数据-如果数据随机,则并不总是一个很好的测试;我需要将要与最终产品类似地分发的数据。

我必须调整的所有较大数据库本质上都是科学的-因此,我通常可以将其他调查作为输入,并重新调整其大小并增加抖动。(例如,以5毫秒的节奏采集数据,精度为毫秒,将其转换为10毫秒的节奏/毫秒精度,但抖动为+/- 100 ms)

...

但是,作为另一种选择,如果您不想编写自己的工具,那就看看一些基准测试工具-因为它们可以根据训练集一遍又一遍地重复操作,因此您可以使用它们插入很多记录(然后忽略有关其执行速度的报告)...然后,您可以使用同一工具来测试数据库填充后的执行速度。





1

最经济有效的方法可能是使用开源或商业数据生成器。我曾经那样做。

现在,在我的黄金岁月中,我将对测试数据的每种需求视为学习另一种脚本语言的要求。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.