在哪里可以获取有关测试算法/例程的良好数据集/测试问题?


41

在评估要在计算工作中使用的软件质量(无论是编写的东西还是固定包装的软件)时,通常最好先查看它在标准数据集或问题上的工作情况。在哪里可以获得这些测试以验证计算例程?

(请给每个答案一本网站/书。)


我打算将其作为Community Wiki帖子,并因此将其标记为要转换。
JM

3
这个问题不是太广泛了吗,即取决于算法/该软件要解决的问题的性质?
安德烈·霍尔兹纳

我真的希望这个问题成为社区Wiki @Andre(作为资源的“大清单”);我已经将其标记为要转换,但是我不知道为什么它没有被转换。
JM

@JM我已经转换了它。
David Ketcheson 2012年

Answers:



13

制造的解决方案的方法是测试PDE和其他求解器的标准。大多数符号代数系统都具有生成代码的功能,这对于创建人造的解决方案很有用。为此,SymPy和Maple具有函数ccode。




8

在计算电磁学中,有一组著名的(或因某些困难而臭名昭著)的测试问题:测试电磁分析方法(TEAM)

他们中的某些人确实确实需要认真使用最新的数值技术,以使正确的仿真结果与实验数据保持一致。例如,导体线圈问题

道格(Dauge)汇编了麦克斯韦方程组的另一组测试问题:麦克斯韦方程组的基准计算,用于逼近高奇异解。著名的(或臭名昭著的)Fichera立方体中的一个:

费切拉

ϕH1+ϵE=ϕ

Δu=0,where u=rαsin(αθ).

7

如果您对与分子结构相关的基准测试算法感兴趣,则pubchem数据库包含大量的有机分子集合。这可能有助于比较使用不同模型/程序获得的分子特性的预测。该站点具有几个选项,可用于下载满足某些预定义条件(例如化学成分)的大批量分子。



7

可爱的网站上更新阿诺德Neumaier的网站提到与优化和线性解法一些额外的问题可爱的测试集。此外,它提供了用于测试和更新线性代数和优化求解器的软件工具。







3

Alan Genz在“ 测试多维集成例程”一文中提出了一组功能测试。我找不到本文的在线版本,但是可以在有关CUBA库论文中找到对其的引用。




2

如果您正在寻找大型图形或网络数据进行测试。在斯坦福大学的网络分析项目(SNAP)拥有许多大型数据集图形通常以匿名邻接表的形式。他们的一些选择包括:

数据

数据性质

  • 边数:约10到约4亿
  • 节点数:从10到1亿左右
  • 边线类型:有向,无向,加权,未加权,有符号和无符号。
  • 网络类型:有向,无向,二分,多图,时间,标记。

数据集上提供的地面真实状态统计信息:

工具类


@JM没问题!不久前,我将他们的一些社交网络数据集用于一个项目,然后偶然发现了这个stackexchange,并认为这可能对您有所帮助。
ryan

-3

数据很简单;要获得它的API可能很难。我推荐Quandl。该站点拥有超过1000万个可通过一个简单的REST-ful API访问的公开可用数据集。所有数据均以CSV或JSON返回。或者,如果编程不是您的强项,则可以采用简单的方法将数据导入Excel。R,Python和Ruby程序员将完全可以使用本机库。


1
欢迎来到Scicomp!我不认为这是问题所涉及的数据。要测试算法,您不仅需要一个数据集,还需要一个相应的已知结果(取决于问题/算法)来与您的结果进行比较。
克里斯蒂安·克拉森

谢谢@ChristianClason。我明白你的意思了。例如,如果软件用于线性回归,则作者对数据集以及经过审查的分析结果集感兴趣,以测试线性回归程序包是否正确执行。
Brian Risk
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.