数据科学 experiments

2

我是一名研究人员，我喜欢测试可行的解决方案，因此我倾向于进行大量实验。例如，如果我要计算文档之间的相似度得分，则可能要尝试许多措施。实际上，对于每种度量，我可能需要运行几次以测试某些参数的效果。到目前为止，我一直在跟踪运行输入及其结果，方法是将结果写到文件中，其中包含有关输入的尽可能多的信息。问题是，即使我尝试将输入信息添加到文件名中，检索特定结果有时也成为挑战。我尝试使用包含结果链接的电子表格，但这并没有太大的不同。您使用什么工具/过程来记录实验？

11 tools experiments

3

最佳科学计算语言[关闭]

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 5年前关闭。似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个且不说像语言R和Julia明确的科学计算而设计。有这么多种选择，您如何选择适合任务的最佳语言？另外，哪种语言的性能最高？Python并且R似乎在该领域具有最大的吸引力，但从逻辑上讲，编译语言似乎是一个更好的选择。会有什么表现胜过Fortran？此外编译语言往往有GPU加速，而解释性语言如R并Python没有。选择一种语言时应该考虑什么？哪些语言可以在效用和性能之间取得最佳平衡？还有我错过的具有重要科学计算资源的语言吗？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

如何调试数据分析？

我遇到了以下问题，我很典型地进行侦察。我有一些大数据，例如几百万行。我对它进行了一些非平凡的分析，例如，由几个子查询组成的SQL查询。我得到一些结果，例如，说明属性X随时间增加。现在，有两种可能的结果可能导致这种情况： X确实随着时间增加我的分析中有错误如何测试第一次发生而不是第二次发生？逐步调试器（即使存在）也无济于事，因为中间结果仍然可以包含数百万行。我唯一能想到的就是以某种方式生成一个小的合成数据集，该数据集具有我要测试的属性，并将其作为单元测试进行分析。有工具可以做到这一点吗？特别是但不限于SQL。

10 data-mining sql experiments

Questions tagged «experiments»