Questions tagged «experiments»

2
记下实验运行和结果
我是一名研究人员,我喜欢测试可行的解决方案,因此我倾向于进行大量实验。例如,如果我要计算文档之间的相似度得分,则可能要尝试许多措施。实际上,对于每种度量,我可能需要运行几次以测试某些参数的效果。 到目前为止,我一直在跟踪运行输入及其结果,方法是将结果写到文件中,其中包含有关输入的尽可能多的信息。问题是,即使我尝试将输入信息添加到文件名中,检索特定结果有时也成为挑战。我尝试使用包含结果链接的电子表格,但这并没有太大的不同。 您使用什么工具/过程来记录实验?

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
如何调试数据分析?
我遇到了以下问题,我很典型地进行侦察。 我有一些大数据,例如几百万行。我对它进行了一些非平凡的分析,例如,由几个子查询组成的SQL查询。我得到一些结果,例如,说明属性X随时间增加。 现在,有两种可能的结果可能导致这种情况: X确实随着时间增加 我的分析中有错误 如何测试第一次发生而不是第二次发生?逐步调试器(即使存在)也无济于事,因为中间结果仍然可以包含数百万行。 我唯一能想到的就是以某种方式生成一个小的合成数据集,该数据集具有我要测试的属性,并将其作为单元测试进行分析。有工具可以做到这一点吗?特别是但不限于SQL。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.