Questions tagged «software»

确保您的问题与统计,机器学习或数据分析有关,而不仅仅是与编程,支持或错误有关。包括涉及所涉及统计问题的其他标签。

21
朱莉娅有希望加入统计界吗?
我最近阅读了R-Bloggers的一篇文章,该帖子与John Myles White的这篇博客文章相关,该文章涉及一种名为Julia的新语言。朱莉娅需要一个刚刚即时编译器,给它邪恶的快速运行时间,并把它的速度C / C ++(相同的数量级相同的数量级上的优势秩序,不是同样快)。此外,它使用我们开始使用传统语言进行编程的人们所熟悉的正统循环机制,而不是R的apply语句和向量运算。 即使茱莉亚如此出色的时机,R也不会消失。它在行业中具有广泛的支持,并且有许多出色的软件包可以执行任何操作。 我的兴趣是本质上的贝叶斯(Bayesian),在这种情况下通常不可能进行矢量化。当然,串行任务必须使用循环来完成,并且每次迭代都需要大量的计算。在执行这些串行循环任务时,R可能会非常慢,并且C / ++并不是编写程序的第一步。Julia似乎是用C / ++编写的一种很好的替代方法,但是它还处于起步阶段,并且缺少许多我喜欢R的功能。只有获得足够的支持,将Julia作为计算统计工作台来学习才有意义。来自统计界的人,人们开始为此编写有用的软件包。 我的问题如下: 朱莉娅需要具有什么特征才能具有使R成为事实统计语言的吸引力? 与学习诸如C / ++这样的低级语言相比,学习Julia来执行大量计算任务有什么优点和缺点?


8
R语言在经济学领域是否可靠?
我是经济学的研究生,最近从其他非常著名的统计软件包转换为R(我主要使用SPSS)。目前,我的小问题是我是班上唯一的R用户。我的同学使用Stata和Gauss,我的一位教授甚至说R是工程学的理想选择,而不是经济学的理想选择。他说,许多软件包是由对编程了解很多但对经济学了解不多的人构建的,因此并不可靠。他还提到了这样一个事实,因为构建R包实际上不涉及任何金钱,因此没有动机去正确地完成它(例如,与Stata不同),并且他使用R一段时间并在其中获得了一些“荒谬”的结果。他尝试估算一些东西。此外,他抱怨说自己在R中使用了随机数生成器,他说这是“ 我使用R仅仅一个多月了,我必须说我爱上了它。我从教授那里听到的所有这些东西只是让我沮丧。 所以我的问题是:“ R在经济学领域是否可靠?”。

12
从图形中抓取数据所需的软件
任何人都具有使用软件(最好是免费的,最好是开放源代码)的经验,该软件将拍摄在笛卡尔坐标上绘制的数据图像(标准的日常绘制),并提取图中绘制的点的坐标? 本质上,这是一个数据挖掘问题和一个反向数据可视化问题。

9
R和Python在数据科学方面如何互补?
在许多教程或手册中,叙述似乎暗示R和python作为分析过程的补充组件共存。但是,对我而言,这两种语言似乎在做同样的事情。 所以我的问题是,这两种语言是否真的有专门的细分市场,还是使用一种或另一种只是个人喜好?
54 r  python  software 

8
Excel作为统计工作台
似乎很多人(包括我在内)都喜欢在Excel中进行探索性数据分析。某些限制(例如,电子表格中允许的行数)是很麻烦的,但是在大多数情况下,并非无法使用Excel来处理数据。 但是,McCullough和Heiser撰写的一篇论文却大声尖叫,如果您尝试使用Excel,您将错误地获得所有结果-甚至可能会陷入困境。 本文是正确的还是有偏见的?作者听起来确实讨厌微软。

9
有谁知道有什么好的开源软件可以可视化数据库中的数据?
最近,我遇到了Tableau,试图将数据库和csv文件中的数据可视化。用户界面使用户能够可视化时间和空间数据并即时创建绘图。这样的工具非常有用,因为它可以以图形方式观察数据而无需编写代码。 由于必须从许多数据源中检索和可视化数据,因此拥有一个能够通过简单地在轴上拖动列来生成图表并通过拖动列名来修改可视化效果的工具将非常有用。 有人知道这种免费或开源软件吗?


4
OpenBugs与JAGS
我将尝试使用BUGS风格的环境来估计贝叶斯模型。在OpenBugs或JAGS之间进行选择时,有什么重要的优点要考虑?在可预见的将来,有可能取代另一个吗? 我将在R中使用所选的Gibbs Sampler。我还没有特定的应用程序,但是我正在决定安装和学习哪个。
41 r  software  bugs  jags  gibbs 


7
为什么以及何时创建R包?
我知道这个问题是一个广泛的问题,但是我想知道决定为R创建(或不为)新程序包的决定性要点是什么。更具体地说,我要补充的是,问题不在于本身使用R,更多是关于编译各种脚本并将其集成到新程序包中的决定。 在可能导致这些决定的要点中,我想到了(以非穷尽的方式): 同一子域中其他软件包的不存在; 需要与其他研究者交流并允许实验重现; 在可能导致相反决定的要点中: 其他软件包已经使用的部分方法; 新功能的数量不足以创建新的独立程序包。 我可能已经忘记了两个列表中可能包含的许多要点,而且这些标准似乎在一定程度上是主观的。因此,您要说什么才有道理,什么时候开始将各种功能和数据汇总到一个新的有文档记录且广泛使用的软件包中?
28 r  software 

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

9
统计和数据挖掘软件工具,用于处理大型数据集
目前,我必须分析大约2000万条记录并建立预测模型。到目前为止,我已经试用了Statistica,SPSS,RapidMiner和R。在这些Statistica中似乎最适合处理数据挖掘,并且RapidMiner用户界面也非常方便,但是Statistica,RapidMiner和SPSS似乎仅适用于较小的数据集。 谁能为大型数据集推荐一个好的工具? 谢谢!


4
用于统计计算的C ++库
我有一个特定的MCMC算法,我想移植到C / C ++。许多昂贵的计算已经通过Cython用C语言编写,但是我希望整个采样器都以编译语言编写,这样我就可以为Python / R / Matlab /任何东西编写包装器。 闲逛之后,我倾向于使用C ++。我知道的几个相关库是Armadillo(http://arma.sourceforge.net/)和Scythe(http://scythe.wustl.edu/)。两者都试图模仿R / Matlab的某些方面以简化学习曲线,这是我非常喜欢的。镰刀使我想做的事情变得更好。特别是,其RNG包含很多分布,其中Armadillo仅具有统一/正态分布,这很不方便。镰刀(Scythe)于2007年发布其最新版本时,犰狳似乎处于相当活跃的开发状态。 因此,我想知道的是,是否有人有使用这些库的经验,或者我几乎肯定会错过的其他库,如果是这样,对于非常熟悉Python / R / Matlab的统计学家,是否有什么值得推荐的?但是对于编译语言却不是这样(不是完全无知,但不是完全精通...)。
23 mcmc  software  c++  computing 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.