Questions tagged «computing»

对于涉及统计计算的主题问题。还请包括一些统计方法标签。

21
朱莉娅有希望加入统计界吗?
我最近阅读了R-Bloggers的一篇文章,该帖子与John Myles White的这篇博客文章相关,该文章涉及一种名为Julia的新语言。朱莉娅需要一个刚刚即时编译器,给它邪恶的快速运行时间,并把它的速度C / C ++(相同的数量级相同的数量级上的优势秩序,不是同样快)。此外,它使用我们开始使用传统语言进行编程的人们所熟悉的正统循环机制,而不是R的apply语句和向量运算。 即使茱莉亚如此出色的时机,R也不会消失。它在行业中具有广泛的支持,并且有许多出色的软件包可以执行任何操作。 我的兴趣是本质上的贝叶斯(Bayesian),在这种情况下通常不可能进行矢量化。当然,串行任务必须使用循环来完成,并且每次迭代都需要大量的计算。在执行这些串行循环任务时,R可能会非常慢,并且C / ++并不是编写程序的第一步。Julia似乎是用C / ++编写的一种很好的替代方法,但是它还处于起步阶段,并且缺少许多我喜欢R的功能。只有获得足够的支持,将Julia作为计算统计工作台来学习才有意义。来自统计界的人,人们开始为此编写有用的软件包。 我的问题如下: 朱莉娅需要具有什么特征才能具有使R成为事实统计语言的吸引力? 与学习诸如C / ++这样的低级语言相比,学习Julia来执行大量计算任务有什么优点和缺点?

4
如何使用常规编程语言从均值和方差已知的正态分布中采样?
我从来没有上过统计学课程,所以我希望在正确的位置提问。 假设我仅具有两个数据描述正态分布:平均值和方差σ 2。我想使用计算机从此分布中随机抽样,以便我尊重这两个统计数据。μμ\muσ2σ2\sigma^2 很明显,我可以通过简单地将0左右归一化来处理均值:在输出样本之前,只需将添加到每个样本即可。但我不明白如何以编程方式生成样本尊重σ 2。μμ\muσ2σ2\sigma^2 我的程序将使用传统的编程语言。我无权访问任何统计数据包。


4
用于统计计算的C ++库
我有一个特定的MCMC算法,我想移植到C / C ++。许多昂贵的计算已经通过Cython用C语言编写,但是我希望整个采样器都以编译语言编写,这样我就可以为Python / R / Matlab /任何东西编写包装器。 闲逛之后,我倾向于使用C ++。我知道的几个相关库是Armadillo(http://arma.sourceforge.net/)和Scythe(http://scythe.wustl.edu/)。两者都试图模仿R / Matlab的某些方面以简化学习曲线,这是我非常喜欢的。镰刀使我想做的事情变得更好。特别是,其RNG包含很多分布,其中Armadillo仅具有统一/正态分布,这很不方便。镰刀(Scythe)于2007年发布其最新版本时,犰狳似乎处于相当活跃的开发状态。 因此,我想知道的是,是否有人有使用这些库的经验,或者我几乎肯定会错过的其他库,如果是这样,对于非常熟悉Python / R / Matlab的统计学家,是否有什么值得推荐的?但是对于编译语言却不是这样(不是完全无知,但不是完全精通...)。
23 mcmc  software  c++  computing 

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
朱莉娅(Julia):回顾过去的表现
这篇文章与一个快速变化的事件有关。 我遇到了一个2012年的问题,该问题对朱莉娅进行了很好的讨论,关于朱莉娅是R / Python的替代品,用于各种类型的统计工作。 这是2012年关于朱莉娅的诺言的原始问题 不幸的是,朱莉娅那时还很新,而统计工作所需的工具包有些原始。错误正在被消除。发行版很难安装。等等。 有人对此问题发表了非常恰当的评论: 这就是说,事后才可能回答这个问题还需要5年。到目前为止,Julia缺少统计编程系统的以下关键方面,这些系统可能与R竞争日常用户: 那是在2012年。现在已经到了2015年,并且已经过去了三年,我想知道人们如何看待Julia的成就? 语言本身和整个Julia生态系统是否有更丰富的经验?我会很高兴知道。 特别: 您会建议统计工具的新用户学习R上的Julia吗? 您会建议某人使用哪种Statistics统计用例? 如果R在执行某项任务时很慢,切换到Julia或Python是否有意义? 注意:2015年6月14日首次发布。
19 r  python  computing  julia 

4
谁将R与多核,SNOW或CUDA软件包一起用于资源密集型计算?
在本论坛中,谁愿意将“> R与多核,snow软件包或CUDA一起使用,因此对于需要比工作站CPU更大功率的高级计算?您在哪个硬件上计算这些脚本?数据中心访问某处? 这些问题的背景如下:我目前正在写我的硕士学位。关于R和高性能计算的论文,需要对谁真正使用R有深入的了解。我读到R在2008年拥有100万用户,但这几乎是我可以找到的关于该主题的唯一用户统计信息-所以我希望您能答案! 真诚的海因里希

6
R的计算速度?
我的任务是将我们当前的大型随机模型之一从SAS迁移到新语言。就个人而言,我更喜欢传统的编译语言,但PI希望我签出我从未使用过的R。我们将模型从SAS中剔除的动机是:(1)许多人因为SAS昂贵而无法使用它;(2)我们正在寻求摆脱解释型语言;(3)SAS对于我们拥有的模型类型。 对于(1),显然R满足自由的需求。对于(2),理想情况下,我们想创建一个可执行文件,但是R通常用作脚本语言。我看到有人最近发布了R编译器-这是否广受欢迎?这个容易用吗?我们不想强迫用户自己下载R。对于(3),我们的SAS问题是所有时间都花在I / O写入和读取数据集上。我们的模型是计算密集型的,并且经常受到运行时的限制。(例如,有人在周末劫持人们的计算机来执行运行并不少见。)我们在Fortran中建立了一个类似的模型,该模型不会出现相同的问题,因为所有工作都在内存中完成。R如何工作?它是否与SAS相同,因为它可以在数据步骤中工作,读写文件?还是可以在内存中进行数组操作?
16 r  computing 

9
哪些书概述了适用于计算机科学的计算统计信息?
作为软件工程师,我对诸如统计算法,数据挖掘,机器学习,贝叶斯网络,分类算法,神经网络,马尔可夫链,蒙特卡洛方法和随机数生成等主题感兴趣。 我个人不喜欢使用这些技术中的任何一种,但是我不得不使用在幕后使用了这些技术并且希望从更高层次上了解它们的软件。我正在寻找涵盖广度的书-目前不需要深度。我认为,如果我能理解所采用的算法和技术背后的数学基础,就可以学到很多有关软件开发的知识。 统计分析社区可以推荐我可以用来学习更多有关在软件中实现各种统计元素的书籍吗?

1
在线,可扩展的统计方法
这受到高效在线线性回归的启发,我发现这非常有趣。是否有专门用于大规模统计计算的文本或资源,通过这些文本或资源进行的数据集计算过大而无法放入主存储器中,并且可能变化太多而无法有效地进行子采样。例如,是否可以在线方式拟合混合效果模型?有没有人研究过用一阶SGD型技术替换MLE的标准二阶优化技术的效果?

4
测试统计软件
哪些技术/方法可用于测试统计软件?我对使用最大似然进行参数估计的程序特别感兴趣。 将结果与其他程序或已发布资源中的结果进行比较并不总是可能的,因为在我编写自己的程序的大多数时候,这是因为所需的计算尚未在现有系统中实现。 我并不是在坚持可以保证正确性的方法。我会对可以捕获部分错误的技术感到满意。

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.