Questions tagged «computational-statistics»

指统计和计算的接口;用于统计目的的算法和软件的使用。

21
朱莉娅有希望加入统计界吗?
我最近阅读了R-Bloggers的一篇文章,该帖子与John Myles White的这篇博客文章相关,该文章涉及一种名为Julia的新语言。朱莉娅需要一个刚刚即时编译器,给它邪恶的快速运行时间,并把它的速度C / C ++(相同的数量级相同的数量级上的优势秩序,不是同样快)。此外,它使用我们开始使用传统语言进行编程的人们所熟悉的正统循环机制,而不是R的apply语句和向量运算。 即使茱莉亚如此出色的时机,R也不会消失。它在行业中具有广泛的支持,并且有许多出色的软件包可以执行任何操作。 我的兴趣是本质上的贝叶斯(Bayesian),在这种情况下通常不可能进行矢量化。当然,串行任务必须使用循环来完成,并且每次迭代都需要大量的计算。在执行这些串行循环任务时,R可能会非常慢,并且C / ++并不是编写程序的第一步。Julia似乎是用C / ++编写的一种很好的替代方法,但是它还处于起步阶段,并且缺少许多我喜欢R的功能。只有获得足够的支持,将Julia作为计算统计工作台来学习才有意义。来自统计界的人,人们开始为此编写有用的软件包。 我的问题如下: 朱莉娅需要具有什么特征才能具有使R成为事实统计语言的吸引力? 与学习诸如C / ++这样的低级语言相比,学习Julia来执行大量计算任务有什么优点和缺点?

9
我应该使用什么算法来检测时间序列的异常?
背景 我在网络运营中心工作,我们监视计算机系统及其性能。要监视的关键指标之一是当前连接到我们服务器的访问者/客户数量。为了使其可见,我们(Ops团队)收集了诸如时间序列数据之类的指标并绘制了图表。Graphite允许我们做到这一点,它有一个非常丰富的API,我可以用它来构建警报系统,以便在突然(主要是)突然下降和其他更改发生时通知我们的团队。目前,我已基于avg值设置了一个静态阈值,但是由于白天和一周中的不同负载(季节性因素),它不能很好地工作(存在很多假阳性)。 看起来像这样: 实际数据(一个度量标准的示例,时间范围为15分钟;第一个数字是用户数,第二个-时间戳): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, 1431803940], [175245.0, 1431804000], [175217.0, 1431804060], [175629.0, 1431804120], [175104.0, 1431804180], [175104.0, 1431804240], [175505.0, 1431804300]]}] 我要完成的工作 我创建了一个Python脚本,该脚本接收最近的数据点,将它们与历史平均值进行比较,并在发生突然变化或下降时发出警报。由于季节性因素,“静态”阈值无法正常运行,脚本会生成误报警报。我想提高警报算法的准确性,使其在不不断调整警报阈值的情况下工作。 我需要什么建议和发现的东西 通过谷歌搜索,我发现我正在寻找用于异常检测的机器学习算法(无监督算法)。进一步的调查表明,其中有很多,很难理解哪种情况适用于我的情况。由于我的数学知识有限,我无法阅读复杂的学者论文,并且正在寻找对该领域的初学者来说简单的东西。 我喜欢Python并且对R有点熟悉,因此很高兴看到这些语言的示例。请推荐一本好书或文章,这将有助于我解决问题。谢谢您的时间,请原谅我这么长时间的描述 有用的链接 类似问题: 时间序列和异常检测 使用Python进行时间序列异常检测 时间序列异常 时间序列异常检测算法 小波在基于时间序列的异常检测算法中的应用 我应该使用哪种算法? …

8
Excel作为统计工作台
似乎很多人(包括我在内)都喜欢在Excel中进行探索性数据分析。某些限制(例如,电子表格中允许的行数)是很麻烦的,但是在大多数情况下,并非无法使用Excel来处理数据。 但是,McCullough和Heiser撰写的一篇论文却大声尖叫,如果您尝试使用Excel,您将错误地获得所有结果-甚至可能会陷入困境。 本文是正确的还是有偏见的?作者听起来确实讨厌微软。


7
统计概念可以解释为什么随着翻转次数的增加,您翻转头部和尾部的次数变少的可能性为何?
我正在通过阅读几本书并编写一些代码来学习概率和统计数据,并且在模拟硬币翻转时,我发现有些东西使我感到有些惊讶,这与个人的天真直觉有些相反。如果您翻转公平的硬币次首脑尾巴朝着收敛为1的比例增加,正如你所期望的。但在另一方面,由于nnnnnnnnn增加,您似乎不太可能翻转正好相同的头数,而不会翻转尾数,从而获得正好为 1 的比率。 例如(我程序的一些输出) For 100 flips, it took 27 experiments until we got an exact match (50 HEADS, 50 TAILS) For 500 flips, it took 27 experiments until we got an exact match (250 HEADS, 250 TAILS) For 1000 flips, it took 11 experiments until we got an exact …


4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
如何拟合离散分布以计算数据?
我有以下计数数据的直方图。我想为其分配一个离散的分布。我不确定该如何处理。 我是否应该首先在直方图上叠加离散分布(例如负二项分布),以便获得离散分布的参数,然后运行Kolmogorov–Smirnov检验以检查p值? 我不确定此方法是否正确。 是否有解决此类问题的通用方法? 这是计数数据的频率表。在我的问题中,我只关注非零计数。 Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 更新:我想问:我在R中使用fitdistr函数来获取用于拟合数据的参数。 fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) 然后,在直方图的顶部绘制泊松分布的概率质量函数。 但是,似乎泊松分布无法对计数数据建模。有什么我可以做的吗?

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …


1
与标准梯度下降相比,随机梯度下降如何节省时间?
标准梯度下降将为整个训练数据集计算梯度。 for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad 对于预定义的时期数,我们首先使用参数向量参数为整个数据集计算损失函数的梯度向量weights_grad。 相反,随机梯度下降为每个训练示例x(i)和标签y(i)执行参数更新。 for i in range(nb_epochs): np.random.shuffle(data) for example in data: params_grad = evaluate_gradient(loss_function, example, params) params = params - learning_rate * params_grad SGD据说要快得多。但是,我不明白如果仍然对所有数据点进行循环,那么如何更快。GD中梯度的计算是否比分别为每个数据点计算GD慢得多? 代码来自这里。

2
ABC和MCMC在应用方面有何不同?
据我了解,近似贝叶斯计算(ABC)和马尔可夫链蒙特卡洛(MCMC)具有非常相似的目标。下面,我将描述我对这些方法的理解,以及如何理解它们在实际数据中的应用差异。 近似贝叶斯计算 ABC包括先验取样一个参数θθ\theta,然后通过数值模拟计算出统计量xixix_i,并将其与一些观测到的xobsxobsx_{obs}。基于拒绝算法,xixix_i被保留或拒绝。保留列表xixix_i所做出的后验分布。 马尔可夫链蒙特卡洛 MCMC包括对参数的先验分布进行采样。它需要一个第一样本θ 1,计算P (X ö b 小号 | θ 1)P (θ 1),然后跳转(根据某些规则)到一个新的值θ 2为其中P (X ö b 小号 | θ 2)P (θ 2)被再次计算。比率P (x o b sθθ\thetaθ1θ1\theta_1P(xobs|θ1)P(θ1)P(xobs|θ1)P(θ1)P(x_{obs} | \theta_1)P(\theta_1)θ2θ2\theta_2P(xobs|θ2)P(θ2)P(xobs|θ2)P(θ2)P(x_{obs} | \theta_2)P(\theta_2)进行计算,并根据一些阈值时,将来自所述第一或第二位置发生的下一个跳跃。探索θ值的过程是一而终,最后,保留的θ值的分布是后验分布P(θ|x)(出于我尚不知道的原因)。P(xobs|θ2)P(θ2)P(xobs|θ1)P(θ1)P(xobs|θ2)P(θ2)P(xobs|θ1)P(θ1)\frac{P(x_{obs} | \theta_2)P(\theta_2)}{P(x_{obs} | \theta_1)P(\theta_1)}θθ\thetaθθ\thetaP(θ|x)P(θ|x)P(\theta | x) 我意识到我的解释未能代表这些术语(尤其是MCMC)下每个术语下存在的各种方法。 ABC vs MCMC(利弊) ABC的优点是不需要解析地求解。这样,ABC对于MCMC无法做到的复杂模型很方便。P(x|θ)P(θ)P(x|θ)P(θ)P(x | \theta)P(\theta) MCMC允许进行统计检验(似然比检验,G检验……),而我认为这对于ABC来说是不可行的。 我到目前为止正确吗? 题 ABC和MCMC在应用方面有何不同?如何决定使用一种或另一种方法?

3
你们中的某些人是否使用Google Docs电子表格来进行和与他人共享统计工作?
我知道你们大多数人可能会觉得Google文档仍然是一种原始工具。它不是Matlab或R,甚至不是Excel。但是,我对这种基于Web的软件的强大功能感到困惑,该软件仅使用浏览器的操作功能(并且与许多工作方式非常不同的浏览器兼容)。 活跃在该论坛中的Mike Lawrence已使用Google Docs与我们共享了一个电子表格,并在其中做了一些漂亮的工作。我个人已经复制了一个非常全面的假设测试框架(包括众多参数和非参数测试),最初是在Google文档的Excel中完成的。 我很想知道您是否尝试过Google文档,并在有趣的应用程序中将其推到了极限。我也很想听听您在使用Google文档时遇到的错误或缺陷 我将这个问题指定为“用于社区Wiki”,表示对此没有最佳答案。它比任何东西都更重要。

9
哪些书概述了适用于计算机科学的计算统计信息?
作为软件工程师,我对诸如统计算法,数据挖掘,机器学习,贝叶斯网络,分类算法,神经网络,马尔可夫链,蒙特卡洛方法和随机数生成等主题感兴趣。 我个人不喜欢使用这些技术中的任何一种,但是我不得不使用在幕后使用了这些技术并且希望从更高层次上了解它们的软件。我正在寻找涵盖广度的书-目前不需要深度。我认为,如果我能理解所采用的算法和技术背后的数学基础,就可以学到很多有关软件开发的知识。 统计分析社区可以推荐我可以用来学习更多有关在软件中实现各种统计元素的书籍吗?

4
在R中添加观测值和/或预测变量时,有效地更新线性回归
我想在R中找到一种方法,以便在添加观察值或预测变量时有效地更新线性模型。在添加观察值时,biglm具有更新功能,但是我的数据足够小以驻留在内存中(尽管我确实有大量实例需要更新)。有一些方法可以赤手空拳,例如,更新QR因式分解(请参阅Hammarling和Lucas的“更新QR因式分解和最小二乘问题”),但我希望有一个现有的实现。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.