统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

30
有没有办法记住类型I和类型II错误的定义?
我不是受过教育的统计学家,而是软件工程师。然而统计数字很多。实际上,在我参加认证软件开发助理考试的过程中,很多关于类型I和类型II错误的问题出现了很多(数学和统计学占考试的10%)。我总是很难为I型和II型错误提出正确的定义-尽管我现在正在记住它们(并且大多数时间都可以记住它们),但我真的不想冻结这次考试试图记住有什么区别。 我知道类型I错误是假阳性,或者当您拒绝原假设时它是真的,而类型II错误是假否定,或者当您接受原假设并且它实际上是假时。 是否有一种简单的方法来记住区别是什么,例如助记符?专业统计学家如何做到这一点-他们只是通过经常使用或讨论而了解到什么? (旁注:这个问题可能可以使用一些更好的标签。我想要创建的一个标签是“术语”,但是我没有足够的声誉来做到这一点。如果有人可以添加它,那就太好了。谢谢。)

14
在线检测一般时间序列的异常值的简单算法
我正在处理大量时间序列。这些时间序列基本上是每10分钟进行一次网络测量,其中一些是周期性的(即带宽),而另一些则不是(即路由流量)。 我想要一种用于进行在线“异常值检测”的简单算法。基本上,我想将每个时间序列的整个历史数据保存在内存中(或保存在磁盘上),并且我想检测实时场景中的任何异常值(每次捕获一个新样本)。实现这些结果的最佳方法是什么? 我目前正在使用移动平均线来消除一些噪音,但是接下来呢?对整个数据集而言,诸如标准差,疯狂……之类的简单事情无法很好地工作(我不能假设时间序列是固定的),我想要更“准确”的东西,最好是一个黑匣子,例如: double outlier_detection(double *向量,double值); 其中vector是包含历史数据的double数组,返回值是新样本“ value”的异常得分。

2
我们应该对lme4中的收敛警告感到多么恐惧
如果我们重新装上一目了然的眼镜,我们可能会收到一条警告,告知我们该模型正在难以收敛...例如 >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) @Ben Bolker 在此线程中讨论的另一种检查收敛的方法是: relgrad <- with(model@optinfo$derivs,solve(Hessian,gradient)) max(abs(relgrad)) #[1] 1.152891e-05 如果max(abs(relgrad))可以,<0.001那么事情可能没事...所以在这种情况下,我们得出的结果相互矛盾?我们应该如何在方法之间进行选择,并通过模型拟合感到安全? 另一方面,当我们获得更多极限值时,例如: >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = …



2
鉴于当今计算机的强大功能,是否有理由进行卡方检验而不是费舍尔的精确检验?
鉴于如今软件可以轻松地进行Fisher精确检验的计算,在任何情况下,从理论上或实践上,卡方检验实际上都比Fisher精确检验更可取吗? Fisher精确测试的优点包括: 缩放到大于2x2的列联表(即任何r x c表) 给出精确的p值 不需要最小期望单元格数即可有效

3
“天真启动”失败的例子有哪些?
假设我有一组来自未知或复杂分布的样本数据,并且我想对数据的统计量进行一些推断。我的默认倾向是只生成一堆带有替换的引导程序样本,并在每个引导程序样本上计算我的统计量,以为创建一个估计分布。TTTTTTTTT 有哪些不好的主意示例? 例如,如果天真的执行此引导程序将失败,则是一种情况,如果我尝试对时间序列数据使用引导程序(例如,测试我是否具有显着的自相关)。我认为上述天真的引导程序(通过对原始序列进行替换并进行采样来生成第n个引导程序样本系列的第个数据点)是不明智的,因为它忽略了我的原始时间序列中的结构,因此我们获得更先进的引导程序技术,例如块引导程序。iii 换句话说,除了“替换抽样”之外,引导程序还有什么?

9
确切地说,置信区间是多少?
我大致和非正式地知道什么是置信区间。但是,我似乎无法围绕一个相当重要的细节:根据Wikipedia: 置信区间不能预测给定实际获得的数据,参数的真实值具有置信区间内的特定概率。 我还在该站点的多个地方也看到了类似的观点。同样来自维基百科的更正确的定义是: 如果在重复(可能不同)实验的许多单独数据分析中构建置信区间,则包含参数真实值的此类区间的比例将大致与置信度匹配 同样,我在该站点的多个地方也看到了类似的观点。我不明白 如果在重复实验中,包含真实参数的计算出的置信区间的分数为,那么为实际实验计算出的置信区间中的概率怎么可能不是吗?我在寻找以下内容:(1 - α )θ (1 - α )θθ\theta(1−α)(1−α)(1 - \alpha)θθ\theta(1−α)(1−α)(1 - \alpha) 澄清以上错误定义和正确定义之间的区别。 对置信区间的正式,精确的定义,清楚地表明了第一个定义错误的原因。 即使基础模型正确,但第一个定义明显错误的情况的具体示例。

9
有直观的解释为什么多重共线性是线性回归中的问题吗?
Wiki讨论了当多重共线性是线性回归中的一个问题时出现的问题。基本问题是多重共线性会导致参数估计不稳定,这使得很难评估自变量对因变量的影响。 我理解的问题背后的技术原因(可能无法反转,病态等),但我正在寻找这个问题的一个比较直观的(也许是几何?)的解释。X ' XX′XX′XX' XX′XX′XX' X 关于在线性回归的背景下多重共线性为什么有问题,是否存在一种几何的或也许其他易于理解的解释形式?

24
“现代”统计的经验法则
我喜欢G van Belle撰写的有关统计经验法则的书,在较小程度上,我喜欢Phillip I Good和James W. Hardin 撰写的统计学中的常见错误(以及如何避免错误)。当解释实验和观察研究的结果时,它们解决了常见的陷阱,并为统计推断或探索性数据分析提供了实用建议。但是我感到有些缺乏“现代”指南,特别是随着在各个领域中对计算和鲁棒统计的使用不断增长,或者在临床生物统计学或遗传流行病学等领域引入了机器学习社区的技术。 除了可以在其他地方解决的计算技巧或数据可视化中的常见陷阱之外,我想问一下:对于高效的数据分析,您建议的最高经验法则是什么?(请为每个答案制定一条规则)。 我正在考虑您可以向同事,没有统计学建模背景的研究人员或中高级课程的学生提供的指导原则。这可能与数据分析的各个阶段有关,例如采样策略,特征选择或模型构建,模型比较,后估计等。

16
相关在什么条件下暗示因果关系?
我们都知道,所有第一年统计专业的学生都鼓吹“不代表因果关系”的口头禅。有一些很好的例子在这里说明的想法。 但是有时候关联确实暗示了因果关系。以下示例摘自该Wikipedia页面 例如,可以对同一对双胞胎进行一项实验,这些双胞胎在其测试中始终获得相同的成绩。一对双胞胎被送去学习六个小时,而另一对被送往游乐园。如果他们的考试成绩突然出现较大差异,这将有力证据表明学习(或去游乐园)对考试成绩有因果关系。在这种情况下,学习分数和考试分数之间的相关性几乎可以肯定是因果关系。 还有其他情况下关联暗示因果关系吗?


4
如何为混合效果模型选择nlme或lme4 R库?
我使用lme4in 拟合了一些混合效果模型(尤其是纵向模型),R但希望真正掌握这些模型以及它们附带的代码。 但是,在双脚潜水(并购买一些书籍)之前,我想确保自己正在学习正确的图书馆。到目前为止,我已经用完lme4了,因为我发现它比容易得多nlme,但是如果nlme对我的目的更好,那么我应该使用它。 我敢肯定,两者都不是简单化的“更好”,但我会重视一些意见或想法。我的主要标准是: 易于使用(我是一名受过训练的心理学家,并不精通统计学或编码,但我正在学习) 拟合纵向数据的好功能(如果这里有区别,但这是我主要使用它们的目的) 好的(易于解释的)图形摘要,再次不确定这里是否有区别,但是我经常为技术水平不高的人制作图形,因此漂亮的清晰图总是很好的(我非常喜欢网格中的xyplot函数() 为此原因)。 和往常一样,希望这个问题不要太含糊,并在此先感谢您的智慧!


1
如何将神经网络应用于时间序列预测?
我是机器学习的新手,我一直在尝试找出如何将神经网络应用于时间序列预测。我发现了与查询有关的资源,但似乎仍然有些迷茫。我认为没有太多细节的基本解释会有所帮助。 假设我在几年中每个月都有一些价格值,并且我想预测新的价格值。我可以获取过去几个月的价格列表,然后尝试使用K-Nearest-Neighbor查找过去的类似趋势。我可以让他们使用变化率或过去趋势的其他属性来尝试预测新价格。我正在尝试找出如何将神经网络应用于相同的问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.