统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
测试光谱密度峰值的重要性
有时我们使用频谱密度图来分析时间序列中的周期性。通常,我们通过视觉检查来分析该图,然后尝试得出有关周期性的结论。但是,统计学家是否开发了任何测试来检查图中的峰值是否与白噪声在统计上有所不同?R专家是否开发了用于频谱密度分析和进行此类测试的软件包?如果有人可以帮助,那就太好了。 问候, 体育。

10
零假设是哪一个?科学理论,逻辑学和统计学之间的冲突?
我很难理解设定原假设的基本逻辑。在这个答案中,显然公认的命题被陈述为:零假设是不会有影响的假设,一切都会保持不变,也就是说,在阳光下没有新事物。 然后,另一种假设就是您试图证明的假设,例如,一种新药兑现了诺言。 现在从科学理论和一般逻辑学来的我们知道,我们只能伪造命题,我们无法证明某些东西(没有数量的白色天鹅可以证明所有天鹅都是白色的,但是一只黑天鹅可以证明它)。这就是为什么我们试图证明原假设的原因,这不等于证明替代假设-这就是我开始怀疑的地方-我将举一个简单的例子: 假设我想找出窗帘后面是哪种动物。不幸的是,我无法直接观察到该动物,但是我进行了一项测试,该测试使我知道了该动物的腿数。现在,我有以下逻辑推理: 如果动物是狗,那么它将有4条腿。 如果我进行测试并发现它有4条腿,则不能证明它是狗(可以是马,犀牛或任何其他4条腿的动物)。但是,如果我发现它没有四只脚,则可以肯定地证明它不能是狗(假设是健康的动物)。 转化为药物有效性,我想了解幕后药物是否有效。我唯一会得到的数字就是给我效果的数字。如果效果是肯定的,则没有任何证据(4条腿)。如果没有效果,我就证明该药的有效性。 我认为所有这些都与常识相反,唯一有效的零假设必须是 该药物有效(即:如果该药物有效,您将看到效果)。 因为这是我唯一可以反驳的事情-直到下一轮我会尝试更加具体,依此类推。因此,是由零假设来说明影响,而替代假设则是默认假设(无影响)。 为什么统计检验似乎使它倒退? PS:你甚至不能否定上述假设得到有效等价假说,所以你不能说“的药物是不是有效”的零假设,因为只有逻辑上等同的形式是“如果你看到没有效果的药物会不会是有效”一词,却无济于事,因为现在得出的结论就是您想要找到的! PPS:只是为了阅读到目前为止的答案,以供澄清:如果您接受科学理论,则只能伪造陈述而不能证明它们,唯一在逻辑上一致的是选择零假设作为新理论-然后可以伪造的。因为如果您伪造现状,您将一无所获(现状被反驳,但新理论远未得到证明!)。而且,如果您不能伪造它,那么您也不会处于更好的位置。

6
简单的线性回归输出解释
我对2个变量的自然对数进行了简单的线性回归,以确定它们是否相关。我的输出是这样的: R^2 = 0.0893 slope = 0.851 p < 0.001 我很困惑。查看R2R2R^2值,我会说两个变量不相关,因为它非常接近。但是,回归线的斜率几乎为(尽管看起来在图中几乎是水平的),并且p值表明回归非常显着。000111 这是否意味着这两个变量是高度相关?如果是这样,值表示什么?R2R2R^2 我应该补充一点,Durbin-Watson统计数据已在我的软件中进行了测试,并且没有拒绝原假设(等于)。我认为这测试了变量之间的独立性。在这种情况下,我希望变量是相关的,因为它们是单个鸟的测量。我将这种回归作为确定个人身体状况的已发布方法的一部分,因此我认为以这种方式使用回归是有意义的。但是,考虑到这些输出,我想也许对这些鸟来说,这种方法不合适。这似乎是一个合理的结论吗?1.3571.3571.357222222

2
转换比例数据:arcsin平方根不足时
对于百分比/比例数据,是否有(更强的)替代arcsin平方根的变换?在我目前正在处理的数据集中,应用此转换后仍存在明显的异方差性,即残差与拟合值的关系图仍然是菱形。 编辑以回应评论:数据是实验参与者的投资决定,他们可能以10%的倍数投资捐赠基金的0-100%。我还使用序数逻辑回归分析了这些数据,但想了解有效的glm会产生什么。另外,我认为答案对将来的工作很有用,因为反正弦方根似乎被用作我领域的一种“千篇一律”的解决方案,而且我没有遇到任何采用的替代方法。

2
是否使用结构方程模型分析心理学中的观察研究
我注意到这个问题在统计咨询设置中经常出现,我很想知道您的想法。 语境 我经常与进行研究的研究学生交谈,大致如下: 观察研究 样本大小可能是100、200、300等。 已经测量了多种心理量表(例如,焦虑,抑郁,性格,态度,其他临床量表,可能是智力等)。 研究人员已经阅读了相关文献,并对可能的因果关系有一些想法。通常,将变量一般概念化为前因,过程变量和结果变量。他们还经常听到结构方程建模更适合测试他们正在研究的变量集之间关系的整体模型。 题 您认为在什么条件下结构方程建模是分析此类研究的合适技术? 如果您不建议结构方程建模,您会推荐哪些替代技术? 对于考虑在这种情况下使用结构方程建模的研究人员,您将提供什么建议?

2
StackExchange问​​题的“趣味性”功能
该问题是从Mathematics Stack Exchange 迁移而来的,因为可以通过交叉验证来回答。 迁移 8年前。 我正在尝试为StackExchange网站整理一个数据挖掘程序包,尤其是,我一直试图确定“最有趣”的问题。我想使用问题分数,但是要消除由于观看次数而引起的偏见,但是我不知道如何严格地解决这一问题。 在理想世界中,我可以通过计算来对问题进行排序,其中是总投票数,是观看次数。毕竟,它将衡量支持该问题的人数的百分比,减去支持该问题的人数的百分比。 vñvñvn\frac{v}{n}vvvñnn 不幸的是,投票方式要复杂得多。投票趋于“平稳”到一定水平,这会大大低估广受欢迎的问题。实际上,具有1个视图和1个投票的问题肯定会比其他任何具有10,000个视图但票数少于10,000的问题得分更高。 我目前正在使用作为经验公式,但我想精确一点。我如何用严谨的数学方法解决这个问题?v日志n +1vlog⁡n+1\frac{v}{\log{n}+1} 为了解决一些评论,我将尝试以更好的方式重述该问题: 假设我有一个问题,共票,次观看。我希望能够估计当视图达到时,最有可能通过总票数进行投票。n 0 v 1 n 1v0v0v_0ñ0n0n_0v1个v1v_1ñ1个n1n_1 这样,我可以简单地为选择一个标称值,然后根据期望的总数对所有问题进行排序。对1ñ1个n1n_1v1个v1v_1 我在SO数据转储上创建了两个查询,以更好地显示我正在谈论的效果: 平均得分得分 结果: 平均观看次数得分(100次观看桶) 结果: 两个公式比较 结果,不确定更直是否更好:(蓝色为,红色为) vvñvn\frac{v}{n}v升Ò 克n +1vlogn+1\frac{v}{log{n}+1}

3
如何在R中建立和估计多项式logit模型?
我在JMP中运行了一个多项式logit模型,并返回了结果,其中包括AIC以及每个参数估计值的卡方p值。该模型具有一个分类结果和7个分类解释变量。 然后,我使用nnet包中的multinom函数来拟合我认为可以在R中构建相同模型的内容。 该代码基本上是: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); 但是,两者给出的结果不同。对于JMP,AIC为2923.21,nnet::multinom对于AIC为3116.588。 所以我的第一个问题是:其中一个模型有误吗? 第二件事是,JMP为我需要的每个参数估计值提供卡方的p值。在多项式fit1上运行摘要不会-仅给出估计值,AIC和偏差。 因此,我的第二个问题是:有没有一种方法可以获取模型的p值并在使用时进行估算nnet::multinom? 我知道mlogit是另一个R包,它的输出看起来包括p值。但是,我无法mlogit使用我的数据运行。我认为我的数据格式正确,但是它说我的公式无效。我使用了与以前相同的公式multinom,但似乎使用管道需要使用不同的格式,但我不知道它是如何工作的。 谢谢。
20 r  logistic  multinomial  logit  jmp 

2
选择季节性分解方法
季节性调整是预处理数据以进行进一步研究的关键步骤。但是,研究人员对于趋势周期-季节分解有多种选择。最常见的季节性分解方法(根据经验文献中的引用次数)是X-11(12)-ARIMA,Tramo / Seats(均在Demetra +中实现)和的stl。试图避免在上述分解技术(或其他简单方法,如季节性虚拟变量)之间随机选择,我想知道一种可以有效选择季节性分解方法的基本策略。[R[RR 几个重要的子问题(也欢迎进入讨论链接)可能是: 这些方法有什么异同,优点和缺点?在某些情况下,一种方法比其他方法更可取吗? 您能否提供有关不同分解方法黑匣子内部内容的一般指南? 是否有一些特殊的技巧为方法选择参数(我并不总是对默认值感到满意,stl例如,有许多参数需要处理,有时我觉得我不知道如何正确选择这些参数)。 是否有可能提出一些(统计)标准来对时间序列进行季节性有效调整(相关图分析,频谱密度,小样本量标准或鲁棒性?)。

1
关于《纽约时报》滥用统计方法的文章
我指的是这篇文章:http : //www.nytimes.com/2011/01/11/science/11esp.html 考虑以下实验。假设有理由相信硬币的重量略偏于头部。在测试中,硬币在1,000的硬币中冒出527次。 这是否是代币已加权的重要证据? 古典分析说是的。有了一个公平的硬币,在1,000次翻转中获得527个或更多的磁头的机会就小于传统分界点的20分之一或5%。换句话说,实验发现加权硬币的证据“具有95%的置信度”。 然而,许多统计学家并不买账。20个中的一个是一千次掷出526以上的任何头的概率。即,它是翻转概率527,翻转概率528、529等等的总和。 但是实验并未找到该范围内的所有数字。他们发现只有一个-527。因此,这些专家说,如果硬币被加权,则计算得到那个数字-527的概率会更准确,然后将硬币与获得相同数字的概率进行比较。公平。 统计学家保罗·斯派克曼(Paul Speckman)和心理学家杰夫·劳德(Jeff Rouder)一起提供了例子,统计学家可以证明这个比率不能高于4:1。 第一个问题:这对我来说是新的。有没有人提供我可以找到精确计算的参考,和/或您可以通过自己给我精确计算来帮助我,和/或您可以指出一些可以在其中找到相似示例的材料吗? 贝叶斯设计了一种方法,可以在出现新证据时更新假设的可能性。 因此,在评估给定发现的强度时,贝叶斯分析(发音为BAYZ-ee-un)会纳入研究以外的已知概率(如果有)。 它可能被称为“是的,正确的”效果。如果一项研究发现金橘可将心脏病风险降低90%,一种疗法可在一周内治愈酒精成瘾,敏感的父母生女孩的可能性是男孩的两倍,那么贝叶斯的反应与本地怀疑论者:是的,对。研究结果与世界上可观察到的结果进行权衡。 在至少一个医学领域–诊断筛选测试–研究人员已经使用已知的概率来评估新发现。例如,一项新的测谎测试可能具有90%的准确率,可以正确标记10个骗子中的9个。但是,如果将其提供给100个已知已经包括10个骗子的人群,那么这项测试的效果就不那么令人印象深刻了。 它可以正确识别10个撒谎者中的9个,并且错失1个;但错误地将其他90个中的9个标识为说谎。将所谓的“真实肯定”(9)除以测试标记的总人数(18),得出的准确率为50%。“假阳性”和“假阴性”取决于人口中已知的比率。 第二个问题:您如何用这种方法正确判断一个新发现是否“真实”?并且:由于使用了一些预先设定的先验概率,这是否不像5%屏障那样任意?

4
平均相关值
假设我测试了变量在不同实验条件下如何Y取决于变量X,并获得下图: 上图中的虚线表示每个数据系列(实验设置)的线性回归,图例中的数字表示每个数据系列的Pearson相关性。 我想之间计算“平均相关性”(或“平均关系”)X和Y。我可以简单地取平均值r吗?那么“平均确定标准” 呢?我应该计算平均值,然后取该值的平方,还是应该计算单个R 2的平均值?R2R2R^2rR2R2R^2


2
从惩罚回归模型估计R平方和统计显着性
我使用受罚的R包来获取数据集的压缩系数估计,在该数据集中,我有很多预测变量,而对于哪些预测变量很重要则知之甚少。在选择了调整参数L1和L2并且对系数感到满意之后,是否有一种统计上合理的方法来汇总模型拟合度(如R平方)? 此外,我对测试模型的整体重要性感兴趣(即R²= 0还是全部= 0)。 我已仔细阅读了此处提出的类似问题的答案,但并没有完全回答我的问题。我在这里使用的R包有一个很好的教程,作者Jelle Goeman在教程的最后有关于注释式回归模型的置信区间的以下注释: 要求回归系数或其他估计量的标准误差是一个很自然的问题。原则上,这种标准误差可以很容易地计算出来,例如使用引导程序。 尽管如此,该程序包还是故意不提供它们。这样做的原因是,标准误差对于严重偏差的估算(例如由惩罚估算方法产生的估算)不是很有意义。惩罚估计是一种通过引入实质性偏差来减少估计量方差的过程。因此,每个估计量的偏差都是其均方误差的主要组成部分,而其方差可能只占很小的一部分。 不幸的是,在惩罚回归的大多数应用中,不可能获得偏差的足够精确的估计。任何基于引导程序的计算都只能评估估计值的方差。仅当可获得可靠的无偏估计时,才可以使用偏差的可靠估计,而在使用罚分估计的情况下,情况通常并非如此。 因此,报告惩罚性估计的标准误差只能说明部分情况。它可能会给人以非常高的精度的错误印象,而完全忽略了由偏差引起的不准确性。做出仅基于估计方差评估的置信度声明,例如基于引导程序的置信区间,确实是一个错误。

2
分层模型中的Fisher信息
给定以下层次模型, 和 其中是正态分布。有没有办法来得到一个确切的表达式的边缘分布的Fisher信息给出Ç。也就是说,什么是Fisher信息: p(x | c)= \ int p(x | \ mu)p(\ mu | c)d \ mu 在给定c的情况下,我可以得到X的边际分布的表达式。但是区分wrt c然后接受期望似乎非常困难。我是否缺少明显的东西?任何帮助,将不胜感激。μ 〜大号一个p 升一Ç ë(0 ,Ç )Ñ(⋅ ,⋅ )X Ç p (X | C ^ )= ∫ p (X | μ )p (μ | C ^ )ð μ X ç çX∼N(μ,1),X∼N(μ,1), X \sim …

3
t平方的总和是多少?
对于中等大小的(例如小于100),让从具有自由度的Student t分布中得出。定义 是否几乎以具有自由度的卡方分布?平方随机变量的总和是否有类似中心极限定理的东西? Ñ Ñ Ť = Σ 1 ≤ 我≤ ķ吨2 我 Ť ķŤ一世tit_iñnnñnnŤ= ∑1 ≤ 我≤ ķŤ2一世T=∑1≤i≤kti2T = \sum_{1\le i \le k} t_i^2ŤTTķkk

2
如何在python matplotlib boxplot中命名刻度线
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 Python matplotlib有一个boxplot命令。 通常,图形的所有部分都用数字打勾。如何将刻度线改为名称而不是位置? 为了进行说明,我的意思是在此箱图中类似星期一星期二的标签:

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.