统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

9
如何在lme4混合模型中获得效果的p值(检查显着性)?
我在R中使用lme4来适应混合模型 lmer(value~status+(1|experiment))) 价值是连续的,状态和实验是因素,我得到 Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance Std.Dev. experiment (Intercept) 0.065526 0.25598 Residual 0.053029 0.23028 Number of obs: 264, groups: experiment, 10 Fixed effects: Estimate …

6
可以使用哪种方法检测数据的季节性?
我想检测收到的数据的季节性。我发现了一些方法,例如季节性子序列图和自相关图,但问题是我不了解如何读取图表,有人可以帮忙吗?另一件事是,是否有其他方法可以在有或没有图形的最终结果的情况下检测季节性?


12
从图形中抓取数据所需的软件
任何人都具有使用软件(最好是免费的,最好是开放源代码)的经验,该软件将拍摄在笛卡尔坐标上绘制的数据图像(标准的日常绘制),并提取图中绘制的点的坐标? 本质上,这是一个数据挖掘问题和一个反向数据可视化问题。

13
过去15年的统计领域有哪些突破?
我仍然记得Friedman-Hastie-Tibshirani撰写的《统计年鉴》中关于提振的文章,以及其他作者(包括Freund和Schapire)对相同问题的评论。那时,显然Boosting在许多方面都被视为突破:计算上可行,一种集成方法,具有出色而神秘的性能。大约在同一时间,SVM逐渐成熟,它提供了以坚实的理论为基础并具有大量变体和应用程序的框架。 那是在奇妙的90年代。在过去的15年中,在我看来,很多统计工作都是清理和细化工作,但很少有真正新的观点。 所以我会问两个问题: 我错过了一些革命性的论文吗? 如果没有,您认为有没有新方法可以改变统计推断的观点? 规则: 每个帖子一个答案; 欢迎参考或链接。 PS:我有几个候选人有望取得突破。我稍后再发布。



6
R中使用哪种置换测试实现代替t检验(配对和非配对)?
我有使用t检验分析的实验数据。对因变量进行间隔缩放,并且数据不成对(即2组)或成对(即对象内)。例如(主题内): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, 89.5, 99.5, 100, 99.5) y1 <- c(99, 99.5, 99.5, 0, 50, 100, 99.5, 99.5, 0, 99.5, 99.5, 90, 80, 0, 99, 0, 74.5, 0, 100, 49.5) 但是,数据并不正常,因此一位评论者要求我们使用t检验以外的其他方式。但是,很容易看出,数据不仅不呈正态分布,而且在不同条件之间分布也不相等: 因此,不能使用常规的非参数检验,Mann-Whitney-U检验(成对)和Wilcoxon检验(成对),因为它们要求条件之间的分布相等。因此,我认为最好进行一些重采样或置换测试。 现在,我正在寻找基于t检验的基于置换的R实现,或有关如何处理数据的任何其他建议。 我知道有一些R包可以帮我做到这一点(例如硬币,烫发,exactRankTest等),但我不知道该选哪个。因此,如果有一些使用这些测试的经验的人可以给我一个快速的开始,那将是ubercool。 更新:如果您可以提供一个如何报告此测试结果的示例,那将是理想的。

5
计量经济学中的“随机效应模型”与计量经济学之外的混合模型有何关系?
我曾经认为计量经济学中的“随机效应模型”对应于计量经济学之外的“带有随机截距的混合模型”,但是现在我不确定。可以? 计量经济学使用的“固定效应”和“随机效应”等术语与混合模型的文献有些不同,这引起了众所周知的混乱。让我们考虑一个简单的情况,其中yyy线性依赖于xxx但是在不同的测量组中截距不同: yit=βxit+ui+ϵit.yit=βxit+ui+ϵit.y_{it} = \beta x_{it} + u_i + \epsilon_{it}. 在这里,每个单位/组iii在不同的时间点观察到ttt。计量经济学家称其为“面板数据”。 在混合模型术语中,我们可以将uiuiu_i视为固定效应或随机效应(在这种情况下,它是随机截距)。把它当作固定装置嵌合β和ü我以最小化均方误差(即运行OLS回归与虚设组变量)。处理它,我们还假定作为随机手段ü 我〜Ñ(Û 0,σ 2 ù),并使用最大可能性,以适应ü 0和σ 2 Ù代替各嵌合ù 我β^β^\hat \betau^iu^i\hat u_iui∼N(u0,σ2u)ui∼N(u0,σu2)u_i\sim\mathcal N(u_0,\sigma^2_u)u0u0u_0σ2uσu2\sigma^2_uuiuiu_i在其自己的。这导致“局部集中”的效应,其中估计ü我得到朝缩水它们的平均ü 0。u^iu^i\hat u_iu^0u^0\hat u_0 R formula when treating group as fixed: y ~ x + group R formula when treating group as random: y ~ x + (1|group) …

8
如何模拟满足特定约束(例如具有特定均值和标准偏差)的数据?
这个问题是由我的荟萃分析问题引起的。但是我想这对于在您要创建与现有已发布数据集完全相同的数据集的教学环境中也很有用。 我知道如何从给定的分布中生成随机数据。因此,例如,如果我读到了一项研究的结果,该研究具有: 平均102 标准偏差5.2 样本大小为72。 我可以rnorm在R中使用生成类似的数据。例如, set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) 当然,平均值和标准差将分别不完全等于102和5.2: round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 通常,我对如何模拟满足一组约束的数据感兴趣。在上述情况下,约束条件是样本大小,均值和标准差。在其他情况下,可能会有其他限制。例如, 可能知道数据或基础变量的最小值和最大值。 可能已知该变量仅采用整数值或仅采用非负值。 数据可能包含具有相互关系的多个变量。 问题 通常,我该如何模拟完全满足一组约束的数据? 是否有关于此的文章?R中是否有任何程序可以做到这一点? 为了举例说明,我应该并且应该如何模拟变量,使其具有特定的均值和sd?

2
关于变量选择的更明确的讨论
背景 我正在从事医学临床研究,并参加了一些统计学课程。我从未发表过使用线性/逻辑回归的论文,而是想正确地进行变量选择。可解释性很重要,因此没有花哨的机器学习技术。我总结了我对变量选择的理解-有人介意消除任何误解吗?我发现有两(1)个与此(2 )类似的简历,但他们并未完全回答我的担忧。任何想法将不胜感激!最后我有3个主要问题。 问题与讨论 我的典型回归/分类问题有200-300个观察值,不良事件发生率为15%(如果分类),以及40个变量中的25个的信息,这些变量在文献中被认为具有“统计学上的显着”效果或具有说服力。领域知识。 我用引号表示“具有统计意义”,因为似乎每个人及其母亲都使用逐步回归,但是出于许多充分的理由,Harrell(3)和Flom(4)似乎并不喜欢它。Gelman博客文章讨论进一步支持了这一点(5)。似乎唯一可以接受的实时步骤是真正的探索性分析,或者是对预测感兴趣并且涉及交叉验证方案。尤其是由于许多医学上的合并症都存在共线性,而研究的样本量却很小,所以我的理解是,文献中会出现很多假阳性。这也使我不太可能相信文献中可能包含的变量。 另一种流行的方法是使用预测变量和自变量之间的一系列单变量回归/关联作为起点。低于特定阈值(例如,p <0.2)。由于本StackExchange帖子(6)中概述的原因,这似乎不正确或至少具有误导性。 最后,一种在机器学习中流行的自动化方法是使用惩罚,例如L1(Lasso),L2(Ridge)或L1 + L2组合(Elastic Net)。我的理解是,它们没有像OLS或逻辑回归那样简单的解释。 Gelman + Hill提出以下建议: 在统计课程中,我还记得使用F检验或“偏差分析”来比较完整模型和嵌套模型,以逐个变量地进行模型/变量选择。这似乎是合理的,但系统地拟合顺序嵌套模型以查找导致每df偏差最大下降的变量似乎很容易实现自动化(因此我有点担心),而且似乎还遇到了以下问题:您测试变量包含。我的理解是,还应该通过研究多重共线性和残差图(残差图与预测图)来补充这一点。 问题: 盖尔曼摘要是要走的路吗?您会在他的拟议策略中增加或改变什么? 除了纯粹考虑潜在的交互作用和转换(似乎很容易产生偏见/错误/遗漏)之外,还有另一种方法来发现潜在的交互作用和转变吗?向我推荐了多变量自适应回归样条(MARS),但我得知非线性/变换在标准回归模型中不会转化为相同的变量。 假设我的目标非常简单:说:“我想估计X1与Y的关联,仅考虑X2”。简单地使Y〜X1 + X2回归,报告结果,而不参考实际的预测能力是否足够(可以通过交叉验证RMSE或准确性度量来测量)是否足够?是否会根据事件发生率或样本大小或R ^ 2是否过低而改变(我知道R ^ 2不好,因为您总是可以通过过度拟合来增加它)?通常,我对推理/可解释性比优化预测能力更感兴趣。 结论示例: “控制X2,相对于X1的参考水平,X1与Y在统计上没有显着相关。” (逻辑回归系数) “ X1并不是Y的统计显着预测因子,因为在模型中相对于df的变化,偏差的下降还不够。” (偏差分析) 是否总是需要交叉验证?在这种情况下,可能还需要通过SMOTE,采样等对类进行某种平衡。


10
统计中的过时做法有哪些例子?
我指的是仍能保留其存在的做法,即使它们旨在解决的问题(通常是计算性问题)已基本解决。 例如,发明了Yates的连续性校正可以近似于测试的Fisher精确测试,但是由于软件现在甚至可以处理大量样本,也可以处理Fisher的测试,因此不再实用(我知道这可能不是“保持其存在”,因为像Agresti的“ 分类数据分析 ”这样的教科书经常承认“不再需要Yates的修正”)。χ2χ2\chi^2 这种做法还有哪些其他示例?

1
逻辑回归的Wald检验
据我所知,逻辑回归中的Wald检验用于确定某个预测变量XXX是否显着。它拒绝了相应系数为零的零假设。 该测试包括将系数的值除以标准误差σσ\sigma。 我感到困惑的是X/ σX/σX/\sigma也称为Z分数,它表示给定观察值从正态分布(均值为零)出现的可能性。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.