统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
回归中的Wald检验(OLS和GLM):t分布与z分布
我了解Wald回归系数检验基于渐近成立的以下属性(例如Wasserman(2006):All Statistics,第153、214-215页): 其中表示估计的回归系数,\ widehat {\ operatorname {se}}(\ hat {\ beta})表示回归系数的标准误差,\ beta_ {0}是相关值(\ beta_ {0}通常为0,以测试系数是否为与0明显不同)。这样大小\阿尔法 Wald检验是:拒绝H_ {0}时(β^- β0)SEˆ(β^)〜ñ(0 ,1 )(β^-β0)SE^(β^)〜ñ(0,1个) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}SEˆ(β^)SE^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}| w ^| > zα / 2|w ^|>žα/2|W|> z_{\alpha/2},其中 w ^= β^SEˆ(β^)。w ^=β^SE^(β^)。 W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. 但是,当您使用lmR 进行线性回归时,将使用ŤŤt值而不是žžz值来测试回归系数是否显着不同于0(带有summary.lm)。此外,glmR中的输出有时会给出žžz,有时会给出ŤŤt作为测试统计量。显然,假设色散参数已知时使用z值,而模拟色散参数则使用t值(请参阅此链接)。žžzŤŤt 有人可以解释一下,为什么即使系数和其标准误的比率被假定为标准正态分布,但有时还是将ŤŤt用于Wald检验? 回答问题后进行编辑 这篇文章还为问题提供了有用的信息。

3
为什么Lars和Glmnet为Lasso问题提供不同的解决方案?
我想更好地理解R封装Lars和Glmnet,这是用来解决问题的套索: (有关变量和样本,请参见第3页的www.stanford.edu/~hastie/Papers/glmnet.pdf)米我Ñ( β0β)∈ [Rp + 1[ 12 N∑我= 1ñ( y一世- β0- xŤ一世β)2+ λ | |β| |升1个]米一世ñ(β0β)∈[Rp+1个[1个2ñ∑一世=1个ñ(ÿ一世-β0-X一世Ťβ)2+λ||β||升1个]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppññN 因此,我将它们都应用于相同的玩具数据集。不幸的是,对于相同的数据输入,这两种方法不能提供相同的解决方案。有人知道差异的来源吗? 我得到的结果如下:生成一些数据(8个样本,12个特征,Toeplitz设计,所有内容都居中)之后,我使用Lars计算了整个套索路径。然后,我使用由Lars计算的lambda序列(乘以0.5)运行Glmnet,希望获得相同的解决方案,但我没有。 可以看到解决方案是相似的。但是我如何解释这些差异?请在下面找到我的代码。这里有一个相关的问题:用于计算LASSO解决方案的GLMNET或LARS?,但没有包含我的问题的答案。 设定: # Load packages. library(lars) library(glmnet) library(MASS) # Set parameters. nb.features <- 12 nb.samples <- 8 nb.relevant.indices <- 3 snr <- 1 nb.lambdas …

8
仅使用距离矩阵而不是按特征点数据执行K均值(或其近亲)聚类
我想对我拥有的对象执行K-均值聚类,但是这些对象并未描述为空间中的点,即按objects x features数据集。但是,我能够计算任何两个对象之间的距离(它基于相似度函数)。因此,我处理了距离矩阵objects x objects。 我之前已经实现了K-means,但这是通过点数据集输入实现的。而且在没有输入距离矩阵的情况下,我不清楚如何将群集更新为没有点表示的群集“中心”。通常如何做?为此,是否存在K均值或方法的版本?

4
您将如何设计一个机器学习系统来玩《愤怒的小鸟》?
在玩了太多《愤怒的小鸟》之后,我开始观察自己的策略。事实证明,我开发了一种非常具体的方法来使每个级别获得3星。 这让我想知道开发一个能够玩《愤怒的小鸟》的机器学习系统所面临的挑战。与游戏互动并发射鸟类是微不足道的。但是我有一个问题是关于系统的“构建块”。 机器学习系统似乎可以使用简单的概念或对该问题的理解。这通常被编码为要素作为输入。因此,系统似乎需要具有理解一些高级概念以生成策略的能力。 这是真的?另外,开发这样的系统有哪些挑战或困难部分? 编辑#1: 这里有一些澄清。获得3星是一个难题,因为您必须最大化积分。这可以通过两种非排他性的方式来完成:1)最小化使用的鸟类数量(每只未使用的鸟类获得10,000分)。2)最大程度地破坏玻璃,木材和其他物体。每个被破坏的物体都会给你分数。一只鸟有可能摧毁价值超过10,000点的物体。 这是有关“高级概念”的更多解释。为了最大化上述点,您需要使用每只鸟的特殊能力。因此,这意味着根据地图的布局发射具有不同轨迹的不同鸟类。并且,在比赛时,我制定了一种策略,该策略以特定顺序摧毁某些鸟类。 似乎,如果不了解如何使用每只鸟来破坏特定区域,系统将无法学会获得3星。那么,您如何管理和编码类似的东西?您如何确保系统可以学习这些高级概念?

1
类内相关性(ICC)是否可以进行交互?
假设我对每个站点的每个主题都有一些度量。就计算类内相关性(ICC)值而言,主题和地点这两个变量是令人关注的。通常,我会使用lmerR包中的函数lme4并运行 lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) 可以从上述模型中随机效应的方差获得ICC值。 但是,我最近读了一篇论文,这真的使我感到困惑。使用上述示例,作者在nlme程序包中使用函数lme计算了论文中的三个ICC值:一个用于主题,一个用于站点,一个用于主题与站点的交互。该文件未提供更多细节。我从以下两个角度感到困惑: 如何用lme计算ICC值?我不知道如何在lme中指定这三个随机效果(主题,站点及其交互)。 考虑将ICC用于主题和网站之间的交互真的有意义吗?从建模或理论角度来看,您可以进行计算,但是从概念上讲,我很难解释这种相互作用。

3
AIC或p值:选择哪种模型进行选择?
我是这R产品的新手,但不确定要选择哪种型号。 我进行了逐步前向回归,根据最低AIC选择每个变量。我提出了3个不确定的模型,这些模型是“最好的”。 Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09 我倾向于使用Model#3,因为它的AIC最低(我听过可以接受负值),并且p值仍然很低。 我已经运行了8个变量作为孵化质量的预测变量,发现这三个变量是最好的预测变量。 我的下一个前进方向是选择模型2,因为即使AIC稍大,p值也都较小。您是否同意这是最好的? Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: …

2
是否可以累积一组描述大量样本的统计信息,以便随后生成箱线图?
我必须马上我是一个执业软件开发者,而不是一个统计学家澄清,而我的大学统计类是一个很长的时间以前... 就是说,我想知道是否存在一种用于累积描述性统计信息的方法,然后可以使用该方法来生成箱线图,而这并不需要存储一堆单独的样本? 我想做的是在复杂的多队列过程中生成队列服务时间的图形摘要。过去我曾经使用过一个名为tnftools的程序包,该程序包可以累积大量样本,然后将其后处理为响应时间和异常值的图表。但是tnftools不适用于当前平台。 理想情况下,我希望能够在流程运行时“即时”累积一组描述性统计信息,然后提取数据以按需进行分析。但是我不能简单地让进程积累样本,因为这样做会涉及内存/ IO对系统性能产生无法接受的影响。

4
邵的留一法交叉验证的结果何时适用?
邵军在他的论文中通过交叉验证选择线性模型,表明对于多元线性回归中的变量选择问题,留一法交叉验证(LOOCV)的方法“渐近不一致”。用简单的英语来说,它倾向于选择变量太多的模型。Shao在模拟研究中表明,即使只有40个观察结果,LOOCV的表现也不能胜过其他交叉验证技术。 这篇论文有些争议,有些忽略了(发表10年后,我的化学计量学同事从未听说过,并且很乐意使用LOOCV进行变量选择...)。还有一种信念(对此我有罪),其结果超出了最初的有限范围。 那么问题是:这些结果延伸到多远?它们适用于以下问题吗? 逻辑回归/ GLM的变量选择? Fisher LDA分类的变量选择? 使用具有有限(或无限)内核空间的SVM进行变量选择? 比较模型中的分类,比如说使用不同内核的SVM? 比较线性回归模型,比如说将MLR与Ridge回归进行比较? 等等

5
评估分布差异的重要性
我有两组数据。每个变量都有不同的分布。我试图确定这两组的分布是否在统计上有意义。我既有原始格式的数据,又有binbined的数据,可以更轻松地处理每个频率计数的离散类别。 我应该使用什么测试/过程/方法来确定这两组是否存在显着差异,以及如何在SAS或R(或Orange)中进行测试?

1
随机变量生成的代数是什么意思?
通常,在我的统计(自学)过程中,我遇到过术语“由随机变量生成的代数”。我不了解Wikipedia上的定义,但最重要的是,我不了解它的直觉。为什么/何时需要由随机变量生成的代数?它们是什么意思?我知道以下几点:σσ\sigmaσ -σ−\sigma- 一 -代数上的一组是的子集的非空集其中包含,是根据补充和下可数工会关闭。σ Ω Ω Ωσ\sigmaΩ\OmegaΩ\OmegaΩ\Omega 我们引入代数在无限的样本空间上建立概率空间。特别是,如果是无穷无穷的,我们知道可能存在不可测量的子集(无法为它们定义概率的集合)。因此,我们不能仅使用的幂集作为事件集。我们需要一个较小的集合,该集合仍然足够大,以便我们可以定义有趣事件的概率,并且可以讨论随机变量序列的收敛。σ Ω Ω P(Ω )˚Fσ\sigmaΩ\OmegaΩ\Omega P(Ω)\mathcal{P}(\Omega)F\mathcal{F} 简而言之,我认为我对代数有一个相当直观的理解。我想对随机变量生成的代数有一个类似的理解:定义,我们为什么需要它们,直觉,一个示例...σ - σ -σ−\sigma-σ−\sigma-


3
为什么我们需要虚拟代码分类变量
我不确定为什么我们需要虚拟代码分类变量。例如,如果我有一个类别变量,它具有四个可能的值0、1、2、3,则可以用二维替换它。如果变量的值为0,则它​​在二维中的值为0,0,如果变量为3,则它在二维中的值为1,1,依此类推。 我不确定为什么我们需要这样做?

5
线性模型的假设以及残差不是正态分布时的处理方法
我对线性回归的假设有些困惑。 到目前为止,我检查了是否: 所有的解释变量都与响应变量线性相关。(就是这种情况) 解释变量之间存在共线性。(几乎没有共线性)。 我模型的数据点的库克距离小于1(这种情况是,所有距离都小于0.4,因此没有影响点)。 残差是正态分布的。(事实并非如此) 但是我然后阅读以下内容: 经常会因为(a)因变量和/或自变量的分布本身显着为非正态分布,和/或(b)违反线性假设而引起违反正态性的情况。 问题1 听起来好像自变量和因变量需要按正态分布,但据我所知并非如此。我的因变量以及我的一个自变量都不是正态分布的。应该是吗? 问题2 我的残差的QQ正态图如下所示: 这与正态分布略有不同,并且shapiro.test也拒绝了残差来自正态分布的原假设: > shapiro.test(residuals(lmresult)) W = 0.9171, p-value = 3.618e-06 残差与拟合值看起来像: 如果我的残差不是正态分布,该怎么办?这是否意味着线性模型完全没有用?

2
如何对时间序列进行聚类?
我有关于聚类分析的问题。有3000家公司,必须根据5年内的用电量进行分组。每个公司在5年中每小时都有价值。我想找出在一段时间内某些公司的使用功率模式是否相同。结果应用于每日用电量预测。如果您对如何在SPSS中对时间序列进行聚类有什么想法,请与我分享。

5
回归中不平衡数据的采样
关于在分类环境中处理不平衡数据一直存在很好的问题,但是我想知道人们如何做抽样以进行回归。 假设问题域对符号非常敏感,但对目标的大小仅敏感一些​​。但是,数量级非常重要,以至于模型应该是回归(连续目标)而不是分类(正与负分类)。并说在此问题域中,任何训练数据集的负面结果都比正面目标多10倍。 在这种情况下,我可能会对正目标示例进行过度采样以匹配负目标示例的数量,然后训练一个模型来区分这两种情况。显然,训练方法对不平衡数据的处理效果很差,因此我需要进行某种采样。在做出预测时,有什么体面的方法可以“撤消”这种过采样?也许用自然训练数据目标的(负)均值或中值进行翻译?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.