统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
R-对残留术语感到困惑
根均方误差 残差平方和 残留标准误差 均方误差 测试错误 我以为我曾经理解这些术语,但是我做统计问题的次数越多,我就越会感到困惑。我想要一些保证和具体的例子 我可以很容易地在网上找到这些方程式,但是我很难得到这些术语的“像我5岁时那样的解释”,因此我可以在脑海中清楚地看到它们之间的差异以及如何导致另一差异。 如果有人可以在下面使用此代码并指出如何计算这些术语中的每一个,我将不胜感激。R代码会很棒。 使用下面的示例: summary(lm(mpg~hp, data=mtcars)) 在R代码中向我展示如何查找: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ 像我5岁时解释这些区别/相似之处的加分点。例: rmse = squareroot(mss)

1
下采样会改变逻辑回归系数吗?
如果我有一个非常罕见的阳性类别的数据集,并且对阴性类别进行了下采样,然后执行逻辑回归,是否需要调整回归系数以反映我改变了阳性类别的患病率这一事实? 例如,假设我有一个包含4个变量的数据集:Y,A,B和C。Y,A和B是二进制的,C是连续的。对于11,100个观察,Y = 0,对于900个Y = 1: set.seed(42) n <- 12000 r <- 1/12 A <- sample(0:1, n, replace=TRUE) B <- sample(0:1, n, replace=TRUE) C <- rnorm(n) Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1) 给定A,B和C,我拟合了logistic回归来预测Y。 dat1 <- data.frame(Y, A, …

2
解释残差与拟合值的关系图,以验证线性模型的假设
考虑下Faraway的带有R的线性模型的图形(2005年,第59页)。 第一个图似乎表明残差和拟合值不相关,因为它们应该在具有正态分布误差的均线线性模型中。因此,第二和第三幅图似乎表明了残差和拟合值之间的相关性,提出了不同的模型。 但是,正如Faraway所述,为什么第二个图建议一个异方差线性模型,而第三个图建议一个非线性模型呢? 第二个图似乎表明残差的绝对值与拟合值强烈正相关,而在第三个图中没有明显的趋势。因此,从理论上讲,如果存在具有正态分布误差的异方差线性模型, 肺心病(ē,y^)=⎡⎣⎢⎢1个⋮1个⋯⋱⋯1个⋮1个⎤⎦⎥⎥肺心病(Ë,ÿ^)=[1个⋯1个⋮⋱⋮1个⋯1个] \mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right] (其中左侧的表达式是残差和拟合值之间的方差-协方差矩阵),这可以解释为什么第二和第三曲线与Faraway的解释一致。 但是是这样吗?如果不是,那么法拉威对第二和第三情节的解释又如何呢?另外,为什么第三幅图必然表示非线性?它是否可能是线性的,但是误差不是正态分布的,还是不是正态分布的,而是不以零为中心?

2
模型选择和交叉验证:正确的方法
CrossValidated中有许多关于模型选择和交叉验证的主题。这里有一些: 内部与外部交叉验证和模型选择 @DikranMarsupial 对特征选择和交叉验证的最佳答案 但是,这些线程的答案是相当通用的,并且大多突出了交叉验证和模型选择的特定方法的问题。 为了使事情尽可能具体,例如,假设我们正在使用带有RBF内核的SVM: ,并且我有一个特征X和标签y的数据集,我想ķ(x ,x′)= (γ| x − x′| )2K(x,x′)=(γ|x−x′|)2K(x, x' ) = (\gamma \, \vert x - x'\vert)^2 找到我的模型的最佳值(和çγγ\gammaCCC) 用我的数据集训练SVM(用于最终部署) 估计泛化误差和该误差周围的不确定性(方差) 为此,我将亲自进行网格搜索,例如,尝试和每种可能组合 。为简单起见,我们可以假设以下范围:γCCCγγ\gamma C∈ { 10 ,100 ,1000 }C∈{10,100,1000}C \in \{10, 100, 1000\} γ∈ { 0.1 ,0.2 ,0.5 ,1.0 }γ∈{0.1,0.2,0.5,1.0}\gamma \in \{0.1, 0.2, 0.5, 1.0\} 更具体地说,使用我的完整数据集,我可以执行以下操作: …

2
Benjamini&Hochberg(1995)和Benjamini&Yekutieli(2001)错误发现率程序之间的实际区别是什么?
我的统计程序同时执行了Benjamini&Hochberg(1995)和Benjamini&Yekutieli(2001)的错误发现率(FDR)程序。我已经尽力阅读了以后的文章,但是它在数学上相当密集,并且我不确定我是否理解这些过程之间的区别。从统计程序的基础代码中,我可以看到它们确实有所不同,并且后者包括我所看到的有关FDR的数量q,但还不太了解。 有没有理由更喜欢Benjamini&Hochberg(1995)程序而不是Benjamini&Yekutieli(2001)程序?他们有不同的假设吗?这些方法之间的实际区别是什么? 本杰米尼(Y.)和霍奇伯格(Y.)(1995)。控制错误发现率:一种实用且功能强大的多重测试方法。皇家统计协会杂志系列B,57,289-300。 Benjamini,Y.和Yekutieli,D.(2001)。依赖项下多重测试中错误发现率的控制。统计年鉴29,1165年至1188年。 以下评论中引用了1999年的论文:Yekuteli,D.和&Benjamini,Y.(1999)。基于重采样的错误发现率可控制多个测试过程以实现相关的测试统计信息。统计计划与推断杂志,82(1),171-196。



3
因变量的正态性=残差的正态性?
这个问题似乎一直在抬头,我出于我对统计(和理智!)的理解而试图将其斩首。 一般线性模型的假设(t检验,ANOVA,回归等)包括“正态性假设”,但我发现很少对此进行清楚地描述。 我经常碰到统计教科书/手册等,只是简单地指出“正态性假设”适用于每个组(即X类分类变量),我们应该检查每个组与正态性的背离。 问题: 假设是指Y 的值还是Y的残差? 对于特定的组,是否可能具有强烈的Y 值非正态分布(例如,偏斜),但是Y 残差的近似(或更正态分布)呢? 其他资料表明,该假设与模型的残差有关(在存在组的情况下,例如t检验/ ANOVA),我们应该检查这些残差的正态性偏离(即,只有一个QQ图/检验与跑)。 不残差的正态模型意味着残差的正态群体?换句话说,我们是否应该仅检查模型残差(与许多文本中的说明相反)? 为了说明这一点,请考虑以下假设示例: 我想比较两个种群(X)之间的树高(Y)。 在一个种群中,Y的分布强烈向右偏斜(即,大多数树短而高的树很少),而另一种实际上是正常的 总体而言,身高在正态分布的人群中较高(建议可能存在“实际”差异)。 数据转换并不能大大改善第一批人口的分布。 首先,比较完全不同的高度分布的组是否有效? 我在这里如何处理“正常性假设”?一个人群的召回身高不是正态分布。难道我检查残差两个群体单独或残差的模型(t检验)? 请在答复中按数字提及问题,经验表明我很容易迷路或迷路(尤其是我!)。请记住,我不是统计学家。尽管我对统计数据有一个合理的概念(即非技术性!)理解。 PS,我已经搜索了档案并阅读了以下没有巩固我的理解的主题: 方差分析假设正态性/残差的正态分布 残差与样本数据的正态性;那么t检验呢? 正常性测试“基本上没有用”吗? 测试正常性 评估分配的正态性 我使用什么测试来确认残差呈正态分布? 当Kolmogorov-Smirnov检验对于参数检验的残差很显着但偏度和峰度看起来很正常时,该怎么办?

3
多次插补后的倾向得分匹配
我指的是这篇文章:Hayes JR,Groner JI。 “使用多个归因和倾向评分,通过创伤登记数据来测试汽车座椅和安全带的使用对伤害严重性的影响。” J Pediatr外科。2008年5月; 43(5):924-7。 在这项研究中,进行了多次插补以获得15个完整的数据集。然后为每个数据集计算倾向得分。然后,对于每个观察单位,从完成的15个数据集中的一个数据集中随机选择一个记录(包括相关的倾向得分),从而创建一个最终的数据集,然后通过倾向得分匹配对其进行分析。 我的问题是:在多次插补之后执行倾向得分匹配的有效方法吗?有其他替代方法吗? 对于上下文:在我的新项目中,我旨在比较使用倾向得分匹配的两种治疗方法的效果。缺少数据,我打算使用MICER中的包来估算缺失值,然后twang进行倾向得分匹配,然后lme4分析匹配的数据。 更新1: 我发现这个纸,它采用不同的方法:米特拉,Robin和莱特尔,杰罗姆P.缺少经由迭代协变量(2011)倾向评分匹配,顺序的多个插补[工作文件] 在本文中,作者计算了所有估算数据集的倾向得分,然后通过平均将其合并,这符合使用鲁宾规则进行点估算的多次插补的精神-但这真的适用于倾向得分吗? 如果CV上的任何人都可以对这两种不同的方法和/或任何其他方法提供评论并给出答案,那真是太好了。

5
神经网络训练的反向传播与遗传算法
我已经阅读了几篇论文,讨论了每种方法的优缺点,有些人认为GA在寻找最佳解决方案方面没有任何改进,而另一些则表明它更有效。似乎在文献中一般首选GA(尽管大多数人以某种方式对其进行了修改以实现所需的结果),那么为什么大多数软件解决方案似乎仅使用反向传播? 使用一种或另一种时是否有一些一般的经验法则?也许这取决于NN的类型,或者存在一些通常优于其他解决方案的最新解决方案? 如果可能的话,我正在寻找一般的答案:即,“如果NN很大,则GA会更好”,或者“ GA总是会更好,但存在计算性能问题”等。

3
如何测试随机效应是否显着?
我试图了解何时使用随机效果以及何时不必要。有人告诉我一个经验法则,就是我是否有4个或更多的小组/个人(15个驼鹿)。其中的一些麋鹿经过2到3次实验,共进行了29次试验。我想知道当它们处于较高风险环境时,它们的行为是否有所不同。因此,我认为我会将个人设为随机效果。但是,现在我被告知,没有必要将个人作为随机效应包括在内,因为他们的反应变化不大。我无法弄清楚的是,在将个人设为随机效果时,如何测试是否确实需要考虑某些因素。也许最初的问题是:如果个人是一个很好的解释变量,并且应该是固定的效果-qq图,我可以做哪些测试/诊断?直方图?散点图?我会在这些模式中寻找什么。 我使用个体作为随机效果运行模型,不使用个体运行,但是随后我阅读了http://glmm.wikidot.com/faq,其中指出: 不要将lmer模型与相应的lm拟合或glmer / glm进行比较;对数似然不相称(即,它们包括不同的加法项) 在这里,我认为这意味着您无法在具有或没有随机效应的模型之间进行比较。但是我真的不知道该如何比较它们。 在具有随机效应的模型中,我还试图查看输出以查看RE具有什么样的证据或意义。 lmer(Velocity ~ D.CPC.min + FD.CPC + (1|ID), REML = FALSE, family = gaussian, data = tv) Linear mixed model fit by maximum likelihood Formula: Velocity ~ D.CPC.min + FD.CPC + (1 | ID) Data: tv AIC BIC logLik deviance REMLdev -13.92 -7.087 11.96 …

3
广义线性模型与广义线性混合模型之间的差异
我想知道混合GLM和未混合GLM之间有什么区别。例如,在SPSS中,下拉菜单允许用户适应以下任一情况: analyze-> generalized linear models-> generalized linear models 和 analyze-> mixed models-> generalized linear 他们对缺失值的处理方式不同吗? 我的因变量是二进制,并且我有几个分类的和连续的自变量。

5
您可以通过使用CV / Bootstrap训练机器学习算法来过度拟合吗?
这个问题很可能是开放性的,无法得出明确的答案,但希望不会。 机器学习算法(例如SVM,GBM,Random Forest等)通常具有一些免费参数,除了一些经验法则之外,还需要针对每个数据集进行调整。通常使用某种重新采样技术(引导程序,CV等)来完成此过程,以适应给出最佳泛化误差的参数集。 我的问题是,你可以在这里走得太远吗?人们都在谈论进行网格搜索,但是为什么不简单地将其视为优化问题并向下钻取最佳参数集呢?我在这个问题中询问了一些有关此问题的机制,但是并没有引起太多关注。也许这个问题被问得很严峻,但也许问题本身代表了人们通常不会采取的一种不好的做法? 困扰我的是缺乏正规化。通过重新采样,我可能会发现,对于该数据集,GBM中生长的最佳树木数量为647,交互深度为4,但是我如何确定新数据确实如此(假设新种群)与训练集相同)?由于没有合理的“缩水”价值(或者如果您愿意,也没有提供任何先验信息),重新采样似乎是我们可以做的最好的事情。我只是没有听到任何有关此事的消息,所以让我想知道是否缺少某些东西。 显然,要进行多次迭代以将模型的最后预测能力压缩出去,会产生大量的计算成本,因此,如果您有足够的时间/精力来进行优化和每一位操作,那么显然这是您要执行的操作性能改善是很有价值的。

4
数据有两个趋势。如何提取独立的趋势线?
我有一组数据,这些数据不是以任何特定的方式排序的,但是在绘制时显然具有两个不同的趋势。由于两个系列之间有明显区别,因此简单的线性回归在此实际上并不足够。是否有一种简单的方法来获取两个独立的线性趋势线? 作为记录,我使用Python,并且对编程和数据分析(包括机器学习)相当满意,但在绝对必要的情况下愿意跳到R。

4
X和Y没有相关性,但是X是多元回归中Y的重要预测因子。这是什么意思?
X和Y不相关(-.01);但是,当我将X放入预测Y的多元回归中时,与其他三个(A,B,C)变量(相关)并列,X和另外两个变量(A,B)是Y的重要预测因子。请注意,另外两个( A,B)变量在回归之外与Y显着相关。 我应该如何解释这些发现?X可以预测Y的唯一方差,但是由于这些不相关(Pearson),因此难以解释。 我知道相反的情况(即,两个变量是相关的,但回归不显着),从理论和统计的角度来看,它们相对较容易理解。请注意,一些预测变量之间的相关性很高(例如,.70),但与我预期的实质多重共线性的程度不同。不过,也许我误会了。 注意:我之前曾问过这个问题,所以已经关闭了。合理的理由是,该问题与“ 回归如何显着而所有预测变量都不显着? ”这样的问题是多余的。“。也许我不理解另一个问题,但我认为这些问题在数学和理论上都是完全独立的问题。我的问题与“回归显着”是否完全独立。此外,有几个预测变量也很重要,而另一个问题包含的变量并不重要,因此我看不到重叠之处。如果由于我不理解的原因这些问题是多余的,请在关闭此问题之前插入一条评论。此外,我也希望向主持人关闭另一个问题,以避免相同的问题,但我找不到这样做的选择。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.