统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
如何在线性回归中解释系数标准误差?
我想知道在R中使用显示功能时如何解释回归的系数标准误。 例如,在以下输出中: lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = 40, k = 3 residual sd = 0.90, R-Squared = 0.97 更高的标准误差是否意味着更大的意义? 同样对于残留标准偏差,较高的值表示较大的扩展,但是R平方显示出非常接近的拟合度,这不是矛盾吗?

4
网格线和灰色背景是否杂乱无章,是否应仅在例外情况下使用?
似乎大多数主管部门都同意,根据任何合理的定义,地块中的深色或其他突出的网格线都是“垃圾邮件”,并分散了查看者对图表主体中消息的注意力。因此,我不会为这一点提供参考。 同样,我们都同意,会有那个时代苍白网格线,以创建参考观众将是必要的。正如本文所指出的,Tufte认为偶尔需要(和使用)网格线。我同意ggplot2中Hadley Wickham的方法,在需要使用这些网格线时,可以在浅灰色背景上将其变为白色。 但是我不确定的是,是否像ggplot2一样,这些网格线和灰色背景是否应为默认值。例如,除了将白色网格线浮雕化以外,似乎没有其他理由使用灰色背景-这进一步引出了是否需要其中一个的问题。我最近开始使用ggplot2满足我的大多数图形需求,并且认为它很棒,但它对我以前使用的图形的“无框,无背景,无网格线”方法提出了挑战。我曾经认为这gridlines=OFF应该是我的默认设置,除非有特殊的原因要添加它们-例如,基本上是本文推荐的方法。 当然,在ggplot2中定义主题很简单,以避免出现网格线和背景阴影(事实上,我们已经在我的工作中做到了这一点),但是ggplot2的方法太棒了,通常它的默认美学选择很好,我想知道是否我想念一些东西。 所以-对于这一点的任何参考,我将不胜感激。我确信它已经经过了深思熟虑(例如,Hadley Wickham在设置ggplot2默认值时),而且我很乐意指出正确的方向。我能找到的最好的是ggplot2 Google网上论坛上的几个链接,但是在给定的链接上没有克利夫兰最有用的参考。

2
创建综合数据集的一些标准做法是什么?
作为上下文:当处理非常大的数据集时,有时会问我们是否可以创建一个综合数据集,以“了解”预测变量与响应变量之间的关系,或预测变量之间的关系。 多年来,我似乎遇到了一次性的综合数据集(看起来像是临时创建的),或者遇到了结构化的数据集,这些数据集特别适合研究人员提出的建模方法。 我相信我正在寻找创建综合数据集的标准方法。尽管引导重采样是创建综合数据集的一种常用方法,但它不满足我们 先验知道结构的条件。此外,与其他交换引导程序样本本质上需要交换数据,而不是数据生成方法。 如果我们可以将参数分布拟合到数据中,或者找到足够接近的参数化模型,那么这就是我们可以生成综合数据集的一个示例。 还有什么其他方法?我对高维数据,稀疏数据和时间序列数据特别感兴趣。对于高维数据,我将寻找可以生成感兴趣的结构(例如协方差结构,线性模型,树等)的方法。对于时间序列数据,来自FFT,AR模型或各种其他过滤或预测模型的分布似乎是一个开始。对于稀疏数据,再现稀疏模式似乎很有用。 我相信这些只是表面上的内容-这些是启发式的,不是正式的做法。是否有参考或资源来生成从业人员应了解的综合数据? 注意1:我意识到这个问题是针对文献的,该文献如何像一个特定的时间序列模型那样生成数据。这里的区别在于实践,特别是为了指示已知结构(我的问题),而不是与现有数据集的相似性/保真度。在我的情况下,不必像已知结构一样具有相似性,尽管相似性比不相似性更受重视。模型显示有希望的奇特的综合数据集比现实的模拟更受青睐。 注2:维基百科关于综合数据的条目指出,鲁宾和费恩伯格等名人已经解决了这个问题,尽管我没有找到最佳实践的参考。知道诸如《应用统计年鉴》(或《 AOS》)或这些或其他期刊的评论工作将使哪些事情通过会很有趣。用简单而异想天开的术语,人们可能会问,“(可以接受)煮熟”和“煮得太熟”之间的界限在哪里存在? 注3:尽管它不会影响问题,但使用场景是对各种大型,高维数据集进行建模,其中研究议程是学习(通过人和机器;-)数据的结构。与单变量,双变量和其他低维方案不同,该结构不容易推断。随着我们对结构的深入了解,能够生成具有相似属性的数据集是很重要的,以便了解建模方法如何与数据交互(例如,检查参数稳定性)。但是,有关低维合成数据的较旧指南可能是一个起点,可以扩展或适用于高维数据集。

9
测量基于逻辑回归的模型的准确性
我有一个训练有素的逻辑回归模型,该模型将应用于测试数据集。因变量是二进制(布尔值)。对于测试数据集中的每个样本,我应用逻辑回归模型来生成因变量为true的概率百分比。然后我记录实际价值是对还是错。我正在尝试计算线性回归模型中的或Adjusted数字。R 2[R2R2R^2[R2R2R^2 这为我提供了测试集中每个样本的记录,例如: prob_value_is_true acutal_value .34 0 .45 1 .11 0 .84 0 .... .... 我想知道如何测试模型的准确性。我的第一个尝试是使用列联表,并说“如果prob_value_is_true> 0.80,则猜测实际值为真”,然后测量正确分类与错误分类的比率。但我不喜欢这样,因为感觉更像是我只是以0.80为边界进行评估,而不是整个模型以及所有prob_value_is_true值的准确性。 然后,我尝试仅查看每个prob_value_is_true离散值,例如查看prob_value_is_true= 0.34的所有样本,并测量实际值是真实的那些样本的百分比(在这种情况下,如果样本的百分比为%,则将具有完美的准确性正确= 34%)。我可以通过将的每个离散值的差值相加来创建模型准确性得分prob_value_is_true。但是这里的样本大小是一个巨大的问题,尤其是对于极端情况(接近0%或100%),这样实际值的平均值就不准确,因此使用它们来衡量模型的准确性似乎并不正确。 我什至尝试创建巨大的范围以确保足够的样本量(0-.25,.25-.50,.50-.75,.75-1.0),但是如何测量实际值的%的“好” 。假设所有prob_value_is_true介于0.25和0.50之间的样本的平均值acutal_value为0.45。既然在范围内,那好吗?不好,因为它不在37.5%(范围的中心)附近? 因此,我被困在似乎应该是一个简单的问题上,希望有人可以将我指向一种资源或方法,以计算逻辑回归模型的静态精度。


6
我是由1300年出生的某个人继承而来的可能性有多大?
换句话说,基于以下内容,p是多少? 为了使这成为数学问题,而不是人类学或社会科学问题,并简化该问题,假定在整个人口中选择同伴的概率相同,除了兄弟姐妹和第一代表亲从未交配,并且总是从同一个中选择同伴代。 n1n1n_1初始人口 ggg数代。 ccc每对夫妇的平均子女数。(如果需要答案,请假设每对夫妇的子女数完全相同。) zzz没有孩子并且不被视为伴侣的人口百分比。 n 2 zn2n2n_2人口。(应该给出或,(我认为)可以计算出另一个。)n2n2n_2zzz ppp最终一代中某人成为初始一代中特定人的后代的概率。 这些变量当然可以更改,省略或添加。为了简单起见,我假设和不会随时间变化。我意识到这将得到一个非常粗略的估计,但这是一个起点。ccczzz 第2部分(建议进一步研究): 您如何认为未以全局一致的概率选择伴侣?实际上,伴侣更有可能具有相同的地理区域,社会经济背景,种族和宗教背景。如果不研究此问题的实际概率,这些因素的变量将如何发挥作用?这有多重要?

3
MANOVA和重复测量方差分析之间的区别?
在某些因素(例如实验条件)下重复测量ANOVA与MANOVA有什么区别? 尤其是我偶然发现的一个网站提出,MANOVA不能像重复测量ANOVA那样对球形度做出相同的假设,对吗? 如果是这样,为什么不总是使用MANOVA? 我试图对多个DV进行重复测量方差分析,什么是合适的方法?

3
用很小的样本量(例如n = 6)测试正态性是否有意义?
我的样本大小为6。在这种情况下,使用Kolmogorov-Smirnov检验来检验正态性是否有意义?我使用了SPSS。我的样本量很小,因为获取每个样本都需要时间。如果没有意义,那么最低数量的样本中有多少个是有意义的测试? 注意: 我做了一些与源代码有关的实验。该样本是在一个版本的软件(版本A)中编码所花费的时间。 实际上,我的样本量为6,这是在另一个版本的软件(版本B)中所编码的时间。 我想使用一样本t检验进行假设检验,以测试在代码版本A中花费的时间与在代码版本B中花费的时间是否不同(这是我的H1)。一次样本t检验的前提是要测试的数据必须正态分布。这就是为什么我需要测试正常性。

7
测试矩阵列之间的线性相关性
我有一个行列式为零的安全收益相关矩阵。(这有点令人惊讶,因为样本相关矩阵和相应的协方差矩阵在理论上应该是正定的。) 我的假设是,至少一种证券线性依赖于其他证券。R中是否有一个函数可以按顺序测试每个列的线性相关性? 例如,一种方法是一次建立一个安全性的相关矩阵,并在每个步骤计算行列式。当行列式= 0时,请停止运行,因为您已确定证券是其他证券的线性组合。 识别在这样的矩阵中的线性相关性的任何其他技术是可以理解的。

3
拟合R的负二项式回归中的theta是多少?
我有一个关于负二项式回归的问题:假设您有以下命令: require(MASS) attach(cars) mod.NB<-glm.nb(dist~speed) summary(mod.NB) detach(cars) (请注意,cars是R中可用的数据集,我并不在乎这个模型是否有意义。) 我想知道的是:如何解释变量theta(在调用的底部返回summary)。这是负数分布的形状参数,是否可以将其解释为偏度的度量?

4
从Yahoo Finance将股票价格导入R吗?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我想将Yahoo财务中的“最后交易”股票价格导入R。其目的是使用(几乎)实时数据。有什么解决办法吗? 在此先感谢您提供任何有用的评论。
26 r 

2
分布是否有名称?
前几天,我遇到了这种密度。有人给这个名字了吗? f(x)=log(1+x−2)/2πf(x)=log⁡(1+x−2)/2πf(x) = \log(1 + x^{-2}) / 2\pi 密度在起点是无限的,并且也有肥尾。我看到它被用作先验分布,在这种情况下,虽然许多观察值也期望很小,但期望也很小。

3
如何理解R的polr函数的输出(有序逻辑回归)?
我是R的新手,有序逻辑回归,和polr。 polr帮助页面底部的“示例”部分(使逻辑或概率回归模型适合有序因子响应)显示 options(contrasts = c("contr.treatment", "contr.poly")) house.plr <- polr(Sat ~ Infl + Type + Cont, weights = Freq, data = housing) pr <- profile(house.plr) plot(pr) pairs(pr) pr包含哪些信息?配置文件上的帮助页面是通用的,不提供有关polr的指导。 什么是plot(pr)展示?我看到六个图。每个标签都有一个X轴,尽管标签是一个指示符变量(看起来像一个输入变量,它是一个序数值的指示符)。那么Y轴是“ tau”,这是无法解释的。 什么是pairs(pr)展示?它看起来像是每对输入变量的图,但是我再也看不到X或Y轴的解释。 如何理解该模型是否合适? summary(house.plr)显示残差3479.149和AIC(Akaike信息准则?)3495.149。这样好吗 在那些仅用作相对度量(即与另一个模型拟合进行比较)的情况下,什么是好的绝对度量?剩余偏差是否近似卡方分布?能否对原始数据使用“正确预测的百分比”或进行一些交叉验证?最简单的方法是什么? 如何应用和解释anova这一模型?文档说:“有一些用于标准模型拟合功能的方法,包括预测,汇总,vcov,方差分析。” 但是,运行anova(house.plr)结果anova is not implemented for a single "polr" object 如何解释每个系数的t值?与某些模型拟合不同,此处没有P值。 我意识到这是一个很多问题,但是对我来说,作为一个整体问(“我如何使用此东西?”)而不是7个不同的问题是有意义的。任何信息表示赞赏。
26 r  logistic 

7
R中带有对比代码的III型SS ANOVA如何处理?
请提供R代码,该代码允许以-3,-1、1、3的对比度进行对象间ANOVA。我了解对于此类分析的适当平方和(SS)类型存在争议。但是,由于SAS和SPSS中使用的默认SS类型(III型)被认为是我所在地区的标准。因此,我希望此分析的结果与那些统计程序生成的结果完全匹配。要被接受,答案必须直接调用aov(),但其他答案可能会被投票(尤其是如果它们易于理解/使用)。 sample.data <- data.frame(IV=rep(1:4,each=20),DV=rep(c(-3,-3,1,3),each=20)+rnorm(80)) 编辑:请注意,我要求的对比度不是简单的线性或多项式对比度,而是通过理论预测得出的对比度,即Rosenthal和Rosnow讨论的对比度类型。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.