统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
如何在线性混合模型中选择随机效应和固定效应结构?
请从主题设计的两个方面考虑以下数据: df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 Jim Cued Neu 9 6 6 Jim Cued Pos 10 我想使用混合线性模型对此进行分析。考虑到所有可能的固定效应和随机效应,有多种可能的模型: …

4
数据正态分布的原因
有哪些定理可以解释(即生成)为什么现实世界中的数据可以正态分布? 我知道有两个: 中心极限定理(当然),它告诉我们具有均值和方差(即使它们的分布不相同)的几个独立随机变量的总和也倾向于正态分布 令X和Y为具有不同密度的独立连续RV,以使它们的联合密度仅取决于 +。那么X和Y是正常的。X2X2x^2ÿ2ÿ2y^2 (来自mathexchange的跨帖子) 编辑: 为澄清起见,我对正态分布的真实世界数据没有任何主张。我只是在问一些定理,这些定理可以洞察什么样的过程可能导致数据呈正态分布。

2
如何解释时间序列数据上的PCA?
Freeman et al。,2014年(最近的免费pdf 可在实验室网站上找到)中,我试图理解PCA在最近的期刊文章“使用集群计算大规模地映射大脑活动”中的用法。他们在时间序列数据上使用PCA,并使用PCA权重创建大脑图。 的数据是试平均成像数据,存储为矩阵(称为Ý在纸)与ñ体素(或成像位置在脑中)的时间点(单一刺激的长度到大脑) 。Y^Y^\hat {\mathbf Y}nnn×t^×t^\times \hat t 他们使用SVD得出(表示矩阵转置)。V⊤VY^=USV⊤Y^=USV⊤\hat {\mathbf Y} = \mathbf{USV}^\topV⊤V⊤\mathbf V^\topVV\mathbf V 作者指出 主成分(的列)是长度为向量,而得分(的列)是长度为(体素的数量)的向量,描述了每个体素在方向上的投影。由相应组件给出,在体积上形成投影,即全脑图。吨 ü ÑVV\mathbf Vt^t^\hat tUU\mathbf Unnn 因此,PC是的长度的矢量吨。如何解释PCA教程中通常表达的“第一个主要成分解释了最多的差异”?我们从具有许多高度相关的时间序列的矩阵开始-单个PC时间序列如何解释原始矩阵中的方差?我了解整个“点的高斯云到变化最大的轴的旋转”,但是不确定这与时间序列的关系。作者在陈述时所指的方向是什么:“分数(U的列)是长度为n的向量t^t^\hat tUU\mathbf Unnn (体素数),描述每个体素在相应分量给定的方向上的投影”?主分量时程如何具有方向? 要查看由主成分1和2的线性组合以及相关的脑图得出的时间序列的示例,请转到以下链接,然后将鼠标悬停在XY图中的点上。 我的第二个问题与他们使用主成分分数创建的(状态空间)轨迹有关。 这些通过取第一分数(在我上面已经概述的“视动”的例子的情况下)产生并投射单个试验(用于创建上述试验平均矩阵)到由等式主子空间:J=U⊤Y.J=U⊤Y.\mathbf J = \mathbf U^\top \mathbf Y. 从链接的电影可以看到,状态空间中的每条迹线代表整个大脑的活动。 与关联前两台PC得分的XY图的图形相比,有人能提供状态空间电影的每个“帧”意味着什么的直觉。在给定的“框架”下,将一个试验置于XY状态空间中的一个位置,将另一个试验置于另一个位置,这意味着什么?电影中XY绘图位置与问题第一部分提到的链接图中的主成分迹线有何关系?


4
平均值=中位数是否意味着单峰分布是对称的?
对于单峰分布,如果均值=中值,那么说分布是对称的就足够了吗? 维基百科在平均值和中位数之间的关系中说: “如果分布是对称的,则均值等于中值,并且分布将具有零偏度。此外,如果分布是单峰的,则均值=中值=模式。这就是抛硬币或系列1,2,3,4,...,但是,请注意,相反的情况通常并不正确,即零偏度并不意味着均值等于中位数。” 但是,(对我而言)收集我需要的信息不是很简单。请帮忙。

2
广义加性模型-除Simon Wood之外,还有哪些人对其进行研究?
我越来越多地使用GAM。当我为它们的各个组成部分(平滑参数选择,各种样条基,平滑项的p值)提供参考时,它们都是来自英国巴斯大学的一位研究员Simon Wood。 他还是mgcvR 的维护者,R实现了他的工作。 mgcv非常复杂,但效果非常好。 肯定有较旧的东西。最初的想法归功于Hastie&Tibshirani,Ruppert等人在2003年撰写了一本更古老的教科书。 作为一名应聘者,我对学术统计学家中的时代精神没有太多的感觉。他的工作如何看待?一位研究人员在一个领域做了这么多的事情有点奇怪吗?还是因为没有放入其中而没有引起其他人的注意mgcv?我不认为GAM会使用太多,尽管经过统计学培训的人员可以合理地访问该材料,并且该软件已经相当完善。有很多“背景故事”吗? 来自统计期刊的观点文章和其他类似内容的建议将不胜感激。

2
对数转换后计算标准误差
考虑一个正态分布的随机数字集: x <- rnorm(n=1000, mean=10) 我们想知道平均值和平均值的标准误差,因此我们执行以下操作: se <- function(x) { sd(x)/sqrt(length(x)) } mean(x) # something near 10.0 units se(x) # something near 0.03 units 大! 但是,假设我们不一定知道我们的原始分布服从正态分布。我们对数据进行对数转换,并执行相同的标准误差计算。 z <- log(x, base=10) mean(z) # something near 1 log units se(z) # something near 0.001 log units 太酷了,但是现在我们需要进行逆变换才能以非日志单位显示我们的答案。 10^mean(z) # something near 10.0 …


2
“逻辑回归”的名称是什么意思?
我从这里检查Logistic回归的实现。 在我阅读了这篇文章之后,似乎重要的部分是找到确定S形函数的最佳系数。因此,我只是想知道为什么将此方法称为“逻辑回归”。它与对数函数有关吗?也许我需要一些历史背景信息才能更好地理解它。

4
需要受治疗影响的协变量的良好数据示例
我查看了很多R数据集,DASL中的发布以及其他地方,但没有找到很多有趣的数据集的很好的例子来说明实验数据的协方差分析。在统计教科书中有许多“玩具”数据集,其中包含人为的数据。 我想举一个例子: 数据是真实的,有一个有趣的故事 至少有一个治疗因素和两个协变量 至少一个协变量受一种或多种治疗因素的影响,而一个不受治疗的影响。 实验性而非观察性,最好 背景 我的真正目标是找到一个很好的例子,将我的R包放入小插图中。但是更大的目标是,人们需要看到良好的例子来说明协方差分析中的一些重要问题。考虑以下组合方案(请理解,我的农业知识充其量只是肤浅的)。 我们进行了一项实验,其中将肥料随机分配给田地,并种植了农作物。经过适当的生育期后,我们收获农作物并测量一些质量特征-这就是响应变量。但是,我们还记录了生长期的总降雨量,以及收获时的土壤酸度,当然还记录了使用的肥料。因此,我们有两个协变量和一个处理。 分析结果数据的常用方法是将处理作为一个因素拟合线性模型,并对协变量进行累加效应。然后总结一下结果,在平均降雨量和3平均土壤酸度下,计算“调整均值”(AKA最小二乘均值),这是每种肥料模型预测的结果。这使一切都处于平等地位,因为当我们比较这些结果时,我们将降雨量和酸度保持恒定。 但这可能是错误的做法-因为肥料可能会影响土壤酸度以及反应。这会使调整后的方法产生误导,因为处理效果包括其对酸度的影响。解决此问题的一种方法是将酸度从模型中剔除,然后通过降雨调整后的方法进行公平的比较。但是,如果酸度很重要,那么这种公平性将付出巨大代价,这会增加残留变化。 有多种方法可以解决此问题,方法是在模型中使用调整后的酸度版本而不是其原始值。我的R软件包lsmeans即将更新,这将使这一切变得容易。但是我想有一个很好的例子来说明这一点。我将非常感谢并适当感谢任何能将我引向一些出色的说明性数据集的人。

1
如何在ggplot2中“躲避” geom_point的位置?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我在R中使用ggplot2进行如下绘制: 误差线相互重叠,看起来确实很乱。如何分隔不同索引的错误栏?我使用了position =“ dodge”,但似乎无法正常工作。这是我的代码的主要部分: plot = ggplot(data,aes(x=ntrunc,y=beta_best,group=ntrunc,colour=INDEX)) +geom_point(aes(shape=detectable),na.rm=TRUE,position="dodge") +geom_errorbar(aes(x=ntrunc,ymax=beta_high,ymin=beta_low),na.rm=TRUE,position="dodge")

1
在PCA提供更好的解释方差比之前不对数据进行归一化
我对数据集进行了归一化处理,然后运行了3个分量PCA,以获得较小的解释方差比([0.50,0.1,0.05])。 当我不进行标准化但变白的数据集然后运行3分量PCA时,我得到了较高的解释方差比([0.86,0.06,0.01])。 由于我想将尽可能多的数据保留为3个组成部分,因此我不应该对数据进行规范化吗?据我了解,我们应该始终在PCA之前将其标准化。 通过归一化:将均值设置为0并具有单位方差。
19 pca 

2
如何将贝叶斯定理应用于寻找海上迷路的渔夫
文章“不断更新的可能性”提到了一个长岛渔民的故事,他的生活完全归功于贝叶斯统计局。这是简短的版本: 午夜时分,船上有两名渔民。当一个人睡着时,另一个掉入大海。整个晚上,船将继续自动驾驶,直到第一个家伙最终醒来并通知海岸警卫队。海岸警卫队使用一款名为SAROPS(搜索和救援最佳计划系统)的软件来及时找到他,因为他的体温过低并且几乎没有精力维持生存。 这是长版:海中的斑点 我想了解更多有关贝叶斯定理在此处实际应用的信息。我通过谷歌搜索发现了很多有关SAROPS软件的信息。 SAROPS模拟器 模拟器组件考虑了及时的数据,例如洋流,风等,并模拟了数千种可能的漂移路径。根据这些漂移路径,创建概率分布图。 请注意,以下图形并不涉及我上面提到的失踪渔夫的情况,而是本演示文稿中的一个玩具示例。 概率图1(红色表示最高概率;蓝色表示最低概率) 请注意是起始位置的圆圈。 概率图2-过去了更多的时间 请注意,概率图已变为多峰。这是因为在此示例中,考虑了多个方案: 人在水上漂浮-中上模式 该人处于救生筏中(受北方风的影响更大)-底部2种模式(由于“吉宾效应”而分裂) 概率图3-搜索沿红色的矩形路径进行。 此图显示了计划者(SAROPS的另一个组件)产生的最佳路径。如您所见,模拟器已搜索了这些路径,并且概率图已更新。 您可能想知道为什么搜索的区域没有减少到零概率。这是因为考虑到的可能性,搜索者有可能忽略水中的那个人,这是一个不可忽略的机会。可以理解的是,一个独居的人的失败概率要比救生筏上的一个人(容易看到)要高得多,这就是为什么顶部区域的概率没有下降太多的原因。p(fail)p(fail)p(\text{fail}) 搜索失败的影响 这就是贝叶斯定理发挥作用的地方。进行搜索后,概率图将相应更新,因此可以最佳地计划另一个搜索。 在审查了维基百科上的贝叶斯定理并在BetterExplained.com上的文章贝叶斯定理的直观(简短)解释之后 我采用了贝叶斯方程: P(A∣X)=P(X∣A)×P(A)P(X)P(A∣X)=P(X∣A)×P(A)P(X) P(\text{A}\mid\text{X}) = \frac{P(\text{X}\mid\text{A}) \times P(\text{A})}{P(\text{X})} 并将A和X定义如下... 事件A:此人位于该区域(网格单元) 测试X:在该区域(网格单元)上搜索失败,即搜索了该区域并且没有看到任何内容 屈服 P(person there∣unsuccessful)=P(unsuccessful∣person there)×P(person there)P(unsuccessful)P(person there∣unsuccessful)=P(unsuccessful∣person there)×P(person there)P(unsuccessful) P(\text{person there}\mid\text{unsuccessful}) = \frac{P(\text{unsuccessful}\mid\text{person there}) \times P(\text{person there})}{P(\text{unsuccessful})} 我在搜索和救援最佳规划系统中发现,SAROPS 通过考虑搜索路径和模拟漂移路径来计算搜索失败的概率。因此,为简单起见,假设我们知道是什么。P(fail)P(fail)P(\text{fail})P(fail)P(fail)P(\text{fail}) 现在我们有了 P(person there∣unsuccessful)=P(fail)×P(person …


2
鲁棒线性模型中的加权
我R使用rlm()MASS软件包中的MM权重估计了一个鲁棒的线性模型。“ ”没有为模型提供值,但是如果它是有意义的数量,我希望有一个。我也很想知道是否有一个值以稳健回归中的观测值加权的方式加权总和剩余方差是否有意义。我的一般想法是,如果出于回归的目的,我们实际上是在权重上给予某些估计值较少的影响,因为它们在某种程度上是离群值,那么也许出于计算的目的,我们也应该给出那些相同的估计影响较小?[R2[R2R^2[R2[R2R^2[R2[R2r^2 我为和加权编写了两个简单的函数,它们在下面。我还包括了为模型HI9运行这些功能的结果。编辑:我找到了UNSW的Adelle Coster的网页,该网页提供了一个公式,其中包括权重向量,这与我计算时一样,并要求她提供更正式的参考:http://web.maths。 unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html(仍在向Cross Valided寻求有关如何解释此加权。[R2[R2R^2[R2[R2R^2R2SSeSSt[R2[R2r^2 #I used this function to calculate a basic r-squared from the robust linear model r2 <- function(x){ + SSe <- sum((x$resid)^2); + observed <- x$resid+x$fitted; + SSt <- sum((observed-mean(observed))^2); + value <- 1-SSe/SSt; + return(value); + } r2(HI9) [1] 0.2061147 #I used this function …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.