统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
置信区间与t检验的检验统计假设之间的关系
众所周知,置信区间和检验统计假设密切相关。我的问题集中在基于数值变量的两组均值比较上。假设使用t检验检验了这种假设。另一方面,可以计算两组均值的置信区间。置信区间的重叠与均值相等的零假设的拒绝之间是否存在任何关系(有利于均值不同的备选方案-双向检验)?例如,如果置信区间不重叠,则测试可能会拒绝原假设。

2
因变量乘积的方差
因变量乘积方差的公式是什么? 对于自变量,公式很简单: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 但是相关变量的公式是什么? 顺便问一下,如何根据统计数据找到相关性?

3
基于熵的沙里兹时间悖论贝叶斯后向箭头反驳?
在本文中,才华横溢的研究人员Cosma Shalizi认为,要完全接受一种主观的贝叶斯观点,还必须接受一种非物质的结果,即时间的箭头(由熵流给出)实际上应该向后退。这主要是为了反对ET Jaynes提出和推广的最大熵/完全主观贝叶斯观点。 随着在LessWrong,很多参与方都非常有兴趣在贝叶斯概率理论,并在主观贝叶斯方法作为正式决定理论的基础和垫脚石走向强大的AI 埃利泽·尤多科斯基是一种常见的贡献者那里,我最近在读这篇文章时,我碰到了此评论(在原始帖子的页面上不久之后,还有其他几条很好的评论)。 谁能评论尤德科夫斯基反驳沙里兹的有效性。简而言之,尤德科夫斯基的论点是,推理者更新其信念的物理机制需要工作,因此具有热力学成本,沙利兹正在地毯下扫荡。Yudkowsky在另一条评论中对此辩护说: “如果您从系统外部看一个逻辑上无所不知的完美观察者的观点,那么“熵”的概念就几乎没有意义,“概率”也是如此-您不必使用统计热力学来建模任何东西,您只需使用确定性精确波动方程。” 任何概率论者或统计学家都可以对此发表评论吗?我不太在乎权威人士关于沙利兹或尤德科夫斯基地位的争论,但我真的很想看到尤德科夫斯基的三点观点对沙利兹的文章提出批评的方式的总结。 为了符合FAQ准则并使之成为一个具体可回答的问题,请注意,我要提出一个具体的,逐项的答复,该答复应采用Yudkowsky的三步法论证,并指出在Shalizi文章中这三步法反驳了假设和/或推导,或者,另一方面,指出了在沙利兹的论文中论及尤德科夫斯基论点的地方。 我经常听到吹捧Shalizi的文章是铁定论据,证明无法捍卫成熟的主观贝叶斯主义...但是在阅读了Shalizi文章几次之后,对我来说这似乎是一个玩具论证,永远无法适用观察者与所观察的事物(即所有实际物理学)进行交互。但是Shalizi是一位出色的研究人员,因此我欢迎第二意见,因为我很可能不理解这场辩论的重要内容。

5
“平均值”和“平均值”有什么区别?
维基百科解释: 对于数据集,平均值是值的总和除以值的数量。 但是,这个定义对应于我所谓的“平均”(至少我记得学习过)。维基百科再次引用: 还有其他一些统计方法使用的样本被某些人与平均值混淆了,包括“中位数”和“众数”。 现在这很令人困惑。“平均值”和“平均值”是否彼此不同?如果可以,怎么办?

6
有人可以提供偏态为零但不对称的单峰分布的示例吗?
在2010年5月,维基百科用户Mcorazao在偏度文章中添加了一个句子:“零值表示这些值在平均值的两侧相对均匀地分布,通常但不一定意味着对称分布。” 但是,Wiki页面没有实际的发行示例,可以打破此规则。至少在前20个结果中,谷歌搜索“具有零偏度的示例非对称分布”也没有给出任何实际示例。 使用这样的定义,偏斜由和R计算得出式E[(X−μσ)3]E⁡[(X−μσ)3] \operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big] sum((x-mean(x))^3)/(length(x) * sd(x)^3) 我可以构造一个小的任意分布以降低偏度。例如,分布 x = c(1, 3.122, 5, 4, 1.1) 产生的偏斜。但这是一个很小的样本,而且与对称性的偏差也不大。因此,是否可以使用一个高度不对称但仍具有接近零偏度的峰构造一个更大的分布?−5.64947⋅10−5−5.64947⋅10−5-5.64947\cdot10^{-5}

1
BUGS和R中的参数化对于哪些分布不同?
我发现一些BUGS和R具有不同参数化的分布:正态,对数正态和Weibull。 对于这些中的每一个,我都收集到R所使用的第二个参数需要在BUGS(在我的情况下为JAGS)中使用之前需要进行逆变换(1 /参数)。 有人知道当前存在的这些转换的完整列表吗? 我能找到的最接近的结果是将JAGS 2.2.0用户手册的表7中的分布与etc的结果?rnorm以及一些概率文本进行比较。这种方法似乎需要分别从pdf推导转换。 如果执行此任务,我希望避免执行此任务(以及可能的错误),否则,请从此处开始列表。 更新资料 基于Ben的建议,我编写了以下函数,将参数的数据帧从R转换为BUGS参数化。 ##' convert R parameterizations to BUGS paramaterizations ##' ##' R and BUGS have different parameterizations for some distributions. ##' This function transforms the distributions from R defaults to BUGS ##' defaults. BUGS is an implementation of the BUGS language, and these …


1
混合效果模型上的多重比较
我正在尝试使用混合效果模型分析一些数据。我收集的数据代表了一些不同基因型的年轻动物随时间的体重。 我正在使用此处提出的方法:https : //gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ 特别是我正在使用解决方案2 所以我有类似 require(nlme) model <- lme(weight ~ time * Genotype, random = ~1|Animal/time, data=weights) av <- anova(model) 现在,我想进行一些比较。使用multcomp我可以做到: require(multcomp) comp.geno <- glht(model, linfct=mcp(Genotype="Tukey")) print(summary(comp.geno)) 而且,当然,我可以随着时间做同样的事情。 我有两个问题: 如何mcp查看时间与基因型之间的相互作用? 我跑步时glht收到以下警告: covariate interactions found -- default contrast might be inappropriate 这是什么意思?我可以放心地忽略它吗?还是应该避免这种情况? 编辑: 我发现此PDF指出: 由于在这种情况下不可能自动确定感兴趣的参数,因此默认情况下,multcomp中的mcp()将仅针对主要效果生成比较,而忽略协变量和交互作用。从版本1.1-2开始,可以指定对交互项进行平均,并分别使用参数interact_average = TRUE和covariate_average = TRUE进行协变量,而早于1.0-0的版本将对交互项进行自动平均。但是,我们建议用户手动编写所需的对比集。每当对默认的对比度量有疑问时,都应该这样做,这通常发生在具有更高阶交互项的模型中。关于这个问题的进一步讨论和例子,我们参考许(1996),第7章,和塞尔(1971),第7.3章。 我没有那些书,但是也许有人在吗?

3
容纳根深蒂固的p值视图
有时在报告中,我会提供有关p值和我提供的其他推论统计信息的免责声明。我说由于样本不是随机的,因此此类统计数据将不严格适用。我的具体措辞通常在脚注中给出: “虽然严格地说,推理统计仅适用于随机抽样,但我们遵循惯例报告重要程度和/或置信区间,即使对于非随机样本也作为方便的准绳。请参阅迈克尔·奥克斯的 统计推断:关于社会和社会的评论行为科学 (NY:Wiley,1986)。 在某些情况下(一次是同行评审论文,一次是非学术性论文,一次是两次),编辑或审稿人对此免责声明表示反对,称其令人困惑,并认为推论性结论应与书面陈述相符。 (并获得权威的保护)。有没有其他人遇到这个问题并找到了一个好的解决方案?一方面,即使是在随机抽样的情况下,人们对p值的理解通常也是令人沮丧的,因此我们所说的内容无关紧要。另一方面,进一步加剧误解似乎是问题的一部分。我应该补充一点,我经常处理调查研究,在这些研究中,不应用随机分配,并且在其中蒙特卡罗模拟通常不能解决代表性问题。

3
包括其他预测变量后使符号翻转的回归系数
想像 您使用四个数值预测变量(IV1,...,IV4)运行线性回归 如果仅将IV1作为预测变量,则标准beta为 +.20 当您还包括IV2到IV4时,IV1的标准回归系数的符号会变为-.25(即变为负数)。 这引起了一些问题: 关于术语,您是否称其为“抑制效应”? 您将使用什么策略来解释和理解这种影响? 在实践中,您是否有此类效果的示例,您如何解释和理解这些效果?


8
用于可视化多维数据的开源工具?
除了gnuplot和ggobi之外,人们还使用哪些开源工具来可视化多维数据? Gnuplot或多或少是一个基本的绘图程序包。 Ggobi可以做很多漂亮的事情,例如: 沿维度或离散集合之间的数据动画 动画线性组合,改变系数 计算主要成分和其他转换 可视化和旋转3维数据集群 用颜色代表不同的尺寸 还有哪些其他有用的方法基于开源,因此可以自由重用或自定义? 请在答案中简要说明软件包的功能。

6
如何提高研究的长期可重复性(尤其是使用R和Sweave)
情境: 为了回应先前有关可重复研究的问题,杰克写道 创建JASA归档文件时发现的一个问题是CRAN软件包的版本和默认值已更改。因此,在该归档文件中,我们还包括了所用软件包的版本。当人们更改其包装时,基于小插图的系统可能会崩溃(不确定如何在《纲要》的包装中包括额外的包装)。 最后,我想知道当R本身改变时该怎么做。例如,是否有生产虚拟机的方法,该虚拟机可以复制用于纸张的整个计算环境,从而使虚拟机不会很大? 题: 有什么好的策略可确保可重现的数据分析在将来(例如发布后的五,十年或二十年)可重现? 具体来说,使用Sweave和R时,有什么好的策略可以最大程度地提高重复性? 这似乎与确保可重现的数据分析项目将在其他人的计算机上运行时使用的默认值,软件包等略有不同的问题有关。

4
使用复杂数据进行分析,有什么不同?
假设您正在做线性模型,但是数据很复杂。yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon 我的数据集很复杂,因为中的所有数字均为形式。处理此类数据时,在程序上有什么不同吗?yyy(a+bi)(a+bi)(a + bi) 我问是因为,您最终将获得复杂的协方差矩阵,并测试具有复杂价值的统计数据。 做最小二乘时,是否需要使用共轭转置而不是转置?复数值协方差有意义吗?

2
逻辑回归何时以封闭形式解决?
以X ∈ { 0 ,1 } dx∈{0,1}dx \in \{0,1\}^d和ÿ ∈ { 0 ,1 }y∈{0,1}y \in \{0,1\},并假设我们使用logistic回归预测给出y x的任务模型。Logistic回归系数何时可以用封闭形式书写? 一个例子是当我们使用饱和模型时。 也就是说,定义P (y | x )∝ exp (∑ i w i f i(x i))P(y|x)∝exp(∑iwifi(xi))P(y|x) \propto \exp(\sum_i w_i f_i(x_i)),其中iii在{ x 1,… ,x d }的幂集中索引集{x1,…,xd}\{x_1,\ldots,x_d\},并且f ifif_i返回1如果第iii个集合中的所有变量均为1,否则为0。然后,您可以将此逻辑回归模型中的每个w i表示wiw_i为数据统计量的有理函数的对数。 当存在封闭形式时,还有其他有趣的例子吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.