统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

10
为什么假定生存时间呈指数分布?
我正在从UCLA IDRE上的这篇文章中学习生存分析,并在第1.2.1节中进行了介绍。该教程说: ...如果已知生存时间呈指数分布,则观察生存时间的概率... 为什么假定生存时间呈指数分布?对我来说似乎很不自然。 为什么不正常分布?假设我们正在研究某种生物在一定条件下(例如天数)的寿命,是否应该将其更多地围绕具有一定差异的某个数字(例如100天,具有3天的差异)? 如果我们希望时间严格地为正,为什么不使用均值较高且方差很小的正态分布(几乎没有机会获得负数)?

6
为什么协方差估计量的分母不应该是n-2而不是n-1?
(无偏)方差估计量的分母为因为有观测值,并且仅估计了一个参数。n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} 同样,我想知道为什么在估计两个参数时协方差的分母为何不为?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

5
p值本质上是无用的且使用危险吗?
纽约时报的这篇文章“ 赔率,不断更新”引起了我的注意。简而言之,它指出 [贝叶斯统计]已证明在解决复杂问题时特别有用,包​​括像海岸警卫队在2013年使用的搜索来寻找失踪的渔夫约翰·奥尔德里奇(尽管到目前为止,在寻找马来西亚航空370号班机的过程中)。 ......,从物理学到癌症研究,从生态学到心理学,贝叶斯统计数据遍地开花... 在这篇文章中,还对常客的p值提出了一些批评,例如: 如果p值小于5%,则通常认为结果具有“统计学意义”。哥伦比亚大学统计学教授安德鲁·盖尔曼(Andrew Gelman)表示,但是这种传统存在危险。即使科学家总是正确地进行了计算(但他们没有这样做),接受p值为5%的所有内容也意味着20个“具有统计意义”的结果只是随机噪声。 除上述之外,也许最著名的批评p值的论文就是《自然方法》一书,作者是Regina Nuzzo的《科学方法:统计误差》,其中讨论了许多由p值方法引起的科学问题,例如重现性问题, p值骇客等 P值是统计有效性的“黄金标准”,不像许多科学家所认为的那样可靠。……也许最糟糕的谬论是自欺欺人,宾夕法尼亚大学的心理学家乌里·西蒙索恩(Uri Simonsohn)及其同事已经普及了“ P-hacking”一词。它也被称为数据挖掘,侦听,钓鱼,重要性追踪和两次浸渍。Simonsohn说:“ P黑客正在尝试多种方法,直到获得期望的结果为止”,甚至是在不知不觉中。......……“这一发现似乎是通过p-hacking获得的,作者放弃了其中一个条件,以使整体p值小于.05”,而“她是p-hacker,她总是在收集数据时监视数据。” 另一件事是一个有趣的情节从下面这里,有关剧情的评论: 无论您的影响有多小,您都可以始终努力收集数据以超过p <.05的阈值。只要不存在您要研究的影响,p值就可以衡量您为收集数据付出了多少努力。 综上所述,我的问题是: 第二段引文中的安德鲁·盖尔曼的论点到底意味着什么?他为什么将5%的p值解释为“ 20个具有统计学意义的结果中有1个是随机噪声”?我不相信,因为对我而言,p值可用于一项研究的推断。他的观点似乎与多重测试有关。 更新:有关此内容,请查看安德鲁·盖尔曼(Andrew Gelman)的博客:不,我没有这么说!(提供给@ Scortchi,@ whuber)。 CpCpC_p 是否有使用p值进行统计分析的良好实践指导,可以得出更可靠的研究结果? 正如某些统计学家所倡导的那样,贝叶斯建模框架会是更好的方法吗?具体来说,贝叶斯方法是否更有可能解决错误的发现或处理数据问题?由于先验在贝叶斯方法中非常主观,因此我在这里也不确信。是否有任何实践和知名的研究表明贝叶斯方法比常客的p值更好,或者至少在某些特定情况下,这种观点更好? 更新:对于是否存在贝叶斯方法比常客主义的p值方法更可靠的情况,我将特别感兴趣。“可靠”是指贝叶斯方法不太可能操纵数据以获得所需结果。有什么建议么? 更新6/9/2015 刚注意到这个消息,并认为将其放在此处进行讨论会很好。 心理学杂志禁止P值 一项有争议的统计测试终于结束了,至少在一本期刊上如此。本月初,《基本与应用社会心理学》(BASP)的编辑宣布该期刊将不再发表包含P值的论文,因为统计数据经常被用来支持低质量的研究。 与最近的论文一起,《自然》杂志关于“ P值”的“善变的P值产生了无法再现的结果”。 更新5/8/2016 早在三月,美国统计协会(ASA)就统计意义和p值发布了声明,“ .... ASA声明旨在将研究引导到'p <0.05后时代'。” 该语句包含6条解决p值滥用的原则: P值可以指示数据与指定的统计模型不兼容的程度。 P值不能衡量所研究假设为真的概率,也不能衡量仅由随机机会产生数据的概率。 科学结论和业务或政策决策不应仅基于p值是否超过特定阈值。 正确的推理需要完整的报告和透明度。 p值或统计显着性不能衡量效果的大小或结果的重要性。 就其本身而言,p值不能很好地证明有关模型或假设的证据。 详细信息: “ ASA关于p值的声明:上下文,过程和目的”。

2
通过效果包对lmer对象的置信区间的可信度如何?
Effects包提供了一种非常快速和方便的方式来绘制通过lme4包获得的线性混合效应模型结果。该effect函数可以非常快速地计算置信区间(CI),但是这些置信区间的可信度如何? 例如: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + (1 | cask), Pastes) effs <- as.data.frame(effect(c("batch"), fm1)) ggplot(effs, aes(x = batch, y = fit, ymin = lower, ymax = upper)) + geom_rect(xmax = Inf, xmin = -Inf, ymin = effs[effs$batch == "A", "lower"], ymax = effs[effs$batch == …

5
“正相关性”的含义是使用常规方法进行FDR控制的条件
Benjamini和Hochberg开发了第一种(我认为仍是使用最广泛的方法)来控制错误发现率(FDR)。 我想从一堆P值开始,每个P值用于不同的比较,并确定哪些值足够低以至于被称为“发现”,从而将FDR控制为指定值(例如10%)。常用方法的一个假设是,这组比较是独立的或具有“正相关性”,但在分析一组P值的上下文中,我无法确切弄清楚该短语的含义。

2
我怎么知道哪种交叉验证最好?
我试图找出哪种交叉验证方法最适合我的情况。 以下数据只是解决问题的一个示例(R中),但我的真实X数据(xmat)相互关联,并且与y变量(ymat)的关联程度不同。我提供了R代码,但我的问题不是关于R而是关于方法。Xmat包含X个变量V1至V100,而ymat包含单个y变量。 set.seed(1233) xmat <- matrix(sample(-1:1, 20000, replace = TRUE), ncol = 100) colnames(xmat) <- paste("V", 1:100, sep ="") rownames(xmat) <- paste("S", 1:200, sep ="") # the real y data are correlated with xmat ymat <- matrix(rnorm(200, 70,20), ncol = 1) rownames(ymat) <- paste("S", 1:200, sep="") 我想y根据中的所有变量建立一个预测模型xmat。因此它将是一个线性回归模型y ~ V1 + …

2
Logistic回归与LDA作为两类分类器
我正在努力解决线性判别分析和Logistic回归之间的统计差异。我的理解是正确的,对于两类分类问题,LDA预测了两个法线密度函数(每个类一个),它们在它们相交处创建了线性边界,而逻辑回归仅预测了两类之间的对数奇数函数。创建一个边界,但不为每个类假设密度函数?

6
我如何分析地证明随机分配金额会导致指数分布(例如收入和财富)?
在《科学》杂志的当前文章中,提出了以下建议: 假设您将5亿的收入随机分配给10,000人。只有一种方法可以让每个人平均获得50,000个份额。因此,如果您随机分配收入,则极不可能实现平等。但是,有无数种方式可以给少数人很多现金,而给许多人一点钱甚至没有钱。实际上,考虑到所有可以分配收入的方式,大多数方法都会产生指数分布的收入。 我已经使用以下R代码(似乎可以肯定结果)完成了此操作: library(MASS) w <- 500000000 #wealth p <- 10000 #people d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99))) fit <- fitdistr(d,"exponential") curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE) 我的问题 我该如何分析证明结果分布确实是指数的? …

4
如何从多项式模型拟合中解释系数?
我正在尝试为我拥有的某些数据创建二阶多项式。假设我通过以下方式绘制了这种拟合ggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) 我得到: 因此,二阶拟合效果很好。我用R计算: summary(lm(data$bar ~ poly(data$foo, 2))) 我得到: lm(formula = data$bar ~ poly(data$foo, 2)) # ... # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 3.268162 0.008282 394.623 <2e-16 *** # poly(data$foo, 2)1 -0.122391 0.096225 -1.272 0.206 # poly(data$foo, …

1
异方差数据的单向方差分析的替代方法
我有3个藻类生物量(,,)的数据,它们包含不相等的样本大小(,,),我想比较一下这两个组是否来自同一种群。AAABBBCCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 单向ANOVA绝对是必经之路,但是在对我的数据进行正态性测试时,异质性似乎是主要问题。我的原始数据未经任何转换就产生了方差比(),该比率远高于临界值(F _ {\ rm crit} = 4.16),因此我无法执行单向方差分析。Fmax=19.1Fmax=19.1F_{\max} = 19.1Fcrit=4.16Fcrit=4.16F_{\rm crit} = 4.16 我还尝试了转换以标准化我的数据。即使经过各种变换(对数,平方根,平方)的试验,使用\ log_ {10}变换进行变换后产生的最低F _ {\ max}也为7.16,与F _ {\ rm crit}相比仍然更高。FmaxFmaxF_{\max}log10log10\log_{10}7.167.167.16FcritFcritF_{\rm crit} 这里有人可以建议我从这里出发吗?我想不出其他通过数据标准化的转换方法。有单向方差分析的替代方法吗? PS:我的原始数据如下: A: 0.178 0.195 0.225 0.294 0.315 0.341 0.36 0.363 0.371 0.398 0.407 0.409 0.432 0.494 0.719 B: 0.11 0.111 0.204 0.416 0.417 0.441 0.492 …


3
如何在线性回归中导出系数的方差-协方差矩阵
我正在阅读有关线性回归的书,但在理解的方差-协方差矩阵时遇到了一些麻烦:bb\mathbf{b} 对角项很容易,但对角项比较困难,令我感到困惑的是 σ(b0,b1个)= E(b0b1个)- Ë(b0)E(b1个)= E(b0b1个)- β0β1个σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 但没有一丝和β 1在这里。β0β0\beta_0β1个β1\beta_1
36 regression 

6
为什么“解释”具有直观意义?
我最近了解了一种概率推理原理,称为“ 解释 ”,并且我正试图抓住它的直觉。 让我设置一个方案。假设一种AA是发生地震的事件。让事件乙BB 作为欢乐的绿色巨人在城中漫步的事件。令CCC为地面震动的情况。让一个⊥⊥ 乙A⊥⊥BA \perp\!\!\!\perp B。正如你看到的,无论是一种AA或乙BB可引起CCC。 我使用“解释”推理,如果发生CCC,则P(一)P(A)P(A)或P(B )P(B)P(B)增加,但是另一个减少,因为我不需要其他理由来解释CCC发生的原因。但是,我现在的直觉告诉我,这两个P(一)P(A)P(A)和P(B )P(B)P(B)是否应该增加CCC发生,因为CCC发生更可能是任何原因的品牌CCC发生。 我该如何将目前的直觉与“解释”的想法相协调?我该如何使用解释来证明AAA和BBB有条件地依赖CCC?

2
多项式Lo​​gistic回归与一对一二值Logistic回归
可以说,我们有一个因变量,其类别和自变量集很少。 ÿYY 相对于二元logistic回归集(即one-vs-rest方案),多项logistic回归有什么优势?通过组的二元逻辑回归我的意思是为每个类别我们建立单独的二元逻辑回归模型与目标= 1时Ŷ = ÿ 我,否则为0。ÿ一世∈ ÿyi∈Yy_{i} \in Yÿ= y一世Y=yiY=y_{i}

4
R?中非负变量密度图的好方法
plot(density(rexp(100)) 显然,左侧所有的密度都表示偏差。 我希望总结一些非统计人员的数据,并且我想避免有关为何非负数据的密度在零左边的问题。这些图用于随机检查;我想按治疗组和对照组显示变量的分布。分布通常是指数级的。由于各种原因,直方图比较棘手。 快速的Google搜索使统计人员可以在非负内核上进行工作,例如: this。 但是,它有没有在R中实现?在已实现的方法中,对于描述性统计,它们中的任何一种是否“最佳”? 编辑:即使from命令可以解决我当前的问题,也很高兴知道是否有人基于非负密度估计的文献实现了内核

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.