Questions tagged «expected-value»

随机变量的期望值是随机变量可以采用的所有可能值的加权平均值,其权重等于采用该值的概率。



6
当许多重要的事情都是一次性的事情时,为什么统计有用?
我不知道是否只有我一个人,但我对总体统计数据非常怀疑。我可以在骰子游戏,扑克游戏等中理解它。非常小,简单,主要是独立的重复游戏就可以了。例如,落在其边缘的硬币足够小,可以接受正面或反面着陆的概率约为50%。 玩$ 10的扑克游戏,争取95%的胜利。但是,如果您一生的积蓄和更多金额取决于您是否赢得胜利?知道您在那种情况下有95%的时间会获胜将如何对我有所帮助?期望值并没有太大帮助。 其他例子包括危及生命的手术。根据现有数据,如何知道生存率为51%与99%的生存率有什么关系?在这两种情况下,我认为医生告诉我的内容对我来说都没有关系,我会坚持下去。如果实际数据是75%,他还可以告诉我(除非遵守道德和法律),否则生存的机率是99.99999%,所以我会感觉更好。换句话说,除了二项式之外,现有数据无关紧要。即使那样,如果我最终死了,生存率也不会有99.99999%的问题。 还有,地震的可能性。平均每隔x(x> 100)年发生一次强地震无关紧要。我不知道地震是否会在我的一生中发生。那么,为什么它甚至是有用的信息呢? 举一个不那么严重的例子,例如,我所去过的地方中,我爱过的地方中有100%位于美洲,对我去过欧洲的地方中的100%无动于衷,而对我所去过的地方中的100%却讨厌去过亚洲。现在,这绝不意味着我不会在下一次旅行中在亚洲找到自己喜欢的地方,也不会在欧洲讨厌或对美国无动于衷,只是因为统计数据无法捕获我所有的信息,即使我去过所有大陆的x%以上,我也可能永远无法捕捉到我需要的所有信息。只是因为在我尚未去过的那些大陆的1-x%中存在未知数。(请随意用其他百分比替换100%)。 我知道没有办法暴力破解所有内容,并且在许多情况下您都必须依靠统计信息,但是我们如何才能相信统计信息在我们的一发不可收拾的情况下会有所帮助,尤其是当统计信息基本上不推断为异常事件时? 有什么见解可以克服我对统计的怀疑吗?


1
R平方的条件期望
考虑简单的线性模型: yy=X′ββ+ϵyy=X′ββ+ϵ\pmb{y}=X'\pmb{\beta}+\epsilon 其中ϵi∼i.i.d.N(0,σ2)ϵi∼i.i.d.N(0,σ2)\epsilon_i\sim\mathrm{i.i.d.}\;\mathcal{N}(0,\sigma^2)和 X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p},和包含常数的列。p≥2p≥2p\geq2XXX 我的问题是,给定,和,是否存在 * 上非平凡上界的公式?(假设模型是由OLS估算的)。E(X′X)E(X′X)\mathrm{E}(X'X)ββ\betaσσ\sigmaE(R2)E(R2)\mathrm{E}(R^2) *我以书面形式假设,不可能获得本身。E(R2)E(R2)E(R^2) 编辑1 使用StéphaneLaurent派生的解决方案(见下文),我们可以得出的非平凡上界。一些数值模拟(如下)表明,这个界限实际上是很严格的。E(R2)E(R2)E(R^2) 斯特凡·洛朗(StéphaneLaurent)得到了以下: 其中是具有以下项的非中心Beta分布非中心参数与R2∼B(p−1,n−p,λ)R2∼B(p−1,n−p,λ)R^2\sim\mathrm{B}(p-1,n-p,\lambda)B(p−1,n−p,λ)B(p−1,n−p,λ)\mathrm{B}(p-1,n-p,\lambda)λλ\lambda λ=||X′β−E(X)′β1n||2σ2λ=||X′β−E(X)′β1n||2σ2\lambda=\frac{||X'\beta-\mathrm{E}(X)'\beta1_n||^2}{\sigma^2} 所以 E(R2)=E(χ2p−1(λ)χ2p−1(λ)+χ2n−p)≥E(χ2p−1(λ))E(χ2p−1(λ))+E(χ2n−p)E(R2)=E(χp−12(λ)χp−12(λ)+χn−p2)≥E(χp−12(λ))E(χp−12(λ))+E(χn−p2)\mathrm{E}(R^2)=\mathrm{E}\left(\frac{\chi^2_{p-1}(\lambda)}{\chi^2_{p-1}(\lambda)+\chi^2_{n-p}}\right)\geq\frac{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)}{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)+\mathrm{E}\left(\chi^2_{n-p}\right)} 其中是具有参数和自由度的非中心。因此的非平凡上限是χ2k(λ)χk2(λ)\chi^2_{k}(\lambda)χ2χ2\chi^2λλ\lambdakkkE(R2)E(R2)\mathrm{E}(R^2) λ+p−1λ+n−1λ+p−1λ+n−1\frac{\lambda+p-1}{\lambda+n-1} 它非常紧(比我预期的要紧得多): 例如,使用: rho<-0.75 p<-10 n<-25*p Su<-matrix(rho,p-1,p-1) diag(Su)<-1 su<-1 set.seed(123) bet<-runif(p) 在1000次仿真中的平均值为。上面的理论上限给出。在许多值上,边界似乎同样精确。真令人震惊![R2R2R^20.9608190.9609081[R2R2R^2 编辑2: 经过进一步研究,似乎随着增加(与其他所有相等的情况,随增加),对的上限近似的质量会更好。λ + p λ ÑË(R2)E(R2)E(R^2)λ + pλ+p\lambda+pλλ\lambdañnn

4
给定样本平均值,样本中位数的期望值
让ÿYY表示中值,并让ˉ XX¯\bar{X}表示平均值,大小的随机样本的Ñ = 2 ķ + 1n=2k+1n=2k+1从分发即Ñ (μ ,σ 2)N(μ,σ2)N(\mu,\sigma^2)。我该如何计算ê (Ÿ | ˉ X = ˉ X)E(Y|X¯=x¯)E(Y|\bar{X}=\bar{x})? 直观地说,因为态假设的,是有意义的要求是Ë (Ÿ | ˉ X = ˉ X)= ˉ XE(Y|X¯=x¯)=x¯E(Y|\bar{X}=\bar{x})=\bar{x}的确是正确的答案。可以严格显示吗? 我最初的想法是使用条件正态分布来解决此问题,这通常是已知的结果。那里的问题是,由于我不知道期望值,因此也不知道中位数的方差,因此我将不得不使用k + 1k+1k+1阶统计量来计算那些值。但这非常复杂,除非绝对必要,否则我不愿去那里。

2
观察到的信息矩阵是否是预期信息矩阵的一致估计?
我试图证明在弱一致性最大似然估计器(MLE)处评估的观测信息矩阵是预期信息矩阵的弱一致性估计器。这是被广泛引用的结果,但没有人提供参考或证明(我已经用尽我认为Google搜索结果的前20页和我的统计资料教科书)! 使用MLE的弱一致序列,我可以使用大数弱定律(WLLN)和连续映射定理来获得所需的结果。但是,我相信不能使用连续映射定理。相反,我认为需要使用统一的大数定律(ULLN)。有人知道有证明这一点的参考文献吗?我尝试了ULLN,但为简洁起见,现在省略。 对于这个问题的冗长,我深表歉意,但必须引入一些符号。表示法如下(我的证明在结尾)。 假设我们有随机变量的IID样本{Y1,…,YN}\{Y_1,\ldots,Y_N\}与密度f(Y~|θ)f(\tilde{Y}|\theta),其中θ∈Θ⊆Rk\theta\in\Theta\subseteq\mathbb{R}^{k}(这里Y~\tilde{Y}是具有相同密度的只是一般随机变量作为样本的任何成员)。向量Y=(Y1,…,YN)TY=(Y_1,\ldots,Y_N)^{T}是所有样本向量的向量,其中Yi∈RnY_{i}\in\mathbb{R}^{n}所有i=1,…,Ni=1,\ldots,N。密度的真实参数值是θ0\theta_{0}和 θ Ñ(Ý)是的弱一致最大似然估计(MLE) θ 0。根据规律性条件,Fisher信息矩阵可以写为θ^N(Y)\hat{\theta}_{N}(Y)θ0\theta_{0} I(θ)=−Eθ[Hθ(logf(Y~|θ)]I(\theta)=-E_\theta \left[H_{\theta}(\log f(\tilde{Y}|\theta)\right] 其中Hθ{H}_{\theta}是Hessian矩阵。等效样本为 IN(θ)=∑i=1NIyi(θ),I_N(\theta)=\sum_{i=1}^N I_{y_i}(\theta), 其中Iyi=−Eθ[Hθ(logf(Yi|θ)]I_{y_i}=-E_\theta \left[H_{\theta}(\log f(Y_{i}|\theta)\right]。所观察到的信息矩阵是; J(θ)=−Hθ(logf(y|θ)J(\theta) = -H_\theta(\log f(y|\theta), (有些人的需求矩阵在评估θ,但有些却没有)。样本观察信息矩阵为:θ^\hat{\theta} JN(θ)=∑Ni=1Jyi(θ)J_N(\theta)=\sum_{i=1}^N J_{y_i}(\theta) 其中Jyi(θ)=−Hθ(logf(yi|θ)J_{y_i}(\theta)=-H_\theta(\log f(y_{i}|\theta)。 我可以证明在所述估计的概率收敛到我(θ ),但不ñ - 1 Ĵ Ñ(θ Ñ(Ý ))到我(θ 0)N−1JN(θ)N^{-1}J_N(\theta)I(θ)I(\theta)N−1JN(θ^N(Y))N^{-1}J_{N}(\hat{\theta}_N(Y))I(θ0)I(\theta_{0})。到目前为止,这是我的证明; Now (JN(θ))rs=−∑Ni=1(Hθ(logf(Yi|θ))rs(J_{N}(\theta))_{rs}=-\sum_{i=1}^N (H_\theta(\log f(Y_i|\theta))_{rs} is element (r,s)(r,s) of JN(θ)J_N(\theta), for any r,s=1,…,kr,s=1,\ldots,k. If the sample …

1
无需更换即可绘制时预期的不同颜色数
考虑一个包含球的不同颜色的,其中 是球在个球中的比例()。我从骨灰盒中取出了球而没有替换,然后查看绘制的球中不同颜色的数字。根据分布合适属性,对作为函数的期望是什么?P p 我我Ñ Σ 我p 我 = 1 ñ ≤ ÑNNNPPPpipip_iiiiNNN∑ipi=1∑ipi=1\sum_i p_i = 1n≤Nn≤Nn \leq Nγ Ñ / Ñ pγγ\gammaγγ\gamman/Nn/Nn/Npp\mathbf{p} 给出更多的见解:如果对所有且,那么我将始终准确看到种颜色,即。否则,可以证明的期望是。对于固定的和,当均匀时,乘以的因子似乎最大。可能看到的不同颜色的预期数量受和熵的 函数限制?p 我 = 1 / P 我Ñ γ = P (Ñ / Ñ )γ > P (Ñ / Ñ )P ñ ñ / Ñ p Ñ / Ñ …


1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

4
期望值与最可能值(模式)
分布的期望值是平均值,即加权平均值 f(x)f(x)f(x)E[x]=∫+∞−∞xf(x)dxE[x]=∫−∞+∞xf(x)dxE[x]=\int_{-\infty}^{+\infty} x \, \, f(x) dx 最可能的值是众数,即最可能的值。 但是,我们期望以某种方式看到很多次吗?从这里报价:E[x]E[x]E[x] 如果结果的概率不相等,则必须用加权平均值代替简单的平均值,这要考虑到某些结果比其他结果更有可能的事实。然而,直觉保持不变:x的期望值是人们期望平均发生的值。xixix_ixxx 我不明白“平均发生”是什么意思,这是否意味着,从长远来看,我希望花很多时间才能看到E[x]E[x]E[x]比x的其他值更多xxx?但这不是模式的定义吗? 那么如何解释该陈述?E [x]的概率含义是E[x]E[x]E[x]什么? 我还想举个例子,让我感到困惑。通过研究分布,我了解到模式 为,而,其中是数据的自由度。χ2χ2\chi^2χ2mode=ν−2χmode2=ν−2\chi^2_{mode}=\nu-2E[χ2]=νE[χ2]=νE[\chi^2]=\nuνν\nu 我在大学听说,在使用最小二乘法拟合一组数据后进行测试时,我应该期望得到因为“这通常会发生”。χ 2听,说:νχ2χ2\chi^2χ2≈νχ2≈ν\chi^2 \approx \nu 我是否误解了所有这些,或者期望值是否很有可能?(即使最可能的值当然是模式)


3
为什么(0,1)上连续和变量的总和要超过1的数量均具有平均值
让我们总结随机变量,流X 我我我d 〜 ù(0 ,1 )Xi∼iidU(0,1)X_i \overset{iid}\sim \mathcal{U}(0,1) ; 令YYY为总数需要超过1的项的数量,即YYY是最小的项,使得 X 1 + X 2 + ⋯ + X Y > 1。X1+X2+⋯+XY>1.X_1 + X_2 + \dots + X_Y > 1. 为什么Y的均值YY等于欧拉常数eee? E(Y )= e = 10 !+11 !+12 !+13 !+…E(Y)=e=10!+11!+12!+13!+…\mathbb{E}(Y) = e = \frac{1}{0!} + \frac{1}{1!} + \frac{1}{2!} + \frac{1}{3!} …

1
修正的Dirichlet分布的期望值是多少?(整合问题)
使用具有相同比例参数的Gamma变量很容易产生具有Dirichlet分布的随机变量。如果: Xi∼Gamma(αi,β)Xi∼Gamma(αi,β) X_i \sim \text{Gamma}(\alpha_i, \beta) 然后: (X1∑jXj,…,Xn∑jXj)∼Dirichlet(α1,…,αn)(X1∑jXj,…,Xn∑jXj)∼Dirichlet(α1,…,αn) \left(\frac{X_1}{\sum_j X_j},\; \ldots\; , \frac{X_n}{\sum_j X_j}\right) \sim \text{Dirichlet}(\alpha_1,\;\ldots\;,\alpha_n) 问题 如果比例参数不相等会怎样? Xi∼Gamma(αi,βi)Xi∼Gamma(αi,βi) X_i \sim \text{Gamma}(\alpha_i, \beta_i) 那么这个变量的分布是什么? (X1∑jXj,…,Xn∑jXj)∼?(X1∑jXj,…,Xn∑jXj)∼? \left(\frac{X_1}{\sum_j X_j},\; \ldots\; , \frac{X_n}{\sum_j X_j}\right) \sim \; ? 对我来说,知道这种分布的期望值就足够了。 我需要一个可以由计算机非常快速地求值的近似封闭代数公式。 假设精度为0.01就足够了。 您可以假设: αi,βi∈Nαi,βi∈N \alpha_i, \beta_i \in \mathbb{N} 注意简而言之,任务是找到该积分的近似值: f(α⃗ ,β⃗ )=∫Rn+x1∑jxj⋅∏jβαjjΓ(αj)xαj−1je−βjxjdx1…dxnf(α→,β→)=∫R+nx1∑jxj⋅∏jβjαjΓ(αj)xjαj−1e−βjxjdx1…dxn f(\vec{\alpha}, \vec{\beta}) = …

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.